10 resultados para Large Data
em Université de Montréal, Canada
Resumo:
Ce mémoire est composé de trois articles qui s’unissent sous le thème de la recommandation musicale à grande échelle. Nous présentons d’abord une méthode pour effectuer des recommandations musicales en récoltant des étiquettes (tags) décrivant les items et en utilisant cette aura textuelle pour déterminer leur similarité. En plus d’effectuer des recommandations qui sont transparentes et personnalisables, notre méthode, basée sur le contenu, n’est pas victime des problèmes dont souffrent les systèmes de filtrage collaboratif, comme le problème du démarrage à froid (cold start problem). Nous présentons ensuite un algorithme d’apprentissage automatique qui applique des étiquettes à des chansons à partir d’attributs extraits de leur fichier audio. L’ensemble de données que nous utilisons est construit à partir d’une très grande quantité de données sociales provenant du site Last.fm. Nous présentons finalement un algorithme de génération automatique de liste d’écoute personnalisable qui apprend un espace de similarité musical à partir d’attributs audio extraits de chansons jouées dans des listes d’écoute de stations de radio commerciale. En plus d’utiliser cet espace de similarité, notre système prend aussi en compte un nuage d’étiquettes que l’utilisateur est en mesure de manipuler, ce qui lui permet de décrire de manière abstraite la sorte de musique qu’il désire écouter.
Resumo:
Avec les avancements de la technologie de l'information, les données temporelles économiques et financières sont de plus en plus disponibles. Par contre, si les techniques standard de l'analyse des séries temporelles sont utilisées, une grande quantité d'information est accompagnée du problème de dimensionnalité. Puisque la majorité des séries d'intérêt sont hautement corrélées, leur dimension peut être réduite en utilisant l'analyse factorielle. Cette technique est de plus en plus populaire en sciences économiques depuis les années 90. Étant donnée la disponibilité des données et des avancements computationnels, plusieurs nouvelles questions se posent. Quels sont les effets et la transmission des chocs structurels dans un environnement riche en données? Est-ce que l'information contenue dans un grand ensemble d'indicateurs économiques peut aider à mieux identifier les chocs de politique monétaire, à l'égard des problèmes rencontrés dans les applications utilisant des modèles standards? Peut-on identifier les chocs financiers et mesurer leurs effets sur l'économie réelle? Peut-on améliorer la méthode factorielle existante et y incorporer une autre technique de réduction de dimension comme l'analyse VARMA? Est-ce que cela produit de meilleures prévisions des grands agrégats macroéconomiques et aide au niveau de l'analyse par fonctions de réponse impulsionnelles? Finalement, est-ce qu'on peut appliquer l'analyse factorielle au niveau des paramètres aléatoires? Par exemple, est-ce qu'il existe seulement un petit nombre de sources de l'instabilité temporelle des coefficients dans les modèles macroéconomiques empiriques? Ma thèse, en utilisant l'analyse factorielle structurelle et la modélisation VARMA, répond à ces questions à travers cinq articles. Les deux premiers chapitres étudient les effets des chocs monétaire et financier dans un environnement riche en données. Le troisième article propose une nouvelle méthode en combinant les modèles à facteurs et VARMA. Cette approche est appliquée dans le quatrième article pour mesurer les effets des chocs de crédit au Canada. La contribution du dernier chapitre est d'imposer la structure à facteurs sur les paramètres variant dans le temps et de montrer qu'il existe un petit nombre de sources de cette instabilité. Le premier article analyse la transmission de la politique monétaire au Canada en utilisant le modèle vectoriel autorégressif augmenté par facteurs (FAVAR). Les études antérieures basées sur les modèles VAR ont trouvé plusieurs anomalies empiriques suite à un choc de la politique monétaire. Nous estimons le modèle FAVAR en utilisant un grand nombre de séries macroéconomiques mensuelles et trimestrielles. Nous trouvons que l'information contenue dans les facteurs est importante pour bien identifier la transmission de la politique monétaire et elle aide à corriger les anomalies empiriques standards. Finalement, le cadre d'analyse FAVAR permet d'obtenir les fonctions de réponse impulsionnelles pour tous les indicateurs dans l'ensemble de données, produisant ainsi l'analyse la plus complète à ce jour des effets de la politique monétaire au Canada. Motivée par la dernière crise économique, la recherche sur le rôle du secteur financier a repris de l'importance. Dans le deuxième article nous examinons les effets et la propagation des chocs de crédit sur l'économie réelle en utilisant un grand ensemble d'indicateurs économiques et financiers dans le cadre d'un modèle à facteurs structurel. Nous trouvons qu'un choc de crédit augmente immédiatement les diffusions de crédit (credit spreads), diminue la valeur des bons de Trésor et cause une récession. Ces chocs ont un effet important sur des mesures d'activité réelle, indices de prix, indicateurs avancés et financiers. Contrairement aux autres études, notre procédure d'identification du choc structurel ne requiert pas de restrictions temporelles entre facteurs financiers et macroéconomiques. De plus, elle donne une interprétation des facteurs sans restreindre l'estimation de ceux-ci. Dans le troisième article nous étudions la relation entre les représentations VARMA et factorielle des processus vectoriels stochastiques, et proposons une nouvelle classe de modèles VARMA augmentés par facteurs (FAVARMA). Notre point de départ est de constater qu'en général les séries multivariées et facteurs associés ne peuvent simultanément suivre un processus VAR d'ordre fini. Nous montrons que le processus dynamique des facteurs, extraits comme combinaison linéaire des variables observées, est en général un VARMA et non pas un VAR comme c'est supposé ailleurs dans la littérature. Deuxièmement, nous montrons que même si les facteurs suivent un VAR d'ordre fini, cela implique une représentation VARMA pour les séries observées. Alors, nous proposons le cadre d'analyse FAVARMA combinant ces deux méthodes de réduction du nombre de paramètres. Le modèle est appliqué dans deux exercices de prévision en utilisant des données américaines et canadiennes de Boivin, Giannoni et Stevanovic (2010, 2009) respectivement. Les résultats montrent que la partie VARMA aide à mieux prévoir les importants agrégats macroéconomiques relativement aux modèles standards. Finalement, nous estimons les effets de choc monétaire en utilisant les données et le schéma d'identification de Bernanke, Boivin et Eliasz (2005). Notre modèle FAVARMA(2,1) avec six facteurs donne les résultats cohérents et précis des effets et de la transmission monétaire aux États-Unis. Contrairement au modèle FAVAR employé dans l'étude ultérieure où 510 coefficients VAR devaient être estimés, nous produisons les résultats semblables avec seulement 84 paramètres du processus dynamique des facteurs. L'objectif du quatrième article est d'identifier et mesurer les effets des chocs de crédit au Canada dans un environnement riche en données et en utilisant le modèle FAVARMA structurel. Dans le cadre théorique de l'accélérateur financier développé par Bernanke, Gertler et Gilchrist (1999), nous approximons la prime de financement extérieur par les credit spreads. D'un côté, nous trouvons qu'une augmentation non-anticipée de la prime de financement extérieur aux États-Unis génère une récession significative et persistante au Canada, accompagnée d'une hausse immédiate des credit spreads et taux d'intérêt canadiens. La composante commune semble capturer les dimensions importantes des fluctuations cycliques de l'économie canadienne. L'analyse par décomposition de la variance révèle que ce choc de crédit a un effet important sur différents secteurs d'activité réelle, indices de prix, indicateurs avancés et credit spreads. De l'autre côté, une hausse inattendue de la prime canadienne de financement extérieur ne cause pas d'effet significatif au Canada. Nous montrons que les effets des chocs de crédit au Canada sont essentiellement causés par les conditions globales, approximées ici par le marché américain. Finalement, étant donnée la procédure d'identification des chocs structurels, nous trouvons des facteurs interprétables économiquement. Le comportement des agents et de l'environnement économiques peut varier à travers le temps (ex. changements de stratégies de la politique monétaire, volatilité de chocs) induisant de l'instabilité des paramètres dans les modèles en forme réduite. Les modèles à paramètres variant dans le temps (TVP) standards supposent traditionnellement les processus stochastiques indépendants pour tous les TVPs. Dans cet article nous montrons que le nombre de sources de variabilité temporelle des coefficients est probablement très petit, et nous produisons la première évidence empirique connue dans les modèles macroéconomiques empiriques. L'approche Factor-TVP, proposée dans Stevanovic (2010), est appliquée dans le cadre d'un modèle VAR standard avec coefficients aléatoires (TVP-VAR). Nous trouvons qu'un seul facteur explique la majorité de la variabilité des coefficients VAR, tandis que les paramètres de la volatilité des chocs varient d'une façon indépendante. Le facteur commun est positivement corrélé avec le taux de chômage. La même analyse est faite avec les données incluant la récente crise financière. La procédure suggère maintenant deux facteurs et le comportement des coefficients présente un changement important depuis 2007. Finalement, la méthode est appliquée à un modèle TVP-FAVAR. Nous trouvons que seulement 5 facteurs dynamiques gouvernent l'instabilité temporelle dans presque 700 coefficients.
Resumo:
The attached file is created with Scientific Workplace Latex
Resumo:
We study the workings of the factor analysis of high-dimensional data using artificial series generated from a large, multi-sector dynamic stochastic general equilibrium (DSGE) model. The objective is to use the DSGE model as a laboratory that allow us to shed some light on the practical benefits and limitations of using factor analysis techniques on economic data. We explain in what sense the artificial data can be thought of having a factor structure, study the theoretical and finite sample properties of the principal components estimates of the factor space, investigate the substantive reason(s) for the good performance of di¤usion index forecasts, and assess the quality of the factor analysis of highly dissagregated data. In all our exercises, we explain the precise relationship between the factors and the basic macroeconomic shocks postulated by the model.
Resumo:
Les fichiers qui accompagnent mon document sont des tableaux supplémentaires réalisés avec Excel (Microsoft Office), dans la version papier du mémoire ces fichiers sont sur un CD-ROM.
Resumo:
L'anémie de l'enfant reste un problème d'importance pour la santé mondiale, malgré les décennies de recherche visant à comprendre son étiologie et à développer des interventions efficaces pour réduire sa prévalence et ses conséquences. Bien que les facteurs de risque individuels de l'anémie soient connus, y compris les facteurs liés à la malnutrition et à la morbidité, l'interaction entre lesdits facteurs est moins documentée dans des contextes où les enfants sont fréquemment exposés à plusieurs facteurs en même temps. Cette étude vise à documenter les efforts de lutte contre l'anémie du programme MICAH qui a été mis en oeuvre au Ghana, au Malawi et en Tanzanie. Ensuite, en utilisant les données relatives à la fois au processus et à l'évaluation colligées au cours du programme, elle vise à mieux comprendre les facteurs de risque d'anémie chez les jeunes enfants dans ces contextes et à comprendre comment les relations entre ces facteurs peuvent avoir changé au fil du temps lors de l'intervention. Spécifiquement, cette étude vérifie s‘il y a des preuves d'une réduction de la vulnérabilité des enfants aux facteurs de risque associés à l'anémie dans chaque contexte. Un examen de la documentation a été réalisé afin de caractériser le contexte du programme et des interventions, leur l'intensité et étendue. Les données transversales sur la nutrition et l'état de santé des enfants âgés de 24 à 59 mois (N = 2405) obtenues en 2000 et 2004 à partir des enquêtes d'évaluation du programme MICAH au Ghana, au Malawi et en Tanzanie, ont été utilisées pour décrire la prévalence de l'anémie. Les modèles polynomiaux de régression logistique et linéaire ont été utilisés pour estimer les risques d'anémie légère et d'anémie modérée / sévère et les niveaux d‘hémoglobine associés à des groupes de variables. Les estimations du risque attribuable à une population (RAP) ont aussi été calculées. Une anémie (Hb <110 g/L) a touché au moins 60% des enfants dans les trois pays; l'anémie modérée / sévère (<100 g/L) constituait la majorité des cas. Une forte diminution de l'anémie a été observée entre 2000 et 2004 au Ghana, mais seulement une légère baisse au Malawi et en Tanzanie. Le risque d'anémie modérée / sévère était associé au retard de croissance chez les enfants du Ghana (OR 2,68, IC 95% 1,70-4,23) et du Malawi (OR 1,71; 1,29-2,27) mais pas de la Tanzanie (OR 1,29; 0,87- 1,92). Le paludisme et les maladies récentes étaient associées à une hémoglobine plus basse. Une atténuation de cette association en 2004 a été observée seulement au Malawi pour le paludisme et au Ghana pour les maladies récentes. Le risque d'anémie modérée / sévère était 44% moindre chez les enfants âgés de 48 à 59 mois comparativement aux enfants de 24 à 35 mois dans les trois pays et cela n'a pas changé entre 2000 et 2004. Les RAP estimés ont montré qu‘environ un cinquième des cas d‘anémie modérée à sévère était attribuable au retard de croissance au Ghana et Malawi, mais pas en Tanzanie. Des RAP moindres et dépendants des contextes ont été trouvés pour le paludisme et les maladies récentes. Dans ces zones d‘intervention intégrées de santé et de nutrition la relation de certains facteurs de risque à l'anémie se modifia avec le temps. Le retard de croissance est resté toutefois un facteur de risque indépendant et non mitigé de l'anémie. Une réduction efficace des causes de la malnutrition chronique est nécessaire afin de réduire la vulnérabilité des enfants et de garantir un impact maximum des programmes de lutte contre l'anémie. Une mitigation de l'impact du paludisme peut par contre être visée dans les régions endémiques.
Resumo:
Le but de cette thèse est d étendre la théorie du bootstrap aux modèles de données de panel. Les données de panel s obtiennent en observant plusieurs unités statistiques sur plusieurs périodes de temps. Leur double dimension individuelle et temporelle permet de contrôler l 'hétérogénéité non observable entre individus et entre les périodes de temps et donc de faire des études plus riches que les séries chronologiques ou les données en coupe instantanée. L 'avantage du bootstrap est de permettre d obtenir une inférence plus précise que celle avec la théorie asymptotique classique ou une inférence impossible en cas de paramètre de nuisance. La méthode consiste à tirer des échantillons aléatoires qui ressemblent le plus possible à l échantillon d analyse. L 'objet statitstique d intérêt est estimé sur chacun de ses échantillons aléatoires et on utilise l ensemble des valeurs estimées pour faire de l inférence. Il existe dans la littérature certaines application du bootstrap aux données de panels sans justi cation théorique rigoureuse ou sous de fortes hypothèses. Cette thèse propose une méthode de bootstrap plus appropriée aux données de panels. Les trois chapitres analysent sa validité et son application. Le premier chapitre postule un modèle simple avec un seul paramètre et s 'attaque aux propriétés théoriques de l estimateur de la moyenne. Nous montrons que le double rééchantillonnage que nous proposons et qui tient compte à la fois de la dimension individuelle et la dimension temporelle est valide avec ces modèles. Le rééchantillonnage seulement dans la dimension individuelle n est pas valide en présence d hétérogénéité temporelle. Le ré-échantillonnage dans la dimension temporelle n est pas valide en présence d'hétérogénéité individuelle. Le deuxième chapitre étend le précédent au modèle panel de régression. linéaire. Trois types de régresseurs sont considérés : les caractéristiques individuelles, les caractéristiques temporelles et les régresseurs qui évoluent dans le temps et par individu. En utilisant un modèle à erreurs composées doubles, l'estimateur des moindres carrés ordinaires et la méthode de bootstrap des résidus, on montre que le rééchantillonnage dans la seule dimension individuelle est valide pour l'inférence sur les coe¢ cients associés aux régresseurs qui changent uniquement par individu. Le rééchantillonnage dans la dimen- sion temporelle est valide seulement pour le sous vecteur des paramètres associés aux régresseurs qui évoluent uniquement dans le temps. Le double rééchantillonnage est quand à lui est valide pour faire de l inférence pour tout le vecteur des paramètres. Le troisième chapitre re-examine l exercice de l estimateur de différence en di¤érence de Bertrand, Duflo et Mullainathan (2004). Cet estimateur est couramment utilisé dans la littérature pour évaluer l impact de certaines poli- tiques publiques. L exercice empirique utilise des données de panel provenant du Current Population Survey sur le salaire des femmes dans les 50 états des Etats-Unis d Amérique de 1979 à 1999. Des variables de pseudo-interventions publiques au niveau des états sont générées et on s attend à ce que les tests arrivent à la conclusion qu il n y a pas d e¤et de ces politiques placebos sur le salaire des femmes. Bertrand, Du o et Mullainathan (2004) montre que la non-prise en compte de l hétérogénéité et de la dépendance temporelle entraîne d importantes distorsions de niveau de test lorsqu'on évalue l'impact de politiques publiques en utilisant des données de panel. Une des solutions préconisées est d utiliser la méthode de bootstrap. La méthode de double ré-échantillonnage développée dans cette thèse permet de corriger le problème de niveau de test et donc d'évaluer correctement l'impact des politiques publiques.
Resumo:
La surveillance de l’influenza s’appuie sur un large spectre de données, dont les données de surveillance syndromique provenant des salles d’urgences. De plus en plus de variables sont enregistrées dans les dossiers électroniques des urgences et mises à la disposition des équipes de surveillance. L’objectif principal de ce mémoire est d’évaluer l’utilité potentielle de l’âge, de la catégorie de triage et de l’orientation au départ de l’urgence pour améliorer la surveillance de la morbidité liée aux cas sévères d’influenza. Les données d’un sous-ensemble des hôpitaux de Montréal ont été utilisées, d’avril 2006 à janvier 2011. Les hospitalisations avec diagnostic de pneumonie ou influenza ont été utilisées comme mesure de la morbidité liée aux cas sévères d’influenza, et ont été modélisées par régression binomiale négative, en tenant compte des tendances séculaires et saisonnières. En comparaison avec les visites avec syndrome d’allure grippale (SAG) totales, les visites avec SAG stratifiées par âge, par catégorie de triage et par orientation de départ ont amélioré le modèle prédictif des hospitalisations avec pneumonie ou influenza. Avant d’intégrer ces variables dans le système de surveillance de Montréal, des étapes additionnelles sont suggérées, incluant l’optimisation de la définition du syndrome d’allure grippale à utiliser, la confirmation de la valeur de ces prédicteurs avec de nouvelles données et l’évaluation de leur utilité pratique.
Resumo:
Diverses méthodes ont été utilisées pour étudier les étoiles Wolf-Rayet (WR) dans le but de comprendre les phénomènes physiques variés qui prennent place dans leur vent dense. Pour étudier la variabilité qui n'est pas strictement périodique et ayant des caractéristiques différentes d'une époque à l'autre, il faut observer pendant des périodes de temps suffisamment longues en adopter un échantillonnage temporel élevé pour être en mesure d'identifier les phénomènes physiques sous-jacents. À l'été 2013, des astronomes professionnels et amateurs du monde entier ont contribué à une campagne d'observation de 4 mois, principalement en spectroscopie, mais aussi en photométrie, polarimétrie et en interférométrie, pour observer les 3 premières étoiles Wolf-Rayet découvertes: WR 134 (WN6b), WR 135 (WC8) et WR 137 (WC7pd + O9). Chacune de ces étoiles est intéressante à sa manière, chacune présentant une variété différente de structures dans son vent. Les données spectroscopiques de cette campagne ont été réduites et analysées pour l'étoile présumée simple WR 134 pour mieux comprendre le comportement de sa variabilité périodique à long terme dans le cadre d'une étude des régions d'interactions en corotation (CIRs) qui se retrouvent dans son vent. Les résultats de cette étude sont présentés dans ce mémoire.
Resumo:
The main objective of this letter is to formulate a new approach of learning a Mahalanobis distance metric for nearest neighbor regression from a training sample set. We propose a modified version of the large margin nearest neighbor metric learning method to deal with regression problems. As an application, the prediction of post-operative trunk 3-D shapes in scoliosis surgery using nearest neighbor regression is described. Accuracy of the proposed method is quantitatively evaluated through experiments on real medical data.