965 resultados para Latent variable models
Resumo:
Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.
Resumo:
Contexte et objectifs. La carrière criminelle est un sujet d’intérêt criminologique depuis plus de 80 ans. Les travaux sur cette question ont permis de mieux comprendre l’évolution des personnes contrevenantes et leurs crimes au fil du temps. Bien que beaucoup d’efforts aient été déployés pour étudier les hommes, les recherches portant sur les trajectoires criminelles des femmes demeurent relativement rares, ceci étant notamment attribuable à la petite taille des échantillons. L’objectif de ce mémoire est de réaliser une étude comparative de la carrière criminelle d’hommes et de femmes de 18 à 47 ans relevant de la juridiction de la province de Québec. Méthodologie. L’échantillon est composé de 3320 délinquants sous responsabilité provinciale, soit 216 femmes (6,5 %) et 3104 hommes (93,5 %). Des statistiques descriptives seront réalisées afin de dresser un portrait de la clientèle et une approche par variable latente catégorielle sera utilisée pour modéliser les parcours criminels. Plus précisément, cette analyse permet d’estimer des sous-groupes de délinquants au sein de la population qui suivent des courbes de croissance distinctes. La proportion d’individus appartenant à chacun de ces sous-groupes peut donc être estimée. Résultats. Les analyses indiquent que les femmes ont une fréquence de délits commis plus faible que les hommes, et ce, particulièrement au début de leur carrière criminelle. En effet, la différence quant à la fréquence tend à s’atténuer avec le temps, pour disparaître vers 40 ans. Également, il apparaît que les hommes et les femmes suivent un nombre de trajectoires criminelles similaires; cependant, la prévalence chez ces dernières apparaît relativement différente. En effet, il ressort que les femmes commencent plus tardivement leur carrière criminelle que les hommes, avec une proportion plus importante pour les crimes contre les biens. Finalement, les antécédents juvéniles influent sur la chronicité et la persistance, quel que soit le genre ou le type de crime. Conclusion. Les résultats démontrent que la différence selon le sexe est un sujet d’intérêt criminologique primordial puisque les femmes présentent des risques différents quant à la fréquence et au type de crime. Qui plus est, ces dernières semblent commencer leur carrière criminelle plus tardivement que les hommes.
Resumo:
L’étude cherche à provoquer la convergence des regards sur des enjeux méthodologiques fondamentaux, soit les enjeux de mesure, de décision et d’impact inhérents à toute démarche de sélection académique. À cet effet, elle explorera la capacité de prédiction de certaines variables non cognitives envers la compétence de professionnalisme observée chez les étudiants du doctorat professionnel de premier cycle en pharmacie. La sélection des candidats au sein des programmes académiques en santé repose en grande partie sur une évaluation de la capacité cognitive des étudiants. Tenant compte du virage compétence pris par la majorité des programmes en santé, la pertinence et la validité des critères traditionnels de sélection sont remises en question. La présente étude propose de valider l’utilisation des échelles de mesure de la personnalité, des valeurs et de l’autodétermination pour guider l’optimalité et l’équité des décisions de sélection. Les enjeux de mesure de ces variables seront abordés principalement par la modélisation dichotomique et polytomique de Rasch. L’application de la méthode des strates permettra, par la suite, de répondre aux enjeux de décision en procédant à une différenciation et un classement des étudiants. Puis, les enjeux d’impact seront, à leur tour, explorés par le modèle de régression par classes latentes. L’étude démontre notamment que le recours à la modélisation a permis une différenciation précise des étudiants. Cependant, la violation de certaines conditions d’application des modèles et la faible différenciation établie entre les étudiants sur la base des critères de professionnalisme, rendent l’évaluation de la capacité de prédiction de la personnalité, des valeurs et de l’autodétermination hasardeuse. À cet effet, les modèles identifiés par les analyses de régression par classes latentes s’avèrent peu concluants. Les classes latentes ainsi identifiées ne présentent pas de distinctions marquées et utiles à la sélection. Bien que les diverses procédures de modélisation proposées présentent des avantages intéressants pour une utilisation en contexte de sélection académique, des recherches additionnelles sur la qualité des critères de professionnalisme et sur la qualité des échelles de mesure des variables non cognitives demeurent nécessaires.
Resumo:
La migration internationale d’étudiants est un investissement couteux pour les familles dans beaucoup de pays en voie de développement. Cependant, cet investissement est susceptible de générer des bénéfices financiers et sociaux relativement importants aux investisseurs, tout autant que des externalités pour d’autres membres de la famille. Cette thèse s’intéresse à deux aspects importants de la migration des étudiants internationaux : (i) Qui part? Quels sont les déterminants de la probabilité de migration? (ii) Qui paie? Comment la famille s’organise-t-elle pour couvrir les frais de la migration? (iii) Qui y gagne? Ce flux migratoire est-il au bénéfice du pays d’origine? Entreprendre une telle étude met le chercheur en face de défis importants, notamment, l’absence de données complètes et fiables; la dispersion géographique des étudiants migrants en étant la cause première. La première contribution importante de ce travail est le développement d’une méthode de sondage en « boule de neige » pour des populations difficiles à atteindre, ainsi que d’estimateurs corrigeant les possibles biais de sélection. A partir de cette méthodologie, j’ai collecté des données incluant simultanément des étudiants migrants et non-migrants du Cameroun en utilisant une plateforme internet. Un second défi relativement bien documenté est la présence d’endogénéité du choix d’éducation. Nous tirons avantage des récents développements théoriques dans le traitement des problèmes d’identification dans les modèles de choix discrets pour résoudre cette difficulté, tout en conservant la simplicité des hypothèses nécessaires. Ce travail constitue l’une des premières applications de cette méthodologie à des questions de développement. Le premier chapitre de la thèse étudie la décision prise par la famille d’investir dans la migration étudiante. Il propose un modèle structurel empirique de choix discret qui reflète à la fois le rendement brut de la migration et la contrainte budgétaire liée au problème de choix des agents. Nos résultats démontrent que le choix du niveau final d’éducation, les résultats académiques et l’aide de la famille sont des déterminants importants de la probabilité d’émigrer, au contraire du genre qui ne semble pas affecter très significativement la décision familiale. Le second chapitre s’efforce de comprendre comment les agents décident de leur participation à la décision de migration et comment la famille partage les profits et décourage le phénomène de « passagers clandestins ». D’autres résultats dans la littérature sur l’identification partielle nous permettent de considérer des comportements stratégiques au sein de l’unité familiale. Les premières estimations suggèrent que le modèle « unitaire », où un agent représentatif maximise l’utilité familiale ne convient qu’aux familles composées des parents et de l’enfant. Les aidants extérieurs subissent un cout strictement positif pour leur participation, ce qui décourage leur implication. Les obligations familiales et sociales semblent expliquer les cas de participation d’un aidant, mieux qu’un possible altruisme de ces derniers. Finalement, le troisième chapitre présente le cadre théorique plus général dans lequel s’imbriquent les modèles développés dans les précédents chapitres. Les méthodes d’identification et d’inférence présentées sont spécialisées aux jeux finis avec information complète. Avec mes co-auteurs, nous proposons notamment une procédure combinatoire pour une implémentation efficace du bootstrap aux fins d’inférences dans les modèles cités ci-dessus. Nous en faisons une application sur les déterminants du choix familial de soins à long terme pour des parents âgés.
Resumo:
L’utilisation des mesures subjectives en épidémiologie s’est intensifiée récemment, notamment avec la volonté de plus en plus affirmée d’intégrer la perception qu’ont les sujets de leur santé dans l’étude des maladies et l’évaluation des interventions. La psychométrie regroupe les méthodes statistiques utilisées pour la construction des questionnaires et l’analyse des données qui en sont issues. Ce travail de thèse avait pour but d’explorer différents problèmes méthodologiques soulevés par l’utilisation des techniques psychométriques en épidémiologie. Trois études empiriques sont présentées et concernent 1/ la phase de validation de l’instrument : l’objectif était de développer, à l’aide de données simulées, un outil de calcul de la taille d’échantillon pour la validation d’échelle en psychiatrie ; 2/ les propriétés mathématiques de la mesure obtenue : l’objectif était de comparer les performances de la différence minimale cliniquement pertinente d’un questionnaire calculée sur des données de cohorte, soit dans le cadre de la théorie classique des tests (CTT), soit dans celui de la théorie de réponse à l’item (IRT) ; 3/ son utilisation dans un schéma longitudinal : l’objectif était de comparer, à l’aide de données simulées, les performances d’une méthode statistique d’analyse de l’évolution longitudinale d’un phénomène subjectif mesuré à l’aide de la CTT ou de l’IRT, en particulier lorsque certains items disponibles pour la mesure différaient à chaque temps. Enfin, l’utilisation de graphes orientés acycliques a permis de discuter, à l’aide des résultats de ces trois études, la notion de biais d’information lors de l’utilisation des mesures subjectives en épidémiologie.
Resumo:
We review the progress in the field of front propagation in recent years. We survey many physical, biophysical and cross-disciplinary applications, including reduced-variable models of combustion flames, Reid's paradox of rapid forest range expansions, the European colonization of North America during the 19th century, the Neolithic transition in Europe from 13 000 to 5000 years ago, the description of subsistence boundaries, the formation of cultural boundaries, the spread of genetic mutations, theory and experiments on virus infections, models of cancer tumors, etc. Recent theoretical advances are unified in a single framework, encompassing very diverse systems such as those with biased random walks, distributed delays, sequential reaction and dispersion, cohabitation models, age structure and systems with several interacting species. Directions for future progress are outlined
Resumo:
This paper analyzes the measure of systemic importance ∆CoV aR proposed by Adrian and Brunnermeier (2009, 2010) within the context of a similar class of risk measures used in the risk management literature. In addition, we develop a series of testing procedures, based on ∆CoV aR, to identify and rank the systemically important institutions. We stress the importance of statistical testing in interpreting the measure of systemic importance. An empirical application illustrates the testing procedures, using equity data for three European banks.
Resumo:
Productivity growth is conventionally measured by indices representing discreet approximations of the Divisia TFP index under the assumption that technological change is Hicks-neutral. When this assumption is violated, these indices are no longer meaningful because they conflate the effects of factor accumulation and technological change. We propose a way of adjusting the conventional TFP index that solves this problem. The method adopts a latent variable approach to the measurement of technical change biases that provides a simple means of correcting product and factor shares in the standard Tornqvist-Theil TFP index. An application to UK agriculture over the period 1953-2000 demonstrates that technical progress is strongly biased. The implications of that bias for productivity measurement are shown to be very large, with the conventional TFP index severely underestimating productivity growth. The result is explained primarily by the fact that technological change has favoured the rapidly accumulating factors against labour, the factor leaving the sector. (C) 2004 Elsevier B.V. All rights reserved.
Resumo:
In this paper we present results from two choice experiments (CE), designed to take account of the different negative externalities associated with pesticide use in agricultural production. For cereal production, the most probable impact of pesticide use is a reduction in environmental quality. For fruit and vegetable production, the negative externality is on consumer health. Using latent class models we find evidence of the presence of preference heterogeneity in addition to reasonably high willingness to pay (WTP) estimates for a reduction in the use of pesticides for both environmental quality and consumer health. To place our WTP estimates in a policy context we convert them into an equivalent pesticide tax by type of externality. Our tax estimates suggest that pesticide taxes based on the primary externality resulting from a particular mode of agricultural production are a credible policy option that warrants further consideration.
Resumo:
Cross-bred cow adoption is an important and potent policy variable precipitating subsistence household entry into emerging milk markets. This paper focuses on the problem of designing policies that encourage and sustain milkmarket expansion among a sample of subsistence households in the Ethiopian highlands. In this context it is desirable to measure households’ ‘proximity’ to market in terms of the level of deficiency of essential inputs. This problem is compounded by four factors. One is the existence of cross-bred cow numbers (count data) as an important, endogenous decision by the household; second is the lack of a multivariate generalization of the Poisson regression model; third is the censored nature of the milk sales data (sales from non-participating households are, essentially, censored at zero); and fourth is an important simultaneity that exists between the decision to adopt a cross-bred cow, the decision about how much milk to produce, the decision about how much milk to consume and the decision to market that milk which is produced but not consumed internally by the household. Routine application of Gibbs sampling and data augmentation overcome these problems in a relatively straightforward manner. We model the count data from two sites close to Addis Ababa in a latent, categorical-variable setting with known bin boundaries. The single-equation model is then extended to a multivariate system that accommodates the covariance between crossbred-cow adoption, milk-output, and milk-sales equations. The latent-variable procedure proves tractable in extension to the multivariate setting and provides important information for policy formation in emerging-market settings
Resumo:
An important feature of agribusiness promotion programs is their lagged impact on consumption. Efficient investment in advertising requires reliable estimates of these lagged responses and it is desirable from both applied and theoretical standpoints to have a flexible method for estimating them. This note derives an alternative Bayesian methodology for estimating lagged responses when investments occur intermittently within a time series. The method exploits a latent-variable extension of the natural-conjugate, normal-linear model, Gibbs sampling and data augmentation. It is applied to a monthly time series on Turkish pasta consumption (1993:5-1998:3) and three, nonconsecutive promotion campaigns (1996:3, 1997:3, 1997:10). The results suggest that responses were greatest to the second campaign, which allocated its entire budget to television media; that its impact peaked in the sixth month following expenditure; and that the rate of return (measured in metric tons additional consumption per thousand dollars expended) was around a factor of 20.
Resumo:
Background The objective was to examine the course and longitudinal associations of generalized anxiety disorder (GAD) and major depressive disorder (MDD) in mothers over the postpartum 2 years. Method Using a prospective naturalistic design, 296 mothers recruited from a large community pool were assessed for GAD and MDD at 3, 6, 10, 14, and 24 months postpartum. Structured clinical interviews were used for diagnoses, and symptoms were assessed using self-report questionnaires. Logistic regression analyses were used to examine diagnostic stability and longitudinal relations, and latent variable modeling was employed to examine change in symptoms. Results MDD without co-occurring GAD, GAD without co-occurring MDD, and co-occurring GAD and MDD, displayed significant stability during the postpartum period. Whereas MDD did not predict subsequent GAD, GAD predicted subsequent MDD (in the form of GAD + MDD). Those with GAD + MDD at 3 months postpartum were significantly less likely to be diagnosis free during the follow-up period than those in other diagnostic categories. At the symptom level, symptoms of GAD were more trait-like than those of depression. Conclusions Postpartum GAD and MDD are relatively stable conditions, and GAD is a risk factor for MDD but not vice versa. Given the tendency of MDD and GAD to be persistent, especially when comorbid, and the increased risk for MDD in mothers with GAD, as well as the potential negative effects of cumulative exposure to maternal depression and anxiety on child development, the present findings clearly highlight the need for screening and treatment of GAD in addition to MDD during the postpartum period.
Resumo:
Despite the generally positive contribution of supply management capabilities to firm performance their respective routines require more depth of assessment. Using the resource-based view we examine four routines bundles comprising ostensive and performative aspects of supply management capability – supply management integration, coordinated sourcing, collaboration management and performance assessment. Using structural equation modelling we measure supply management capability empirically as a second-order latent variable and estimate its effect on a series of financial and operational performance measures. The routines-based approach allows us to demonstrate a different, more fine-grained approach for assessing consistent bundles of homogeneous patterns of activity across firms. The results suggest supply management capability is formed of internally consistent routine bundles, which are significantly related to financial performance, mediated by operational performance. Our results confirm an indirect effect of firm performance for ‘core’ routines forming the architecture of a supply management capability. Supply management capability primarily improves the operational performance of the business, which is subsequently translated into improved financial performance. The study is significant for practice as it offers a different view about the face-valid rationale of supply management directly influencing firm financial performance. We confound this assumption, prompting caution when placing too much importance on directly assessing supply management capability using financial performance of the business.
Resumo:
Learning low dimensional manifold from highly nonlinear data of high dimensionality has become increasingly important for discovering intrinsic representation that can be utilized for data visualization and preprocessing. The autoencoder is a powerful dimensionality reduction technique based on minimizing reconstruction error, and it has regained popularity because it has been efficiently used for greedy pretraining of deep neural networks. Compared to Neural Network (NN), the superiority of Gaussian Process (GP) has been shown in model inference, optimization and performance. GP has been successfully applied in nonlinear Dimensionality Reduction (DR) algorithms, such as Gaussian Process Latent Variable Model (GPLVM). In this paper we propose the Gaussian Processes Autoencoder Model (GPAM) for dimensionality reduction by extending the classic NN based autoencoder to GP based autoencoder. More interestingly, the novel model can also be viewed as back constrained GPLVM (BC-GPLVM) where the back constraint smooth function is represented by a GP. Experiments verify the performance of the newly proposed model.
Resumo:
A correlation between the physicochemical properties of mono- [Li(I), K(I), Na(I)] and divalent [Cd(II), Cu(II), Mn(II), Ni(II), Co(II), Zn(II), Mg(II), Ca(II)] metal cations and their toxicity (evaluated by the free ion median effective concentration. EC50(F)) to the naturally bioluminescent fungus Gerronema viridilucens has been studied using the quantitative ion character activity relationship (QICAR) approach. Among the 11 ionic parameters used in the current study, a univariate model based on the covalent index (X(m)(2)r) proved to be the most adequate for prediction of fungal metal toxicity evaluated by the logarithm of free ion median effective concentration (log EC50(F)): log EC50(F) = 4.243 (+/-0.243) -1.268 (+/-0.125).X(m)(2)r (adj-R(2) = 0.9113, Alkaike information criterion [AIC] = 60.42). Additional two- and three-variable models were also tested and proved less suitable to fit the experimental data. These results indicate that covalent bonding is a good indicator of metal inherent toxicity to bioluminescent fungi. Furthermore, the toxicity of additional metal ions [Ag(I), Cs(I), Sr(II), Ba(II), Fe(II), Hg(II), and Pb(II)] to G. viridilucens was predicted, and Pb was found to be the most toxic metal to this bioluminescent fungus (EC50(F)): Pb(II) > Ag(I) > Hg(I) > Cd(II) > Cu(II) > Co(II) Ni(II) > Mn(II) > Fe(II) approximate to Zn(II) > Mg(II) approximate to Ba(II) approximate to Cs(I) > Li(I) > K(I) approximate to Na(I) approximate to Sr(II)> Ca(II). Environ. Toxicol. Chem. 2010;29:2177-2181. (C) 2010 SETAC