961 resultados para Probabilistic choice models


Relevância:

80.00% 80.00%

Publicador:

Resumo:

Parmi les méthodes d’estimation de paramètres de loi de probabilité en statistique, le maximum de vraisemblance est une des techniques les plus populaires, comme, sous des conditions l´egères, les estimateurs ainsi produits sont consistants et asymptotiquement efficaces. Les problèmes de maximum de vraisemblance peuvent être traités comme des problèmes de programmation non linéaires, éventuellement non convexe, pour lesquels deux grandes classes de méthodes de résolution sont les techniques de région de confiance et les méthodes de recherche linéaire. En outre, il est possible d’exploiter la structure de ces problèmes pour tenter d’accélerer la convergence de ces méthodes, sous certaines hypothèses. Dans ce travail, nous revisitons certaines approches classiques ou récemment d´eveloppées en optimisation non linéaire, dans le contexte particulier de l’estimation de maximum de vraisemblance. Nous développons également de nouveaux algorithmes pour résoudre ce problème, reconsidérant différentes techniques d’approximation de hessiens, et proposons de nouvelles méthodes de calcul de pas, en particulier dans le cadre des algorithmes de recherche linéaire. Il s’agit notamment d’algorithmes nous permettant de changer d’approximation de hessien et d’adapter la longueur du pas dans une direction de recherche fixée. Finalement, nous évaluons l’efficacité numérique des méthodes proposées dans le cadre de l’estimation de modèles de choix discrets, en particulier les modèles logit mélangés.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La migration internationale d’étudiants est un investissement couteux pour les familles dans beaucoup de pays en voie de développement. Cependant, cet investissement est susceptible de générer des bénéfices financiers et sociaux relativement importants aux investisseurs, tout autant que des externalités pour d’autres membres de la famille. Cette thèse s’intéresse à deux aspects importants de la migration des étudiants internationaux : (i) Qui part? Quels sont les déterminants de la probabilité de migration? (ii) Qui paie? Comment la famille s’organise-t-elle pour couvrir les frais de la migration? (iii) Qui y gagne? Ce flux migratoire est-il au bénéfice du pays d’origine? Entreprendre une telle étude met le chercheur en face de défis importants, notamment, l’absence de données complètes et fiables; la dispersion géographique des étudiants migrants en étant la cause première. La première contribution importante de ce travail est le développement d’une méthode de sondage en « boule de neige » pour des populations difficiles à atteindre, ainsi que d’estimateurs corrigeant les possibles biais de sélection. A partir de cette méthodologie, j’ai collecté des données incluant simultanément des étudiants migrants et non-migrants du Cameroun en utilisant une plateforme internet. Un second défi relativement bien documenté est la présence d’endogénéité du choix d’éducation. Nous tirons avantage des récents développements théoriques dans le traitement des problèmes d’identification dans les modèles de choix discrets pour résoudre cette difficulté, tout en conservant la simplicité des hypothèses nécessaires. Ce travail constitue l’une des premières applications de cette méthodologie à des questions de développement. Le premier chapitre de la thèse étudie la décision prise par la famille d’investir dans la migration étudiante. Il propose un modèle structurel empirique de choix discret qui reflète à la fois le rendement brut de la migration et la contrainte budgétaire liée au problème de choix des agents. Nos résultats démontrent que le choix du niveau final d’éducation, les résultats académiques et l’aide de la famille sont des déterminants importants de la probabilité d’émigrer, au contraire du genre qui ne semble pas affecter très significativement la décision familiale. Le second chapitre s’efforce de comprendre comment les agents décident de leur participation à la décision de migration et comment la famille partage les profits et décourage le phénomène de « passagers clandestins ». D’autres résultats dans la littérature sur l’identification partielle nous permettent de considérer des comportements stratégiques au sein de l’unité familiale. Les premières estimations suggèrent que le modèle « unitaire », où un agent représentatif maximise l’utilité familiale ne convient qu’aux familles composées des parents et de l’enfant. Les aidants extérieurs subissent un cout strictement positif pour leur participation, ce qui décourage leur implication. Les obligations familiales et sociales semblent expliquer les cas de participation d’un aidant, mieux qu’un possible altruisme de ces derniers. Finalement, le troisième chapitre présente le cadre théorique plus général dans lequel s’imbriquent les modèles développés dans les précédents chapitres. Les méthodes d’identification et d’inférence présentées sont spécialisées aux jeux finis avec information complète. Avec mes co-auteurs, nous proposons notamment une procédure combinatoire pour une implémentation efficace du bootstrap aux fins d’inférences dans les modèles cités ci-dessus. Nous en faisons une application sur les déterminants du choix familial de soins à long terme pour des parents âgés.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Le nombre important de véhicules sur le réseau routier peut entraîner des problèmes d'encombrement et de sécurité. Les usagers des réseaux routiers qui nous intéressent sont les camionneurs qui transportent des marchandises, pouvant rouler avec des véhicules non conformes ou emprunter des routes interdites pour gagner du temps. Le transport de matières dangereuses est réglementé et certains lieux, surtout les ponts et les tunnels, leur sont interdits d'accès. Pour aider à faire appliquer les lois en vigueur, il existe un système de contrôles routiers composé de structures fixes et de patrouilles mobiles. Le déploiement stratégique de ces ressources de contrôle mise sur la connaissance du comportement des camionneurs que nous allons étudier à travers l'analyse de leurs choix de routes. Un problème de choix de routes peut se modéliser en utilisant la théorie des choix discrets, elle-même fondée sur la théorie de l'utilité aléatoire. Traiter ce type de problème avec cette théorie est complexe. Les modèles que nous utiliserons sont tels, que nous serons amenés à faire face à des problèmes de corrélation, puisque plusieurs routes partagent probablement des arcs. De plus, puisque nous travaillons sur le réseau routier du Québec, le choix de routes peut se faire parmi un ensemble de routes dont le nombre est potentiellement infini si on considère celles ayant des boucles. Enfin, l'étude des choix faits par un humain n'est pas triviale. Avec l'aide du modèle de choix de routes retenu, nous pourrons calculer une expression de la probabilité qu'une route soit prise par le camionneur. Nous avons abordé cette étude du comportement en commençant par un travail de description des données collectées. Le questionnaire utilisé par les contrôleurs permet de collecter des données concernant les camionneurs, leurs véhicules et le lieu du contrôle. La description des données observées est une étape essentielle, car elle permet de présenter clairement à un analyste potentiel ce qui est accessible pour étudier les comportements des camionneurs. Les données observées lors d'un contrôle constitueront ce que nous appellerons une observation. Avec les attributs du réseau, il sera possible de modéliser le réseau routier du Québec. Une sélection de certains attributs permettra de spécifier la fonction d'utilité et par conséquent la fonction permettant de calculer les probabilités de choix de routes par un camionneur. Il devient alors possible d'étudier un comportement en se basant sur des observations. Celles provenant du terrain ne nous donnent pas suffisamment d'information actuellement et même en spécifiant bien un modèle, l'estimation des paramètres n'est pas possible. Cette dernière est basée sur la méthode du maximum de vraisemblance. Nous avons l'outil, mais il nous manque la matière première que sont les observations, pour continuer l'étude. L'idée est de poursuivre avec des observations de synthèse. Nous ferons des estimations avec des observations complètes puis, pour se rapprocher des conditions réelles, nous continuerons avec des observations partielles. Ceci constitue d'ailleurs un défi majeur. Nous proposons pour ces dernières, de nous servir des résultats des travaux de (Bierlaire et Frejinger, 2008) en les combinant avec ceux de (Fosgerau, Frejinger et Karlström, 2013). Bien qu'elles soient de nature synthétiques, les observations que nous utilisons nous mèneront à des résultats tels, que nous serons en mesure de fournir une proposition concrète qui pourrait aider à optimiser les décisions des responsables des contrôles routiers. En effet, nous avons réussi à estimer, sur le réseau réel du Québec, avec un seuil de signification de 0,05 les valeurs des paramètres d'un modèle de choix de routes discrets, même lorsque les observations sont partielles. Ces résultats donneront lieu à des recommandations sur les changements à faire dans le questionnaire permettant de collecter des données.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Este documento presenta una revisión de las principales aproximaciones teóricas sobre recursos humanos en ciencia y tecnología y la modelación empírica de las carreras académicas y científi cas utilizando los Curriculum Vitae (CV) como fuente de información principal. Adicionalmente, muestra los resultados de varios estudios realizados en Colombia basados en la teoría del capital conocimiento. Estos estudios han permitido establecer una línea de investigación sobre la evaluación del comportamiento de los recursos humanos, el tránsito hacia comunidades científi cas y el estudio de las carreras académicas de los investigadores. Adicionalmente, muestran que la información contenida en la Plataforma ScienTI (Grup-Lac y Cv-Lac) permite establecer de manera concreta las capacidades científi cas y tecnológicas del país. Palabras claves: Recursos humanos, carreras académicas y científi cas, regresión discreta y modelos de elección cualitativa. Clasifi cación JEL: C25, O15.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Este documento presenta una revisión de las principales aproximaciones teóricas sobre recursos humanos en ciencia y tecnología y la modelación empírica de las carreras académicas y científicas utilizando los CVs como fuente de información principal. Adicionalmente, muestra los resultados de varios estudios realizados en Colombia basados en la teoría del capital conocimiento. Estos estudios han permitido establecer una línea de investigación sobre la evaluación del comportamiento de los recursos humanos, el tránsito hacia comunidades científicas y el estudio de las carreras académicas de los investigadores. Adicionalmente, muestran que la información contenida en la Plataforma ScienTI (Grup-Lac y Cv-Lac) permite establecer de manera concreta las capacidades científicas y tecnológicas del país.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The amount of multimedia content available online constantly increases, and this leads to problems for users who search for content or similar communities. Users in Flickr often self-organize in user communities through Flickr Groups. These groups are particularly interesting as they are a natural instantiation of the content + relations social media paradigm. We propose a novel approach to group searching through hypergroup discovery. Starting from roughly 11,000 Flickr groups' content and membership information, we create three different bag-of-word representations for groups, on which we learn probabilistic topic models. Finally, we cast the hypergroup discovery as a clustering problem that is solved via probabilistic affinity propagation. We show that hypergroups so found are generally consistent and can be described through topic-based and similarity-based measures. Our proposed solution could be relatively easily implemented as an application to enrich Flickr's traditional group search.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Traditional learning techniques learn from flat data files with the assumption that each class has a similar number of examples. However, the majority of real-world data are stored as relational systems with imbalanced data distribution, where one class of data is over-represented as compared with other classes. We propose to extend a relational learning technique called Probabilistic Relational Models (PRMs) to deal with the imbalanced class problem. We address learning from imbalanced relational data using an ensemble of PRMs and propose a new model: the PRMs-IM. We show the performance of PRMs-IM on a real university relational database to identify students at risk.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Probabilistic topic models have become a standard in modern machine learning with wide applications in organizing and summarizing ‘documents’ in high-dimensional data such as images, videos, texts, gene expression data, and so on. Representing data by dimensional reduction of mixture proportion extracted from topic models is not only richer in semantics than bag-of-word interpretation, but also more informative for classification tasks. This paper describes the Topic Model Kernel (TMK), a high dimensional mapping for Support Vector Machine classification of data generated from probabilistic topic models. The applicability of our proposed kernel is demonstrated in several classification tasks from real world datasets. We outperform existing kernels on the distributional features and give the comparative results on non-probabilistic data types.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Probabilistic topic models have become a standard in modern machine learning to deal with a wide range of applications. Representing data by dimensional reduction of mixture proportion extracted from topic models is not only richer in semantics interpretation, but could also be informative for classification tasks. In this paper, we describe the Topic Model Kernel (TMK), a topicbased kernel for Support Vector Machine classification on data being processed by probabilistic topic models. The applicability of our proposed kernel is demonstrated in several classification tasks with real world datasets. TMK outperforms existing kernels on the distributional features and give comparative results on nonprobabilistic data types.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Os modelos hazard, também conhecidos por modelos de tempo até a falência ou duração, são empregados para determinar quais variáveis independentes têm maior poder explicativo na previsão de falência de empresas. Consistem em uma abordagem alternativa aos modelos binários logit e probit, e à análise discriminante. Os modelos de duração deveriam ser mais eficientes que modelos de alternativas discretas, pois levam em consideração o tempo de sobrevivência para estimar a probabilidade instantânea de falência de um conjunto de observações sobre uma variável independente. Os modelos de alternativa discreta tipicamente ignoram a informação de tempo até a falência, e fornecem apenas a estimativa de falhar em um dado intervalo de tempo. A questão discutida neste trabalho é como utilizar modelos hazard para projetar taxas de inadimplência e construir matrizes de migração condicionadas ao estado da economia. Conceitualmente, o modelo é bastante análogo às taxas históricas de inadimplência e mortalidade utilizadas na literatura de crédito. O Modelo Semiparamétrico Proporcional de Cox é testado em empresas brasileiras não pertencentes ao setor financeiro, e observa-se que a probabilidade de inadimplência diminui sensivelmente após o terceiro ano da emissão do empréstimo. Observa-se também que a média e o desvio-padrão das probabilidades de inadimplência são afetados pelos ciclos econômicos. É discutido como o Modelo Proporcional de Cox pode ser incorporado aos quatro modelos mais famosos de gestão de risco .de crédito da atualidade: CreditRisk +, KMV, CreditPortfolio View e CreditMetrics, e as melhorias resultantes dessa incorporação

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Este trabalho tem por objetivo discutir detalhadamente o desenvolvimento de métodos de estimação de parâmetros de demanda e oferta em mercados de produtos diferenciados. As técnicas apresentadas consideram explicitamente a endogeneidade dos preços e podem ser aplicadas a diferentes tipos de indústrias. O sistema de demandas de mercado é derivado a partir de modelos de escolha discreta descrevendo o comportamento do consumidor. Esse sistema é então combinado com hipóteses sobre as funções custo e sobre o comportamento de determinação dos preços por parte das firmas para gerar preços e quantidades de equilíbrio. Os parâmetros a ser estimados são os que determinam os custos marginais das firmas e a distribuição dos gostos dos consumidores. Essa distribuição determina elasticidades e estas, combinadas com o custo marginal e com uma hipótese de equilíbrio de Nash na determinação de preços, determinam preços de equilíbrio. Essas elasticidades e parâmetros de custo desempenham um papel central em análises de questões descritivas e de mudanças no ambiente do mercado sob análise.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

This research has been triggered by an emergent trend in customer behavior: customers have rapidly expanded their channel experiences and preferences beyond traditional channels (such as stores) and they expect the company with which they do business to have a presence on all these channels. This evidence has produced an increasing interest in multichannel customer behavior and it has motivated several researchers to study the customers’ channel choices dynamics in multichannel environment. We study how the consumer decision process for channel choice and response to marketing communications evolves for a cohort of new customers. We assume a newly acquired customer’s decisions are described by a “trial” model, but the customer’s choice process evolves to a “post-trial” model as the customer learns his or her preferences and becomes familiar with the firm’s marketing efforts. The trial and post-trial decision processes are each described by different multinomial logit choice models, and the evolution from the trial to post-trial model is determined by a customer-level geometric distribution that captures the time it takes for the customer to make the transition. We utilize data for a major retailer who sells in three channels – retail store, the Internet, and via catalog. The model is estimated using Bayesian methods that allow for cross-customer heterogeneity. This allows us to have distinct parameters estimates for a trial and an after trial stages and to estimate the quickness of this transit at the individual level. The results show for example that the customer decision process indeed does evolve over time. Customers differ in the duration of the trial period and marketing has a different impact on channel choice in the trial and post-trial stages. Furthermore, we show that some people switch channel decision processes while others don’t and we found that several factors have an impact on the probability to switch decision process. Insights from this study can help managers tailor their marketing communication strategy as customers gain channel choice experience. Managers may also have insights on the timing of the direct marketing communications. They can predict the duration of the trial phase at individual level detecting the customers with a quick, long or even absent trial phase. They can even predict if the customer will change or not his decision process over time, and they can influence the switching process using specific marketing tools