3 resultados para Impala, Hadoop, Big Data, HDFS, Social Business Intelligence, SBI, cloudera
em Université de Montréal
Resumo:
Cet essai est présenté en tant que mémoire de maîtrise dans le cadre du programme de droit des technologies de l’information. Ce mémoire traite de différents modèles d’affaires qui ont pour caractéristique commune de commercialiser les données dans le contexte des technologies de l’information. Les pratiques commerciales observées sont peu connues et l’un des objectifs est d’informer le lecteur quant au fonctionnement de ces pratiques. Dans le but de bien situer les enjeux, cet essai discutera d’abord des concepts théoriques de vie privée et de protection des renseignements personnels. Une fois ce survol tracé, les pratiques de « data brokerage », de « cloud computing » et des solutions « analytics » seront décortiquées. Au cours de cette description, les enjeux juridiques soulevés par chaque aspect de la pratique en question seront étudiés. Enfin, le dernier chapitre de cet essai sera réservé à deux enjeux, soit le rôle du consentement et la sécurité des données, qui ne relèvent pas d’une pratique commerciale spécifique, mais qui sont avant tout des conséquences directes de l’évolution des technologies de l’information.
Resumo:
People go through their life making all kinds of decisions, and some of these decisions affect their demand for transportation, for example, their choices of where to live and where to work, how and when to travel and which route to take. Transport related choices are typically time dependent and characterized by large number of alternatives that can be spatially correlated. This thesis deals with models that can be used to analyze and predict discrete choices in large-scale networks. The proposed models and methods are highly relevant for, but not limited to, transport applications. We model decisions as sequences of choices within the dynamic discrete choice framework, also known as parametric Markov decision processes. Such models are known to be difficult to estimate and to apply to make predictions because dynamic programming problems need to be solved in order to compute choice probabilities. In this thesis we show that it is possible to explore the network structure and the flexibility of dynamic programming so that the dynamic discrete choice modeling approach is not only useful to model time dependent choices, but also makes it easier to model large-scale static choices. The thesis consists of seven articles containing a number of models and methods for estimating, applying and testing large-scale discrete choice models. In the following we group the contributions under three themes: route choice modeling, large-scale multivariate extreme value (MEV) model estimation and nonlinear optimization algorithms. Five articles are related to route choice modeling. We propose different dynamic discrete choice models that allow paths to be correlated based on the MEV and mixed logit models. The resulting route choice models become expensive to estimate and we deal with this challenge by proposing innovative methods that allow to reduce the estimation cost. For example, we propose a decomposition method that not only opens up for possibility of mixing, but also speeds up the estimation for simple logit models, which has implications also for traffic simulation. Moreover, we compare the utility maximization and regret minimization decision rules, and we propose a misspecification test for logit-based route choice models. The second theme is related to the estimation of static discrete choice models with large choice sets. We establish that a class of MEV models can be reformulated as dynamic discrete choice models on the networks of correlation structures. These dynamic models can then be estimated quickly using dynamic programming techniques and an efficient nonlinear optimization algorithm. Finally, the third theme focuses on structured quasi-Newton techniques for estimating discrete choice models by maximum likelihood. We examine and adapt switching methods that can be easily integrated into usual optimization algorithms (line search and trust region) to accelerate the estimation process. The proposed dynamic discrete choice models and estimation methods can be used in various discrete choice applications. In the area of big data analytics, models that can deal with large choice sets and sequential choices are important. Our research can therefore be of interest in various demand analysis applications (predictive analytics) or can be integrated with optimization models (prescriptive analytics). Furthermore, our studies indicate the potential of dynamic programming techniques in this context, even for static models, which opens up a variety of future research directions.
Resumo:
L'activité physique améliore la santé, mais seulement 4.8% des Canadiens atteignent le niveau recommandé. La position socio-économique est un des déterminants de l'activité physique les plus importants. Elle est associée à l’activité physique de manière transversale à l’adolescence et à l’âge adulte. Cette thèse a tenté de déterminer s'il y a une association à long terme entre la position socio-économique au début du parcours de vie et l’activité physique à l’âge adulte. S'il y en avait une, un deuxième objectif était de déterminer quel modèle théorique en épidémiologie des parcours de vie décrivait le mieux sa forme. Cette thèse comprend trois articles: une recension systématique et deux recherches originales. Dans la recension systématique, des recherches ont été faites dans Medline et EMBASE pour trouver les études ayant mesuré la position socio-économique avant l'âge de 18 ans et l'activité physique à ≥18 ans. Dans les deux recherches originales, la modélisation par équations structurelles a été utilisée pour comparer trois modèles alternatifs en épidémiologie des parcours de vie: le modèle d’accumulation de risque avec effets additifs, le modèle d’accumulation de risque avec effet déclenché et le modèle de période critique. Ces modèles ont été comparés dans deux cohortes prospectives représentatives à l'échelle nationale: la 1970 British birth cohort (n=16,571; première recherche) et l’Enquête longitudinale nationale sur les enfants et les jeunes (n=16,903; deuxième recherche). Dans la recension systématique, 10 619 articles ont été passés en revue par deux chercheurs indépendants et 42 ont été retenus. Pour le résultat «activité physique» (tous types et mesures confondus), une association significative avec la position socio-économique durant l’enfance fut trouvée dans 26/42 études (61,9%). Quand seulement l’activité physique durant les loisirs a été considérée, une association significative fut trouvée dans 21/31 études (67,7%). Dans un sous-échantillon de 21 études ayant une méthodologie plus forte, les proportions d’études ayant trouvé une association furent plus hautes : 15/21 (71,4%) pour tous les types et toutes les mesures d’activité physique et 12/15 (80%) pour l’activité physique de loisir seulement. Dans notre première recherche originale sur les données de la British birth cohort, pour la classe sociale, nous avons trouvé que le modèle d’accumulation de risque avec effets additifs s’est ajusté le mieux chez les hommes et les femmes pour l’activité physique de loisir, au travail et durant les transports. Dans notre deuxième recherche originale sur les données canadiennes sur l'activité physique de loisir, nous avons trouvé que chez les hommes, le modèle de période critique s’est ajusté le mieux aux données pour le niveau d’éducation et le revenu, alors que chez les femmes, le modèle d’accumulation de risque avec effets additifs s’est ajusté le mieux pour le revenu, tandis que le niveau d’éducation ne s’est ajusté à aucun des modèles testés. En conclusion, notre recension systématique indique que la position socio-économique au début du parcours de vie est associée à la pratique d'activité physique à l'âge adulte. Les résultats de nos deux recherches originales suggèrent un patron d’associations le mieux représenté par le modèle d’accumulation de risque avec effets additifs.