11 resultados para twitter, conversation retrieval
em Université de Montréal, Canada
Resumo:
Conférencier invité - Keynote Speaker
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Nous proposons dans cette thèse un système permettant de déterminer, à partir des données envoyées sur les microblogs, les évènements qui stimulent l’intérêt des utilisateurs durant une période donnée et les dates saillantes de chaque évènement. Étant donné son taux d’utilisation élevé et l’accessibilité de ses données, nous avons utilisé la plateforme Twitter comme source de nos données. Nous traitons dans ce travail les tweets portant sur la Tunisie dont la plupart sont écrits par des tunisiens. La première tâche de notre système consistait à extraire automatiquement les tweets d’une façon continue durant 67 jours (de 8 février au 15 avril 2012). Nous avons supposé qu’un évènement est représenté par plusieurs termes dont la fréquence augmente brusquement à un ou plusieurs moments durant la période analysée. Le manque des ressources nécessaires pour déterminer les termes (notamment les hashtags) portant sur un même sujet, nous a obligé à proposer des méthodes permettant de regrouper les termes similaires. Pour ce faire, nous avons eu recours à des méthodes phonétiques que nous avons adaptées au mode d’écriture utilisée par les tunisiens, ainsi que des méthodes statistiques. Pour déterminer la validité de nos méthodes, nous avons demandé à des experts, des locuteurs natifs du dialecte tunisien, d’évaluer les résultats retournés par nos méthodes. Ces groupes ont été utilisés pour déterminer le sujet de chaque tweet et/ou étendre les tweets par de nouveaux termes. Enfin, pour sélectionner l'ensemble des évènements (EV), nous nous sommes basés sur trois critères : fréquence, variation et TF-IDF. Les résultats que nous avons obtenus ont montré la robustesse de notre système.
Resumo:
Le présent mémoire porte sur les stratégies de gestion de rumeurs par les organisations sur Internet et sur les réseaux sociaux. Il se veut une étude dite « ventriloque » des figures d’autorité mises en présence par les organisations et les internautes à travers leurs interactions. L'objectif de cette recherche est ainsi d’étudier les stratégies employées par les organisations pour gérer les rumeurs sur Internet et d’observer les interactions entre l’organisation et ses consommateurs afin de comprendre le rapport des organisations avec leurs consommateurs, réels ou potentiels, grâce aux figures mises en scène et invoquées dans leurs stratégies. Comme nous le montrons dans nos analyses, les organisations mettent en scène une multitude de figures d’autorité pour convaincre leurs consommateurs. En même temps, elles se positionnent comme sujettes à des agentivités qui sont contextuelles aux rumeurs auxquelles elles font face. De la même façon, les internautes mettent en scène les préoccupations qui les animent. Les dialogues entre organisations et internautes reflètent différentes relations entre ces deux parties. En particulier, nous montrons que les organisations n’interagissent pas toutes de la même manière avec les internautes. Cette analyse s’appuie sur des données récoltées sur les sites internet des organisations étudiées et sur les réseaux Facebook et Twitter.
Resumo:
Le domaine biomédical est probablement le domaine où il y a les ressources les plus riches. Dans ces ressources, on regroupe les différentes expressions exprimant un concept, et définit des relations entre les concepts. Ces ressources sont construites pour faciliter l’accès aux informations dans le domaine. On pense généralement que ces ressources sont utiles pour la recherche d’information biomédicale. Or, les résultats obtenus jusqu’à présent sont mitigés : dans certaines études, l’utilisation des concepts a pu augmenter la performance de recherche, mais dans d’autres études, on a plutôt observé des baisses de performance. Cependant, ces résultats restent difficilement comparables étant donné qu’ils ont été obtenus sur des collections différentes. Il reste encore une question ouverte si et comment ces ressources peuvent aider à améliorer la recherche d’information biomédicale. Dans ce mémoire, nous comparons les différentes approches basées sur des concepts dans un même cadre, notamment l’approche utilisant les identificateurs de concept comme unité de représentation, et l’approche utilisant des expressions synonymes pour étendre la requête initiale. En comparaison avec l’approche traditionnelle de "sac de mots", nos résultats d’expérimentation montrent que la première approche dégrade toujours la performance, mais la seconde approche peut améliorer la performance. En particulier, en appariant les expressions de concepts comme des syntagmes stricts ou flexibles, certaines méthodes peuvent apporter des améliorations significatives non seulement par rapport à la méthode de "sac de mots" de base, mais aussi par rapport à la méthode de Champ Aléatoire Markov (Markov Random Field) qui est une méthode de l’état de l’art dans le domaine. Ces résultats montrent que quand les concepts sont utilisés de façon appropriée, ils peuvent grandement contribuer à améliorer la performance de recherche d’information biomédicale. Nous avons participé au laboratoire d’évaluation ShARe/CLEF 2014 eHealth. Notre résultat était le meilleur parmi tous les systèmes participants.
Resumo:
Travail dirigé présenté à l'École de Criminologie en vue de l'obtention du grade de Maître ès sciences (M.Sc.) en criminologie option criminalistique et information
Resumo:
Les moteurs de recherche font partie de notre vie quotidienne. Actuellement, plus d’un tiers de la population mondiale utilise l’Internet. Les moteurs de recherche leur permettent de trouver rapidement les informations ou les produits qu'ils veulent. La recherche d'information (IR) est le fondement de moteurs de recherche modernes. Les approches traditionnelles de recherche d'information supposent que les termes d'indexation sont indépendants. Pourtant, les termes qui apparaissent dans le même contexte sont souvent dépendants. L’absence de la prise en compte de ces dépendances est une des causes de l’introduction de bruit dans le résultat (résultat non pertinents). Certaines études ont proposé d’intégrer certains types de dépendance, tels que la proximité, la cooccurrence, la contiguïté et de la dépendance grammaticale. Dans la plupart des cas, les modèles de dépendance sont construits séparément et ensuite combinés avec le modèle traditionnel de mots avec une importance constante. Par conséquent, ils ne peuvent pas capturer correctement la dépendance variable et la force de dépendance. Par exemple, la dépendance entre les mots adjacents "Black Friday" est plus importante que celle entre les mots "road constructions". Dans cette thèse, nous étudions différentes approches pour capturer les relations des termes et de leurs forces de dépendance. Nous avons proposé des méthodes suivantes: ─ Nous réexaminons l'approche de combinaison en utilisant différentes unités d'indexation pour la RI monolingue en chinois et la RI translinguistique entre anglais et chinois. En plus d’utiliser des mots, nous étudions la possibilité d'utiliser bi-gramme et uni-gramme comme unité de traduction pour le chinois. Plusieurs modèles de traduction sont construits pour traduire des mots anglais en uni-grammes, bi-grammes et mots chinois avec un corpus parallèle. Une requête en anglais est ensuite traduite de plusieurs façons, et un score classement est produit avec chaque traduction. Le score final de classement combine tous ces types de traduction. Nous considérons la dépendance entre les termes en utilisant la théorie d’évidence de Dempster-Shafer. Une occurrence d'un fragment de texte (de plusieurs mots) dans un document est considérée comme représentant l'ensemble de tous les termes constituants. La probabilité est assignée à un tel ensemble de termes plutôt qu’a chaque terme individuel. Au moment d’évaluation de requête, cette probabilité est redistribuée aux termes de la requête si ces derniers sont différents. Cette approche nous permet d'intégrer les relations de dépendance entre les termes. Nous proposons un modèle discriminant pour intégrer les différentes types de dépendance selon leur force et leur utilité pour la RI. Notamment, nous considérons la dépendance de contiguïté et de cooccurrence à de différentes distances, c’est-à-dire les bi-grammes et les paires de termes dans une fenêtre de 2, 4, 8 et 16 mots. Le poids d’un bi-gramme ou d’une paire de termes dépendants est déterminé selon un ensemble des caractères, en utilisant la régression SVM. Toutes les méthodes proposées sont évaluées sur plusieurs collections en anglais et/ou chinois, et les résultats expérimentaux montrent que ces méthodes produisent des améliorations substantielles sur l'état de l'art.
Resumo:
La recherche d'informations s'intéresse, entre autres, à répondre à des questions comme: est-ce qu'un document est pertinent à une requête ? Est-ce que deux requêtes ou deux documents sont similaires ? Comment la similarité entre deux requêtes ou documents peut être utilisée pour améliorer l'estimation de la pertinence ? Pour donner réponse à ces questions, il est nécessaire d'associer chaque document et requête à des représentations interprétables par ordinateur. Une fois ces représentations estimées, la similarité peut correspondre, par exemple, à une distance ou une divergence qui opère dans l'espace de représentation. On admet généralement que la qualité d'une représentation a un impact direct sur l'erreur d'estimation par rapport à la vraie pertinence, jugée par un humain. Estimer de bonnes représentations des documents et des requêtes a longtemps été un problème central de la recherche d'informations. Le but de cette thèse est de proposer des nouvelles méthodes pour estimer les représentations des documents et des requêtes, la relation de pertinence entre eux et ainsi modestement avancer l'état de l'art du domaine. Nous présentons quatre articles publiés dans des conférences internationales et un article publié dans un forum d'évaluation. Les deux premiers articles concernent des méthodes qui créent l'espace de représentation selon une connaissance à priori sur les caractéristiques qui sont importantes pour la tâche à accomplir. Ceux-ci nous amènent à présenter un nouveau modèle de recherche d'informations qui diffère des modèles existants sur le plan théorique et de l'efficacité expérimentale. Les deux derniers articles marquent un changement fondamental dans l'approche de construction des représentations. Ils bénéficient notamment de l'intérêt de recherche dont les techniques d'apprentissage profond par réseaux de neurones, ou deep learning, ont fait récemment l'objet. Ces modèles d'apprentissage élicitent automatiquement les caractéristiques importantes pour la tâche demandée à partir d'une quantité importante de données. Nous nous intéressons à la modélisation des relations sémantiques entre documents et requêtes ainsi qu'entre deux ou plusieurs requêtes. Ces derniers articles marquent les premières applications de l'apprentissage de représentations par réseaux de neurones à la recherche d'informations. Les modèles proposés ont aussi produit une performance améliorée sur des collections de test standard. Nos travaux nous mènent à la conclusion générale suivante: la performance en recherche d'informations pourrait drastiquement être améliorée en se basant sur les approches d'apprentissage de représentations.
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
Ce mémoire explore les productions et les articulations des appartenances au mouvement Slow Fashion sur Twitter. En réaction au modèle actuel prédominant du Fast Fashion, basé sur une surproduction et une surconsommation des vêtements, le Slow Fashion sensibilise les différents acteurs du secteur de la mode à avoir une vision plus consciente des impacts de leurs pratiques sur les travailleurs, les communautés et les écosystèmes (Fletcher, 2007) et propose une décélération des cycles de production et de consommation des vêtements. L’enjeu de cette recherche est de montrer que le Slow Fashion se dessine notamment à travers les relations entres les différents acteurs sur Twitter et que l'ensemble de ces interactions prend la forme d'un rhizome, c’est-à-dire d’un système dans lequel les éléments qui le composent ne suivent aucune arborescence, aucune hiérarchie et n’émanent pas d’un seul point d’origine. (Deleuze & Guattari, 1976) Sur Twitter, les appartenances au Slow Fashion font surface, se connectent les unes aux autres par des liens de nature différente. Consommateurs, designers, entreprises, journalistes, etc., ces parties prenantes construisent collectivement le Slow Fashion comme mouvement alternatif à la mode mainstream actuelle. Mon cadre théorique s’est construit grâce à une analyse de la littérature des concepts de mode, d’identité et d’appartenance afin de mieux appréhender le contexte dans lequel le mouvement a émergé. Puis, j’ai également réalisé une étude exploratoire netnographique sur Twitter au cours de laquelle j’ai observé, tout en y participant, les interactions sur la plateforme abordant le Slow Fashion et/ou la mode éthique. Publiée sur ce blogue (http://belongingtoslowfashion.blogspot.ca), cette « creative presentation of research » (Chapman & Sawchuk, 2012) ne constitue pas une histoire présentant les prétendues origines de ce mouvement mais plutôt une photographie partielle à un certain moment du Slow Fashion. Construite tel un rhizome, elle n’a ni début, ni fin, ni hiérarchie. J’invite alors les lectrices/lecteurs à choisir n’importe quelle entrée et à délaisser toute logique linéaire et déductive. Cette exploration sera guidée par des liens hypertextes ou des annotations qui tisseront des connexions avec d’autres parties ou feront émerger d’autres questionnements. Il s’agit d’offrir une introduction aux enjeux que pose le Slow Fashion, d’ouvrir la voie à d’autres recherches et d’autres réflexions, ou encore de sensibiliser sur ce sujet.