999 resultados para Traitement automatique de texte
Resumo:
Nous présentons une méthode hybride pour le résumé de texte, en combinant l'extraction de phrases et l'élagage syntaxique des phrases extraites. L'élagage syntaxique est effectué sur la base d’une analyse complète des phrases selon un parseur de dépendances, analyse réalisée par la grammaire développée au sein d'un logiciel commercial de correction grammaticale, le Correcteur 101. Des sous-arbres de l'analyse syntaxique sont supprimés quand ils sont identifiés par les relations ciblées. L'analyse est réalisée sur un corpus de divers textes. Le taux de réduction des phrases extraites est d’en moyenne environ 74%, tout en conservant la grammaticalité ou la lisibilité dans une proportion de plus de 64%. Étant donné ces premiers résultats sur un ensemble limité de relations syntaxiques, cela laisse entrevoir des possibilités pour une application de résumé automatique de texte.
Resumo:
Dans cet article, nous proposons d’appliquer une analyse des connecteurs pragmatiques issue de la théorie de la pertinence au traitement automatique des langues naturelles (TALN). Nous commencerons par montrer les conséquences de l’application de la théorie de la pertinence sur l’étude des connecteurs, en prenant pour exemple les connecteurs de l’anglais. Dans un deuxième temps, nous exposerons les contraintes imposées par les limites actuelles du TALN. Enfin, nous proposerons un schéma d’étude des connecteurs pragmatiques pour le TALN ainsi qu’une esquisse d’application de cette méthode.
Resumo:
Ce mémoire tente de répondre à une problématique très importante dans le domaine de recrutement : l’appariement entre offre d’emploi et candidats. Dans notre cas nous disposons de milliers d’offres d’emploi et de millions de profils ramassés sur les sites dédiés et fournis par un industriel spécialisé dans le recrutement. Les offres d’emploi et les profils de candidats sur les réseaux sociaux professionnels sont généralement destinés à des lecteurs humains qui sont les recruteurs et les chercheurs d’emploi. Chercher à effectuer une sélection automatique de profils pour une offre d’emploi se heurte donc à certaines difficultés que nous avons cherché à résoudre dans le présent mémoire. Nous avons utilisé des techniques de traitement automatique de la langue naturelle pour extraire automatiquement les informations pertinentes dans une offre d’emploi afin de construite une requête qui nous permettrait d’interroger notre base de données de profils. Pour valider notre modèle d’extraction de métier, de compétences et de d’expérience, nous avons évalué ces trois différentes tâches séparément en nous basant sur une référence cent offres d’emploi canadiennes que nous avons manuellement annotée. Et pour valider notre outil d’appariement nous avons fait évaluer le résultat de l’appariement de dix offres d’emploi canadiennes par un expert en recrutement.
Resumo:
Ce mémoire tente de répondre à une problématique très importante dans le domaine de recrutement : l’appariement entre offre d’emploi et candidats. Dans notre cas nous disposons de milliers d’offres d’emploi et de millions de profils ramassés sur les sites dédiés et fournis par un industriel spécialisé dans le recrutement. Les offres d’emploi et les profils de candidats sur les réseaux sociaux professionnels sont généralement destinés à des lecteurs humains qui sont les recruteurs et les chercheurs d’emploi. Chercher à effectuer une sélection automatique de profils pour une offre d’emploi se heurte donc à certaines difficultés que nous avons cherché à résoudre dans le présent mémoire. Nous avons utilisé des techniques de traitement automatique de la langue naturelle pour extraire automatiquement les informations pertinentes dans une offre d’emploi afin de construite une requête qui nous permettrait d’interroger notre base de données de profils. Pour valider notre modèle d’extraction de métier, de compétences et de d’expérience, nous avons évalué ces trois différentes tâches séparément en nous basant sur une référence cent offres d’emploi canadiennes que nous avons manuellement annotée. Et pour valider notre outil d’appariement nous avons fait évaluer le résultat de l’appariement de dix offres d’emploi canadiennes par un expert en recrutement.
Resumo:
Dans les dernières décennies, le présumé déclin de la compétence scripturale des élèves québécois a soulevé les passions. Force est d’admettre que leurs compétences sont lacunaires : tant les rapports du ministère de l’Éducation (Jalbert, 2006; Ouellet, 1984) que les études scientifiques ou gouvernementales (Bureau, 1985; Groupe DIEPE, 1995; Roberge, 1984) révèlent leur incapacité à s’approprier l’écriture. Les TIC pourraient bien faire partie de la solution : on sait pertinemment qu’elles favorisent la réussite scolaire dans certains contextes (Barayktar, 2001; Christmann & Badgett, 2003; Waxman, Lin, & Michko, 2003). Toutefois, modifient-elles le processus scriptural au point d’en faciliter l’apprentissage? Cette question constitue le cœur de l’actuel projet de recherche. Les modèles du processus d’écriture comme celui de Hayes et Flower (Flower & Hayes, 1981; Hayes, 1995; Hayes & Flower, 1980) rappellent que les TIC font partie du contexte de production; à ce titre, elles influencent autant la qualité des textes que les processus cognitifs et la motivation. Elles libèrent notamment des ressources cognitives, puisqu’elles prennent en charge certaines opérations, comme la calligraphie (Daiute, 1983). Partant, le scripteur peut se concentrer davantage sur des tâches plus complexes. Des méta-analyses (Bangert-Drowns, 1993; Goldberg, Russell, & Cook, 2003) attestent que le traitement de texte exerce un effet minime, mais statistiquement significatif sur la qualité de l’écriture. Toutefois, il est associé à des révisions en surface (Faigley & Witte, 1981; Figueredo & Varnhagen, 2006). Rares sont les projets de recherche qui explorent simultanément l’impact du traitement de texte sur plusieurs dimensions du processus scriptural; plus rares encore sont les travaux qui se sont intéressés à ce sujet depuis les années 1990. Pour pallier ce manque, cette thèse de doctorat vise à 1) mesurer l’effet des TIC sur la qualité de l’écriture; 2) décrire l’impact des TIC sur les processus cognitifs de révision et de traduction; 3) mesurer l’impact des TIC sur la motivation à écrire. Pour y arriver, nous recourons à une méthodologie mixte. D’une part, un devis de recherche quasi expérimental nous permet de comparer les scripteurs technologiques aux scripteurs traditionnels; d’autre part, une approche qualitative nous laisse accéder aux pensées et aux perceptions des utilisateurs de l’ordinateur. Les trois articles qui constituent le cœur de cette thèse rapportent les résultats relatifs à chacun des objectifs spécifiques de recherche. Dans le premier texte, nous avons mesuré les effets du traitement de texte sur la compétence scripturale. L’analyse statistique des données colligées nous a permis de dégager une amélioration des performances, strictement en orthographe d’usage. En comparaison, les élèves du groupe témoin se sont améliorés davantage en cohérence textuelle et ont mieux performé en orthographe grammaticale. Le deuxième article propose de faire la lumière sur ces résultats. Nous y étudions donc l’impact des TIC sur le processus cognitif de révision. Ce volet, basé sur une approche qualitative, recourt largement à l’observation vidéographiée. Nous y mettons d’abord en évidence le grand nombre d’erreurs commises lors des séances d’écriture technologiques; nous faisons également ressortir la sous-utilisation du vérificateur linguistique, qui pose peu de diagnostics appropriés ou qui est souvent ignoré des scripteurs. Toutefois, malgré cette sous-utilisation du traitement de texte, des entrevues de groupe font état de perceptions positives à l’égard des TIC; on leur prête des vertus certaines et elles sont jugées motivantes. Ce phénomène constitue le cœur du dernier article, au cours duquel nous tâchons de mesurer l’impact du mode d’écriture sur la motivation à écrire. Nous menons ce volet dans une perspective quantitative. La motivation des participants a été mesurée avec une échelle de motivation. L’analyse statistique des données montre que les élèves technologiques sont motivés intrinsèquement par les technologies, tandis que leurs pairs du groupe témoin sont amotivés. Lors du chapitre conclusif, nous mettons ces résultats en relation, tentant d’expliquer globalement l’impact des TIC dans le processus scriptural. Au terme de notre thèse, nous formulons des recommandations destinées aux praticiens et aux décideurs engagés dans le système éducatif.
Resumo:
L'article présente quelques éléments de la procédure mise en place pour traiter un corpus écrit comportant 617 textes (près de 500 000 mots) relatifs aux eurorégions. Complexe et hétérogène à plusieurs titres (technique, linguistique, éditorial, générique, énonciatif), le corpus pose la difficulté majeure de l’appréhension de données multilingues (français, italien, espagnol, anglais, allemand, néerlandais). Sa manipulation a nécessité une réflexion adaptée et une démarche de modélisation que nous qualifions d’« agile » en raison de son caractère souple et itératif. La plateforme d’analyse élaborée permet de disposer de résultats utiles à l’analyse qualitative ultérieure du discours eurorégional. Elle articule un logiciel d'analyse morphosyntaxique éprouvé (TreeTagger) à des programmes (Perl) et à une base de données (SQLite) développés pour optimiser les requêtes multilingues simultanées et l’exportation automatique des résultats. Les fonctionnalités liées à la localisation contextualisée de mots- pivots, au recueil de dénominations et à la détection de segments répétés nous servent ici de guides pour exprimer les besoins de la recherche, les problèmes rencontrés et les solutions proposées. L'analyse d'observables récurrents, à savoir les notions de décision et de responsabilité, illustre le propos.
Resumo:
Un résumé en anglais est également disponible.
Resumo:
Notre recherche a pour but de déterminer comment les genres textuels peuvent être exploités dans le design des environnements numériques de travail afin de faciliter l’accomplissement des pratiques textuelles de cadres et de secrétaires dans une municipalité et une administration fédérale canadiennes. À cet effet, le premier objectif consiste à évaluer l’aptitude des environnements numériques de travail à supporter les pratiques textuelles (lecture, écriture et manipulation des textes) de ces employés. Le deuxième objectif est de décrire les rôles des genres textuels au cours des pratiques textuelles. Avec l’exemple du courriel, le troisième objectif vise à examiner comment le genre peut être exploité dans une perspective d’assistance à la réalisation des pratiques textuelles dans les environnements numériques de travail. Cette recherche de nature qualitative comporte une méthodologie en deux étapes. La première étape consiste en un examen minutieux des pratiques textuelles, des difficultés rencontrées au cours de celles-ci, du rôle du genre dans les environnements numériques de travail, ainsi que des indices sollicités au cours de la gestion du courriel. Trois modes de collecte des données qualitatives sont utilisés auprès de 17 cadres et de 17 secrétaires issus de deux administrations publiques : l’entrevue semi-dirigée, le journal de bord et l’enquête cognitive. Les résultats sont examinés à l’aide de stratégies d’analyse de contenu qualitative. La deuxième phase comprend la mise au point d’une chaîne de traitement du courriel, visant à étayer notre réflexion sur le genre textuel et son exploitation dans la conception des environnements numériques de travail. Un corpus de 1703 messages est élaboré à partir d’un échantillon remis par deux cadres gouvernementaux. Les résultats permettent d’abord de dresser un portrait général des pratiques de lecture, d’écriture et de manipulation des textes communes et spécifiques aux cadres et aux secrétaires. L’importance du courriel, qui constitue environ 40% des systèmes notés dans les journaux de bord, est soulignée. Les difficultés rencontrées dans les environnements numériques de travail sont également décrites. Dans un deuxième temps, les rôles du genre au cours des pratiques textuelles sont examinés en fonction d’une matrice tenant à la fois compte de ses dimensions individuelles et collectives, ainsi que de ses trois principales facettes ; la forme, le contenu et la fonction. Ensuite, nous présentons un cadre d’analyse des indices affectant la gestion du courriel qui synthétise le processus d’interprétation des messages par le destinataire. Une typologie des patrons de catégorisation des cadres est également définie, puis employée dans une expérimentation statistique visant la description et la catégorisation automatique du courriel. Au terme de ce processus, on observe des comportements linguistiques marqués en fonction des catégories du courriel. Il s’avère également que la catégorisation automatique basée sur le lexique des messages est beaucoup plus performante que la catégorisation non lexicale. À l’issue de cette recherche, nous suggérons d’enrichir le paradigme traditionnel relevant de l’interaction humain-ordinateur par une sémiotique du genre dans les environnements numériques de travail. L’étude propose également une réflexion sur l’appartenance du courriel à un genre, en ayant recours aux concepts théoriques d’hypergenre, de genre et de sous-genre. Le succès de la catégorisation automatique du courriel en fonction de facettes tributaires du genre (le contenu, la forme et la fonction) offre des perspectives intéressantes sur l’application de ce concept au design des environnements numériques de travail en vue de faciliter l’accomplissement des pratiques textuelles par les employés.
Resumo:
La présente recherche a pour but de faire le point sur l'état du droit canadien et sur ses perspectives futures en relation avec les œuvres créées par ordinateurs. L'outil terminologique choisi pour notre objectif est le logiciel de traduction automatique multilingue qui, à cause de sa complexité, s'éloigne le plus du programmeur « créateur» et se rapproche le plus d'œuvres qui ne peuvent être directement attribuées aux linguistes et programmeurs. Ces outils et leurs créations seront d'après nous les prochains outils technologiques à confronter le droit. En effet, dans un avenir prévisible, considérant l'évolution technologique, ces logiciels produiront des textes qui bénéficieront d'une valeur commerciale ajoutée et c'est alors que certains feront valoir leurs « droits », non seulement sur les textes mais aussi sur la technologie. Pour atteindre cet objectif, nous débuterons par un retour historique sur la technologie et ses origines. Par la suite, nous ferons une analyse de la protection actuelle accordée aux logiciels, aux banques de données et aux traductions qu'ils produisent. Nous déterminerons ensuite qui sera responsable des textes produits en relation avec le texte d'origine et avec sa résultante au niveau du droit d'auteur et de celui de la responsabilité civile. Cette recherche nous amènera à conclure que le droit actuel est « mésadapté » tant à l'égard de la protection qu'au niveau de la responsabilité. Ces conclusions devront d'après nous imposer un retour aux principes fondamentaux du droit. Ce fondamentalisme légal sera pour nous le prix à payer pour la légitimité. En effet, plus particulièrement concernant le droit d'auteur, nous conclurons qu'il devra cesser d'être le « fourre-tout» du droit de la propriété intellectuelle et redevenir ce qu'il doit être: un droit qui protège la créativité. Cette démarche prospective tirera ses racines du fait que nous serons obligés de conclure que les juristes canadiens ont refusé, à tort à notre point de vue, de renvoyer au monde des brevets les méthodes et procédés nouveaux et inventifs, ce qui donc a introduit des problématiques inutiles qui exacerbent l'incertitude. Finalement, notre cheminement nous dirigera vers le droit de la responsabilité où nous soutiendrons que le fournisseur ne peut actuellement être responsable du texte produit puisqu'il ne participe pas directement aux choix et ne porte pas atteinte au contenu. Voici donc en quelques mots le cœur de notre recherche qui entrouvre une boîte de Pandore.
Resumo:
La libéralisation des échanges a fait augmenter les richesses, mais en réalité, elles se sont concentrées dans les pays développés. La question de la distribution plus équitable des richesses s'est rapidement posée. Le système GATT/OMC a joué un rôle décisif dans la libéralisation des échanges et dans l'articulation des rapports entre les pays développés et les pays en développement (PED). L'émergence et l'incarnation juridique dans le système GATT/OMC d'un principe de justice distributive passe par l'évolution du traitement spécial et différencié (TSD). Sous le GATT, le TSD s'est d'abord manifesté par l'article XVIII et la Partie IV du GATT de 1947, la Clause d'habilitation et le Système de préférences de 1971. Le TSD ainsi proposé appartenait essentiellement à la sof law et a échoué dans sa tentative d'intégrer les PED au système SCM. Sous l'OMC, le TSD a changé de paradigme et de mandat. Le TSD est passé d'un outil voué à mettre au développement des PED à un mécanisme employé à aider les PED à mettre en œuvre les nouvelles politiques de libéralisation découlant des accords de l'OMC. Les dispositions TSD seront alors dispersées dans l'ensemble des accords de l'OMC, mais sans jamais transcender la forme «soft law» qui les caractérisait sous le GATT. L'échec de la Conférence de Seattle, en 1999, engendrera le «Programme de Doha pour le développement», en 2001. La Déclaration de Doha était alors perçue comme l'incarnation de la transformation de l'OMC en organisation qui se préoccupe désormais de justice distributive. En observant de près le texte de la Déclaration de Doha et en analysant sa valeur juridique, on ne constate pas de progrès significatifs. Encore une fois, les mesures proposées le sont sous forme de déclarations d'intention et de promesses, voire d'engagement à négocier. Actuellement, le Cycle de Doha tarde à aboutir et tout nous porte à croire que l'avènement de l'OMC n'a pas concrétisé la volonté des PED d'une répartition plus équitable des richesses.
Resumo:
Les documents publiés par des entreprises, tels les communiqués de presse, contiennent une foule d’informations sur diverses activités des entreprises. C’est une source précieuse pour des analyses en intelligence d’affaire. Cependant, il est nécessaire de développer des outils pour permettre d’exploiter cette source automatiquement, étant donné son grand volume. Ce mémoire décrit un travail qui s’inscrit dans un volet d’intelligence d’affaire, à savoir la détection de relations d’affaire entre les entreprises décrites dans des communiqués de presse. Dans ce mémoire, nous proposons une approche basée sur la classification. Les méthodes de classifications existantes ne nous permettent pas d’obtenir une performance satisfaisante. Ceci est notamment dû à deux problèmes : la représentation du texte par tous les mots, qui n’aide pas nécessairement à spécifier une relation d’affaire, et le déséquilibre entre les classes. Pour traiter le premier problème, nous proposons une approche de représentation basée sur des mots pivots c’est-à-dire les noms d’entreprises concernées, afin de mieux cerner des mots susceptibles de les décrire. Pour le deuxième problème, nous proposons une classification à deux étapes. Cette méthode s’avère plus appropriée que les méthodes traditionnelles de ré-échantillonnage. Nous avons testé nos approches sur une collection de communiqués de presse dans le domaine automobile. Nos expérimentations montrent que les approches proposées peuvent améliorer la performance de classification. Notamment, la représentation du document basée sur les mots pivots nous permet de mieux centrer sur les mots utiles pour la détection de relations d’affaire. La classification en deux étapes apporte une solution efficace au problème de déséquilibre entre les classes. Ce travail montre que la détection automatique des relations d’affaire est une tâche faisable. Le résultat de cette détection pourrait être utilisé dans une analyse d’intelligence d’affaire.
Resumo:
La figure mythique du double se manifeste dans la majorité des cultures sous des formes archétypales renvoyant à l’expérience de la division de l’individu en positions antithétiques ou complémentaires. Dans la littérature gothique et fantastique, le mythe est propice à créer un sentiment d’angoisse et d’horreur soulignant les problèmes et mystères de la schize du sujet. Ce travail d’analyse propose de regrouper les récits de doubles selon deux catégories d’occurrences thématiques en se basant sur le traitement textuel qui en est fait, soit l’apparition du double par homonymie d’une part et par pseudonymie de l’autre. Ceci mènera ultimement à commenter sur la perception qu’a l’auteur de lui-même et du processus de création. Le problème de la division étant au cœur des balbutiements théoriques en psychologie et en psychanalyse, une grille analytique lacanienne et post-structuraliste sera appliquée à cette recherche. Les œuvres traitées seront New York Trilogy de Paul Auster, The Dark Half de Stephen King, William Wilson d’Edgar Allan Poe, Le Double de Fédor Dostoïevski et Despair de Vladimir Nabokov.
Resumo:
Des efforts de recherche considérables ont été déployés afin d'améliorer les résultats de traitement de cancers pulmonaires. L'étude de la déformation de l'anatomie du patient causée par la ventilation pulmonaire est au coeur du processus de planification de traitement radio-oncologique. À l'aide d'images de tomodensitométrie quadridimensionnelles (4DCT), une simulation dosimétrique peut être calculée sur les 10 ensembles d'images du 4DCT. Une méthode doit être employée afin de recombiner la dose de radiation calculée sur les 10 anatomies représentant une phase du cycle respiratoire. L'utilisation de recalage déformable d'images (DIR), une méthode de traitement d'images numériques, génère neuf champs vectoriels de déformation permettant de rapporter neuf ensembles d'images sur un ensemble de référence correspondant habituellement à la phase d'expiration profonde du cycle respiratoire. L'objectif de ce projet est d'établir une méthode de génération de champs de déformation à l'aide de la DIR conjointement à une méthode de validation de leur précision. Pour y parvenir, une méthode de segmentation automatique basée sur la déformation surfacique de surface à été créée. Cet algorithme permet d'obtenir un champ de déformation surfacique qui décrit le mouvement de l'enveloppe pulmonaire. Une interpolation volumétrique est ensuite appliquée dans le volume pulmonaire afin d'approximer la déformation interne des poumons. Finalement, une représentation en graphe de la vascularisation interne du poumon a été développée afin de permettre la validation du champ de déformation. Chez 15 patients, une erreur de recouvrement volumique de 7.6 ± 2.5[%] / 6.8 ± 2.1[%] et une différence relative des volumes de 6.8 ± 2.4 [%] / 5.9 ± 1.9 [%] ont été calculées pour le poumon gauche et droit respectivement. Une distance symétrique moyenne 0.8 ± 0.2 [mm] / 0.8 ± 0.2 [mm], une distance symétrique moyenne quadratique de 1.2 ± 0.2 [mm] / 1.3 ± 0.3 [mm] et une distance symétrique maximale 7.7 ± 2.4 [mm] / 10.2 ± 5.2 [mm] ont aussi été calculées pour le poumon gauche et droit respectivement. Finalement, 320 ± 51 bifurcations ont été détectées dans le poumons droit d'un patient, soit 92 ± 10 et 228 ± 45 bifurcations dans la portion supérieure et inférieure respectivement. Nous avons été en mesure d'obtenir des champs de déformation nécessaires pour la recombinaison de dose lors de la planification de traitement radio-oncologique à l'aide de la méthode de déformation hiérarchique des surfaces. Nous avons été en mesure de détecter les bifurcations de la vascularisation pour la validation de ces champs de déformation.