967 resultados para Natural language techniques, Semantic spaces, Random projection, Documents
Resumo:
A class of twenty-two grade one children was tested to determine their reading levels using the Stanford Diagnostic Reading Achievement Test. Based on these results and teacher input the students were paired according to reading ability. The students ages ranged from six years four months to seven years four months at the commencement of the study. Eleven children were assigned to the language experience group and their partners became the text group. Each member of the language experience group generated a list of eight to be learned words. The treatment consisted of exposing the student to a given word three times per session for ten sessions, over a period of five days. The dependent variables consisted of word identification speed, word identification accuracy, and word recognition accuracy. Each member of the text group followed the same procedure using his/her partner's list of words. Upon completion of this training, the entire process was repeated with members of the text group from the first part becoming members of the language experience group and vice versa. The results suggest that generally speaking language experience words are identified faster than text words but that there is no difference in the rate at which these words are learned. Language experience words may be identified faster because the auditory-semantic information is more readily available in them than in text words. The rate of learning in both types of words, however, may be dictated by the orthography of the to be learned word.
Resumo:
This thesis introduces the Salmon Algorithm, a search meta-heuristic which can be used for a variety of combinatorial optimization problems. This algorithm is loosely based on the path finding behaviour of salmon swimming upstream to spawn. There are a number of tunable parameters in the algorithm, so experiments were conducted to find the optimum parameter settings for different search spaces. The algorithm was tested on one instance of the Traveling Salesman Problem and found to have superior performance to an Ant Colony Algorithm and a Genetic Algorithm. It was then tested on three coding theory problems - optimal edit codes, optimal Hamming distance codes, and optimal covering codes. The algorithm produced improvements on the best known values for five of six of the test cases using edit codes. It matched the best known results on four out of seven of the Hamming codes as well as three out of three of the covering codes. The results suggest the Salmon Algorithm is competitive with established guided random search techniques, and may be superior in some search spaces.
Resumo:
It is well known that standard asymptotic theory is not valid or is extremely unreliable in models with identification problems or weak instruments [Dufour (1997, Econometrica), Staiger and Stock (1997, Econometrica), Wang and Zivot (1998, Econometrica), Stock and Wright (2000, Econometrica), Dufour and Jasiak (2001, International Economic Review)]. One possible way out consists here in using a variant of the Anderson-Rubin (1949, Ann. Math. Stat.) procedure. The latter, however, allows one to build exact tests and confidence sets only for the full vector of the coefficients of the endogenous explanatory variables in a structural equation, which in general does not allow for individual coefficients. This problem may in principle be overcome by using projection techniques [Dufour (1997, Econometrica), Dufour and Jasiak (2001, International Economic Review)]. AR-types are emphasized because they are robust to both weak instruments and instrument exclusion. However, these techniques can be implemented only by using costly numerical techniques. In this paper, we provide a complete analytic solution to the problem of building projection-based confidence sets from Anderson-Rubin-type confidence sets. The latter involves the geometric properties of “quadrics” and can be viewed as an extension of usual confidence intervals and ellipsoids. Only least squares techniques are required for building the confidence intervals. We also study by simulation how “conservative” projection-based confidence sets are. Finally, we illustrate the methods proposed by applying them to three different examples: the relationship between trade and growth in a cross-section of countries, returns to education, and a study of production functions in the U.S. economy.
Resumo:
Les employés d’un organisme utilisent souvent un schéma de classification personnel pour organiser les documents électroniques qui sont sous leur contrôle direct, ce qui suggère la difficulté pour d’autres employés de repérer ces documents et la perte possible de documentation pour l’organisme. Aucune étude empirique n’a été menée à ce jour afin de vérifier dans quelle mesure les schémas de classification personnels permettent, ou même facilitent, le repérage des documents électroniques par des tiers, dans le cadre d’un travail collaboratif par exemple, ou lorsqu’il s’agit de reconstituer un dossier. Le premier objectif de notre recherche était de décrire les caractéristiques de schémas de classification personnels utilisés pour organiser et classer des documents administratifs électroniques. Le deuxième objectif consistait à vérifier, dans un environnement contrôlé, les différences sur le plan de l’efficacité du repérage de documents électroniques qui sont fonction du schéma de classification utilisé. Nous voulions vérifier s’il était possible de repérer un document avec la même efficacité, quel que soit le schéma de classification utilisé pour ce faire. Une collecte de données en deux étapes fut réalisée pour atteindre ces objectifs. Nous avons d’abord identifié les caractéristiques structurelles, logiques et sémantiques de 21 schémas de classification utilisés par des employés de l’Université de Montréal pour organiser et classer les documents électroniques qui sont sous leur contrôle direct. Par la suite, nous avons comparé, à partir d'une expérimentation contrôlée, la capacité d’un groupe de 70 répondants à repérer des documents électroniques à l’aide de cinq schémas de classification ayant des caractéristiques structurelles, logiques et sémantiques variées. Trois variables ont été utilisées pour mesurer l’efficacité du repérage : la proportion de documents repérés, le temps moyen requis (en secondes) pour repérer les documents et la proportion de documents repérés dès le premier essai. Les résultats révèlent plusieurs caractéristiques structurelles, logiques et sémantiques communes à une majorité de schémas de classification personnels : macro-structure étendue, structure peu profonde, complexe et déséquilibrée, regroupement par thème, ordre alphabétique des classes, etc. Les résultats des tests d’analyse de la variance révèlent des différences significatives sur le plan de l’efficacité du repérage de documents électroniques qui sont fonction des caractéristiques structurelles, logiques et sémantiques du schéma de classification utilisé. Un schéma de classification caractérisé par une macro-structure peu étendue et une logique basée partiellement sur une division par classes d’activités augmente la probabilité de repérer plus rapidement les documents. Au plan sémantique, une dénomination explicite des classes (par exemple, par utilisation de définitions ou en évitant acronymes et abréviations) augmente la probabilité de succès au repérage. Enfin, un schéma de classification caractérisé par une macro-structure peu étendue, une logique basée partiellement sur une division par classes d’activités et une sémantique qui utilise peu d’abréviations augmente la probabilité de repérer les documents dès le premier essai.
Resumo:
Les agents anti-infectieux sont utilisés pour traiter ou prévenir les infections chez les humains, les animaux, les insectes et les plantes. L’apparition de traces de ces substances dans les eaux usées, les eaux naturelles et même l’eau potable dans plusieurs pays du monde soulève l’inquiétude de la communauté scientifique surtout à cause de leur activité biologique. Le but de ces travaux de recherche a été d’étudier la présence d’anti-infectieux dans les eaux environnementales contaminées (c.-à-d. eaux usées, eaux naturelles et eau potable) ainsi que de développer de nouvelles méthodes analytiques capables de quantifier et confirmer leur présence dans ces matrices. Une méta-analyse sur l’occurrence des anti-infectieux dans les eaux environnementales contaminées a démontré qu’au moins 68 composés et 10 de leurs produits de transformation ont été quantifiés à ce jour. Les concentrations environnementales varient entre 0.1 ng/L et 1 mg/L, selon le composé, la matrice et la source de contamination. D’après cette étude, les effets nuisibles des anti-infectieux sur le biote aquatique sont possibles et ces substances peuvent aussi avoir un effet indirect sur la santé humaine à cause de sa possible contribution à la dissémination de la résistance aux anti-infecteiux chez les bactéries. Les premiers tests préliminaires de développement d’une méthode de détermination des anti-infectieux dans les eaux usées ont montré les difficultés à surmonter lors de l’extraction sur phase solide (SPE) ainsi que l’importance de la sélectivité du détecteur. On a décrit une nouvelle méthode de quantification des anti-infectieux utilisant la SPE en tandem dans le mode manuel et la chromatographie liquide couplée à la spectrométrie de masse en tandem (LC-MS/MS). Les six anti-infectieux ciblés (sulfaméthoxazole, triméthoprime, ciprofloxacin, levofloxacin, clarithromycin et azithromycin) ont été quantifiés à des concentrations entre 39 et 276 ng/L dans les échantillons d’affluent et d’effluent provenant d’une station d’épuration appliquant un traitement primaire et physico- chimique. Les concentrations retrouvées dans les effluents indiquent que la masse moyenne totale de ces substances, déversées hebdomadairement dans le fleuve St. Laurent, était de ~ 2 kg. En vue de réduire le temps total d’analyse et simplifier les manipulations, on a travaillé sur une nouvelle méthode de SPE couplée-LC-MS/MS. Cette méthode a utilisé une technique de permutation de colonnes pour préconcentrer 1.00 mL d’échantillon dans une colonne de SPE couplée. La performance analytique de la méthode a permis la quantification des six anti-infectieux dans les eaux usées municipales et les limites de détection étaient du même ordre de grandeur (13-60 ng/L) que les méthodes basées sur la SPE manuelle. Ensuite, l’application des colonnes de SPE couplée de chromatographie à débit turbulent pour la préconcentration de six anti-infectieux dans les eaux usées a été explorée pour diminuer les effets de matrice. Les résultats obtenus ont indiqué que ces colonnes sont une solution de réchange intéressante aux colonnes de SPE couplée traditionnelles. Finalement, en vue de permettre l’analyse des anti-infectieux dans les eaux de surface et l’eau potable, une méthode SPE couplée-LC-MS/MS utilisant des injections de grand volume (10 mL) a été développée. Le volume de fuite de plusieurs colonnes de SPE couplée a été estimé et la colonne ayant la meilleure rétention a été choisie. Les limites de détection et de confirmation de la méthode ont été entre 1 à 6 ng/L. L’analyse des échantillons réels a démontré que la concentration des trois anti-infectieux ciblés (sulfaméthoxazole, triméthoprime et clarithromycine) était au dessous de la limite de détection de la méthode. La mesure des masses exactes par spectrométrie de masse à temps d’envol et les spectres des ions produits utilisant une pente d’énergie de collision inverse dans un spectromètre de masse à triple quadripôle ont été explorés comme des méthodes de confirmation possibles.
Resumo:
À l'aide des tout derniers modèles narratologiques développés entre autres par Ansgar Nünning, nous nous penchons sur l'oeuvre d'Eveline Hasler, une voix phare de la littérature alémanique contemporaine. À partir d’un corpus de six romans, nous examinons de façon systématique sa poétique du roman historique au regard 1) des techniques narratives, 2) de la marginalité de ses personnages en société, 3) de la conception de l’Histoire, 4) de l'image critique qu'elle présente de la Suisse. Il en ressort un portrait très nuancé de l'oeuvre de Hasler, puisqu’elle allie un récit principalement réaliste, plutôt traditionnel, mais aussi inspiré du langage cinématographique, à des passages métahistoriographiques postmodernes, où une narratrice assimilable à l’auteure fait part au « je » de ses réflexions sur l'Histoire. Même si ces brefs passages relativement rares rappellent sans contredit la posture de l’historien, ils s’inscrivent toutefois dans la fiction, laquelle actualise le passé dans la perspective historique d’un lecteur contemporain. De fait, l’œuvre de Hasler se présente comme un jeu habile avec la liberté poétique et le souci de véracité historique, ce à quoi concourt l’imbrication de documents originaux en italique dans le roman. Par ailleurs, la question de la marginalité en société joue un rôle prépondérant chez Hasler, car tous ses personnages principaux sont autant de marginaux, de Außenseiter. Cette problématique montre entre autres les limites de l’Aufklärung, étant donné que ses tenants, les adversaires des marginaux, se targuent le plus souvent d’être motivés par la pensée éclairante pour mieux la pervertir. Il en résulte la mise à l’écart des individus dérangeants — la prétendue sorcière, le géant et les femmes qui remettent en cause l’organisation patriarcale. Or, certains marginaux de Hasler parviennent à s’arracher un espace de liberté dans la marge, au prix de leurs racines helvétiques. Ainsi, ces marginaux peinent à s’inscrire dans l’Histoire dite officielle, ce que Hasler tente de rectifier en leur redonnant une voix. Sur le plan individuel, la plupart d’entre eux expérimentent une évolution circulaire, puisqu’ils ne parviennent pas à sortir de la marge (sauf peut-être Henry Dunant). Cette impression de tourner en rond s’oppose à une conception de l’Histoire humaine qui se déroule en continuum, puisque les exclusions d’hier préfigurent celles d’aujourd’hui. Au-delà de cette mesure humaine du temps, l’horizon temporel de la nature s’inscrit pour sa part dans la permanence. Ainsi, Hasler développe une conception historique qui varie selon des points de vue coexistants. Cet amalgame est le plus souvent marqué par un certain pessimisme, comme le dénote la vie d’Emily Kempin associée au mythe d’Icare. Finalement, tous les acteurs historiques de Hasler appartiennent au contexte helvétique et en présentent une image assez rétrograde, laquelle se dévoile non seulement à travers la fictionnalisation des lieux, mais aussi par des références à trois symboles nationaux : les Alpes, le réduit helvétique et la légende de Guillaume Tell. Hasler fait le procès de ces mythes, associés à la liberté et à la sauvegarde de ce « peuple de bergers », en montrant que la Suisse n’apporte pas de solution originale aux défis de l’Occident.
Resumo:
Les modèles de compréhension statistiques appliqués à des applications vocales nécessitent beaucoup de données pour être entraînés. Souvent, une même application doit pouvoir supporter plusieurs langues, c’est le cas avec les pays ayant plusieurs langues officielles. Il s’agit donc de gérer les mêmes requêtes des utilisateurs, lesquelles présentent une sémantique similaire, mais dans plusieurs langues différentes. Ce projet présente des techniques pour déployer automatiquement un modèle de compréhension statistique d’une langue source vers une langue cible. Ceci afin de réduire le nombre de données nécessaires ainsi que le temps relié au déploiement d’une application dans une nouvelle langue. Premièrement, une approche basée sur les techniques de traduction automatique est présentée. Ensuite une approche utilisant un espace sémantique commun pour comparer plusieurs langues a été développée. Ces deux méthodes sont comparées pour vérifier leurs limites et leurs faisabilités. L’apport de ce projet se situe dans l’amélioration d’un modèle de traduction grâce à l’ajout de données très proche de l’application ainsi que d’une nouvelle façon d’inférer un espace sémantique multilingue.
Resumo:
Cette thèse porte sur l’appropriation de l’Internet et du multimédias dans la population universitaire d’Afrique francophone, en l’an 2001. Elle couvre six pays : le Bénin, le Burkina Faso, le Cameroun, la Côte d’Ivoire, le Mali et le Togo. La recherche porte sur le recensement des centres de recherche démographique en Afrique francophone subsaharienne et sur une enquête auprès des universités de Yaoundé II et de Douala au Cameroun. La problématique de l’accès et de l’usage est centrale dans notre démarche. Elle est traduite dans la question de recherche suivante : « Dans un contexte dominé par les représentations des NTIC comme symboles de modernité et facteurs d’intégration à l’économie mondiale, quelles sont les modalités d’appropriation de ces technologies par les universitaires des institutions de l’enseignement et de la recherche en Afrique considérées dans cette étude ? » Pour aborder le matériel empirique, nous avons opté pour deux approches théoriques : les théories du développement en lien avec les (nouveaux) médias et la sociologie des innovations techniques. Enracinées dans la pensée des Lumières, complétée et affinée par les approches évolutionnistes inspirées de Spencer, le fonctionnalisme d’inspiration parsonienne et l’économie politique axée sur la pensée de W. W. Rostow, les théories du développement ont largement mis à contribution les théories de la communication pour atteindre leur objet. Alors que la crise de la modernité occidentale menace de délégitimer ces paradigmes, les technologies émergentes leur donnent une nouvelle naissance : dans la continuité de la pensée d’Auguste Comte, le développement est désormais pensé en termes d’intégration à un nouveau type de société, la société de l’information. Cette nouvelle promesse eschatologique et cette foi dans la technique comme facteur d’intégration à la société et à l’économie en réseau habitent tous les projets menés sur le continent, que ce soit le NEPAD, le Fond de solidarité numérique, le projet d’ordinateur à 100$ pour les enfants démunis ou le projet panafricain de desserte satellitaire, le RASCOM. Le deuxième volet de notre cadre de référence théorique est axé sur la sociologie des innovations techniques. Nous mobilisons la sociopolitique des usages de Vedel et Vitalis pour ramener la raison critique dans le débat sur le développement du continent africain, dans l’optique de montrer que la prérogative politique assumée par les États a encore sa place, si l’on veut que les ressources numériques servent à satisfaire les demandes sociales et non les seules demandes solvables essentiellement localisées dans les centres urbains. En refusant le déterminisme technique si courant dans la pensée sur le développement, nous voulons montrer que le devenir de la technique n’est pas inscrit dans son essence, comme une ombre portée, mais que l’action des humains, notamment l’action politique, peut infléchir la trajectoire des innovations techniques dans l’optique de servir les aspirations des citoyens. Sur le plan méthodologique, la démarche combine les méthodes quantitatives et les méthodes qualitatives. Les premières nous permettront de mesurer la présence d’Internet et du multimédia dans l’environnement des répondants. Les secondes nous aideront à saisir les représentations développées par les usagers au contact de ces outils. Dans la perspective socioconstructiviste, ces discours sont constitutifs des technologies, dans la mesure où ils sont autant de modalités d’appropriation, de construction sociale de l’usage. Ultimement, l’intégration du langage technique propre aux outils multimédias dans le langage quotidien des usagers traduit le dernier stade de cette appropriation. À travers cette recherche, il est apparu que les usagers sont peu nombreux à utiliser les technologies audiovisuelles dans le contexte professionnel. Quand à l’Internet et aux outils multimédias, leur présence et leurs usages restent limités, l’accès physique n’étant pas encore garanti à tous les répondants de l’étude. Internet suscite de grandes espérances, mais reste, là aussi, largement inaccessible en contexte professionnel, la majorité des usagers se rabattant sur les lieux publics comme les cybercafés pour pallier l’insuffisance des ressources au sein de leurs institutions d’appartenance. Quant aux représentations, elles restent encore largement tributaires des discours politiques et institutionnels dominants, selon lesquels l’avenir sera numérique ou ne sera pas. La thèse va cependant au-delà de ces données pour dessiner la carte numérique actuelle du continent, en intégrant dans la nouvelle donne technologique la montée fulgurante de la téléphonie cellulaire mobile. Il nous est apparu que l’Internet, dont la diffusion sur le continent a été plus que modeste, pourrait largement profiter de l’émergence sur le continent de la culture mobile, que favorise notamment la convergence entre les mini-portables et la téléphonie mobile.
Resumo:
L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.
Resumo:
Les travaux de recherche présentés ici avaient pour objectif principal la synthèse de copolymères statistiques à base d’éthylène et d’acide acrylique (AA). Pour cela, la déprotection des groupements esters d’un copolymère statistique précurseur, le poly(éthylène-co-(tert-butyl)acrylate), a été effectuée par hydrolyse à l’aide d’iodure de triméthylsilyle. La synthèse de ce précurseur est réalisée par polymérisation catalytique en présence d’un système à base de Palladium (Pd). Le deuxième objectif a été d’étudier et de caractériser des polymères synthétisés à l’état solide et en suspension colloïdale. Plusieurs copolymères précurseurs comprenant différents pourcentages molaires en tert-butyl acrylate (4 à 12% molaires) ont été synthétisés avec succès, puis déprotégés par hydrolyse pour obtenir des poly(éthylène-coacide acrylique) (pE-co-AA) avec différentes compositions. Seuls les copolymères comprenant 10% molaire ou plus de AA sont solubles dans le Tétrahydrofurane (THF) et uniquement dans ce solvant. De telles solutions peuvent être dialysées dans l’eau, ce qui conduit à un échange lent entre cette dernière et le THF, et l’autoassemblage du copolymère dans l’eau peut ensuite être étudié. C’est ainsi qu’ont pu être observées des nanoparticules stables dans le temps dont le comportement est sensible au pH et à la température. Les polymères synthétisés ont été caractérisés par Résonance Magnétique Nucléaire (RMN) ainsi que par spectroscopie Infra-Rouge (IR), avant et après déprotection. Les pourcentages molaires d’AA ont été déterminés par combinaison des résultats de RMN et ii de titrages conductimètriques. A l’état solide, les échantillons ont été analysés par Calorimétrie différentielle à balayage (DSC) et par Diffraction des rayons X. Les solutions colloïdales des polymères pE-co-AA ont été caractérisées par Diffusion dynamique de la lumière et par la DSC-haute sensibilité. De la microscopie électronique à transmission (TEM) a permis de visualiser la forme et la taille des nanoparticules.