921 resultados para cross-language information retrieval
Resumo:
La present memòria descriu els passos necessaris per fer l'anàlisi, el disseny i la implementació de un gestor de comandes per un empresa mitjançant l'entorn web. El projecte ha estat realitzat en llenguatge Java, ja que és un llenguatge orientat a l'objecte molt reutilitzable i que té una plataforma que és la J2EE, que la fa ideal per l'unió de pàgines web amb bases de dades.
Resumo:
Aquest treball aporta una visió general de la Web Semàntica i alhora n'estudia en suficient detall les principals tecnologies relacionades. Com a objectiu final per comprovar de forma pràctica la teoria descrita, l'aplicació web permet consultar bases de dades RDF mitjançant el llenguatge de consulta SPARQL.
Resumo:
Aquest projecte permetrà aprofundir en el coneixement de l'estructura de funcionament del PL/SQL d'Oracle (crides a procediments i, especialment, tractament d'excepcions), en la utilització de JDBC com a mecanisme de comunicació entre JAVA i Oracle, i en l'ús de les classes de generació d'interfícies gràfiques d'usuari (swing) i, a més, permetrà posar en pràctica funcionalitats d'Oracle que no havia tingut oportunitat d'emprar, com ara tipus genèrics de dades, objectes persistents o transaccions autònomes.
Resumo:
L'objectiu del treball és realitzar un programari que realitzi tasques de filtratge de les planes web que pot explorar qualsevol explorador del sistema. A més, ha d'incloure la capacitat de mantenir un historial de navegació, que pot servir per millorar la tasca de filtratge.
Resumo:
Aquest treball de final de carrera vol fer una anàlisi de les necessitats de publicació de continguts i serveis a Internet d'un club d'escacs. Pel que fa a la implementació, l'objectiu es desenvolupar un portal web base, amb una tecnologia que permeti que el client pugui implementar la totalitat de les funcionalitats previstes en un futur.
Resumo:
The aim of the present study was to develop a short form of the Zuckerman-Kuhlman Personality Questionnaire (ZKPQ) with acceptable psychometric properties in four languages: English (United States), French (Switzerland), German (Germany), and Spanish (Spain). The total sample (N = 4,621) was randomly divided into calibration and validation samples. An exploratory factor analysis was conducted in the calibration sample. Eighty items, with loadings equal or higher than 0.30 on their own factor and lower on the remaining factors, were retained. A confirmatory factor analysis was performed over the survival items in the validation sample in order to select the best 10 items for each scale. This short version (named ZKPQ-50-CC) presents psychometric properties strongly similar to the original version in the four countries. Moreover, the factor structure are near equivalent across the four countries since the congruence indices were all higher than 0.90. It is concluded that the ZKPQ-50-CC presented a high cross-language replicability, and it could be an useful questionnaire that may be used for personality research.
Resumo:
We present a new technique for audio signal comparison based on tonal subsequence alignment and its application to detect cover versions (i.e., different performances of the same underlying musical piece). Cover song identification is a task whose popularity has increased in the Music Information Retrieval (MIR) community along in the past, as it provides a direct and objective way to evaluate music similarity algorithms.This article first presents a series of experiments carried outwith two state-of-the-art methods for cover song identification.We have studied several components of these (such as chroma resolution and similarity, transposition, beat tracking or Dynamic Time Warping constraints), in order to discover which characteristics would be desirable for a competitive cover song identifier. After analyzing many cross-validated results, the importance of these characteristics is discussed, and the best-performing ones are finally applied to the newly proposed method. Multipleevaluations of this one confirm a large increase in identificationaccuracy when comparing it with alternative state-of-the-artapproaches.
Resumo:
El objetivo de este proyecto es familiarizarse con las tecnologías de Semántica, entender que es una ontología y aprender a modelar una en un dominio elegido por nosotros. Realizar un parser que conectándose a la la Wikipedia y/o DBpedia rellene dicha ontología permitiendo al usuario navegar por sus conceptos y estudiar sus relaciones.
Resumo:
Biomedical natural language processing (BioNLP) is a subfield of natural language processing, an area of computational linguistics concerned with developing programs that work with natural language: written texts and speech. Biomedical relation extraction concerns the detection of semantic relations such as protein-protein interactions (PPI) from scientific texts. The aim is to enhance information retrieval by detecting relations between concepts, not just individual concepts as with a keyword search. In recent years, events have been proposed as a more detailed alternative for simple pairwise PPI relations. Events provide a systematic, structural representation for annotating the content of natural language texts. Events are characterized by annotated trigger words, directed and typed arguments and the ability to nest other events. For example, the sentence “Protein A causes protein B to bind protein C” can be annotated with the nested event structure CAUSE(A, BIND(B, C)). Converted to such formal representations, the information of natural language texts can be used by computational applications. Biomedical event annotations were introduced by the BioInfer and GENIA corpora, and event extraction was popularized by the BioNLP'09 Shared Task on Event Extraction. In this thesis we present a method for automated event extraction, implemented as the Turku Event Extraction System (TEES). A unified graph format is defined for representing event annotations and the problem of extracting complex event structures is decomposed into a number of independent classification tasks. These classification tasks are solved using SVM and RLS classifiers, utilizing rich feature representations built from full dependency parsing. Building on earlier work on pairwise relation extraction and using a generalized graph representation, the resulting TEES system is capable of detecting binary relations as well as complex event structures. We show that this event extraction system has good performance, reaching the first place in the BioNLP'09 Shared Task on Event Extraction. Subsequently, TEES has achieved several first ranks in the BioNLP'11 and BioNLP'13 Shared Tasks, as well as shown competitive performance in the binary relation Drug-Drug Interaction Extraction 2011 and 2013 shared tasks. The Turku Event Extraction System is published as a freely available open-source project, documenting the research in detail as well as making the method available for practical applications. In particular, in this thesis we describe the application of the event extraction method to PubMed-scale text mining, showing how the developed approach not only shows good performance, but is generalizable and applicable to large-scale real-world text mining projects. Finally, we discuss related literature, summarize the contributions of the work and present some thoughts on future directions for biomedical event extraction. This thesis includes and builds on six original research publications. The first of these introduces the analysis of dependency parses that leads to development of TEES. The entries in the three BioNLP Shared Tasks, as well as in the DDIExtraction 2011 task are covered in four publications, and the sixth one demonstrates the application of the system to PubMed-scale text mining.
Resumo:
Les professionnels de l'information traversent actuellement une période de redéfinition de leur profession provoquée par la transformation de l'information et des processus informationnels vers un mode de plus en plus électronique. Les systèmes d'information Web (SIW) — c'est-à-dire des systèmes d'information basés sur les technologies Web tels que les sites Web externes, les intranets, les systèmes de commerce électronique et les extranets — font partie des technologies à l'origine de ces changements. Ces systèmes sont de plus en plus adoptés par les organisations et, en particulier, par les gouvernements dans leur volonté de devenir électroniques. Le gouvernement fédéral canadien est reconnu comme un des plus innovateurs en matière de SIW et doit adapter son environnement informationnel, dont font partie les professionnels de l'information, à l'introduction de ces systèmes. Malgré l'innovation que les SIW représentent, peu d'études empiriques ont été menées pour identifier quels sont les intervenants nécessaires à leur mise en place. Aucun consensus n'émerge de la littérature quant à la nature de l'intervention des professionnels de l'information dans ces systèmes. Cette recherche vise à accroître les connaissances sur l'intervention des professionnels de l'information dans les SIW. Pour les besoins de cette recherche, les professionnels de l'information sont définis comme les personnes ayant une maîtrise en bibliothéconomie et sciences de l'information ou toute autre formulation équivalente. Cette recherche étudie quatre questions de recherche qui portent sur : (1) les rôles des professionnels de l'information décrits dans les politiques d'information pan-gouvernementales liées aux SIW ainsi que ceux des autres intervenants mentionnés en lien direct avec les SIW, (2) les types de SIW dans lesquels les professionnels de l'information interviennent, (3) les tâches des professionnels de l'information dans ces SIW, et (4) les autres intervenants qui travaillent dans ces systèmes. Une approche qualitative a été utilisée pour répondre à ces questions et implique quatre modes de collecte des données : (1) des entrevues en profondeur en personne avec des professionnels de l'information impliqués dans des SIW, (2) une analyse des SIW où interviennent ces professionnels de l'information, (3) une analyse des politiques pan-gouvernementales liées aux SIW, et (4) la documentation pertinente. Les professionnels de l'information rencontrés proviennent de sept ministères du gouvernement fédéral canadien, ministères retenus pour leur implication dans les SIW. Les résultats indiquent que les professionnels de l'information rencontrés interviennent dans les SIW aux niveaux micro et macro, c'est-à-dire dans des SIW spécifiques ainsi que globalement au niveau de l'ensemble des SIW d'un ministère ou du gouvernement fédéral. Ces professionnels de l'information sont impliqués dans toutes les dimensions et les phases de développement des SIW. Les tâches liées au contenu sont prédominantes mais les tâches technologiques sont aussi très présentes. Trois variables se dégagent de cette étude qui ont un impact sur l'intervention des professionnels de l'information dans les SIW : les types de SIW, les types de postes occupés par les professionnels de l'information et les types de gouvernance.
Resumo:
Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.
Resumo:
Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.
Resumo:
Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.
Resumo:
Le présent mémoire cherche à comprendre et à cerner le lien entre la stratégie de recherche d’information par le journaliste sur le web et les exigences de sa profession. Il vise à appréhender les précautions que prend le journaliste lors de sa recherche d’information sur le web en rapport avec les contraintes que lui imposent les règles de sa profession pour assurer la qualité des sources d’informations qu’il exploite. Nous avons examiné cette problématique en choisissant comme cadre d’étude Radio-Canada où nous avons rencontré quelques journalistes. Ceux-ci ont été suivis en situation de recherche d’information puis questionnés sur leurs expériences de recherche. L’arrivée d’internet et la révolution technologique qui en a découlé ont profondément bouleversé les pratiques journalistiques. La recherche d’information représente ainsi une zone importante de cette mutation des pratiques. Cette transformation amène surtout à s’interroger sur la façon dont la nouvelle façon de rechercher les sources d’information influence le travail du journaliste, et surtout les balises que se donne celui-ci pour résister aux pièges découlant de sa nouvelle méthode de travail.