838 resultados para Representation and information retrieval technologies
Resumo:
Presentation at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014
Resumo:
Biomedical natural language processing (BioNLP) is a subfield of natural language processing, an area of computational linguistics concerned with developing programs that work with natural language: written texts and speech. Biomedical relation extraction concerns the detection of semantic relations such as protein-protein interactions (PPI) from scientific texts. The aim is to enhance information retrieval by detecting relations between concepts, not just individual concepts as with a keyword search. In recent years, events have been proposed as a more detailed alternative for simple pairwise PPI relations. Events provide a systematic, structural representation for annotating the content of natural language texts. Events are characterized by annotated trigger words, directed and typed arguments and the ability to nest other events. For example, the sentence “Protein A causes protein B to bind protein C” can be annotated with the nested event structure CAUSE(A, BIND(B, C)). Converted to such formal representations, the information of natural language texts can be used by computational applications. Biomedical event annotations were introduced by the BioInfer and GENIA corpora, and event extraction was popularized by the BioNLP'09 Shared Task on Event Extraction. In this thesis we present a method for automated event extraction, implemented as the Turku Event Extraction System (TEES). A unified graph format is defined for representing event annotations and the problem of extracting complex event structures is decomposed into a number of independent classification tasks. These classification tasks are solved using SVM and RLS classifiers, utilizing rich feature representations built from full dependency parsing. Building on earlier work on pairwise relation extraction and using a generalized graph representation, the resulting TEES system is capable of detecting binary relations as well as complex event structures. We show that this event extraction system has good performance, reaching the first place in the BioNLP'09 Shared Task on Event Extraction. Subsequently, TEES has achieved several first ranks in the BioNLP'11 and BioNLP'13 Shared Tasks, as well as shown competitive performance in the binary relation Drug-Drug Interaction Extraction 2011 and 2013 shared tasks. The Turku Event Extraction System is published as a freely available open-source project, documenting the research in detail as well as making the method available for practical applications. In particular, in this thesis we describe the application of the event extraction method to PubMed-scale text mining, showing how the developed approach not only shows good performance, but is generalizable and applicable to large-scale real-world text mining projects. Finally, we discuss related literature, summarize the contributions of the work and present some thoughts on future directions for biomedical event extraction. This thesis includes and builds on six original research publications. The first of these introduces the analysis of dependency parses that leads to development of TEES. The entries in the three BioNLP Shared Tasks, as well as in the DDIExtraction 2011 task are covered in four publications, and the sixth one demonstrates the application of the system to PubMed-scale text mining.
Resumo:
This study examines information security as a process (information securing) in terms of what it does, especially beyond its obvious role of protector. It investigates concepts related to ‘ontology of becoming’, and examines what it is that information securing produces. The research is theory driven and draws upon three fields: sociology (especially actor-network theory), philosophy (especially Gilles Deleuze and Félix Guattari’s concept of ‘machine’, ‘territory’ and ‘becoming’, and Michel Serres’s concept of ‘parasite’), and information systems science (the subject of information security). Social engineering (used here in the sense of breaking into systems through non-technical means) and software cracker groups (groups which remove copy protection systems from software) are analysed as examples of breaches of information security. Firstly, the study finds that information securing is always interruptive: every entity (regardless of whether or not it is malicious) that becomes connected to information security is interrupted. Furthermore, every entity changes, becomes different, as it makes a connection with information security (ontology of becoming). Moreover, information security organizes entities into different territories. However, the territories – the insides and outsides of information systems – are ontologically similar; the only difference is in the order of the territories, not in the ontological status of entities that inhabit the territories. In other words, malicious software is ontologically similar to benign software; they both are users in terms of a system. The difference is based on the order of the system and users: who uses the system and what the system is used for. Secondly, the research shows that information security is always external (in the terms of this study it is a ‘parasite’) to the information system that it protects. Information securing creates and maintains order while simultaneously disrupting the existing order of the system that it protects. For example, in terms of software itself, the implementation of a copy protection system is an entirely external addition. In fact, this parasitic addition makes software different. Thus, information security disrupts that which it is supposed to defend from disruption. Finally, it is asserted that, in its interruption, information security is a connector that creates passages; it connects users to systems while also creating its own threats. For example, copy protection systems invite crackers and information security policies entice social engineers to use and exploit information security techniques in a novel manner.
Resumo:
Abstract This study was undertaken to examine traditional forms of literacy and the newest form of literacy: technology. Students who have trouble reading traditional forms of literacy tend to have lower self-esteem. This research intended to explore if students with reading difficulties and, therefore, lower self-esteem, could use Social Networking Technologies including text messaging, Facebook, email, blogging, MySpace, or Twitter to help improve their self-esteem, in a field where spelling mistakes and grammatical errors are commonplace, if not encouraged. A collective case study was undertaken based on surveys, individual interviews, and gathered documents from 3 students 9-13 years old. The data collected in this study were analyzed and interpreted using qualitative methods. These cases were individually examined for themes, which were then analyzed across the cases to examine points of convergence and divergence in the data. The research found that students with reading difficulties do not necessarily have poor self-esteem, as prior research has suggested (Carr, Borkowski, & Maxwell, 1991; Feiler, & Logan, 2007; Meece, Wigfield, & Eccles, 1990; Pintirch & DeGroot, 1990; Pintrich & Garcia, 1991). All of the participants who had reading difficulties, were found both through interviews and the CFSEI-3 self-esteem test (Battle, 2002) to have average self-esteem, although their parents all stated that their child felt poorly about their academic abilities. The research also found that using Social Networking Technologies helped improve the self-esteem of the majority of the participants both socially and academically.
Resumo:
This paper investigates the impact of personal affinity toward a charity and information regarding financial management of potential recipient charitable organizations on decisions to donate. Using an experiment, the study examines how personal donation decisions differ from corporate donation decisions made by managers and how the emotional intelligence of donors affects donation decisions. The results indicate that threshold and financial information on charities assembled by the Better Business Bureau, a charity rating agency, made a significant impact on corporate donation decisions. The study also shows that emotional intelligence plays an important role that aids both individual donors and managers to regulate their donation decisions.
Resumo:
Les professionnels de l'information traversent actuellement une période de redéfinition de leur profession provoquée par la transformation de l'information et des processus informationnels vers un mode de plus en plus électronique. Les systèmes d'information Web (SIW) — c'est-à-dire des systèmes d'information basés sur les technologies Web tels que les sites Web externes, les intranets, les systèmes de commerce électronique et les extranets — font partie des technologies à l'origine de ces changements. Ces systèmes sont de plus en plus adoptés par les organisations et, en particulier, par les gouvernements dans leur volonté de devenir électroniques. Le gouvernement fédéral canadien est reconnu comme un des plus innovateurs en matière de SIW et doit adapter son environnement informationnel, dont font partie les professionnels de l'information, à l'introduction de ces systèmes. Malgré l'innovation que les SIW représentent, peu d'études empiriques ont été menées pour identifier quels sont les intervenants nécessaires à leur mise en place. Aucun consensus n'émerge de la littérature quant à la nature de l'intervention des professionnels de l'information dans ces systèmes. Cette recherche vise à accroître les connaissances sur l'intervention des professionnels de l'information dans les SIW. Pour les besoins de cette recherche, les professionnels de l'information sont définis comme les personnes ayant une maîtrise en bibliothéconomie et sciences de l'information ou toute autre formulation équivalente. Cette recherche étudie quatre questions de recherche qui portent sur : (1) les rôles des professionnels de l'information décrits dans les politiques d'information pan-gouvernementales liées aux SIW ainsi que ceux des autres intervenants mentionnés en lien direct avec les SIW, (2) les types de SIW dans lesquels les professionnels de l'information interviennent, (3) les tâches des professionnels de l'information dans ces SIW, et (4) les autres intervenants qui travaillent dans ces systèmes. Une approche qualitative a été utilisée pour répondre à ces questions et implique quatre modes de collecte des données : (1) des entrevues en profondeur en personne avec des professionnels de l'information impliqués dans des SIW, (2) une analyse des SIW où interviennent ces professionnels de l'information, (3) une analyse des politiques pan-gouvernementales liées aux SIW, et (4) la documentation pertinente. Les professionnels de l'information rencontrés proviennent de sept ministères du gouvernement fédéral canadien, ministères retenus pour leur implication dans les SIW. Les résultats indiquent que les professionnels de l'information rencontrés interviennent dans les SIW aux niveaux micro et macro, c'est-à-dire dans des SIW spécifiques ainsi que globalement au niveau de l'ensemble des SIW d'un ministère ou du gouvernement fédéral. Ces professionnels de l'information sont impliqués dans toutes les dimensions et les phases de développement des SIW. Les tâches liées au contenu sont prédominantes mais les tâches technologiques sont aussi très présentes. Trois variables se dégagent de cette étude qui ont un impact sur l'intervention des professionnels de l'information dans les SIW : les types de SIW, les types de postes occupés par les professionnels de l'information et les types de gouvernance.
Resumo:
Depuis quelques années, Internet est devenu un média incontournable pour la diffusion de ressources multilingues. Cependant, les différences linguistiques constituent souvent un obstacle majeur aux échanges de documents scientifiques, culturels, pédagogiques et commerciaux. En plus de cette diversité linguistique, on constate le développement croissant de bases de données et de collections composées de différents types de documents textuels ou multimédias, ce qui complexifie également le processus de repérage documentaire. En général, on considère l’image comme « libre » au point de vue linguistique. Toutefois, l’indexation en vocabulaire contrôlé ou libre (non contrôlé) confère à l’image un statut linguistique au même titre que tout document textuel, ce qui peut avoir une incidence sur le repérage. Le but de notre recherche est de vérifier l’existence de différences entre les caractéristiques de deux approches d’indexation pour les images ordinaires représentant des objets de la vie quotidienne, en vocabulaire contrôlé et en vocabulaire libre, et entre les résultats obtenus au moment de leur repérage. Cette étude suppose que les deux approches d’indexation présentent des caractéristiques communes, mais également des différences pouvant influencer le repérage de l’image. Cette recherche permet de vérifier si l’une ou l’autre de ces approches d’indexation surclasse l’autre, en termes d’efficacité, d’efficience et de satisfaction du chercheur d’images, en contexte de repérage multilingue. Afin d’atteindre le but fixé par cette recherche, deux objectifs spécifiques sont définis : identifier les caractéristiques de chacune des deux approches d’indexation de l’image ordinaire représentant des objets de la vie quotidienne pouvant influencer le repérage, en contexte multilingue et exposer les différences sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images à repérer des images ordinaires représentant des objets de la vie quotidienne indexées à l’aide d’approches offrant des caractéristiques variées, en contexte multilingue. Trois modes de collecte des données sont employés : l’analyse des termes utilisés pour l’indexation des images, la simulation du repérage d’un ensemble d’images indexées selon chacune des formes d’indexation à l’étude réalisée auprès de soixante répondants, et le questionnaire administré aux participants pendant et après la simulation du repérage. Quatre mesures sont définies pour cette recherche : l’efficacité du repérage d’images, mesurée par le taux de succès du repérage calculé à l’aide du nombre d’images repérées; l’efficience temporelle, mesurée par le temps, en secondes, utilisé par image repérée; l’efficience humaine, mesurée par l’effort humain, en nombre de requêtes formulées par image repérée et la satisfaction du chercheur d’images, mesurée par son autoévaluation suite à chaque tâche de repérage effectuée. Cette recherche montre que sur le plan de l’indexation de l’image ordinaire représentant des objets de la vie quotidienne, les approches d’indexation étudiées diffèrent fondamentalement l’une de l’autre, sur le plan terminologique, perceptuel et structurel. En outre, l’analyse des caractéristiques des deux approches d’indexation révèle que si la langue d’indexation est modifiée, les caractéristiques varient peu au sein d’une même approche d’indexation. Finalement, cette recherche souligne que les deux approches d’indexation à l’étude offrent une performance de repérage des images ordinaires représentant des objets de la vie quotidienne différente sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images, selon l’approche et la langue utilisées pour l’indexation.
Resumo:
Ce mémoire est composé de trois articles qui s’unissent sous le thème de la recommandation musicale à grande échelle. Nous présentons d’abord une méthode pour effectuer des recommandations musicales en récoltant des étiquettes (tags) décrivant les items et en utilisant cette aura textuelle pour déterminer leur similarité. En plus d’effectuer des recommandations qui sont transparentes et personnalisables, notre méthode, basée sur le contenu, n’est pas victime des problèmes dont souffrent les systèmes de filtrage collaboratif, comme le problème du démarrage à froid (cold start problem). Nous présentons ensuite un algorithme d’apprentissage automatique qui applique des étiquettes à des chansons à partir d’attributs extraits de leur fichier audio. L’ensemble de données que nous utilisons est construit à partir d’une très grande quantité de données sociales provenant du site Last.fm. Nous présentons finalement un algorithme de génération automatique de liste d’écoute personnalisable qui apprend un espace de similarité musical à partir d’attributs audio extraits de chansons jouées dans des listes d’écoute de stations de radio commerciale. En plus d’utiliser cet espace de similarité, notre système prend aussi en compte un nuage d’étiquettes que l’utilisateur est en mesure de manipuler, ce qui lui permet de décrire de manière abstraite la sorte de musique qu’il désire écouter.
Resumo:
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.
Resumo:
Le web et les images qui y foisonnent font désormais partie de notre quotidien et ils façonnent notre manière de penser le monde. Certaines œuvres d’art permettent, semble-t-il, de réfléchir à la fois sur l’image, les technologies web, les relations qu’elles entretiennent et les enjeux sociopolitiques qui les sous-tendent. C’est dans cette perspective que ce mémoire s’intéresse aux travaux de la série des Googlegrams (2004-2006) de Joan Fontcuberta, particulièrement à deux œuvres qui reprennent les photographies de torture de la prison d’Abu Ghraib devenues iconiques. Ce sont des photomosaïques utilisant ces images comme matrices dans lesquelles viennent s’insérer des milliers de petites images qui ont été trouvées dans le web grâce au moteur de recherche d’images de Google, selon certains mots-clés choisis par l’artiste de façon à faire écho à ces photographies-matrices. Ces œuvres sont ici considérées en tant qu’outils d’études actifs nous permettant de déployer les assemblages d’images et de technologies qu’elles font interagir. Il s’agit de suivre les acteurs et les réseaux qui se superposent et s’entremêlent dans les Googlegrams : d’abord les photographies d’Abu Ghraib et leur iconisation ; ensuite le moteur de recherche et sa relation aux images ; finalement les effets de la photomosaïque. Cette étude s’effectue donc à partir des interactions entre ces différents éléments qui constituent les œuvres afin de réfléchir sur leurs rôles dans le façonnement de la représentation de l’information.
Resumo:
Le présent mémoire cherche à comprendre et à cerner le lien entre la stratégie de recherche d’information par le journaliste sur le web et les exigences de sa profession. Il vise à appréhender les précautions que prend le journaliste lors de sa recherche d’information sur le web en rapport avec les contraintes que lui imposent les règles de sa profession pour assurer la qualité des sources d’informations qu’il exploite. Nous avons examiné cette problématique en choisissant comme cadre d’étude Radio-Canada où nous avons rencontré quelques journalistes. Ceux-ci ont été suivis en situation de recherche d’information puis questionnés sur leurs expériences de recherche. L’arrivée d’internet et la révolution technologique qui en a découlé ont profondément bouleversé les pratiques journalistiques. La recherche d’information représente ainsi une zone importante de cette mutation des pratiques. Cette transformation amène surtout à s’interroger sur la façon dont la nouvelle façon de rechercher les sources d’information influence le travail du journaliste, et surtout les balises que se donne celui-ci pour résister aux pièges découlant de sa nouvelle méthode de travail.
Resumo:
Comment pouvons-nous représenter un principe moral universel de manière à le rendre applicable à des cas concrets ? Ce problème revêt une forme aiguë dans la philosophie morale d’Emmanuel Kant (1724-1804), tout particulièrement dans sa théorie du jugement moral, car il soutient que l’on doit appliquer la loi morale « suprasensible » à des actions dans le monde sensible afin de déterminer celles-ci comme moralement bonnes ou mauvaises. Kant aborde ce problème dans un chapitre de la Critique de la raison pratique (1788) intitulé « De la typique de la faculté de juger pratique pure » (KpV 5: 67-71). La première partie de la thèse vise à fournir un commentaire compréhensif et détaillé de ce texte important, mais trop peu étudié. Étant donné que la loi morale, en tant qu’Idée suprasensible de la raison, ne peut pas être appliquée directement à des actions dans l’intuition sensible, Kant a recours à une forme particulière de représentation indirecte et symbolique. Sa solution inédite consiste à fournir la faculté de juger avec un « type [Typus] », ou analogue formel, de la loi morale. Ce type est la loi de la causalité naturelle : en tant que loi, il sert d’étalon formel pour tester l’universalisabilité des maximes ; et, en tant que loi de la nature, il peut aussi s’appliquer à toute action dans l’expérience sensible. Dès lors, le jugement moral s’effectue par le biais d’une expérience de pensée dans laquelle on se demande si l’on peut vouloir que sa maxime devienne une loi universelle d’une nature contrefactuelle dont on ferait soi-même partie. Cette expérience de pensée fonctionne comme une « épreuve [Probe] » de la forme des maximes et, par ce moyen, du statut moral des actions. Kant soutient que tout un chacun, même « l’entendement le plus commun », emploie cette procédure pour l’appréciation morale. De plus, la typique prémunit contre deux menaces à l’éthique rationaliste de Kant, à savoir l’empirisme (c’est-à-dire le conséquentialisme) et le mysticisme. La seconde partie de la thèse se penche sur l’indication de Kant que la typique « ne sert que comme un symbole ». Un bon nombre de commentateurs ont voulu assimiler la typique à la notion d’« hypotypose symbolique » présentée dans le § 59 de la Critique de la faculté de juger (1790). La typique serait un processus de symbolisation esthétique consistant à présenter, de façon indirecte, la représentation abstraite de la loi morale sous la forme d’un symbole concret et intuitif. Dans un premier chapitre, cette interprétation est présentée et soumise à un examen critique qui cherche à montrer qu’elle est erronée et peu judicieuse. Dans le second chapitre, nous poursuivons une voie d’interprétation jusqu’ici ignorée, montrant que la typique a de plus grandes continuités avec la notion d’« anthropomorphisme symbolique », une procédure strictement analogique introduite auparavant dans les Prolégomènes (1783). Nous en concluons, d’une part, que la typique fut un moment décisif dans l’évolution de la théorie kantienne de la représentation symbolique et que, d’autre part, elle marque la réalisation, chez Kant, d’une conception proprement critique de la nature et de la morale comme deux sphères distinctes, dont la médiation s’opère par le biais des concepts de loi et de conformité à la loi (Gesetzmässigkeit). En un mot, la typique s’avère l’instrument par excellence du « rationalisme de la faculté de juger ».
Resumo:
Data centre is a centralized repository,either physical or virtual,for the storage,management and dissemination of data and information organized around a particular body and nerve centre of the present IT revolution.Data centre are expected to serve uniinterruptedly round the year enabling them to perform their functions,it consumes enormous energy in the present scenario.Tremendous growth in the demand from IT Industry made it customary to develop newer technologies for the better operation of data centre.Energy conservation activities in data centre mainly concentrate on the air conditioning system since it is the major mechanical sub-system which consumes considerable share of the total power consumption of the data centre.The data centre energy matrix is best represented by power utilization efficiency(PUE),which is defined as the ratio of the total facility power to the IT equipment power.Its value will be greater than one and a large value of PUE indicates that the sub-systems draw more power from the facility and the performance of the data will be poor from the stand point of energy conservation. PUE values of 1.4 to 1.6 are acievable by proper design and management techniques.Optimizing the air conditioning systems brings enormous opportunity in bringing down the PUE value.The air conditioning system can be optimized by two approaches namely,thermal management and air flow management.thermal management systems are now introduced by some companies but they are highly sophisticated and costly and do not catch much attention in the thumb rules.
Resumo:
This is a Named Entity Based Question Answering System for Malayalam Language. Although a vast amount of information is available today in digital form, no effective information access mechanism exists to provide humans with convenient information access. Information Retrieval and Question Answering systems are the two mechanisms available now for information access. Information systems typically return a long list of documents in response to a user’s query which are to be skimmed by the user to determine whether they contain an answer. But a Question Answering System allows the user to state his/her information need as a natural language question and receives most appropriate answer in a word or a sentence or a paragraph. This system is based on Named Entity Tagging and Question Classification. Document tagging extracts useful information from the documents which will be used in finding the answer to the question. Question Classification extracts useful information from the question to determine the type of the question and the way in which the question is to be answered. Various Machine Learning methods are used to tag the documents. Rule-Based Approach is used for Question Classification. Malayalam belongs to the Dravidian family of languages and is one of the four major languages of this family. It is one of the 22 Scheduled Languages of India with official language status in the state of Kerala. It is spoken by 40 million people. Malayalam is a morphologically rich agglutinative language and relatively of free word order. Also Malayalam has a productive morphology that allows the creation of complex words which are often highly ambiguous. Document tagging tools such as Parts-of-Speech Tagger, Phrase Chunker, Named Entity Tagger, and Compound Word Splitter are developed as a part of this research work. No such tools were available for Malayalam language. Finite State Transducer, High Order Conditional Random Field, Artificial Immunity System Principles, and Support Vector Machines are the techniques used for the design of these document preprocessing tools. This research work describes how the Named Entity is used to represent the documents. Single sentence questions are used to test the system. Overall Precision and Recall obtained are 88.5% and 85.9% respectively. This work can be extended in several directions. The coverage of non-factoid questions can be increased and also it can be extended to include open domain applications. Reference Resolution and Word Sense Disambiguation techniques are suggested as the future enhancements
Resumo:
Development of new technologies in the field of library and information science especially in academic libraries has resulted in the need for library staff to be flexible in adopting new skills and levels of awareness. In addition to core technology skills, importance is to be given to other skills in communication, management, etc. This paper attempts to describe in brief the competencies and skills required for an academic library professional in the digital era .