924 resultados para Information Retrieval, Document Databases, Digital Libraries
Resumo:
This study presents a review of theories of the so-called post-industrial society, and proposes that the concept of post-industrial society can be used to understand the recent developments of the World Wide Web, often described as Web 2.0 or social Web. The study combines theories ranging from post-war management science and cultural studies to software development, and tries to build a holistic view of the development of the post-industrial society, and especially the Internet. The discourse on the emergence of a post-industrial society after the World Wars has addressed the ways in which the growing importance of information, and innovations in digital communications technology, are changing our society. It is furthermore deeply connected with the discourse on the postmodern society, which emphasizes cultural fragmentation, intertextuality, and pluralism. The Internet age is characterized by increasing masses of information that are managed through various technologies. While 1990s Internet technologies often used the network as a traditional broadcasting channel with added interactivity, Web 2.0 technologies are specifically designed to utilize the network model by facilitating communication between various services and devices, and analyzing the relationships between users and objects in order to produce intelligent insight. The wide adoption of the Internet, and recently of Internet-enabled mobile devices, is furthermore continuously producing new ways of communicating, consuming, and producing. Applications of the social Web, such as social media or social networking services, are permanently changing our traditional social, cultural, and economic practices. The study first presents an overview of the post-industrial society, the Internet, and the concept of Web 2.0. Then the concept of social Web is described with an analysis of the term social media, the brief histories of the interactive Web and social networking services, and a description of the concept ―long tail‖, used to represent the masses of information available in the Web that do not receive mainstream attention. Finally, methods for retrieving and filtering information, modeling social and cultural relationships, and communicating with customers, are presented.
Resumo:
Poster at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014
Resumo:
Presentation at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014
Resumo:
Biomedical natural language processing (BioNLP) is a subfield of natural language processing, an area of computational linguistics concerned with developing programs that work with natural language: written texts and speech. Biomedical relation extraction concerns the detection of semantic relations such as protein-protein interactions (PPI) from scientific texts. The aim is to enhance information retrieval by detecting relations between concepts, not just individual concepts as with a keyword search. In recent years, events have been proposed as a more detailed alternative for simple pairwise PPI relations. Events provide a systematic, structural representation for annotating the content of natural language texts. Events are characterized by annotated trigger words, directed and typed arguments and the ability to nest other events. For example, the sentence “Protein A causes protein B to bind protein C” can be annotated with the nested event structure CAUSE(A, BIND(B, C)). Converted to such formal representations, the information of natural language texts can be used by computational applications. Biomedical event annotations were introduced by the BioInfer and GENIA corpora, and event extraction was popularized by the BioNLP'09 Shared Task on Event Extraction. In this thesis we present a method for automated event extraction, implemented as the Turku Event Extraction System (TEES). A unified graph format is defined for representing event annotations and the problem of extracting complex event structures is decomposed into a number of independent classification tasks. These classification tasks are solved using SVM and RLS classifiers, utilizing rich feature representations built from full dependency parsing. Building on earlier work on pairwise relation extraction and using a generalized graph representation, the resulting TEES system is capable of detecting binary relations as well as complex event structures. We show that this event extraction system has good performance, reaching the first place in the BioNLP'09 Shared Task on Event Extraction. Subsequently, TEES has achieved several first ranks in the BioNLP'11 and BioNLP'13 Shared Tasks, as well as shown competitive performance in the binary relation Drug-Drug Interaction Extraction 2011 and 2013 shared tasks. The Turku Event Extraction System is published as a freely available open-source project, documenting the research in detail as well as making the method available for practical applications. In particular, in this thesis we describe the application of the event extraction method to PubMed-scale text mining, showing how the developed approach not only shows good performance, but is generalizable and applicable to large-scale real-world text mining projects. Finally, we discuss related literature, summarize the contributions of the work and present some thoughts on future directions for biomedical event extraction. This thesis includes and builds on six original research publications. The first of these introduces the analysis of dependency parses that leads to development of TEES. The entries in the three BioNLP Shared Tasks, as well as in the DDIExtraction 2011 task are covered in four publications, and the sixth one demonstrates the application of the system to PubMed-scale text mining.
Resumo:
Tutkimuksen tarkoituksena oli selvittää, millaista uraohjausta ammattikorkeakoulun tuutoriopettajat antavat ja millaista uraohjausta opiskelijat haluavat. Lisäksi tavoitteena oli selvittää, löytyykö opiskelijoiden koulutusalavalinnan perusteista yhteyttä uran suunnittelutaitoihin ja ohjauksen tarpeeseen, ja tunnistavatko tuutoriopettajat opiskelijoiden erilaiset uraohjauksen tarpeet. Tutkimuksen teoreettisissa rakenteissa hyödynnettiin kolmea postmodernia urateoriaa, jotka olivat Hodkinsonin ja Sparkesin (1997) uranvalinnan päätöksentekoteoria, Mitchellin, Lewinin ja Krumbolzin (1999) suunnitellun sattuman teoria ja Savickasin (2005) uran rakentamisteoria. Tutkimusympäristönä oli Satakunnan ammattikorkeakoulu. Tutkimus oli kaksivaiheinen. Ensimmäisessä vaiheessa kerättiin harkinnanvaraisesti valituilta tuutoriopettajilta (n=14) ja opintojensa eri vaiheissa olevilta opiskelijoilta (n=65) kirjoitettu aineisto. Kvalitatiivinen aineisto analysoitiin sisällönanalyysillä. Aineiston perusteella löydettiin kolmenlaisia urasuunnittelijoita: epävarmat, uteliaat ja tietoiset. Aineiston perusteella laadittiin kyselylomake tutkimuksen toisen vaiheen tiedonkeruuta varten. Tutkimuksen toisessa vaiheessa kerättiin opintojen eri vaiheissa olevilta opiskelijoilta kyselylomakekyselynä kvantitatiivinen aineisto (n=903), joka analysoitiin tilastollisin menetelmin. Koulutusalavalinnan perusteista elämäntilanne, alan mahdollisuudet, oma toive, kutsumus, aktiivinen tiedonhaku ja halu opiskella ammattikorkeakoulussa olivat yhteydessä opiskelijan hyvään urasuunnittelukykyyn. Näillä perusteilla koulutusalansa valinneita tietoisiksi luokiteltuja urasuunnittelijoita oli 72 % vastanneista. Alavalinnan perusteista sattuman, kavereiden, sukulaisten, lukion opinto-ohjauksen ja paikkakunnan perusteella koulutusalansa valinneet luokiteltiin epävarmoiksi urasuunnittelijoiksi, ja heitä oli 28 % vastanneista. Tulokset antavat ohjaajille tukea epävarman ja muita enemmän uraohjausta tarvitsevan opiskelijan tunnistamiseen ja heidän hops-prosessinsa tehostamiseen opintojen alusta asti. Lisäksi tulosten perusteella esitetään seuraavia suosituksia: tuutoriopettajille tulisi asettaa pätevyysvaatimukseksi ohjausalan opintojen suorittaminen; opiskelijoita tulisi ohjata tunnistamaan erilaisia satunnaisesti avautuvia mahdollisuuksia ja tietoisesti hyödyntämään niitä elämässään; uraohjaukseen tulisi kytkeä mukaan työelämäyhteistyö; ohjaajien tulisi tiivistää yhteistyötä toisen asteen ohjaajien kanssa, jotta opiskelijoiden koulutusalavalinnat onnistuisivat paremmin; uraohjausta tulisi antaa tulevaisuuden kvalifikaatioiden ennakoinnin ja elinikäisten oppimisvalmiuksien näkökulmasta.
Resumo:
Context: Web services have been gaining popularity due to the success of service oriented architecture and cloud computing. Web services offer tremendous opportunity for service developers to publish their services and applications over the boundaries of the organization or company. However, to fully exploit these opportunities it is necessary to find efficient discovery mechanism thus, Web services discovering mechanism has attracted a considerable attention in Semantic Web research, however, there have been no literature surveys that systematically map the present research result thus overall impact of these research efforts and level of maturity of their results are still unclear. This thesis aims at providing an overview of the current state of research into Web services discovering mechanism using systematic mapping. The work is based on the papers published 2004 to 2013, and attempts to elaborate various aspects of the analyzed literature including classifying them in terms of the architecture, frameworks and methods used for web services discovery mechanism. Objective: The objective if this work is to summarize the current knowledge that is available as regards to Web service discovery mechanisms as well as to systematically identify and analyze the current published research works in order to identify different approaches presented. Method: A systematic mapping study has been employed to assess the various Web Services discovery approaches presented in the literature. Systematic mapping studies are useful for categorizing and summarizing the level of maturity research area. Results: The result indicates that there are numerous approaches that are consistently being researched and published in this field. In terms of where these researches are published, conferences are major contributing publishing arena as 48% of the selected papers were conference published papers illustrating the level of maturity of the research topic. Additionally selected 52 papers are categorized into two broad segments namely functional and non-functional based approaches taking into consideration architectural aspects and information retrieval approaches, semantic matching, syntactic matching, behavior based matching as well as QOS and other constraints.
Resumo:
Advancements in information technology have made it possible for organizations to gather and store vast amounts of data of their customers. Information stored in databases can be highly valuable for organizations. However, analyzing large databases has proven to be difficult in practice. For companies in the retail industry, customer intelligence can be used to identify profitable customers, their characteristics, and behavior. By clustering customers into homogeneous groups, companies can more effectively manage their customer base and target profitable customer segments. This thesis will study the use of the self-organizing map (SOM) as a method for analyzing large customer datasets, clustering customers, and discovering information about customer behavior. Aim of the thesis is to find out whether the SOM could be a practical tool for retail companies to analyze their customer data.
Resumo:
Un atout majeur des organisations consiste en leur capacité à créer et exploiter l’information et les connaissances, capacité déterminée entre autres par les comportements informationnels. Chargés de décisions stratégiques, tactiques et opérationnelles, les cadres intermédiaires sont au cœur du processus de création des connaissances, et leurs comportements informationnels doivent être soutenus par des systèmes d’information. Toutefois, leurs comportements informationnels sont peu documentés. La présente recherche porte sur la modélisation des comportements informationnels de cadres intermédiaires d’une organisation municipale. Plus spécifiquement, elle examine comment ces cadres répondent à leurs besoins d’information courante dans le contexte de leurs activités de gestion, c’est-à-dire dans leur environnement d’utilisation d’information. L’étude répond aux questions de recherche suivantes : (1) Quelles sont les situations problématiques auxquelles font face les cadres intermédiaires municipaux ? (2) Quels sont les besoins informationnels exprimés par les cadres intermédiaires municipaux lors de situations problématiques ? (3) Quelles sont les sources d’information qui soutiennent les comportements informationnels des cadres intermédiaires municipaux ? Cette recherche descriptive s’inscrit dans une approche qualitative. Les 21 cadres intermédiaires ayant participé à l’étude proviennent de deux arrondissements d’une municipalité québécoise fusionnée en 2002. Les modes de collecte de données sont l’entrevue en profondeur en personne et l’observation directe auprès de ces cadres, et la collecte de documentation pertinente. L’incident critique est utilisé comme technique de collecte de données et comme unité d’analyse. Les données recueillies font l’objet d’une analyse de contenu qualitative basée sur la théorisation ancrée. Les résultats indiquent que les rôles de gestion proposés dans les écrits pour les cadres supérieurs s’appliquent aussi aux cadres intermédiaires, bien que le rôle conseil ressorte comme étant particulier à ces derniers. Ceux-ci ont des responsabilités de gestion aux trois niveaux d’intervention opérationnel, tactique et stratégique, bien qu’ils œuvrent davantage au plan tactique. Les situations problématiques dont ils sont chargés s’inscrivent dans l’environnement d’utilisation d’information constitué des composantes suivantes : leurs rôles et responsabilités de gestion et le contexte organisationnel propre à une municipalité en transformation. Les cadres intermédiaires ont eu à traiter davantage de situations nouvelles que récurrentes, caractérisées par des sujets portant principalement sur les ressources matérielles et immobilières ou sur des aspects d’intérêt juridique, réglementaire et normatif. Ils ont surtout manifesté des besoins pour de l’information de nature processuelle et contextuelle. Pour y répondre, ils ont consulté davantage de sources verbales que documentaires, même si le nombre de ces dernières reste élevé, et ont préféré utiliser des sources d’information internes. Au plan théorique, le modèle de comportement informationnel proposé pour les cadres intermédiaires municipaux enrichit les principales composantes du modèle général d’utilisation de l’information (Choo, 1998) et du modèle d’environnement d’utilisation d’information (Taylor, 1986, 1991). L’étude permet aussi de préciser les concepts d’« utilisateur » et d’« utilisation de l’information ». Au plan pratique, la recherche permet d’aider à la conception de systèmes de repérage d’information adaptés aux besoins des cadres intermédiaires municipaux, et aide à évaluer l’apport des systèmes d’information archivistiques à la gestion de la mémoire organisationnelle.
Resumo:
On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante.
Resumo:
Ce mémoire est composé de trois articles qui s’unissent sous le thème de la recommandation musicale à grande échelle. Nous présentons d’abord une méthode pour effectuer des recommandations musicales en récoltant des étiquettes (tags) décrivant les items et en utilisant cette aura textuelle pour déterminer leur similarité. En plus d’effectuer des recommandations qui sont transparentes et personnalisables, notre méthode, basée sur le contenu, n’est pas victime des problèmes dont souffrent les systèmes de filtrage collaboratif, comme le problème du démarrage à froid (cold start problem). Nous présentons ensuite un algorithme d’apprentissage automatique qui applique des étiquettes à des chansons à partir d’attributs extraits de leur fichier audio. L’ensemble de données que nous utilisons est construit à partir d’une très grande quantité de données sociales provenant du site Last.fm. Nous présentons finalement un algorithme de génération automatique de liste d’écoute personnalisable qui apprend un espace de similarité musical à partir d’attributs audio extraits de chansons jouées dans des listes d’écoute de stations de radio commerciale. En plus d’utiliser cet espace de similarité, notre système prend aussi en compte un nuage d’étiquettes que l’utilisateur est en mesure de manipuler, ce qui lui permet de décrire de manière abstraite la sorte de musique qu’il désire écouter.
Resumo:
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.
Who influence the music tastes of adolescents? A study on interpersonal influence in social networks
Resumo:
Research on music information behavior demonstrates that people rely primarily on others to discover new music. This paper reports on a qualitative study aiming at exploring more in-depth how music information circulates within the social networks of late adolescents and the role the different people involved in the process play. In-depth interviews were conducted with 19 adolescents (15-17 years old). The analysis revealed that music opinion leaders showed eagerness to share music information, tended to seek music information on an ongoing basis, and were perceived as being more knowledgeable than others in music. It was found that the ties that connected participants to opinion leaders were predominantly strong ties, which suggests that trustworthiness is an important component of credibility. These findings could potentially help identify new avenues for the improvement of music recommender systems.
Resumo:
Cet article met en lumière la perspective européenne sur un des plus importants défis que l’Internet et le Web 2.0 présente pour la vie privée et le droit à la protection des données. L’auteur y soulève des problématiques liées à la mémoire numérique et distingue à partir de plusieurs cas où les individus seraient intéressés de réclamer l'oubli tant dans les réseaux sociaux, les journaux officiels des gouvernements et dans les bibliothèques médiatiques numériques. Il trace l’histoire de l’identification du droit à l’oubli dont les fondements ont été définis par les agences françaises, italiennes et espagnoles de protection des données. En conclusion, il pose son regard sur un nouveau cadre européen de la protection des données comprenant le droit individuel à voir leurs données supprimées lorsqu’elles ne sont plus nécessaires à des fins légitimes.
Resumo:
Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.
Resumo:
Les ARN non codants (ARNnc) sont des transcrits d'ARN qui ne sont pas traduits en protéines et qui pourtant ont des fonctions clés et variées dans la cellule telles que la régulation des gènes, la transcription et la traduction. Parmi les nombreuses catégories d'ARNnc qui ont été découvertes, on trouve des ARN bien connus tels que les ARN ribosomiques (ARNr), les ARN de transfert (ARNt), les snoARN et les microARN (miARN). Les fonctions des ARNnc sont étroitement liées à leurs structures d’où l’importance de développer des outils de prédiction de structure et des méthodes de recherche de nouveaux ARNnc. Les progrès technologiques ont mis à la disposition des chercheurs des informations abondantes sur les séquences d'ARN. Ces informations sont accessibles dans des bases de données telles que Rfam, qui fournit des alignements et des informations structurelles sur de nombreuses familles d'ARNnc. Dans ce travail, nous avons récupéré toutes les séquences des structures secondaires annotées dans Rfam, telles que les boucles en épingle à cheveux, les boucles internes, les renflements « bulge », etc. dans toutes les familles d'ARNnc. Une base de données locale, RNAstem, a été créée pour faciliter la manipulation et la compilation des données sur les motifs de structure secondaire. Nous avons analysé toutes les boucles terminales et internes ainsi que les « bulges » et nous avons calculé un score d’abondance qui nous a permis d’étudier la fréquence de ces motifs. Tout en minimisant le biais de la surreprésentation de certaines classes d’ARN telles que l’ARN ribosomal, l’analyse des scores a permis de caractériser les motifs rares pour chacune des catégories d’ARN en plus de confirmer des motifs communs comme les boucles de type GNRA ou UNCG. Nous avons identifié des motifs abondants qui n’ont pas été étudiés auparavant tels que la « tetraloop » UUUU. En analysant le contenu de ces motifs en nucléotides, nous avons remarqué que ces régions simples brins contiennent beaucoup plus de nucléotides A et U. Enfin, nous avons exploré la possibilité d’utiliser ces scores pour la conception d’un filtre qui permettrait d’accélérer la recherche de nouveaux ARN non-codants. Nous avons développé un système de scores, RNAscore, qui permet d’évaluer un ARN en se basant sur son contenu en motifs et nous avons testé son applicabilité avec différents types de contrôles.