879 resultados para Ontologies (Information Retrieval)
Resumo:
Este trabalho relata a experiência e os procedimentos adotados em um processo de análise e identificação dos títulos de periódicos recebidos pela Biblioteca do Instituto de Medicina Tropical de São Paulo da Universidade de São Paulo, desde sua criação. Para a coleta de dados foram utilizadas as informações dos registros bibliográficos no Módulo de Catalogação no Banco de Dados Bibliográficos – DEDALUS Aleph 500 Versão 18.1 da Universidade de São Paulo, seguindo alguns critérios pré-estabelecidos. Conclui-se que, apesar dos problemas detectados serem pouco relevantes em relação ao acervo analisado, deve-se manter um estudo comparativo entre a necessidade do usuário e a coleção disponível na Biblioteca, para que os periódicos atendam às necessidades de informação de seus usuários.
Resumo:
The need for a convergence between semi-structured data management and Information Retrieval techniques is manifest to the scientific community. In order to fulfil this growing request, W3C has recently proposed XQuery Full Text, an IR-oriented extension of XQuery. However, the issue of query optimization requires the study of important properties like query equivalence and containment; to this aim, a formal representation of document and queries is needed. The goal of this thesis is to establish such formal background. We define a data model for XML documents and propose an algebra able to represent most of XQuery Full-Text expressions. We show how an XQuery Full-Text expression can be translated into an algebraic expression and how an algebraic expression can be optimized.
Resumo:
L'informatica musicale è una disciplina in continua crescita che sta ottenendo risultati davvero interessanti con l'impiego di sistemi artificiali intelligenti, come le reti neuronali, che permettono di emulare capacità umane di ascolto e di esecuzione musicale. Di particolare interesse è l'ambito della codifica di informazioni musicali tramite formati simbolici, come il MIDI, che permette un'analisi di alto livello dei brani musicali e consente la realizzazione di applicazioni sorprendentemente innovative. Una delle più fruttifere applicazioni di questi nuovi strumenti di codifica riguarda la classificazione di file audio musicali. Questo elaborato si propone di esporre i fondamentali aspetti teorici che concernono la classificazione di brani musicali tramite reti neuronali artificiali e descrivere alcuni esperimenti di classificazione di file MIDI. La prima parte fornisce alcune conoscenze di base che permettono di leggere gli esperimenti presenti nella seconda sezione con una consapevolezza teorica più profonda. Il fine principale della prima parte è quello di sviluppare una comparazione da diversi punti di vista disciplinari tra le capacità di classificazione musicale umane e quelle artificiali. Si descrivono le reti neuronali artificiali come sistemi intelligenti ispirati alla struttura delle reti neurali biologiche, soffermandosi in particolare sulla rete Feedforward e sull'algoritmo di Backpropagation. Si esplora il concetto di percezione nell'ambito della psicologia cognitiva con maggiore attenzione alla percezione uditiva. Accennate le basi della psicoacustica, si passa ad una descrizione delle componenti strutturali prima del suono e poi della musica: la frequenza e l'ampiezza delle onde, le note e il timbro, l'armonia, la melodia ed il ritmo. Si parla anche delle illusioni sonore e della rielaborazione delle informazioni audio da parte del cervello umano. Si descrive poi l'ambito che interessa questa tesi da vicino: il MIR (Music Information Retrieval). Si analizzano i campi disciplinari a cui questa ricerca può portare vantaggi, ossia quelli commerciali, in cui i database musicali svolgono ruoli importanti, e quelli più speculativi ed accademici che studiano i comportamenti di sistemi intelligenti artificiali e biologici. Si descrivono i diversi metodi di classificazione musicale catalogabili in base al tipo di formato dei file audio in questione e al tipo di feature che si vogliono estrarre dai file stessi. Conclude la prima sezione di stampo teorico un capitolo dedicato al MIDI che racconta la storia del protocollo e ne descrive le istruzioni fondamentali nonchè la struttura dei midifile. La seconda parte ha come obbiettivo quello di descrivere gli esperimenti svolti che classificano file MIDI tramite reti neuronali mostrando nel dettaglio i risultati ottenuti e le difficoltà incontrate. Si coniuga una presentazione dei programmi utilizzati e degli eseguibili di interfaccia implementati con una descrizione generale della procedura degli esperimenti. L'obbiettivo comune di tutte le prove è l'addestramento di una rete neurale in modo che raggiunga il più alto livello possibile di apprendimento circa il riconoscimento di uno dei due compositori dei brani che le sono stati forniti come esempi.
Resumo:
Tesi interdisciplinare che coniuga due importanti ambiti della Matematica: il Calcolo Numerico e la Didattica della Matematica. Alcuni algoritmi utilizzati per il web information retrieval sono stati introdotti all'interno di due classi di scuola superiore avvalendosi del programma di calcolo Matlab.
Resumo:
Introduzione a tecniche di web semantico e realizzazione di un approccio in grado di ricreare un ambiente familiare di un qualsiasi motore di ricerca con funzionalità semantico-lessicali e possibilità di estrazione, in base ai risultati di ricerca, dei concetti e termini chiave che costituiranno i relativi gruppi di raccolta per i vari documenti con argomenti in comune.
Resumo:
Except the article forming the main content most HTML documents on the WWW contain additional contents such as navigation menus, design elements or commercial banners. In the context of several applications it is necessary to draw the distinction between main and additional content automatically. Content extraction and template detection are the two approaches to solve this task. This thesis gives an extensive overview of existing algorithms from both areas. It contributes an objective way to measure and evaluate the performance of content extraction algorithms under different aspects. These evaluation measures allow to draw the first objective comparison of existing extraction solutions. The newly introduced content code blurring algorithm overcomes several drawbacks of previous approaches and proves to be the best content extraction algorithm at the moment. An analysis of methods to cluster web documents according to their underlying templates is the third major contribution of this thesis. In combination with a localised crawling process this clustering analysis can be used to automatically create sets of training documents for template detection algorithms. As the whole process can be automated it allows to perform template detection on a single document, thereby combining the advantages of single and multi document algorithms.
Resumo:
In questo lavoro si introducono i concetti di base di Natural Language Processing, soffermandosi su Information Extraction e analizzandone gli ambiti applicativi, le attività principali e la differenza rispetto a Information Retrieval. Successivamente si analizza il processo di Named Entity Recognition, focalizzando l’attenzione sulle principali problematiche di annotazione di testi e sui metodi per la valutazione della qualità dell’estrazione di entità. Infine si fornisce una panoramica della piattaforma software open-source di language processing GATE/ANNIE, descrivendone l’architettura e i suoi componenti principali, con approfondimenti sugli strumenti che GATE offre per l'approccio rule-based a Named Entity Recognition.
Resumo:
The our reality is characterized by a constant progress and, to follow that, people need to stay up to date on the events. In a world with a lot of existing news, search for the ideal ones may be difficult, because the obstacles that make it arduous will be expanded more and more over time, due to the enrichment of data. In response, a great help is given by Information Retrieval, an interdisciplinary branch of computer science that deals with the management and the retrieval of the information. An IR system is developed to search for contents, contained in a reference dataset, considered relevant with respect to the need expressed by an interrogative query. To satisfy these ambitions, we must consider that most of the developed IR systems rely solely on textual similarity to identify relevant information, defining them as such when they include one or more keywords expressed by the query. The idea studied here is that this is not always sufficient, especially when it's necessary to manage large databases, as is the web. The existing solutions may generate low quality responses not allowing, to the users, a valid navigation through them. The intuition, to overcome these limitations, has been to define a new concept of relevance, to differently rank the results. So, the light was given to Temporal PageRank, a new proposal for the Web Information Retrieval that relies on a combination of several factors to increase the quality of research on the web. Temporal PageRank incorporates the advantages of a ranking algorithm, to prefer the information reported by web pages considered important by the context itself in which they reside, and the potential of techniques belonging to the world of the Temporal Information Retrieval, exploiting the temporal aspects of data, describing their chronological contexts. In this thesis, the new proposal is discussed, comparing its results with those achieved by the best known solutions, analyzing its strengths and its weaknesses.
Resumo:
It has long been known that trypanosomes regulate mitochondrial biogenesis during the life cycle of the parasite; however, the mitochondrial protein inventory (MitoCarta) and its regulation remain unknown. We present a novel computational method for genome-wide prediction of mitochondrial proteins using a support vector machine-based classifier with approximately 90% prediction accuracy. Using this method, we predicted the mitochondrial localization of 468 proteins with high confidence and have experimentally verified the localization of a subset of these proteins. We then applied a recently developed parallel sequencing technology to determine the expression profiles and the splicing patterns of a total of 1065 predicted MitoCarta transcripts during the development of the parasite, and showed that 435 of the transcripts significantly changed their expressions while 630 remain unchanged in any of the three life stages analyzed. Furthermore, we identified 298 alternatively splicing events, a small subset of which could lead to dual localization of the corresponding proteins.
Resumo:
A series of oligodeoxyribonucleotides and oligoribonucleotides containing single and multiple tricyclo(tc)-nucleosides in various arrangements were prepared and the thermal and thermodynamic transition profiles of duplexes with complementary DNA and RNA evaluated. Tc-residues aligned in a non-continuous fashion in an RNA strand significantly decrease affinity to complementary RNA and DNA, mostly as a consequence of a loss of pairing enthalpy DeltaH. Arranging the tc-residues in a continuous fashion rescues T(m) and leads to higher DNA and RNA affinity. Substitution of oligodeoxyribonucleotides in the same way causes much less differences in T(m) when paired to complementary DNA and leads to substantial increases in T(m) when paired to complementary RNA. CD-spectroscopic investigations in combination with molecular dynamics simulations of duplexes with single modifications show that tc-residues in the RNA backbone distinctly influence the conformation of the neighboring nucleotides forcing them into higher energy conformations, while tc-residues in the DNA backbone seem to have negligible influence on the nearest neighbor conformations. These results rationalize the observed affinity differences and are of relevance for the design of tc-DNA containing oligonucleotides for applications in antisense or RNAi therapy.
Resumo:
The synthesis of a caged RNA phosphoramidite building block containing the oxidatively damaged base 5-hydroxycytidine (5-HOrC) has been accomplished. To determine the effect of this highly mutagenic lesion on complementary base recognition and coding properties, this building block was incorporated into a 12-mer oligoribonucleotide for Tm and CD measurements and a 31-mer template strand for primer extension experiments with HIV-, AMV- and MMLV-reverse transcriptase (RT). In UV-melting experiments, we find an unusual biphasic transition with two distinct Tm's when 5-HOrC is paired against a DNA or RNA complement with the base guanine in opposing position. The higher Tm closely matches that of a C-G base pair while the lower is close to that of a C-A mismatch. In single nucleotide extension reactions, we find substantial misincorporation of dAMP and to a lesser extent dTMP, with dAMP almost equaling that of the parent dGMP in the case of HIV-RT. A working hypothesis for the biphasic melting transition does not invoke tautomeric variability of 5-HOrC but rather local structural perturbations of the base pair at low temperature induced by interactions of the 5-HO group with the phosphate backbone. The properties of this RNA damage is discussed in the context of its putative biological function.