894 resultados para Query expansion, Text mining, Information retrieval, Chinese IR
Resumo:
XML similarity evaluation has become a central issue in the database and information communities, its applications ranging over document clustering, version control, data integration and ranked retrieval. Various algorithms for comparing hierarchically structured data, XML documents in particular, have been proposed in the literature. Most of them make use of techniques for finding the edit distance between tree structures, XML documents being commonly modeled as Ordered Labeled Trees. Yet, a thorough investigation of current approaches led us to identify several similarity aspects, i.e., sub-tree related structural and semantic similarities, which are not sufficiently addressed while comparing XML documents. In this paper, we provide an integrated and fine-grained comparison framework to deal with both structural and semantic similarities in XML documents (detecting the occurrences and repetitions of structurally and semantically similar sub-trees), and to allow the end-user to adjust the comparison process according to her requirements. Our framework consists of four main modules for (i) discovering the structural commonalities between sub-trees, (ii) identifying sub-tree semantic resemblances, (iii) computing tree-based edit operations costs, and (iv) computing tree edit distance. Experimental results demonstrate higher comparison accuracy with respect to alternative methods, while timing experiments reflect the impact of semantic similarity on overall system performance.
Resumo:
The automatic disambiguation of word senses (i.e., the identification of which of the meanings is used in a given context for a word that has multiple meanings) is essential for such applications as machine translation and information retrieval, and represents a key step for developing the so-called Semantic Web. Humans disambiguate words in a straightforward fashion, but this does not apply to computers. In this paper we address the problem of Word Sense Disambiguation (WSD) by treating texts as complex networks, and show that word senses can be distinguished upon characterizing the local structure around ambiguous words. Our goal was not to obtain the best possible disambiguation system, but we nevertheless found that in half of the cases our approach outperforms traditional shallow methods. We show that the hierarchical connectivity and clustering of words are usually the most relevant features for WSD. The results reported here shed light on the relationship between semantic and structural parameters of complex networks. They also indicate that when combined with traditional techniques the complex network approach may be useful to enhance the discrimination of senses in large texts. Copyright (C) EPLA, 2012
Resumo:
Este trabalho relata a experiência e os procedimentos adotados em um processo de análise e identificação dos títulos de periódicos recebidos pela Biblioteca do Instituto de Medicina Tropical de São Paulo da Universidade de São Paulo, desde sua criação. Para a coleta de dados foram utilizadas as informações dos registros bibliográficos no Módulo de Catalogação no Banco de Dados Bibliográficos – DEDALUS Aleph 500 Versão 18.1 da Universidade de São Paulo, seguindo alguns critérios pré-estabelecidos. Conclui-se que, apesar dos problemas detectados serem pouco relevantes em relação ao acervo analisado, deve-se manter um estudo comparativo entre a necessidade do usuário e a coleção disponível na Biblioteca, para que os periódicos atendam às necessidades de informação de seus usuários.
Resumo:
O artigo apresenta uma análise da operacionalidade das Folksonomias e a possibilidade de aplicação dessa ferramenta nos sistemas de organização da informação da área de Ciência da Informação. Para tanto foi realizada uma análise de coerência de tags e dos recursos disponíveis para etiquetagem em dois websites, a Last.fm e o CiteULike. Por meio dessa análise constatou-se que em ambos os websites ocorreram incoerências e discrepâncias nas tags utilizadas. Todavia, o sistema da Last.fm demonstrou-se mais funcional que o do CiteULike obtendo um desempenho melhor. Por fim, sugere-se a junção das Folksonomias às Ontologias, que permitiriam a criação de sistemas automatizados de organização de conteúdos informacionais alimentados pelos próprios usuários
Resumo:
[ES]Desarrollo de una aplicación Android con un diseño de interfaz de usuario para smartphones y otro para tabletas cuya finalidad es mostrar información acerca del verbo introducido por el usuario. Por un lado, sería la visualización de todas las formas verbales que posee el verbo, las cuáles son obtenidas de una serie de servicios remotos pertenecientes al grupo TIP (Text & Information Processing) y que deberán ser tratadas antes de ser visualizadas. Y, por otro lado, la información que nos permitirá identificar al verbo, las definiciones de sus posibles significados y notas asociadas a la forma de conjugarse. Esta información, en cambio, se obtendrá de una serie de servicios locales en la propia aplicación basado en ficheros de texto.
Resumo:
L'informatica musicale è una disciplina in continua crescita che sta ottenendo risultati davvero interessanti con l'impiego di sistemi artificiali intelligenti, come le reti neuronali, che permettono di emulare capacità umane di ascolto e di esecuzione musicale. Di particolare interesse è l'ambito della codifica di informazioni musicali tramite formati simbolici, come il MIDI, che permette un'analisi di alto livello dei brani musicali e consente la realizzazione di applicazioni sorprendentemente innovative. Una delle più fruttifere applicazioni di questi nuovi strumenti di codifica riguarda la classificazione di file audio musicali. Questo elaborato si propone di esporre i fondamentali aspetti teorici che concernono la classificazione di brani musicali tramite reti neuronali artificiali e descrivere alcuni esperimenti di classificazione di file MIDI. La prima parte fornisce alcune conoscenze di base che permettono di leggere gli esperimenti presenti nella seconda sezione con una consapevolezza teorica più profonda. Il fine principale della prima parte è quello di sviluppare una comparazione da diversi punti di vista disciplinari tra le capacità di classificazione musicale umane e quelle artificiali. Si descrivono le reti neuronali artificiali come sistemi intelligenti ispirati alla struttura delle reti neurali biologiche, soffermandosi in particolare sulla rete Feedforward e sull'algoritmo di Backpropagation. Si esplora il concetto di percezione nell'ambito della psicologia cognitiva con maggiore attenzione alla percezione uditiva. Accennate le basi della psicoacustica, si passa ad una descrizione delle componenti strutturali prima del suono e poi della musica: la frequenza e l'ampiezza delle onde, le note e il timbro, l'armonia, la melodia ed il ritmo. Si parla anche delle illusioni sonore e della rielaborazione delle informazioni audio da parte del cervello umano. Si descrive poi l'ambito che interessa questa tesi da vicino: il MIR (Music Information Retrieval). Si analizzano i campi disciplinari a cui questa ricerca può portare vantaggi, ossia quelli commerciali, in cui i database musicali svolgono ruoli importanti, e quelli più speculativi ed accademici che studiano i comportamenti di sistemi intelligenti artificiali e biologici. Si descrivono i diversi metodi di classificazione musicale catalogabili in base al tipo di formato dei file audio in questione e al tipo di feature che si vogliono estrarre dai file stessi. Conclude la prima sezione di stampo teorico un capitolo dedicato al MIDI che racconta la storia del protocollo e ne descrive le istruzioni fondamentali nonchè la struttura dei midifile. La seconda parte ha come obbiettivo quello di descrivere gli esperimenti svolti che classificano file MIDI tramite reti neuronali mostrando nel dettaglio i risultati ottenuti e le difficoltà incontrate. Si coniuga una presentazione dei programmi utilizzati e degli eseguibili di interfaccia implementati con una descrizione generale della procedura degli esperimenti. L'obbiettivo comune di tutte le prove è l'addestramento di una rete neurale in modo che raggiunga il più alto livello possibile di apprendimento circa il riconoscimento di uno dei due compositori dei brani che le sono stati forniti come esempi.
Resumo:
Tesi interdisciplinare che coniuga due importanti ambiti della Matematica: il Calcolo Numerico e la Didattica della Matematica. Alcuni algoritmi utilizzati per il web information retrieval sono stati introdotti all'interno di due classi di scuola superiore avvalendosi del programma di calcolo Matlab.
Resumo:
Introduzione a tecniche di web semantico e realizzazione di un approccio in grado di ricreare un ambiente familiare di un qualsiasi motore di ricerca con funzionalità semantico-lessicali e possibilità di estrazione, in base ai risultati di ricerca, dei concetti e termini chiave che costituiranno i relativi gruppi di raccolta per i vari documenti con argomenti in comune.
Resumo:
Obiettivo di questa tesi dal titolo “Analisi di tecniche per l’estrazione di informazioni da documenti testuali e non strutturati” è quello di mostrare tecniche e metodologie informatiche che permettano di ricavare informazioni e conoscenza da dati in formato testuale. Gli argomenti trattati includono l'analisi di software per l'estrazione di informazioni, il web semantico, l'importanza dei dati e in particolare i Big Data, Open Data e Linked Data. Si parlerà inoltre di data mining e text mining.
Resumo:
In questo lavoro si introducono i concetti di base di Natural Language Processing, soffermandosi su Information Extraction e analizzandone gli ambiti applicativi, le attività principali e la differenza rispetto a Information Retrieval. Successivamente si analizza il processo di Named Entity Recognition, focalizzando l’attenzione sulle principali problematiche di annotazione di testi e sui metodi per la valutazione della qualità dell’estrazione di entità. Infine si fornisce una panoramica della piattaforma software open-source di language processing GATE/ANNIE, descrivendone l’architettura e i suoi componenti principali, con approfondimenti sugli strumenti che GATE offre per l'approccio rule-based a Named Entity Recognition.
Resumo:
Questa tesi riguarda lo sviluppo di un'applicazione che sfrutta le tecnologie del Web Semantico e del Text Mining. L'applicazione rappresenta l'estensione di un lavoro relativo ad una tesi precedente, aggiungendo ad esso la funzionalità di ricerca semantica. Tale funzionalità permette il recupero di informazioni che con il metodo di ricerca normale non verrebbero considerate. Per raggiungere questo risultato si utilizza WordNet, un database semantico-lessicale, e una libreria per la Latent Semantic Analysis, una tecnica del Text Mining.
Resumo:
Negli ultimi anni i documenti web hanno attratto molta attenzione, poiché vengono visti come un nuovo mezzo che porta quello che sono le esperienze ed opinioni di un individuo da una parte all'altra del mondo, raggiungendo quindi persone che mai si incontreranno. Ed è proprio con la proliferazione del Web 2.0 che l’attenzione è stata incentrata sul contenuto generato dagli utenti della rete, i quali hanno a disposizione diverse piattaforme sulle quali condividere i loro pensieri, opinioni o andare a cercarne di altrui, magari per valutare l’acquisto di uno smartphone piuttosto che un altro o se valutare l’opzione di cambiare operatore telefonico, ponderando quali potrebbero essere gli svantaggi o i vantaggi che otterrebbe modificando la sia situazione attuale. Questa grande disponibilità di informazioni è molto preziosa per i singoli individui e le organizzazioni, che devono però scontrarsi con la grande difficoltà di trovare le fonti di tali opinioni, estrapolarle ed esprimerle in un formato standard. Queste operazioni risulterebbero quasi impossibili da eseguire a mano, per questo è nato il bisogno di automatizzare tali procedimenti, e la Sentiment Analysis è la risposta a questi bisogni. Sentiment analysis (o Opinion Mining, come è chiamata a volte) è uno dei tanti campi di studio computazionali che affronta il tema dell’elaborazione del linguaggio naturale orientato all'estrapolazione delle opinioni. Negli ultimi anni si è rilevato essere uno dei nuovi campi di tendenza nel settore dei social media, con una serie di applicazioni nel campo economico, politico e sociale. Questa tesi ha come obiettivo quello di fornire uno sguardo su quello che è lo stato di questo campo di studio, con presentazione di metodi e tecniche e di applicazioni di esse in alcuni studi eseguiti in questi anni.