924 resultados para PDF,estrazione,Linked Open Data,dataset RDF


Relevância:

100.00% 100.00%

Publicador:

Resumo:

La tesi ha lo scopo di introdurre Investiga, un'applicazione per l'estrazione automatica di informazioni da articoli scientifici in formato PDF e pubblicazione di queste informazioni secondo i principi e i formati Linked Open Data, creata per la tesi. Questa applicazione è basata sul Task 2 della SemPub 2016, una challenge che ha come scopo principale quello di migliorare l'estrazione di informazioni da articoli scientifici in formato PDF. Investiga estrae i capitoli di primo livello, le didascalie delle figure e delle tabelle da un dato articolo e crea un grafo delle informazioni così estratte collegate adeguatamente tra loro. La tesi inoltre analizza gli strumenti esistenti per l'estrazione automatica di informazioni da documenti PDF e dei loro limiti.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L'Open Data, letteralmente “dati aperti”, è la corrente di pensiero (e il relativo “movimento”) che cerca di rispondere all'esigenza di poter disporre di dati legalmente “aperti”, ovvero liberamente re-usabili da parte del fruitore, per qualsiasi scopo. L’obiettivo dell’Open Data può essere raggiunto per legge, come negli USA dove l’informazione generata dal settore pubblico federale è in pubblico dominio, oppure per scelta dei detentori dei diritti, tramite opportune licenze. Per motivare la necessità di avere dei dati in formato aperto, possiamo usare una comparazione del tipo: l'Open Data sta al Linked Data, come la rete Internet sta al Web. L'Open Data, quindi, è l’infrastruttura (o la “piattaforma”) di cui il Linked Data ha bisogno per poter creare la rete di inferenze tra i vari dati sparsi nel Web. Il Linked Data, in altre parole, è una tecnologia ormai abbastanza matura e con grandi potenzialità, ma ha bisogno di grandi masse di dati tra loro collegati, ossia “linkati”, per diventare concretamente utile. Questo, in parte, è già stato ottenuto ed è in corso di miglioramento, grazie a progetti come DBpedia o FreeBase. In parallelo ai contributi delle community online, un altro tassello importante – una sorta di “bulk upload” molto prezioso – potrebbe essere dato dalla disponibilità di grosse masse di dati pubblici, idealmente anche già linkati dalle istituzioni stesse o comunque messi a disposizione in modo strutturato – che aiutino a raggiungere una “massa” di Linked Data. A partire dal substrato, rappresentato dalla disponibilità di fatto dei dati e dalla loro piena riutilizzabilità (in modo legale), il Linked Data può offrire una potente rappresentazione degli stessi, in termini di relazioni (collegamenti): in questo senso, Linked Data ed Open Data convergono e raggiungono la loro piena realizzazione nell’approccio Linked Open Data. L’obiettivo di questa tesi è quello di approfondire ed esporre le basi sul funzionamento dei Linked Open Data e gli ambiti in cui vengono utilizzati.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Studio ed analisi delle principali tecniche in ambito di Social Data Analysis. Progettazione e Realizzazione di una soluzione software implementata con linguaggio Java in ambiente Eclipse. Il software realizzato permette di integrare differenti servizi di API REST, per l'estrazione di dati sociali da Twitter, la loro memorizzazione in un database non-relazionale (realizzato con MongoDB), e la loro gestione. Inoltre permette di effettuare operazioni di classificazione di topic, e di analizzare dati complessivi sulle collection di dati estratti. Infine permette di visualizzare un albero delle "ricondivisioni", partendo da singoli tweet selezionati, ed una mappa geo-localizzata, contenente gli utenti coinvolti nella catena di ricondivisioni, e i relativi archi di "retweet".

Relevância:

100.00% 100.00%

Publicador:

Resumo:

As the number of data sources publishing their data on the Web of Data is growing, we are experiencing an immense growth of the Linked Open Data cloud. The lack of control on the published sources, which could be untrustworthy or unreliable, along with their dynamic nature that often invalidates links and causes conflicts or other discrepancies, could lead to poor quality data. In order to judge data quality, a number of quality indicators have been proposed, coupled with quality metrics that quantify the “quality level” of a dataset. In addition to the above, some approaches address how to improve the quality of the datasets through a repair process that focuses on how to correct invalidities caused by constraint violations by either removing or adding triples. In this paper we argue that provenance is a critical factor that should be taken into account during repairs to ensure that the most reliable data is kept. Based on this idea, we propose quality metrics that take into account provenance and evaluate their applicability as repair guidelines in a particular data fusion setting.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A Internet possui inúmeros tipos de documentos e é uma influente fonte de informação.O conteúdo Web é projetado para os seres humanos interpretarem e não para as máquinas.Os sistemas de busca tradicionais são imprecisos na recuperação de informações. Ogoverno utiliza e disponibiliza documentos na Web para que os cidadãos e seus própriossetores organizacionais os utilizem, porém carece de ferramentas que apoiem na tarefa darecuperação desses documentos. Como exemplo, podemos citar a Plataforma de CurrículosLattes administrada pelo Cnpq.A Web semântica possui a finalidade de otimizar a recuperação dos documentos, ondeesses recebem significados, permitindo que tanto as pessoas quanto as máquinas possamcompreender o significado de uma informação. A falta de semântica em nossos documentos,resultam em pesquisas ineficazes, com informações divergentes e ambíguas. Aanotação semântica é o caminho para promover a semântica em documentos.O objetivo da dissertação é montar um arcabouço com os conceitos da Web Semânticaque possibilite anotar automaticamente o Currículo Lattes por meio de bases de dadosabertas (Linked Open Data), as quais armazenam o significado de termos e expressões.O problema da pesquisa está baseado em saber quais são os conceitos associados à WebSemântica que podem contribuir para a Anotação Semântica Automática do CurrículoLattes utilizando o Linked Open Data (LOD)?Na Revisão Sistemática da Literatura foi apresentado conceitos (anotação manual, automática,semi-automática, anotação intrusiva...), ferramentas (Extrator de Entidade...)e tecnologias (RDF, RDFa, SPARQL..) relativas ao tema. A aplicação desses conceitosoportunizou a criação do Sistema Lattes Web Semântico. O sistema possibilita a importaçãodo currículo XML da Plataforma Lattes, efetua a anotação automática dos dadosdisponibilizados utilizando as bases de dados abertas e possibilita efetuar consultas semânticas.A validação do sistema é realizada com a apresentação de currículos anotados e a realizaçãode consultas utilizando dados externos pertencentes ao LOD. Por fim é apresentado asconclusões, dificuldades encontradas e proposta de trabalhos futuros.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Das Thema Linked Open Data hat in den vergangenen Jahren im Bereich der Bibliotheken viel Aufmerksamkeit erfahren. Unterschiedlichste Projekte werden von Bibliotheken betrieben, um Linked Open Data für die Einrichtung und die Kunden nutzbringend einzusetzen. Ausgangspunkt für diese Arbeit ist die These, dass Linked Open Data im Bibliotheksbereich das größte Potenzial freisetzen kann. Es wird überprüft, inwiefern diese Aussage auch auf Öffentliche Bibliotheken zutrifft und aufgezeigt, welche Möglichkeiten sich daraus ergeben könnten. Die Arbeit führt in die Grundlagen von Linked Open Data (LOD) ein und betrachtet die Entwicklungen im Bibliotheksbereich. Dabei werden besonders Initiativen zur Behandlung bibliothekarischer Metadaten und der aktuelle Entwicklungsstand von LOD-fähigen Bibliothekssystemen behandelt. Danach wird eine Auswahl an LOD-Datensets vorgestellt, die bibliothekarische Metadaten liefern oder deren Daten als Anreicherungsinformationen in Kataloganwendungen eingesetzt werden können. Im Anschluss wird das Projekt OpenCat der Öffentlichen Bibliothek Fresnes (Frankreich) sowie das LOD-Projekt an der Deichmanske Bibliothek Oslo (Norwegen) vorgestellt. Darauf folgt ein Einblick in die Möglichkeiten, welche durch die Verwendung von LOD in Öffentlichen Bibliotheken verwirklicht werden könnten sowie erste Handlungsempfehlungen für Öffentliche Bibliotheken.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il documento presenta il caso dell'archivio fotografico della Fondazione Zeri come caso reale di conversione di un catalogo ricco di informazioni ma povero di interconnessioni nel dominio dei Linked Open Data, basandosi sull'ontologia CIDOC-CRM per il cultural heritage.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In questo elaborato viene presentata Semantic City Guide, un'applicazione mobile di guida turistica basata su Linked Open Data. Si vogliono presentare i principali vantaggi e svantaggi derivati dall'interazione tra sviluppo nativo di applicazioni mobili e tecnologie del Semantic Web. Il tutto verrà contestualizzato esaminando alcuni progetti di aziende ed enti statali operativi nel settore turistico e dell'informatica.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Lo scopo di questo elaborato è di analizzare e progettare un sistema in grado di supportare la definizione dei dati nel formato utilizzato per definire in modo formale la semantica dei dati, ma soprattutto nella complessa e innovativa attività di link discovery. Una attività molto potente che, tramite gli strumenti e le regole del Web Semantico (chiamato anche Web of Data), permette data una base di conoscenza sorgente ed altre basi di conoscenza esterne e distribuite nel Web, di interconnettere i dati della base di conoscenza sorgente a quelli esterni sulla base di complessi algoritmi di interlinking. Questi algoritmi fanno si che i concetti espressi sulla base di dati sorgente ed esterne vengano interconnessi esprimendo la semantica del collegamento ed in base a dei complessi criteri di confronto definiti nel suddetto algoritmo. Tramite questa attività si è in grado quindi di aumentare notevolmente la conoscenza della base di conoscenza sorgente, se poi tutte le basi di conoscenza presenti nel Web of Data seguissero questo procedimento, la conoscenza definita aumenterebbe fino a livelli che sono limitati solo dalla immensa vastità del Web, dando una potenza di elaborazione dei dati senza eguali. Per mezzo di questo sistema si ha l’ambizioso obiettivo di fornire uno strumento che permetta di aumentare sensibilmente la presenza dei Linked Open Data principalmente sul territorio nazionale ma anche su quello internazionale, a supporto di enti pubblici e privati che tramite questo sistema hanno la possibilità di aprire nuovi scenari di business e di utilizzo dei dati, dando una potenza al dato che attualmente è solo immaginabile.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Le Associazioni Non Profit giocano un ruolo sempre più rilevante nella vita dei cittadini e rappresentano un'importante realtà produttiva del nostro paese; molto spesso però risulta difficile trovare informazioni relative ad eventi, attività o sull'esistenza stessa di queste associazioni. Per venire in contro alle esigenze dei cittadini molte Regioni e Province mettono a disposizione degli elenchi in cui sono raccolte le informazioni relative alle varie organizzazioni che operano sul territorio. Questi elenchi però, presentano spesso grossi problemi, sia per quanto riguarda la correttezza dei dati, sia per i formati utilizzati per la pubblicazione. Questi fattori hanno portato all'idea e alla necessità di realizzare un sistema per raccogliere, sistematizzare e rendere fruibili le informazioni sulle Associazioni Non Profit presenti sul territorio, in modo che questi dati possano essere utilizzati liberamente da chiunque per scopi diversi. Il presente lavoro si pone quindi due obiettivi principali: il primo consiste nell'implementazione di un tool in grado di recuperare le informazioni sulle Associazioni Non Profit sfruttando i loro Siti Web; questo avviene per mezzo dell'utilizzo di tecniche di Web Crawling e Web Scraping. Il secondo obiettivo consiste nel pubblicare le informazioni raccolte, secondo dei modelli che ne permettano un uso libero e non vincolato; per la pubblicazione e la strutturazione dei dati è stato utilizzato un modello basato sui principi dei linked open data.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La pubblicazione si incentra sulla descrizione di un programma generico di disambiguazione di IRI e letterali, in Linked Open Data, fortemente configurabile, quindi applicabile in più contesti. CALID è la sigla di "Customizable Application for Literal and IRI's Disambiguation". Esso è stato creato per risolvere la disambiguazione degli autori di pubblicazioni scientifiche, e in questo articolo viene descritta la parte progettuale, il modo in cui si utilizza e i valori di performance e precisione ottenuti testandolo su diversi datasets.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The Linked Data initiative offers a straight method to publish structured data in the World Wide Web and link it to other data, resulting in a world wide network of semantically codified data known as the Linked Open Data cloud. The size of the Linked Open Data cloud, i.e. the amount of data published using Linked Data principles, is growing exponentially, including life sciences data. However, key information for biological research is still missing in the Linked Open Data cloud. For example, the relation between orthologs genes and genetic diseases is absent, even though such information can be used for hypothesis generation regarding human diseases. The OGOLOD system, an extension of the OGO Knowledge Base, publishes orthologs/diseases information using Linked Data. This gives the scientists the ability to query the structured information in connection with other Linked Data and to discover new information related to orthologs and human diseases in the cloud.

Relevância:

100.00% 100.00%

Publicador:

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La web ha sufrido una drástica transformación en los últimos años, debido principalmente a su popularización y a la enorme cantidad de información que alberga. Debido a estos factores se ha dado el salto de la denominada Web de Documentos, a la Web Semántica, donde toda la información está relacionada con otra. Las principales ventajas de la información enlazada estriban en la facilidad de reutilización, accesibilidad y disponibilidad para ser encontrada por el usuario. En este trabajo se pretende poner de manifiesto la utilidad de los datos enlazados aplicados al ámbito geográfico y mostrar como pueden ser empleados hoy en día. Para ello se han explotado datos enlazados de carácter espacial provenientes de diferentes fuentes, a través de servidores externos o endpoints SPARQL. Además de eso se ha trabajado con un servidor privado capaz de proporcionar información enlazada almacenada en un equipo personal. La explotación de información enlazada se ha implementado en una aplicación web en lenguaje JavaScript, tratando de abstraer totalmente al usuario del tratamiento de los datos a nivel interno de la aplicación. Esta aplicación cuenta además con algunos módulos y opciones capaces de interactuar con las consultas realizadas a los servidores, consiguiendo un entorno más intuitivo y agradable para el usuario. ABSTRACT: In recent years the web has suffered a drastic transformation because of the popularization and the huge amount of stored information. Due to these factors it has gone from Documents web to Semantic web, where the data are linked. The main advantages of Linked Data lie in the ease of his reuse, accessibility and availability to be located by users. The aim of this research is to highlight the usefulness of the geographic linked data and show how can be used at present time. To get this, the spatial linked data coming from several sources have been managed through external servers or also called endpoints. Besides, it has been worked with a private server able to provide linked data stored in a personal computer. The use of linked data has been implemented in a JavaScript web application, trying completely to abstract the internally data treatment of the application to make the user ignore it. This application has some modules and options that are able to interact with the queries made to the servers, getting a more intuitive and kind environment for users.