9 resultados para Lucene


Relevância:

10.00% 10.00%

Publicador:

Resumo:

Ett sätt att förbättra resultat i informationssökning är frågeutvidgning. Vid frågeutvidgning utökas användarens ursprungliga fråga med termer som berör samma ämne. Frågor som har stort likhetsvärde med ett dokument kan tänkas beskriva dokumentet väl och kan därför fungera som en källa för goda utvidgningstermer. Om tidigare frågor finns lagrade kan termer som hittas med hjälp av dessa användas som kandidater för frågeutvidgningstermer. I avhandlingen presenteras och jämförs tre metoder för användning av tidigare frågor vid frågeutvidgning. För att evaluera metodernas effektivitet, jämförs de med hjälp av sökmaskinen Lucene och en liten samling dokument som berör cancerforskning. Som jämförelseresultat används de omodifierade frågorna och en enkel pseudorelevansåterkopplingsmetod som inte använder sig av tidigare frågor. Ingen av frågeutvidgningsmetoderna klarade sig speciellt bra, vilket beror på att dokumentsamlingen och testfrågorna utgör en svår omgivning för denna typ av metoder.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Bases de dados da pesquisa agropecuária. Indexação textual com o Lucene. Lucene. Lucene no sistema das bases de dados da pesquisa agropecuária. Comparação de desempenho infra-estrutura de hardware e software. Conjunto de consultas testes e resultados. Ponderações. Nova BDPA.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La Agència Valenciana de Turisme ha emprendido el proyecto de actualización de la web de promoción de la Comunidad Valenciana, el portal http://www.comunitatvalenciana.com. Este portal es una referencia internacional para todos los visitantes de la Comunidad Valenciana y por tanto un proyecto clave en su promoción turística. En esta ponencia se presentará la elaboración de un geoportal turístico atractivo y preparado para soportar un número elevado de visitas. En el contexto del proyecto se han abordado problemas como la visualización de información vectorial (puntos de interés) en un elevado número mediante la técnica de agregación o clustering. Por otro lado dicha información vectorial se procesa de tal forma que el visitante de la web obtiene un rendimiento en los tiempos de respuesta bastante elevado gracias al uso de técnicas de multirresolución en el visor web. La información de partida se migra a una base de datos espacial libre y se procesa para generar archivos en formato JSON. Por otro lado, el geoportal ofrece un flexible motor de búsquedas, preparado igualmente para soportar una carga elevada de peticiones mediante el uso de la indexación con el soporte para consultas espaciales. Este motor de búsquedas igualmente se ha preparado para utilizarse como servidor para ofrecer toda la información del portal a través de Layar, un servicio de realidad aumentada para móviles. Este servicio está completamente basado en componentes libres como el framework Spring o el soporte de búsquedas Lucene. Se presentará por tanto cómo se ha abordado la realización de una solución completa de presentación de información de un portal turístico de exigencias de rendimiento elevadas, centrando la atención en los componentes del servidor, todos ellos basados en software libre

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Questo lavoro di tesi si propone di realizzare un sistema in grado non solo di gestire la similarità tra media di stesso tipo, in modo tale da essere al pari per potenzialità in catalogazione e ricerca dei sistemi esistenti, ma di introdurre anche il concetto di similarità tra documenti, i quali contengono media di diverso tipo. Anche se esistono già DBMS in grado di gestire tipi di media complessi, nessuno ha un modello in grado di gestire la compresenza di più tipi di dato efficientemente. Per realizzare un sistema multimediale che sia in grado di gestire non solo la similarità tra media compatibili per tipo ma in generale la ricerca tra documenti si è deciso di utilizzare sistemi per media specifici già esistenti e di integrarli in modo da farli cooperare. A tale proposito si è deciso inizialmente di creare un sistema in grado di gestire documenti che possano contenere inizialmente parti testuali, immagini, video e serie temporali. E’ chiaro intuire come le differenze tra i singoli sistemi (e tra le singole tipologie di dati) rendano quasi impossibile il confronto tra media di tipo diverso esaminandone solamente il contenuto. Per questo un sistema multimediale come quello proposto non potrà effettuare ricerca per contenuto tra media differenti (a parte tra immagini e video in cui può essere possibile confrontare l’immagine con gli screenshot che compongono un video) ma si baserà principalmente sul confronto semantico tra media di tipo diverso e lo combinerà invece con ricerche per metadati e contenuto tra media dello stesso tipo. In questa tesi verranno analizzate le tecnologie utilizzate, le modifiche apportate ai framework esistenti e le novità introdotte per realizzare il sistema generale e in seguito verrà proposta la realizzazione due applicazioni su casi reali per dimostrare l’efficacia di tale sistema.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Este trabajo presenta el uso de una ontología en el dominio financiero para la expansión de consultas con el fin de mejorar los resultados de un sistema de recuperación de información (RI) financiera. Este sistema está compuesto por una ontología y un índice de Lucene que permite recuperación de conceptos identificados mediante procesamiento de lenguaje natural. Se ha llevado a cabo una evaluación con un conjunto limitado de consultas y los resultados indican que la ambigüedad sigue siendo un problema al expandir la consulta. En ocasiones, la elección de las entidades adecuadas a la hora de expandir las consultas (filtrando por sector, empresa, etc.) permite resolver esa ambigüedad.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Trasparencias de la asignatura BIIW sobre Sistemas de Recuperación de Información.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A crescente complexidade dos objetos armazenados e o grande volume de dados exigem modelos de recuperação e recomendação cada vez mais sofisticados. O objetivo deste trabalho é propor um modelo de recomendação de conteúdo baseado em arquivos de  legendas de filmes e séries. Utilizando a ferramenta Apache Lucene, para recuperação da informação, e a ferramenta OGMA, para análise de textos, foi possível propor, para o modelo, três etapas distintas: uma pesquisa utilizando palavra-chave, a classificação de filmes e séries por gênero e a identificação de títulos similares. Também é apresentado uma adaptação ao modelo para identificar em cada título um sentimento, denominado análise de sentimentos. Como resultado ressaltamos que a pesquisa por palavras-chave gerourecomendações surpreendentes, já que proporcionam ao usuário liberdade de pesquisa dentro de um conteúdo específico. Já a classificação por gênero apresentou índice de 73% de acerto em comparação com os gêneros apresentados pelo site IMDb, facilitando a recomendação de conteúdo. A análise de sentimentos demonstrou recomendações com coesão, determinando títulos apropriados para cada sentimento. Por último, a identificação de títulos similares, apresentou resultados primários, trazendo apenas filmes e séries com a mesma temática, sem apresentar nenhum resultado em comum com o site IMDb. Concluiu-se que apesar da enorme dificuldade de ser assertivo na recuperação da informação, existevantagens em se utilizar os arquivos de legendas para ajudar na composição dos sistemas de recomendação.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper presents work done at Medical Minner Project on the TREC-2011 Medical Records Track. The paper proposes four models for medical information retrieval based on Lucene index approach. Our retrieval engine used an Lucen Index scheme with traditional stopping and stemming, enhanced with entity recognition software on query terms. Our aim in this first competition is to set a broader project that involves the develop of a configurable Apache Lucene-based framework that allows the rapid development of medical search facilities. Results around the track median have been achieved. In this exploratory track, we think that these results are a good beginning and encourage us for future developments.