998 resultados para Extracção de informação


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dissertação apresentada como requisito parcial para obtenção do grau de Mestre em Estatística e Gestão de Informação

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A limitada capacidade dos computadores em processar documentos de texto e consequente di culdade de extracção de informação desses documentos deve-se à dificuldade de processamento de informação não-estruturada. De modo a reduzir essa limitação é necessário aumentar a estrutura dos documentos com que os computadores trabalham. Este trabalho propõe um modelo de classificação de documentos através de um processo de refinamento sucessivo da informação. A cada iteração a informação presente no documento é melhor caracterizada através da aplicação de um classi cador apropriado. O processo de classificação recorre a informação estatística, usando o modelo de classificação de Bayes, sobre documentos ou fragmentos de documentos. O processo de classificação também recorre a técnicas para especificação de padrões de texto, usando expressões regulares para extrair informação que exibe um padrão conhecido. A informação obtida é armazenada em XML, que permite a interrogação de colecções de documentos de modo automático (recorrendo a bases de dados de suporte nativo XML). O XML também é usado para transformar a informação original noutros formatos, como por exemplo o HTML. Este formato pode ser usado para sintetizar a informação de modo melhorar a sua apresentação.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Ao longo dos últimos anos, as regras de associação têm assumido um papel relevante na extracção de informação e de conhecimento em base de dados e vêm com isso auxiliar o processo de tomada de decisão. A maioria dos trabalhos de investigação desenvolvidos sobre regras de associação têm por base o modelo de suporte e confiança. Este modelo permite obter regras de associação que envolvem particularmente conjuntos de itens frequentes. Contudo, nos últimos anos, tem-se explorado conjuntos de itens que surgem com menor frequência, designados de regras de associação raras ou infrequentes. Muitas das regras com base nestes itens têm particular interesse para o utilizador. Actualmente a investigação sobre regras de associação procuram incidir na geração do maior número possível de regras com interesse aglomerando itens raros e frequentes. Assim, este estudo foca, inicialmente, uma pesquisa sobre os principais algoritmos de data mining que abordam as regras de associação. A finalidade deste trabalho é examinar as técnicas e algoritmos de extracção de regras de associação já existentes, verificar as principais vantagens e desvantagens dos algoritmos na extracção de regras de associação e, por fim, desenvolver um algoritmo cujo objectivo é gerar regras de associação que envolvem itens raros e frequentes.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Dissertação apresentada para a obtenção do Grau de Doutor em Informática pela Universidade Nova de Lisboa, Faculdade de Ciências e Tecnologia

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Ao longo dos últimos anos tem-se assistido a uma rápida evolução dos dispositivos móveis. Essa evolução tem sido mais intensa no poder de processamento, na resolução e qualidade das câmaras e na largura de banda das redes móveis de nova geração. Outro aspecto importante é o preço, pois cada vez mais existem dispositivos móveis avançados a um preço acessível, o que facilita a adopção destes equipamentos por parte dos utilizadores. Estes factores contribuem para que o número de utilizadores com “computadores de bolso” tenda a aumentar, possibilitando cada vez mais a criação de ferramentas com maior complexidade que tirem partido das características desses equipamentos. Existem muitas aplicações que exploram estas características para facilitar o trabalho aos utilizadores. Algumas dessas aplicações conseguem retirar informação do mundo físico e fazer algum tipo de processamento, como por exemplo, um leitor de códigos QR ou um OCR (Optical Character Recognizer). Aproveitando o potencial dos dispositivos móveis actuais, este trabalho descreve o estudo, a implementação e a avaliação de uma aplicação de realidade aumentada para adquirir e gerir recibos em papel de forma automática e inteligente. A aplicação utiliza a câmara do dispositivo para adquirir imagens dos recibos de forma a poder processá-las recorrendo a técnicas de processamento de imagem. Tendo uma imagem processada do recibo é efectuado um reconhecimento óptico de caracteres para extracção de informação e é utilizada uma técnica de classificação para atribuir uma classe ao documento. Para um melhor desempenho do classificador é utilizada uma estratégia de aprendizagem incremental. Após a correcta classificação é possível visualizar o recibo com informação adicional (realidade aumentada). O trabalho proposto inclui também a avaliação da interface e dos algoritmos desenvolvidos.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Mestrado em Engenharia Electrotécnica e de Computadores

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Dissertação apresentada para cumprimento dos requisitos necessários à obtenção do grau de Mestre em Gestão do Território, área de especialização em Detecção Remota e SIG

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Dissertação de Mestrado em Gestão do Território, Área de Especialização em Detecção Remota e Sistemas de Informação Geográfica

Relevância:

60.00% 60.00%

Publicador:

Resumo:

O desenvolvimento das tecnologias associadas à Detecção Remota e aos Sistemas de Informação Geográfica encontram-se cada vez mais na ordem do dia. E, graças a este desenvolvimento de métodos para acelerar a produção de informação geográfica, assiste-se a um crescente aumento da resolução geométrica, espectral e radiométrica das imagens, e simultaneamente, ao aparecimento de novas aplicações com o intuito de facilitar o processamento e a análise de imagens através da melhoria de algoritmos para extracção de informação. Resultado disso são as imagens de alta resolução, provenientes do satélite WorldView 2 e o mais recente software Envi 5.0, utilizados neste estudo. O presente trabalho tem como principal objectivo desenvolver um projecto de cartografia de uso do solo para a cidade de Maputo, com recurso ao tratamento e à exploração de uma imagem de alta resolução, comparando as potencialidades e limitações dos resultados extraídos através da classificação “pixel a pixel”, através do algoritmo Máxima Verossimilhança, face às potencialidades e eventuais limitações da classificação orientada por objecto, através dos algoritmos K Nearest Neighbor (KNN) e Support Vector Machine (SVM), na extracção do mesmo número e tipo de classes de ocupação/uso do solo. Na classificação “pixel a pixel”, com a aplicação do algoritmo classificação Máxima Verosimilhança, foram ensaiados dois tipos de amostra: uma primeira constituída por 20 classes de ocupação/uso do solo, e uma segunda por 18 classes. Após a fase de experimentação, os resultados obtidos com a primeira amostra ficaram aquém das espectativas, pois observavam-se muitos erros de classificação. A segunda amostra formulada com base nestes erros de classificação e com o objectivo de os minimizar, permitiu obter um resultado próximo das espectativas idealizadas inicialmente, onde as classes de interesse coincidem com a realidade geográfica da cidade de Maputo. Na classificação orientada por objecto foram 4 as etapas metodológicas utilizadas: a atribuição do valor 5 para a segmentação e 90 para a fusão de segmentos; a selecção de 15 exemplos sobre os segmentos gerados para cada classe de interesse; bandas diferentemente distribuídas para o cálculo dos atributos espectrais e de textura; os atributos de forma Elongation e Form Factor e a aplicação dos algoritmos KNN e SVM. Confrontando as imagens resultantes das duas abordagens aplicadas, verificou-se que a qualidade do mapa produzido pela classificação “pixel a pixel” apresenta um nível de detalhe superior aos mapas resultantes da classificação orientada por objecto. Esta diferença de nível de detalhe é justificada pela unidade mínima do processamento de cada classificador: enquanto que na primeira abordagem a unidade mínima é o pixel, traduzinho uma maior detalhe, a segunda abordagem utiliza um conjunto de pixels, objecto, como unidade mínima despoletando situações de generalização. De um modo geral, a extracção da forma dos elementos e a distribuição das classes de interesse correspondem à realidade geográfica em si e, os resultados são bons face ao que é frequente em processamento semiautomático.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

A evolução tecnológica tem provocado uma evolução na medicina, através de sistemas computacionais voltados para o armazenamento, captura e disponibilização de informações médicas. Os relatórios médicos são, na maior parte das vezes, guardados num texto livre não estruturado e escritos com vocabulário proprietário, podendo ocasionar falhas de interpretação. Através das linguagens da Web Semântica, é possível utilizar antologias como modo de estruturar e padronizar a informação dos relatórios médicos, adicionando¬ lhe anotações semânticas. A informação contida nos relatórios pode desta forma ser publicada na Web, permitindo às máquinas o processamento automático da informação. No entanto, o processo de criação de antologias é bastante complexo, pois existe o problema de criar uma ontologia que não cubra todo o domínio pretendido. Este trabalho incide na criação de uma ontologia e respectiva povoação, através de técnicas de PLN e Aprendizagem Automática que permitem extrair a informação dos relatórios médicos. Foi desenvolvida uma aplicação, que permite ao utilizador converter relatórios do formato digital para o formato OWL. ABSTRACT: Technological evolution has caused a medicine evolution through computer systems which allow storage, gathering and availability of medical information. Medical reports are, most of the times, stored in a non-structured free text and written in a personal way so that misunderstandings may occur. Through Semantic Web languages, it’s possible to use ontology as a way to structure and standardize medical reports information by adding semantic notes. The information in those reports can, by these means, be displayed on the web, allowing machines automatic information processing. However, the process of creating ontology is very complex, as there is a risk creating of an ontology that not covering the whole desired domain. This work is about creation of an ontology and its population through NLP and Machine Learning techniques to extract information from medical reports. An application was developed which allows the user to convert reports from digital for¬ mat to OWL format.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

As descrições de produtos turísticos na área da hotelaria, aviação, rent-a-car e pacotes de férias baseiam-se sobretudo em descrições textuais em língua natural muito heterogénea com estilos, apresentações e conteúdos muito diferentes entre si. Uma vez que o sector do turismo é bastante dinâmico e que os seus produtos e ofertas estão constantemente em alteração, o tratamento manual de normalização de toda essa informação não é possível. Neste trabalho construiu-se um protótipo que permite a classificação e extracção automática de informação a partir de descrições de produtos de turismo. Inicialmente a informação é classificada quanto ao tipo. Seguidamente são extraídos os elementos relevantes de cada tipo e gerados objectos facilmente computáveis. Sobre os objectos extraídos, o protótipo com recurso a modelos de textos e imagens gera automaticamente descrições normalizadas e orientadas a um determinado mercado. Esta versatilidade permite um novo conjunto de serviços na promoção e venda dos produtos que seria impossível implementar com a informação original. Este protótipo, embora possa ser aplicado a outros domínios, foi avaliado na normalização da descrição de hotéis. As frases descritivas do hotel são classificadas consoante o seu tipo (Local, Serviços e/ou Equipamento) através de um algoritmo de aprendizagem automática que obtém valores médios de cobertura de 96% e precisão de 72%. A cobertura foi considerada a medida mais importante uma vez que a sua maximização permite que não se percam frases para processamentos posteriores. Este trabalho permitiu também a construção e população de uma base de dados de hotéis que possibilita a pesquisa de hotéis pelas suas características. Esta funcionalidade não seria possível utilizando os conteúdos originais. ABSTRACT: The description of tourism products, like hotel, aviation, rent-a-car and holiday packages, is strongly supported on natural language expressions. Due to the extent of tourism offers and considering the high dynamics in the tourism sector, manual data management is not a reliable or scalable solution. Offer descriptions - in the order of thousands - are structured in different ways, possibly comprising different languages, complementing and/or overlap one another. This work aims at creating a prototype for the automatic classification and extraction of relevant knowledge from tourism-related text expressions. Captured knowledge is represented in a normalized/standard format to enable new services based on this information in order to promote and sale tourism products that would be impossible to implement with the raw information. Although it could be applied to other areas, this prototype was evaluated in the normalization of hotel descriptions. Hotels descriptive sentences are classified according their type (Location, Services and/or Equipment) using a machine learning algorithm. The built setting obtained an average recall of 96% and precision of 72%. Recall considered the most important measure of performance since its maximization allows that sentences were not lost in further processes. As a side product a database of hotels was built and populated with search facilities on its characteristics. This ability would not be possible using the original contents.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Dissertação de Mestrado em Engenharia Informática

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia Informática

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia Informática

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Dissertação apresentada como requisito parcial para obtenção do grau de Mestre em Estatística e Gestão de Informação