880 resultados para Information retrieval
Resumo:
[ES] Se estudian las características comunes y específicas de los gestores personales de bases de datos de referencias bibliográficas más utilizados: Reference Manager, EndNote, ProCite, RefWorks y EndNote Web. Los Apartados analizados son: la entrada de datos, el control de autoridades, los comandos de edición global, la personalización de algunos aspectos de las bases de datos, la exportación de las referencias, la visualización de los Registros, la inserción de citas bibliográficas y la generación automática de bibliografías.
Resumo:
This paper explores how audio chord estimation could improve if information about chord boundaries or beat onsets is revealed by an oracle. Chord estimation at the frame level is compared with three simulations, each using an oracle of increasing powers. The beat and chord segments revealed by an oracle are used to compute a chord ranking at the segment level, and to compute the cumulative probability of finding the correct chord among the top ranked chords. Oracle results on two different audio datasets demonstrate the substantial potential of segment versus frame approaches for chord audio estimation. This paper also provides a comparison of the oracle results on the Beatles dataset, the standard dataset in this area, with the new Billboard Hot 100 chord dataset.
Resumo:
This paper proposes a new method for local key and chord estimation from audio signals. This method relies primarily on principles from music theory, and does not require any training on a corpus of labelled audio files. A harmonic content of the musical piece is first extracted by computing a set of chroma vectors. A set of chord/key pairs is selected for every frame by correlation with fixed chord and key templates. An acyclic harmonic graph is constructed with these pairs as vertices, using a musical distance to weigh its edges. Finally, the sequences of chords and keys are obtained by finding the best path in the graph using dynamic programming. The proposed method allows a mutual chord and key estimation. It is evaluated on a corpus composed of Beatles songs for both the local key estimation and chord recognition tasks, as well as a larger corpus composed of songs taken from the Billboard dataset.
Resumo:
[EN]Measuring semantic similarity and relatedness between textual items (words, sentences, paragraphs or even documents) is a very important research area in Natural Language Processing (NLP). In fact, it has many practical applications in other NLP tasks. For instance, Word Sense Disambiguation, Textual Entailment, Paraphrase detection, Machine Translation, Summarization and other related tasks such as Information Retrieval or Question Answering. In this masther thesis we study di erent approaches to compute the semantic similarity between textual items. In the framework of the european PATHS project1, we also evaluate a knowledge-base method on a dataset of cultural item descriptions. Additionaly, we describe the work carried out for the Semantic Textual Similarity (STS) shared task of SemEval-2012. This work has involved supporting the creation of datasets for similarity tasks, as well as the organization of the task itself.
Resumo:
O problema que justifica o presente estudo refere-se à falta de semântica nos mecanismos de busca na Web. Para este problema, o consórcio W3 vem desenvolvendo tecnologias que visam construir uma Web Semântica. Entre estas tecnologias, estão as ontologias de domínio. Neste sentido, o objetivo geral desta dissertação é discutir as possibilidades de se imprimir semântica às buscas nos agregadores de notícia da Web. O objetivo específico é apresentar uma aplicação que usa uma classificação semi-automática de notícias, reunindo, para tanto, as tecnologias de busca da área de recuperação de informação com as ontologias de domínio. O sistema proposto é uma aplicação para a Web capaz de buscar notícias sobre um domínio específico em portais de informação. Ela utiliza a API do Google Maps V1 para a localização georreferenciada da notícia, sempre que esta informação estiver disponível. Para mostrar a viabilidade da proposta, foi desenvolvido um exemplo apoiado em uma ontologia para o domínio de chuvas e suas consequências. Os resultados obtidos por este novo Feed de base ontológica são alocados em um banco de dados e disponibilizados para consulta via Web. A expectativa é que o Feed proposto seja mais relevante em seus resultados do que um Feed comum. Os resultados obtidos com a união de tecnologias patrocinadas pelo consórcio W3 (XML, RSS e ontologia) e ferramentas de busca em página Web foram satisfatórios para o propósito pretendido. As ontologias mostram-se como ferramentas de usos múltiplos, e seu valor de análise em buscas na Web pode ser ampliado com aplicações computacionais adequadas para cada caso. Como no exemplo apresentado nesta dissertação, à palavra chuva agregaram-se outros conceitos, que estavam presentes nos desdobramentos ocasionados por ela. Isto realçou a ligação do evento chuva com as consequências que ela provoca - ação que só foi possível executar através de um recorte do conhecimento formal envolvido.
Resumo:
Este trabalho tem por objetivo propor um modelo de ontologia simples e generalista, capaz de descrever os conceitos mais básicos que permeiam o domínio de conhecimento dos jornais on-line brasileiros não especializados, fundamentado tanto na prática quanto conceitualmente, em conformidade com os princípios da Web Semântica. A partir de uma nova forma de classificação e organização do conteúdo, a ontologia proposta deve ter condições de atender as necessidades comuns de ambas as partes, jornal e leitor, que são, resumidamente, a busca e a recuperação das informações.
Resumo:
Esta pesquisa discute a participação do bibliotecário na formação de equipes multidisciplinares dos grupos de Avaliação de Tecnologias em Saúde (ATS), caracterizando sua atuação num novo campo que se abre para os bibliotecários em instituições de pesquisa. O objetivo geral baseia-se na criação de uma Biblioteca Digital (BD) com os parâmetros de qualidade da informação inerentes a ATS, a partir dos documentos gerados pelo Serviço de Comutação Bibliográfica (SCB) da Rede de Bibliotecas da FIOCRUZ, recomendando a inserção do bibliotecário na equipe multidisciplinar para ATS. A metodologia foi dividida em três partes: levantamento do estado da arte do conhecimento produzido na Saúde Coletiva, onde se insere a Avaliação de Tecnologias em Saúde, e da Ciência da Informação, pesquisa exploratória com uma abordagem qualitativa para coleta de dados junto ao grupo de pesquisadores de ATS de diversas instituições públicas e privadas e uma abordagem quantitativa para coleta de dados dos profissionais do SCB da Rede de Bibliotecas da Fiocruz e análise dos dados. Verificou-se que existe uma participação ativa do bibliotecário nas atividades de ATS, no que diz respeito, à formulação de estratégias de busca em base de dados, revisão de protocolos de busca, localização de publicações relevantes, auxílio para realização de revisões sistemática para os grupos de pesquisa. Pressupõe a criação de uma BD permitindo o compartilhamento de todos os documentos digitais gerados pelas bibliotecas. Com essa iniciativa pretende-se contribuir para impulsionar a produção do conhecimento científico e tecnológico na área da saúde e de ATS.
Resumo:
Desde os primórdios da humanidade, a descoberta do método de processamento cerebral do som, e consequentemente da música, fazem parte do imaginário humano. Portanto, as pesquisas relacionadas a este processo constituem um dos mais vastos campos de estudos das áreas de ciências. Dentre as inúmeras tentativas para compreensão do processamento biológico do som, o ser humano inventou o processo automático de composição musical, com o intuito de aferir a possibilidade da realização de composições musicais de qualidade sem a imposição sentimental, ou seja, apenas com a utilização das definições e estruturas de música existentes. Este procedimento automático de composição musical, também denominado música aleatória ou música do acaso, tem sido vastamente explorado ao longo dos séculos, já tendo sido utilizado por alguns dos grandes nomes do cenário musical, como por exemplo, Mozart. Os avanços nas áreas de engenharia e computação permitiram a evolução dos métodos utilizados para composição de música aleatória, tornando a aplicação de autômatos celulares uma alternativa viável para determinação da sequência de execução de notas musicais e outros itens utilizados durante a composição deste tipo de música. Esta dissertação propõe uma arquitetura para geração de música harmonizada a partir de intervalos melódicos determinados por autômatos celulares, implementada em hardware reconfigurável do tipo FPGA. A arquitetura proposta possui quatro tipos de autômatos celulares, desenvolvidos através dos modelos de vizinhança unidimensional de Wolfram, vizinhança bidimensional de Neumann, vizinhança bidimensional Moore e vizinhança tridimensional de Neumann, que podem ser combinados de 16 formas diferentes para geração de melodias. Os resultados do processamento realizado pela arquitetura proposta são melodias no formato .mid, compostas através da utilização de dois autômatos celulares, um para escolha das notas e outro para escolha dos instrumentos a serem emulados, de acordo com o protocolo MIDI. Para tal esta arquitetura é formada por três unidades principais, a unidade divisor de frequência, que é responsável pelo sincronismo das tarefas executadas pela arquitetura, a unidade de conjunto de autômatos celulares, que é responsável pelo controle e habilitação dos autômatos celulares, e a unidade máquina MIDI, que é responsável por organizar os resultados de cada iteração corrente dos autômatos celulares e convertê-los conforme a estrutura do protocolo MIDI, gerando-se assim o produto musical. A arquitetura proposta é parametrizável, de modo que a configuração dos dados que influenciam no produto musical gerado, como por exemplo, a definição dos conjuntos de regras para os autômatos celulares habilitados, fica a cargo do usuário, não havendo então limites para as combinações possíveis a serem realizadas na arquitetura. Para validação da funcionalidade e aplicabilidade da arquitetura proposta, alguns dos resultados obtidos foram apresentados e detalhados através do uso de técnicas de obtenção de informação musical.
Resumo:
Several research studies have been recently initiated to investigate the use of construction site images for automated infrastructure inspection, progress monitoring, etc. In these studies, it is always necessary to extract material regions (concrete or steel) from the images. Existing methods made use of material's special color/texture ranges for material information retrieval, but they do not sufficiently discuss how to find these appropriate color/texture ranges. As a result, users have to define appropriate ones by themselves, which is difficult for those who do not have enough image processing background. This paper presents a novel method of identifying concrete material regions using machine learning techniques. Under the method, each construction site image is first divided into regions through image segmentation. Then, the visual features of each region are calculated and classified with a pre-trained classifier. The output value determines whether the region is composed of concrete or not. The method was implemented using C++ and tested over hundreds of construction site images. The results were compared with the manual classification ones to indicate the method's validity.
Resumo:
This book explores the processes for retrieval, classification, and integration of construction images in AEC/FM model based systems. The author describes a combination of techniques from the areas of image and video processing, computer vision, information retrieval, statistics and content-based image and video retrieval that have been integrated into a novel method for the retrieval of related construction site image data from components of a project model. This method has been tested on available construction site images from a variety of sources like past and current building construction and transportation projects and is able to automatically classify, store, integrate and retrieve image data files in inter-organizational systems so as to allow their usage in project management related tasks. objects. Therefore, automated methods for the integration of construction images are important for construction information management. During this research, processes for retrieval, classification, and integration of construction images in AEC/FM model based systems have been explored. Specifically, a combination of techniques from the areas of image and video processing, computer vision, information retrieval, statistics and content-based image and video retrieval have been deployed in order to develop a methodology for the retrieval of related construction site image data from components of a project model. This method has been tested on available construction site images from a variety of sources like past and current building construction and transportation projects and is able to automatically classify, store, integrate and retrieve image data files in inter-organizational systems so as to allow their usage in project management related tasks.
Resumo:
The Architecture, Engineering, Construction and Facilities Management (AEC/FM) industry is rapidly becoming a multidisciplinary, multinational and multi-billion dollar economy, involving large numbers of actors working concurrently at different locations and using heterogeneous software and hardware technologies. Since the beginning of the last decade, a great deal of effort has been spent within the field of construction IT in order to integrate data and information from most computer tools used to carry out engineering projects. For this purpose, a number of integration models have been developed, like web-centric systems and construction project modeling, a useful approach in representing construction projects and integrating data from various civil engineering applications. In the modern, distributed and dynamic construction environment it is important to retrieve and exchange information from different sources and in different data formats in order to improve the processes supported by these systems. Previous research demonstrated that a major hurdle in AEC/FM data integration in such systems is caused by its variety of data types and that a significant part of the data is stored in semi-structured or unstructured formats. Therefore, new integrative approaches are needed to handle non-structured data types like images and text files. This research is focused on the integration of construction site images. These images are a significant part of the construction documentation with thousands stored in site photographs logs of large scale projects. However, locating and identifying such data needed for the important decision making processes is a very hard and time-consuming task, while so far, there are no automated methods for associating them with other related objects. Therefore, automated methods for the integration of construction images are important for construction information management. During this research, processes for retrieval, classification, and integration of construction images in AEC/FM model based systems have been explored. Specifically, a combination of techniques from the areas of image and video processing, computer vision, information retrieval, statistics and content-based image and video retrieval have been deployed in order to develop a methodology for the retrieval of related construction site image data from components of a project model. This method has been tested on available construction site images from a variety of sources like past and current building construction and transportation projects and is able to automatically classify, store, integrate and retrieve image data files in inter-organizational systems so as to allow their usage in project management related tasks.
Resumo:
Ideally, one would like to perform image search using an intuitive and friendly approach. Many existing image search engines, however, present users with sets of images arranged in some default order on the screen, typically the relevance to a query, only. While this certainly has its advantages, arguably, a more flexible and intuitive way would be to sort images into arbitrary structures such as grids, hierarchies, or spheres so that images that are visually or semantically alike are placed together. This paper focuses on designing such a navigation system for image browsers. This is a challenging task because arbitrary layout structure makes it difficult - if not impossible - to compute cross-similarities between images and structure coordinates, the main ingredient of traditional layouting approaches. For this reason, we resort to a recently developed machine learning technique: kernelized sorting. It is a general technique for matching pairs of objects from different domains without requiring cross-domain similarity measures and hence elegantly allows sorting images into arbitrary structures. Moreover, we extend it so that some images can be preselected for instance forming the tip of the hierarchy allowing to subsequently navigate through the search results in the lower levels in an intuitive way. Copyright 2010 ACM.
Resumo:
Spoken content in languages of emerging importance needs to be searchable to provide access to the underlying information. In this paper, we investigate the problem of extending data fusion methodologies from Information Retrieval for Spoken Term Detection on low-resource languages in the framework of the IARPA Babel program. We describe a number of alternative methods improving keyword search performance. We apply these methods to Cantonese, a language that presents some new issues in terms of reduced resources and shorter query lengths. First, we show score normalization methodology that improves in average by 20% keyword search performance. Second, we show that properly combining the outputs of diverse ASR systems performs 14% better than the best normalized ASR system. © 2013 IEEE.
Resumo:
政府信息检索系统作为政府信息公开平台的重要组成部分,对于用户从大量信息中准确查找所需信息起到关键作用,然而现有政府信息检索系统存在两个主要问题:一是系统采用的基于关键词匹配的检索技术忽视了对于用户检索条件的语义的理解,缺乏对于文档实质内涵的准确描述;二是由于对政府信息领域知识的缺乏,用户不能很好地提出符合自己检索需求的检索条件。这两个问题导致检索结果远远不能满足用户的要求。 本体是“概念模型的明确的规范说明”,它提供明确定义的词汇表,描述概念和概念之间的关系,被当作某个领域内不同主体之间进行交流的一种语义基础。它被广泛的应用于信息检索,特别是基于知识的检索中,能显著提高检索系统的查全率和查准率。 本文提出了构建政府信息领域本体并将其应用于政府信息检索系统的方案。首先,研究了现有的领域本体构建方法;在分析了政府信息领域的特点,考察了该领域可用资源的基础上,提出了基于政务主题词表的政府信息领域本体的构建方法。该方法充分利用了《综合电子政务主题词表》中已有的主题词和关系,保证了本体概念添加的完备性和科学性,减少了对领域专家的依赖,提高了构建效率。 设计和实现了基于领域本体的政府信息检索系统。该系统以领域本体为核心,对检索条件进行了扩展,既解决了检索词同政府信息中的公文用词存在差异的问题,又进一步明确了用户的检索需求;对政府信息文档进行了语义标注,提高了检索匹配时的准确度。同时,系统将与检索条件相关的领域概念反馈给用户,便于用户了解领域知识,进一步优化检索条件,获得更全更准的检索结果。