Este trabalho tem por objetivo propor um modelo de ontologia simples e generalista, capaz de descrever os conceitos mais básicos que permeiam o domínio de conhecimento dos jornais on-line brasileiros não especializados, fundamentado tanto na prática quanto conceitualmente, em conformidade com os princípios da Web Semântica. A partir de uma nova forma de classificação e organização do conteúdo, a ontologia proposta deve ter condições de atender as necessidades comuns de ambas as partes, jornal e leitor, que são, resumidamente, a busca e a recuperação das informações.


Esta pesquisa discute a participação do bibliotecário na formação de equipes multidisciplinares dos grupos de Avaliação de Tecnologias em Saúde (ATS), caracterizando sua atuação num novo campo que se abre para os bibliotecários em instituições de pesquisa. O objetivo geral baseia-se na criação de uma Biblioteca Digital (BD) com os parâmetros de qualidade da informação inerentes a ATS, a partir dos documentos gerados pelo Serviço de Comutação Bibliográfica (SCB) da Rede de Bibliotecas da FIOCRUZ, recomendando a inserção do bibliotecário na equipe multidisciplinar para ATS. A metodologia foi dividida em três partes: levantamento do estado da arte do conhecimento produzido na Saúde Coletiva, onde se insere a Avaliação de Tecnologias em Saúde, e da Ciência da Informação, pesquisa exploratória com uma abordagem qualitativa para coleta de dados junto ao grupo de pesquisadores de ATS de diversas instituições públicas e privadas e uma abordagem quantitativa para coleta de dados dos profissionais do SCB da Rede de Bibliotecas da Fiocruz e análise dos dados. Verificou-se que existe uma participação ativa do bibliotecário nas atividades de ATS, no que diz respeito, à formulação de estratégias de busca em base de dados, revisão de protocolos de busca, localização de publicações relevantes, auxílio para realização de revisões sistemática para os grupos de pesquisa. Pressupõe a criação de uma BD permitindo o compartilhamento de todos os documentos digitais gerados pelas bibliotecas. Com essa iniciativa pretende-se contribuir para impulsionar a produção do conhecimento científico e tecnológico na área da saúde e de ATS.


Desde os primórdios da humanidade, a descoberta do método de processamento cerebral do som, e consequentemente da música, fazem parte do imaginário humano. Portanto, as pesquisas relacionadas a este processo constituem um dos mais vastos campos de estudos das áreas de ciências. Dentre as inúmeras tentativas para compreensão do processamento biológico do som, o ser humano inventou o processo automático de composição musical, com o intuito de aferir a possibilidade da realização de composições musicais de qualidade sem a imposição sentimental, ou seja, apenas com a utilização das definições e estruturas de música existentes. Este procedimento automático de composição musical, também denominado música aleatória ou música do acaso, tem sido vastamente explorado ao longo dos séculos, já tendo sido utilizado por alguns dos grandes nomes do cenário musical, como por exemplo, Mozart. Os avanços nas áreas de engenharia e computação permitiram a evolução dos métodos utilizados para composição de música aleatória, tornando a aplicação de autômatos celulares uma alternativa viável para determinação da sequência de execução de notas musicais e outros itens utilizados durante a composição deste tipo de música. Esta dissertação propõe uma arquitetura para geração de música harmonizada a partir de intervalos melódicos determinados por autômatos celulares, implementada em hardware reconfigurável do tipo FPGA. A arquitetura proposta possui quatro tipos de autômatos celulares, desenvolvidos através dos modelos de vizinhança unidimensional de Wolfram, vizinhança bidimensional de Neumann, vizinhança bidimensional Moore e vizinhança tridimensional de Neumann, que podem ser combinados de 16 formas diferentes para geração de melodias. Os resultados do processamento realizado pela arquitetura proposta são melodias no formato .mid, compostas através da utilização de dois autômatos celulares, um para escolha das notas e outro para escolha dos instrumentos a serem emulados, de acordo com o protocolo MIDI. Para tal esta arquitetura é formada por três unidades principais, a unidade divisor de frequência, que é responsável pelo sincronismo das tarefas executadas pela arquitetura, a unidade de conjunto de autômatos celulares, que é responsável pelo controle e habilitação dos autômatos celulares, e a unidade máquina MIDI, que é responsável por organizar os resultados de cada iteração corrente dos autômatos celulares e convertê-los conforme a estrutura do protocolo MIDI, gerando-se assim o produto musical. A arquitetura proposta é parametrizável, de modo que a configuração dos dados que influenciam no produto musical gerado, como por exemplo, a definição dos conjuntos de regras para os autômatos celulares habilitados, fica a cargo do usuário, não havendo então limites para as combinações possíveis a serem realizadas na arquitetura. Para validação da funcionalidade e aplicabilidade da arquitetura proposta, alguns dos resultados obtidos foram apresentados e detalhados através do uso de técnicas de obtenção de informação musical.


Several research studies have been recently initiated to investigate the use of construction site images for automated infrastructure inspection, progress monitoring, etc. In these studies, it is always necessary to extract material regions (concrete or steel) from the images. Existing methods made use of material's special color/texture ranges for material information retrieval, but they do not sufficiently discuss how to find these appropriate color/texture ranges. As a result, users have to define appropriate ones by themselves, which is difficult for those who do not have enough image processing background. This paper presents a novel method of identifying concrete material regions using machine learning techniques. Under the method, each construction site image is first divided into regions through image segmentation. Then, the visual features of each region are calculated and classified with a pre-trained classifier. The output value determines whether the region is composed of concrete or not. The method was implemented using C++ and tested over hundreds of construction site images. The results were compared with the manual classification ones to indicate the method's validity.


This book explores the processes for retrieval, classification, and integration of construction images in AEC/FM model based systems. The author describes a combination of techniques from the areas of image and video processing, computer vision, information retrieval, statistics and content-based image and video retrieval that have been integrated into a novel method for the retrieval of related construction site image data from components of a project model. This method has been tested on available construction site images from a variety of sources like past and current building construction and transportation projects and is able to automatically classify, store, integrate and retrieve image data files in inter-organizational systems so as to allow their usage in project management related tasks. objects. Therefore, automated methods for the integration of construction images are important for construction information management. During this research, processes for retrieval, classification, and integration of construction images in AEC/FM model based systems have been explored. Specifically, a combination of techniques from the areas of image and video processing, computer vision, information retrieval, statistics and content-based image and video retrieval have been deployed in order to develop a methodology for the retrieval of related construction site image data from components of a project model. This method has been tested on available construction site images from a variety of sources like past and current building construction and transportation projects and is able to automatically classify, store, integrate and retrieve image data files in inter-organizational systems so as to allow their usage in project management related tasks.


Ideally, one would like to perform image search using an intuitive and friendly approach. Many existing image search engines, however, present users with sets of images arranged in some default order on the screen, typically the relevance to a query, only. While this certainly has its advantages, arguably, a more flexible and intuitive way would be to sort images into arbitrary structures such as grids, hierarchies, or spheres so that images that are visually or semantically alike are placed together. This paper focuses on designing such a navigation system for image browsers. This is a challenging task because arbitrary layout structure makes it difficult - if not impossible - to compute cross-similarities between images and structure coordinates, the main ingredient of traditional layouting approaches. For this reason, we resort to a recently developed machine learning technique: kernelized sorting. It is a general technique for matching pairs of objects from different domains without requiring cross-domain similarity measures and hence elegantly allows sorting images into arbitrary structures. Moreover, we extend it so that some images can be preselected for instance forming the tip of the hierarchy allowing to subsequently navigate through the search results in the lower levels in an intuitive way. Copyright 2010 ACM.


Spoken content in languages of emerging importance needs to be searchable to provide access to the underlying information. In this paper, we investigate the problem of extending data fusion methodologies from Information Retrieval for Spoken Term Detection on low-resource languages in the framework of the IARPA Babel program. We describe a number of alternative methods improving keyword search performance. We apply these methods to Cantonese, a language that presents some new issues in terms of reduced resources and shorter query lengths. First, we show score normalization methodology that improves in average by 20% keyword search performance. Second, we show that properly combining the outputs of diverse ASR systems performs 14% better than the best normalized ASR system. © 2013 IEEE.


政府信息检索系统作为政府信息公开平台的重要组成部分,对于用户从大量信息中准确查找所需信息起到关键作用,然而现有政府信息检索系统存在两个主要问题:一是系统采用的基于关键词匹配的检索技术忽视了对于用户检索条件的语义的理解,缺乏对于文档实质内涵的准确描述;二是由于对政府信息领域知识的缺乏,用户不能很好地提出符合自己检索需求的检索条件。这两个问题导致检索结果远远不能满足用户的要求。 本体是“概念模型的明确的规范说明”,它提供明确定义的词汇表,描述概念和概念之间的关系,被当作某个领域内不同主体之间进行交流的一种语义基础。它被广泛的应用于信息检索,特别是基于知识的检索中,能显著提高检索系统的查全率和查准率。 本文提出了构建政府信息领域本体并将其应用于政府信息检索系统的方案。首先,研究了现有的领域本体构建方法;在分析了政府信息领域的特点,考察了该领域可用资源的基础上,提出了基于政务主题词表的政府信息领域本体的构建方法。该方法充分利用了《综合电子政务主题词表》中已有的主题词和关系,保证了本体概念添加的完备性和科学性,减少了对领域专家的依赖,提高了构建效率。 设计和实现了基于领域本体的政府信息检索系统。该系统以领域本体为核心,对检索条件进行了扩展,既解决了检索词同政府信息中的公文用词存在差异的问题,又进一步明确了用户的检索需求;对政府信息文档进行了语义标注,提高了检索匹配时的准确度。同时,系统将与检索条件相关的领域概念反馈给用户,便于用户了解领域知识,进一步优化检索条件,获得更全更准的检索结果。


需求是后续开发活动的基准,早期的一些研究者认为应该在需求完全确定之后再进行后续开发,Royce所提出的瀑布模型就是这种思想的一个体现。但是,实践经验告诉我们,不管前期的需求分析做的多么完美,需求还是会发生变更。一方面是因为需求本身很复杂,对它的分析、理解和描述是一个循序渐进的过程,不可能一蹴而就;另一方面由于用户期望和偏好的改变、市场环境的转变、使用环境的日益复杂、技术的革新等都会使得原有的软件系统无法满足各涉众的利益。因此,需求变更是软件开发中固有的规律,是不可避免和普遍存在的。 需求变更通常会导致需求间及需求与后续工作产品间的不一致。因此,频繁的需求变更会造成产品质量下降、进度延期、成本超支等问题。变更影响分析(Change Impact Analysis)通过分析变更对象及其相关工作产品间的关系来评估变更造成的影响,从而控制变更。现有方法多数是从软件维护的角度,对代码的变更影响进行分析,过于细节和技术化,不能对需求变更影响分析提供有力支持。即使针对需求变更的影响分析方法也只是基于形式化需求规约,通过分析需求间的关系来识别影响范围,并未考虑需求变更对后续工作产品造成的影响,同时形式化需求规约的应用困难也限制了该方法的实用性。此外,随着需求和工作产品的规模与复杂性日益增加,使得手工建立和维护需求间及需求与工作产品间关系面临着不小的难度。 基于以上分析,本文提出了针对自然语言需求规约的需求变更影响分析模型RCIAM (Requirement Change Impact Analysis Model),围绕着如何自动识别和筛选需求间的关系——横向需求跟踪关系(Horizontal Requirement Traceability)、如何自动识别和筛选需求与工作产品间的关系——纵向需求跟踪关系(Vertical Requirement Traceability)、如何较全面的进行需求变更影响计算和决策三个问题展开了研究。 本文的主要贡献有: (1) 提出了需求变更影响分析模型RCIAM 本文对RCIAM进行了形式化定义。该模型不但提供了需求变更影响分析算法和对决策的支持,还提供了自动识别横向和纵向需求跟踪关系的方法。RCIAM主要包含数据处理和数据分析两个层次。数据处理层采用了文本处理(Text Processing)技术实现了横向和纵向需求跟踪关系的自动识别,为数据分析层提供需求跟踪关系数据;数据分析层基于需求跟踪关系数据,在产生需求变更申请(Change Request)时,进行量化影响计算,并提供决策支持。 (2) 提出了横向需求跟踪关系的识别与筛选方法 在对自然语言需求规约文档进行深入分析后,我们发现了两种与需求变更影响密切相关的关系类型,并从文本相似性的角度将它们定义为相似跟踪关系和引用跟踪关系。在将需求项拆分为需求片段的基础上,利用信息检索技术(Information Retrieval,IR)计算需求片段间的文本相似度,并设计了相应的算法对相似跟踪关系和引用跟踪关系进行自动识别。最后,提出了“变更影响跟踪”的规则来辅助对候选跟踪关系的人工筛选。 (3) 提出了纵向需求跟踪关系的识别与筛选方法 已有的研究多采用IR技术来自动建立需求与工作产品之间的跟踪关系,但是却存在着精度不理想的问题。我们从查全率(Recall)和查准率(Precision)的角度,分析了应用IR技术自动建立需求与代码跟踪关系的方法中产生的错误关系,发现了造成精度问题的根源所在。依据这一发现,基于现有方法,本文方法加入了相关反馈(Relvant Feedback)辅助识别和代码注释信息辅助识别等改进措施,并提供了人工筛选策略。 (4) 提出了需求变更影响分析计算与决策方法 本文通过矩阵运算说明了需求变更影响通过需求跟踪关系传播到其它需求和工作产品的过程,并设计了相应的需求变更影响分析算法。该算法考虑变更发生在不同阶段时对不同类型工作产品的影响,采用变更类型和关系强度两个因子加权计算影响值,并提出了根据影响值来进行变更决策的方法。 (5) 应用研究 结合中科方德公司Qone平台的开发,对以上工作进行了应用研究和性能分析。在Qone平台的需求管理工具版本1.0的开发中,首先采用本文方法对横向和纵向需求跟踪关系进行了自动识别,然后对开发期间发生的十次需求变更申请进行了影响分析和决策。在项目完成后,设计了实验对横向和纵向需求跟踪关系的识别进行了性能分析。结果表明,本文方法能够有效辅助进行需求变更影响分析。