999 resultados para Indexing Process
Resumo:
The semiotics of C S. Peirce presents fundamental concepts to discover aspects of the indexing process, including representation and classes of signs. However, we still know little of its theoretical potential for subject indexing. We believe that the main difficulty in the proposals to understand the process of subject indexing based on Peircean semiotics stems from an incomplete interpretation of his semiotic system. This paper attempts to describe the contributions of Peircean semiotics to subject indexing. First, we analyze some of the concepts of the branches of semiotics, after which, we discuss strategies for conceptual approximation. Secondly, and aiming to raise the level of interlocution between the areas, we intend to argue that subject indexing is an inferential process, as explained by the second branch of semiotics. Thus, we seek to go beyond the level of speculative grammar, the first branch of semiotics, to forge a closer link with pure or critical logic, the second branch. We conclude that the indexer's work does not produce a mere reflection of what already exists in documents, but involves an instigating action to discover, through the inferential matrix, the meaning of a text in order to find the subject and the most appropriate subject added entry to the information system.
Resumo:
Dissertation submitted in partial fulfilment of the requirements for the Degree of Master of Science in Geospatial Technologies
Resumo:
Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada. O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação. A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final. A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição. A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação. O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.
Resumo:
Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia Informática
Resumo:
Depuis quelques années, Internet est devenu un média incontournable pour la diffusion de ressources multilingues. Cependant, les différences linguistiques constituent souvent un obstacle majeur aux échanges de documents scientifiques, culturels, pédagogiques et commerciaux. En plus de cette diversité linguistique, on constate le développement croissant de bases de données et de collections composées de différents types de documents textuels ou multimédias, ce qui complexifie également le processus de repérage documentaire. En général, on considère l’image comme « libre » au point de vue linguistique. Toutefois, l’indexation en vocabulaire contrôlé ou libre (non contrôlé) confère à l’image un statut linguistique au même titre que tout document textuel, ce qui peut avoir une incidence sur le repérage. Le but de notre recherche est de vérifier l’existence de différences entre les caractéristiques de deux approches d’indexation pour les images ordinaires représentant des objets de la vie quotidienne, en vocabulaire contrôlé et en vocabulaire libre, et entre les résultats obtenus au moment de leur repérage. Cette étude suppose que les deux approches d’indexation présentent des caractéristiques communes, mais également des différences pouvant influencer le repérage de l’image. Cette recherche permet de vérifier si l’une ou l’autre de ces approches d’indexation surclasse l’autre, en termes d’efficacité, d’efficience et de satisfaction du chercheur d’images, en contexte de repérage multilingue. Afin d’atteindre le but fixé par cette recherche, deux objectifs spécifiques sont définis : identifier les caractéristiques de chacune des deux approches d’indexation de l’image ordinaire représentant des objets de la vie quotidienne pouvant influencer le repérage, en contexte multilingue et exposer les différences sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images à repérer des images ordinaires représentant des objets de la vie quotidienne indexées à l’aide d’approches offrant des caractéristiques variées, en contexte multilingue. Trois modes de collecte des données sont employés : l’analyse des termes utilisés pour l’indexation des images, la simulation du repérage d’un ensemble d’images indexées selon chacune des formes d’indexation à l’étude réalisée auprès de soixante répondants, et le questionnaire administré aux participants pendant et après la simulation du repérage. Quatre mesures sont définies pour cette recherche : l’efficacité du repérage d’images, mesurée par le taux de succès du repérage calculé à l’aide du nombre d’images repérées; l’efficience temporelle, mesurée par le temps, en secondes, utilisé par image repérée; l’efficience humaine, mesurée par l’effort humain, en nombre de requêtes formulées par image repérée et la satisfaction du chercheur d’images, mesurée par son autoévaluation suite à chaque tâche de repérage effectuée. Cette recherche montre que sur le plan de l’indexation de l’image ordinaire représentant des objets de la vie quotidienne, les approches d’indexation étudiées diffèrent fondamentalement l’une de l’autre, sur le plan terminologique, perceptuel et structurel. En outre, l’analyse des caractéristiques des deux approches d’indexation révèle que si la langue d’indexation est modifiée, les caractéristiques varient peu au sein d’une même approche d’indexation. Finalement, cette recherche souligne que les deux approches d’indexation à l’étude offrent une performance de repérage des images ordinaires représentant des objets de la vie quotidienne différente sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images, selon l’approche et la langue utilisées pour l’indexation.
Resumo:
The aim of this paper is to evaluate the consistency indexes among 30 Brazilian university libraries from the south and south-east regions through a specific mathematical formula. It was selected a sample of 30 university libraries that, according to the information in their official sites, have a collection consisted of more than 100.000 copies and allow the search into the on-line catalog. Searches were carried out in every university by means of their sites, requesting books that contained a certain word in its title and were printed in a certain year. The response was a list of available titles in the library, from which we chose at random a title and asked to visualize the complete record to verify the existence of a given subject. This procedure was repeated until we found the same title in five libraries with the chosen subjects. The result is 10 trials, each one consisting of one figure and one table showing the selected libraries, the subjects, the documentary languages ( tools) and the consistency indexes relaxed and rigid. These trials show great discrepancy between the values of consistency indexes with intervals between 73,3% to 34,4% in the relaxed index, and between 60% and 9,6% in the rigid one. It was revealed that the coincidence in determining the subjects is not too high remaining below 39%. It is concluded that the difference between the consistency indexes may be due to factors as: incompatibility among documentary languages; lack of updating of these languages so as to follow the knowledge evolution; absence of a well-defined indexing policy with guidelines clearly established. Procedures of indexing followed by indexers could contribute to the consistency index to be bigger in percentage, since there would be parameters for the indexing process.
Resumo:
The indexing process is determined the subject of the document and its relation with the representation information. To cultivate the interdisciplinary contributions is essential, especially when the relationship allows substantial additions to the area of research. Rehearse some contributions in this article of Semiotics of Charles Sanders Peirce in the field of study of the indexing process, in particular, the notions of representation and referent. It is concluded that the tripartite division of the sign provides basis for to understanding the process of thematic representation, discussing the relationship of the sign with the object and the phenomenon presented, in the indexer sees the documentary language as referent.
Resumo:
Pós-graduação em Ciência da Informação - FFC
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
A study of the subject indexing process in university libraries is presented, using a socio-cognitive approach to analyze the procedures, difficulties and perceptions of the librarians, users, and managers that take part in the process. Individual and group verbal protocols were applied in the real environment of the cataloguers, the university libraries. The results were the absence of systematic procedures for book subject analysis and representation, the incompatibility of the indexing language, and problems in subject retrieval from the catalog. It is concluded that there is a tendency in catalogs to act as databases. Therefore, the cataloguer should present a level of commitment in his task similar to that of an indexer who works in the production of bibliographic databases.
Resumo:
We evaluated study of the indexing process in the cataloging at university libraries, using a socio-cognitive approach to analyze procedures, difficulties and perceptions of librarians, users, and managers. The methodology consisted of the Individual and Group Verbal Protocols applied in university libraries. The results were the absence of procedures for book subject analysis and representation, incompatibility of indexing language, and problems of subject retrieval from the catalog. We have concluded that is tendency of catalogs to act as databases. Therefore, the cataloguer should present a posture of commitment similar to that of an indexer who works in the production of these bases.