112 resultados para Indexação - Recuperação da informação
em Lume - Repositório Digital da Universidade Federal do Rio Grande do Sul
Resumo:
Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
Resumo:
Com o desenvolvimento e crescimento das tecnologias de informação e, em especial, a Internet, encontrar informação relevante e útil tornou-se uma tarefa complexa que envolve os aspectos computacionais dos Sistemas de Recuperação de Informação (SRIs) e os aspectos situacionais, psicológicos e cognitivos dos usuários. No entanto, há um desequilíbrio neste cenário pois o enfoque das pesquisas de recuperação de informação (RI) está extremamente voltado para a abordagem computacional. Decorrente deste viés, o aspecto central da recuperação de informação – o julgamento de relevância – tornou-se muito limitado e acarretou em baixo desempenho dos SRIs. Notando esta problemática, esta pesquisa teve como objetivo caracterizar os fatores de relevância empregados pelos usuários durante o processo de RI com o intuito de contribuir para a especificação de requisitos e avaliação daqueles sistemas. Assim, a pesquisa foi composta por duas etapas de avaliação denominadas ex ante e ex post para verificar a mudança de percepção em torno dos julgamentos de relevância. Para tanto, foi criado um instrumento de pesquisa para verificar os julgamentos de relevância que foram avaliados por 49 respondentes, obtendo um total de 238 objetos informacionais avaliados no momento ex ante e destes, 224 foram retornados (ex post). Os resultados encontrados mostraram que existe uma significativa mudança de percepção dos usuários nas duas medições, e demonstraram que os fatores de relevância obedecem a um processo decisório bem definido. Observou-se também que a utilidade e os aspectos cognitivos são as manifestações de relevância consideradas mais importantes pelos usuários e as demais servem para ter a noção de rejeição ou não do objeto informacional.
Resumo:
Estudo compreendido como uma inter-relação lógica entre tesauros e Terminologia, mais especificamente nos princípios da Teoria Comunicativa da Terminologia — TCT. Analisa um tesauro do ponto de vista da sua organização estrutural. Estuda os descritores verificando sua representatividade como um elemento de representação e recuperação das informações de uma área de especialidade. Sinaliza para uma nova abordagem em relação ao tratamento dos descritores aproximando-os a uma unidade lexical terminológica. Tem como pressuposto de trabalho que a relação que se estabelece entre um sistema de recuperação da informação — SRI e os usuários do sistema é uma relação de comunicação. Apresenta algumas considerações e recomendações.
Resumo:
Apresenta-se neste estudo o potencial de recuperação de informação em C&T nas bases de dados nacionais e internacionais na grande área das Ciências da Saúde, na área da Medicina e na pesquisa médica em Câncer no Brasil. Esta capacitação científica instalada foi hierarquizada geográfica e institucionalmente usando como parâmetro o conceito de mérito científico fornecido pelo próprio sistema de C&T brasileiro. Os dados foram complementados pela análise da produção científica para identificar o grau de inserção internacional da pesquisa médica em Câncer no Brasil. Para tanto foram incorporadas informações das bases de dados do Institute for Scientific Information. Pode-se concluir que a grande área das Ciências da Saúde é a maior em contingente de pesquisa no Brasil, sendo a Medicina a área numericamente predominante. Na pesquisa médica em Câncer constatou-se que existem apenas dois cursos de pós-graduação diretamente relacionados com a formação de recursos humanos neste tema de pesquisa, 569 grupos de pesquisa (3,8% do total do país), 785 pesquisadores doutores, dos quais somente 153 são pesquisadores com bolsa de produtividade em pesquisa do CNPq (1,7% do total do país) No entanto, a produção científica, apesar de pouco expressiva do ponto de vista quantitativo, apresenta uma inserção internacional qualificada, sendo utilizada por outros pesquisadores com um elevado percentual, 84% de citações dos artigos brasileiros produzidos entre 1998-2002. Conclui-se, portanto, que apesar de não esgotar completamente as muitas especificidades do tema investigado, as informações disponíveis nas bases de dados nacionais e internacionais podem apontar caminhos para a investigação de tendências significativas da comunidade científica em todas as áreas do conhecimento ou temas de pesquisa, conforme os modos de recuperação apresentados. Através da interpretação criteriosa a partir de estudos continuados nessas bases, como é o caso deste trabalho, é possível utilizar a informação em C&T como subsídio para o planejamento de políticas de CT&I no Brasil.
Resumo:
Esta dissertação propõe e discute um mecanismo de realimentação de relevâncias (i. e. “Relevance Feedback”). A técnica de realimentação de relevâncias foi introduzida inicialmente em meados dos anos 60, como uma estratégia para refinamento de consultas para a recuperação de informações. Como uma técnica de refinamento de consultas, foi aplicada inicialmente em sistemas de recuperação de informações textuais. Neste caso, os termos ou expressões consideradas importantes, são utilizados na formulação de uma nova consulta. Ao surgirem os sistemas de recuperação de informação visual baseada em conteúdo (CBVIR), houve a necessidade de serem introduzidos novos elementos associados a esse processo de reformulação de consultas, de tal forma que fossem utilizados não apenas as informações de alto nível, como os termos e expressões. Esses novos elementos passaram a considerar também a subjetividade de percepção humana em relação ao conteúdo visual. Neste trabalho, apresenta-se um processo de extração e representação desse conteúdo, através da utilização de feições (conteúdo) de cor e textura, extraídos de imagens JPEG, uma vez que no processo de compressão de imagens nesse formato, utiliza-se coeficientes da Transformada Discreta do Cosseno (DCT), sendo, portanto esses coeficientes utilizados como elementos que possuem as informações associadas a cor e textura na imagem. Além da DCTé utilizada a Transformação Mandala [YSH 83] no processo de agrupamento de somente 10 coeficientes, com o objetivo de produzir 10 imagens com resoluça menor que a imagem original, mas que representam cada uma, o conteúdo de uma frequência particular da imagem original. A escolha por uma representação como essa,é a garantia de uma redução significativa na quantidade de dados a serem processados. Entretanto, a representação obtida nesse formato para as imagens,é com base em conteúdo global de cor e textura, o que pode produzir resultados insatisfatórios. A introdução de um mecanismo de realimentação de relevâncias, associado à representação utilizada, permite contornar a dificuldade apontada acima, através da obtenção de consultas subsequentes, selecionando os objetos mais relevantes, assim como menos objetos não relevantes, utilizando o conhecimento do usuário de forma interativa no refinamento de consultas para recuperação de informações visuais.
Resumo:
Este trabalho aplica a Teoria de Autômatos na proposição de uma nova alternativa para prover animações 2D na World Wide Web, verificando as contribuições alcançadas para as questões relacionadas ao espaço de armazenamento, reutilização e manutenção do conteúdo e suporte à recuperação de informação. Para este objetivo, é proposto o modelo AGA (Animação Gráfica baseada em Autômatos Finitos), o qual especifica a animação a partir de uma estrutura baseada em autômatos finitos com saída. Esse modelo é definido de tal forma que os mesmos autômatos utilizados na especificação, ao serem simulados, realizam o controle da animação durante a apresentação. O modelo AGA apresenta características que favorecem a redução do espaço de armazenamento da animação, provêem suporte à recuperação de informação, colaboram com a reutilização e manutenção do conteúdo das animações. Uma implementação multiplataforma foi desenvolvida para apresentar animações especificadas nesse modelo na Web. Essa implementação proporciona a elaboração de consultas ao conteúdo da animação, além dos recursos tradicionais de reprodução. A partir dessa implementação, o AGA foi submetido a um estudo de caso prático, onde os resultados obtidos são comparados com o produzidos pelo GIF (Graphic Interchange Format). Esse comparativo demonstra que o AGA possui várias vantagens em relação à estrutura adotada pelo GIF. O modelo AGA é estendido utilizando autômatos temporizados para prover restrições temporais às especificações e também ampliar as funcionalidades de interação com o observador da animação. Essa extensão, chamada de modelo AGA-S (Animação Gráfica baseada em Autômatos Temporizados Sincronizados), é definida a partir do autômato temporizado proposto por Alur e Dill. Para esse modelo, é definida uma operação formal para sincronização dos componentes da animação e adicionada uma estrutura baseada em autômatos finitos para controlar a interação do observador com a animação.
Resumo:
A World Wide Web em poucos anos de existência se tornou uma importante e essencial fonte de informação e a localização e recuperação de informações na Internet passou a ser um grande problema a ser resolvido. Isto porque a falta de padronização e estrutura adequada para representação dos dados, que é resultado da liberdade de criação e manipulação dos documentos, compromete a eficácia dos modelos de recuperação de informação tradicionais. Muitos modelos foram então desenvolvidos para melhorar o desempenho dos sistemas de recuperação de informação. Com o passar dos anos surge assim uma nova área de pesquisa a extração de dados da web que, ao contrário dos sistemas de recuperação, extrai informações dos documentos relevantes e não documentos relevantes de conjunto de documentos. Tais estudos viabilizaram a integração de informações de documentos distribuídos e heterogêneos, que foram baseados nos mesmos modelos aplicados a banco de dados distribuídos. Neste trabalho é apresentado um estudo que tem como objetivo materializar informações contidas em documentos HTML de modo que se possa melhorar o desempenho das consultas em relação ao tempo de execução quanto à qualidade dos resultados obtidos. Para isso são estudados o ambiente web e as características dos dados contidos neste ambiente, como por exemplo, a distribuição e a heterogeneidade, aspectos relacionados à maneira pela qual as informações estão disponibilizadas e como estas podem ser recuperadas e extraídas através de regras sintáticas. Finalizando o estudo são apresentados vários tipos de classificação para os modelos de integração de dados e é monstrado em detalhes um estudo de caso, que tem como objetivo demonstrar a aplicação das técnicas apresentadas ao longo desta pesquisa.
Resumo:
A grande disponibilidade de informações oferece um amplo potencial comercial. Contudo, o enorme volume e diversidade de oportunidades gera um problema: limitações comerciais criadas pela seleção e a manipulação manual dessa informação. O tratamento das grandes bases de dados não estruturadas e/ou semi-estruturadas (BDNE/SE), como as trazidas pela Internet, é uma fonte de conhecimento rica e confiável, permitindo a análise de mercados. O tratamento e a estruturação dessa informação permitirá seu melhor gerenciamento, a realização de consultas e a tomada de decisões, criando diferenciais competitivos de mercado. Pesquisas em Recuperação de Informação (RI), as quais culminaram nesta tese, investem na melhoria da posição competitiva de pequenas e médias empresas, hoje inseridas, pelo comércio eletrônico, em um mercado globalizado, dinâmico e competitivo. O objetivo deste trabalho é o desenvolvimento de uma Metodologia de Extração de Informações para o Tratamento e Manipulação de Informações de Comércio Eletrônico. Chamaremos essa metodologia de EI-MNBC, ou seja, Extração de Informações em Múltiplos Níveis Baseada em Conhecimento. Os usuários da EIMNBC podem rapidamente obter as informações desejadas, frente ao tempo de pesquisa e leitura manual dos dados, ou ao uso de ferramentas automáticas inadequadas. Os problemas de volume, diversidade de formatos de armazenamento, diferentes necessidades de pesquisa das informações, entre outros, serão solucionados. A metodologia EI-MNBC utiliza conhecimentos de RI, combinando tecnologias de Recuperação de Documentos, Extração de Informações e Mineração de Dados em uma abordagem híbrida para o tratamento de BDNE/SE. Propõe-se uma nova forma de integração (múltiplos níveis) e configuração (sistema baseado em conhecimento - SBC) de processos de extração de informações, tratando de forma mais eficaz e eficiente as BDNE/SE usadas em comércio eletrônico. Esse tratamento viabilizará o uso de ferramentas de manipulação de dados estruturados, como Sistemas Gerenciadores de Bancos de Dados, sobre as informações anteriormente desestruturadas. A busca do conhecimento existente em bases de dados textuais não estruturadas demanda a compreensão desses dados. O objetivo é enfatizar os aspectos cognitivos superficiais envolvidos na leitura de um texto, entendendo como as pessoas recuperam as informações e armazenando esse conhecimento em regras que guiarão o processo de extração. A estrutura da metodolo gia EI-MNBC é similar a de um SBC: os módulos de extração (máquinas de inferência) analisam os documentos (eventos) de acordo com o conteúdo das bases de conhecimento, interpretando as regras. O resultado é um arquivo estruturado com as informações extraíd as (conclusões). Usando a EI-MNBC, implementou-se o SE-MNBC (Sistema de Extração de Informações em Múltiplos Níveis Baseado em Conhecimento) que foi aplicado sobre o sistema ETO (Electronic Trading Opportunities). O sistema ETO permite que as empresas negociem através da troca de e-mails e o SE-MNBC extrai as informações relevantes nessas mensagens. A aplicação é estruturada em três fases: análise estrutural dos textos, identificação do assunto (domínio) de cada texto e extração, transformando a informação não estruturada em uma base de dados estruturada.
Resumo:
O mundo moderno vem exigindo cada vez mais das pessoas no aspecto profissional. A exigência de capacitação profissional é uma realidade que obriga as pessoas a uma constante atualização. Neste contexto, a educação a distancia se mostra uma importante via de disseminação de conhecimento. Este trabalho apresenta um agente de Perfil do Usuário inserido no contexto do projeto PortEdu – Portal de Educação, projeto que visa abrigar ambientes de ensino na Web. Um dos objetivos do projeto PortEdu é fornecer um serviço de recuperação de informação aos ambientes ancorados, guiado pelo Agente Perfil do Usuário, tendo como finalidade oferecer informações contextualizadas a um problema específico do usuário (aluno), com a intenção de auxiliá-lo em seu aprendizado. Durante a utilização de ambientes de educação a distância, os alunos utilizam ferramentas de recuperação de informação na busca de soluções para as suas dúvidas. Mas, a busca de informação na Internet, utilizando as ferramentas existentes, nem sempre é uma tarefa simples, pois exige esforço na construção de termos de busca eficientes ou mantém o usuário percorrendo longas listas de resultados. No desenvolvimento deste serviço, no PortEdu, procuramos minimizar este tipo de esforço. Neste trabalho são descritas, primeiramente, as áreas envolvidas na pesquisa, mostrando como elas foram utilizadas na construção do Agente de Perfil do Usuário. Também é realizada uma descrição da área de inteligência artificial, dos conceitos de agente e Educação a Distancia. Pretende-se mostrar aqui as propriedades que o Agente de Perfil do Usuário possui Na seqüência, são apresentadas as soluções tecnológicas utilizadas no projeto, tais como: AMPLIA (ambiente de ensino ancorado no PortEdu), PMA3, FIPA e a API Fácil. É descrito o modo como estas tecnologias interagem no âmbito do PortEdu. O problema da recuperação de informação na Web é discutido nesta pesquisa e são apresentados três trabalhos relacionados que abordam este problema. Também é realizada uma comparação entre estes trabalhos e o PortEdu. Por fim, este trabalho apresenta uma solução encontrada para resolver o problema de recuperação de informação na Web utilizando um protótipo do PortEdu. Esta pesquisa está inserida na área de Informática na Educação.
Resumo:
Esta pesquisa tem como objetivo principal propor uma metodologia que agilize a construção de uma ferramenta no campo da Documentação. Trata-se da geração de uma base de dados terminológica com sustentação na terminologia utilizada pelo especialista em sua área de domínio. Ela se apóia nos pressupostos teóricos da Teoria da Enunciação, da Teoria Comunicativa da Terminologia e da Socioterminologia. Com esse referencial acredita-se ser possível assegurar a efetiva comunicação entre os Sistemas de Recuperação de Informação e os usuários, sendo o bibliotecário o mediador do processo comunicativo que tem origem no autor do texto indexado. Buscou-se o suporte da Terminografia e da Lingüística de Corpus pela possibilidade de coletar, tratar e armazenar um grande volume de informações de uma determinada área do saber.
Resumo:
Este trabalho apresenta um modelo de metadados para descrever e recuperar imagens médicas na Web. As classes pertencentes ao modelo viabilizam a descrição de imagens de várias especialidades médicas, incluindo suas propriedades, seus componentes e as relações existentes entre elas. Uma das propriedades que o modelo incorpora é a classificação internacional de doenças, versão 10 (CID-10). O modelo de metadados proposto, inspirado em classes, favorece a especialização e sua implementação na arquitetura de metadados RDF. O modelo serviu de base para a implementação de um protótipo denominado de Sistema MedISeek (Medical Image Seek) que permite a usuários autorizados: descrever, armazenar e recuperar imagens na Web. Além disto, é sugerida uma estrutura persistente apropriada de banco de dados para armazenamento e recuperação dos metadados propostos.
Resumo:
Este documento constitui uma dissertação de mestrado, requisito parcial para a obtenção do grau de Mestre em Administração pela Universidade Federal do Rio Grande do Sul. O tema da pesquisa é o relacionamento existente entre as características técnicas de um projeto de sistema de informação e apoio à decisão e os comportamentos dos usuários no seu uso. O objetivo é desenvolver e apresentar um modelo conceitual de EIS (“Enterprise Information Systems”), a partir da literatura, das tendências tecnológicas e de estudos de caso, que identifique características para comportamentos proativos dos usuários na recuperação de informações. Adotou-se o conceito de comportamento proativo na recuperação de informações como a combinação das categorias exploração de dados e busca focada. Entre os principais resultados, pode-se destacar a definição de categorias relacionadas com as características dos sistemas - flexibilidade, integração e apresentação - e de categorias relacionadas com os comportamentos dos usuários na recuperação de informações - exploração de dados e busca focada, bem como a apresentação de um modelo conceitual para sistemas EIS. Pode-se destacar também a exploração de novas técnicas para análise qualitativa de dados, realizada com o objetivo de buscar uma maior preservação do contexto nos estudos de caso.
Resumo:
Com a crescente popularização dos microcomputadores e da rede mundial de informação, Internet, uma enorme variedade e quantidade de informações estão se tornando acessíveis a um número cada vez maior de pessoas. Desta forma, também cresce a importância de se extrair a informação útil que está no grande conjunto das informações disponibilizadas. Hoje há muito mais dados na forma de textos eletrônicos do que em tempos passados, mas muito disto é ignorado. Nenhuma pessoa pode ler, entender e sintetizar megabytes de texto no seu cotidiano. Informações perdidas, e conseqüentemente oportunidades perdidas, estimularam pesquisas na exploração de várias estratégias para a administração da informação, a fim de estabelecer uma ordem na imensidão de textos. As estratégias mais comuns são recuperação de informações, filtragem de informações e outra relativamente nova, chamada de extração de informações. A extração de informações tem muitas aplicações potenciais. Por exemplo, a informação disponível em textos não-estruturados pode ser armazenada em bancos de dados tradicionais e usuários podem examiná-las através de consultas padrão. Para isso, há um complexo trabalho de gerenciamento, que é conseqüência da natureza não estruturada e da difícil análise dos dados. Os dados de entrada, que são os textos semi ou não-estruturados, são manipulados por um processo de extração configurado através de bases de conhecimento criadas pelo usuário do sistema. Esta dissertação tem como objetivo a definição de uma linguagem, com base em uma arquitetura de múltiplos níveis, para extrair satisfatoriamente as informações desejadas pelo usuário, presentes em bases de dados textuais. Também faz parte deste trabalho a implementação de um protótipo que utiliza a linguagem proposta.
Resumo:
Este trabalho apresenta a proposta de uma arquitetura e o modelo de um Agente de Intercâmbio Eletrônico de Dados, Agente EDI, cuja função é, permitir a troca de dados estruturados entre Sistemas de Informações Distribuídos através da Internet. A estratégia de interação dos agentes possibilita uma maneira alternativa de tratar a recuperação, o armazenamento e a distribuição de dados, permitindo assim, o desenvolvimento de um modelo de Sistema de Informações baseado em Web, igualmente proposto neste trabalho. É apresentado também o desenvolvimento do Agente EDI proposto. O qual poderá ser utilizado por entidades que necessitam disponibilizar ou recuperar dados estruturados via Web, como por exemplo: informações de produtos, listas de preços, dados cadastrais, etc. A relevância deste trabalho está no fato de apresentar uma tecnologia simples e acessível, capaz de ser implementada sem a necessidade de altos investimentos e capaz de facilitar a implementação de Sistemas Distribuídos via Internet.
Resumo:
Nos Sistemas de Informação Geográfica (SIG), os aspectos temporais são importantes, principalmente, para representar o histórico de dados georreferenciados. Vários modelos conceituais de dados para SIG propõem classes e operações que permitem representar os aspectos espaciais e temporais das aplicações. Porém, ao nível do modelo interno dos sistemas atuais, as estruturas de dados armazenam e manipulam somente os aspectos espaciais dos dados geográficos, não contemplando os aspectos espaço-temporais propostos nos modelos conceituais. O objetivo desse trabalho é estender estruturas de dados do tipo quadtree para suporte ao armazenamento e à recuperação de dados espaço-temporais.