8 resultados para Information Retrieval, Document Databases, Digital Libraries
em Instituto Politécnico do Porto, Portugal
Resumo:
Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.
Resumo:
The discussion and analysis of the diverse outreach activities in this article provide guidance and suggestions for academic librarians who are interested in outreach and community engagement of any scale and nature. Cases are draw from a wide spectrum and are particularly strong in the setting of large academic libraries, special collections and programming for multicultural populations. The aim of this study is to present the results of research carried out regarding the needs, demand and consumption of European Union information by users in European Documentation Centres (EDC). A quantitative methodology was chosen based on a questionnaire with 24 items. This questionnaire was distributed within the EDC of Salamanca, Spain, and the EDC of Porto, Portugal, during specific time intervals between 2010 and 2011. We examined the level of EU information that EDC users possess, and identified the factors that facilitate or hinder access to EU information, the topics most demanded, and the types of documents consulted. Analysis was made of the use that the consumer of European information makes of databases and their behaviour during the consultation. Although the sample used was not very significant owing to its small size, it is a faithful reflection of the scarce visits made to EDCs. This study can be of use to managers of EDCs, providing them with better knowledge of the information needs and demands of their users. Ultimately this should lead to improvements in the services offered. The study lies within a frame of research scarcely addressed in specialized scholarly literature: European Union information.
Resumo:
La biblioteca escolar es un servicio de información básico para todos los miembros de una comunidad educativa, que forma parte de los espacios docentes de los centros y de los procesos pedagógicos que tienen lugar en ellos. Las bibliotecas escolares funcionan como centros de recursos para las actividades de enseñanza-aprendizaje, están constituidas por un conjunto sistematizado y dinámico de servicios y fondos documentales que permiten a los usuarios desarrollar hábitos lectores y buscar y valorar las fuentes de información, entre otras relevantes funciones. Los recursos de información que albergan son uno de sus principales activos, pero si colección documental no está organizada, las tareas de búsqueda y localización de la información resultarán complicadas y la calidad de los recursos obtenidos, cuestionable. Los bibliotecarios deben conocer en profundidad las características específicas del fondo documental y las fuentes disponibles; las técnicas y herramientas adecuadas para procesar y tratar el fondo bibliográfico, así como los métodos de recuperación de la información más convenientes. En este contexto, el objetivo de este trabajo es analizar de forma pormenorizada los procesos de indización y clasificación que se realizan en las bibliotecas escolares para procesar y recuperar la información que albergan su colecciones, así como describir las características más relevantes de las herramientas específicas que se usan en las bibliotecas escolares españolas, brasileñas y portuguesas, adaptadas a las características de los usuarios que utilizan sus servicios y acuden a ellas para resolver necesidades de información. Para lograr este propósito, se analiza el concepto de biblioteca escolar de forma crítica, se estudian sus funciones y se examinan las técnicas y los instrumentos que permiten organizar la información. Entre otras herramientas, se estudian listas de encabezamientos de materia como los Encabezamientos de materia para libros infantiles y juveniles y la Lista de Encabezamientos de materia para las bibliotecas públicas; sistemas de clasificación, como la Clasificación Decimal Universal (edición de bolsillo) o la clasificación por centros de interés y tesauros especializados como el Tesauro de la Educación UNESCO-OIE y el Tesauro Europeo de la Educación, entre otros.
Resumo:
Many of the most common human functions such as temporal and non-monotonic reasoning have not yet been fully mapped in developed systems, even though some theoretical breakthroughs have already been accomplished. This is mainly due to the inherent computational complexity of the theoretical approaches. In the particular area of fault diagnosis in power systems however, some systems which tried to solve the problem, have been deployed using methodologies such as production rule based expert systems, neural networks, recognition of chronicles, fuzzy expert systems, etc. SPARSE (from the Portuguese acronym, which means expert system for incident analysis and restoration support) was one of the developed systems and, in the sequence of its development, came the need to cope with incomplete and/or incorrect information as well as the traditional problems for power systems fault diagnosis based on SCADA (supervisory control and data acquisition) information retrieval, namely real-time operation, huge amounts of information, etc. This paper presents an architecture for a decision support system, which can solve the presented problems, using a symbiosis of the event calculus and the default reasoning rule based system paradigms, insuring soft real-time operation with incomplete, incorrect or domain incoherent information handling ability. A prototype implementation of this system is already at work in the control centre of the Portuguese Transmission Network.
Resumo:
Este trabalho incide sobre a gestão do conhecimento e cultura organizacional, as suas barreiras os seus facilitadores na Parque Escolar E.P.E. Este estudo teve por base o método quadripolar. Várias foram as atividades ao longo deste trabalho, inicialmente foi recolhida a documentação interna, nomeadamente diplomas legais, regulamentos, manuais de procedimentos, manuais de formações internas, entre outros documentos, que serviram de base ao reconhecimento da instituição, a sua evolução estrutural e de funcionamento. Para identificar as barreiras e os facilitadores na recuperação da informação nos três principais meios para o efeito: arquivo físico, file system e aplicações informáticas foram aplicados inquéritos aos produtores/ utilizadores de informação da Parque Escolar, E.P.E. Com base neste estudo foi possível identificar qual o recurso de recuperação de informação que traz mais dificuldades na sua utilização, se existem documentos exclusivos em papel ou exclusivos em formato digital, se os mesmos são recuperáveis com facilidade. Foi possível averiguar se os colaboradores da Parque Escolar, E.P.E. consideram os documentos que constam no Arquivo Físico mais fidedignos do que os documentos em formato digital guardados no file system ou nas aplicações informáticas. Em relação às aplicações informáticas foi ainda possível averiguar se os colaboradores consideram uteis as suas atualizações, ou se demonstram alguma resistência à mudança, e se consideram que tiveram o acompanhamento necessário para compreender e aplicar as alterações. Com este estudo esperamos ter contribuído para dar uma maior visibilidade à temática da gestão do conhecimento e como a cultura organizacional pode influenciar, criando barreiras ou facilitadores.
Resumo:
A Declaração de Bolonha (1999) obrigou a mudanças várias, reconfigurando os modelos formativos no espaço europeu do ensino superior, até 2010. A partir de 2006, em Portugal, com a criação e adequação dos cursos superiores existentes ao modelo de Bolonha, verificou-se uma generalizada redução da duração média dos diferentes ciclos de estudo e a definição de competências gerais e específicas para os cursos e estudantes. Reflecte-se sobre a importância da literacia da informação, conceito evolutivo e abrangente, que se pode traduzir, sumariamente, em saber quando e porquê se tem uma necessidade informacional, onde encontrar a informação, como avaliá-la, usá-la e comunicá-la de forma ética, incluindo as competências tecnológicas, definição que se inscreve na interdisciplinar Ciência da Informação e no comportamento informacional. Destaca-se a vantagem de uma formação para a literacia da informação no ensino superior, a qual contribuirá, certamente, para dotar os estudantes das referidas competências e melhorá-las. Defende-se a necessidade de uma desejável inter-acção entre múltiplos agentes educativos, com destaque para a trilogia estudantes, bibliotecários e professores, sendo os primeiros encarados como protagonistas activos das suas aprendizagens e devendo ser dotados de competências de literacia da informação, factor determinante para o seu sucesso. Quanto ao Bibliotecário, dotado de novas competências, entre as quais as tecnológicas, deve ser um facilitador do processo de formação para a literacia - preferencialmente integrada num projecto pedagógico e no currículo - articulando a sua acção educativa com estudantes e docentes. Corroborando a extensão educativa das Bibliotecas e aliando-a ao uso inevitável das novas tecnologias da informação e comunicação, sublinha-se o papel das Bibliotecas Digitais, que podem corresponder eficientemente aos anseios dos utilizadores no acesso a uma informação de qualidade, de forma cómoda, rápida, a baixo custo, com personalização dos serviços online, com inter-acção e socialização, através de ferramentas de edição colaborativa, típicas da Web 2.0.
Resumo:
Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada. O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação. A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final. A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição. A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação. O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.
Resumo:
Extracting the semantic relatedness of terms is an important topic in several areas, including data mining, information retrieval and web recommendation. This paper presents an approach for computing the semantic relatedness of terms using the knowledge base of DBpedia — a community effort to extract structured information from Wikipedia. Several approaches to extract semantic relatedness from Wikipedia using bag-of-words vector models are already available in the literature. The research presented in this paper explores a novel approach using paths on an ontological graph extracted from DBpedia. It is based on an algorithm for finding and weighting a collection of paths connecting concept nodes. This algorithm was implemented on a tool called Shakti that extract relevant ontological data for a given domain from DBpedia using its SPARQL endpoint. To validate the proposed approach Shakti was used to recommend web pages on a Portuguese social site related to alternative music and the results of that experiment are reported in this paper.