18 resultados para Topic Ontology, User Profiles, Pelevance Assessment, Information Retrieval
em Instituto Politécnico do Porto, Portugal
Resumo:
Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada. O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação. A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final. A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição. A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação. O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.
Resumo:
Extracting the semantic relatedness of terms is an important topic in several areas, including data mining, information retrieval and web recommendation. This paper presents an approach for computing the semantic relatedness of terms using the knowledge base of DBpedia — a community effort to extract structured information from Wikipedia. Several approaches to extract semantic relatedness from Wikipedia using bag-of-words vector models are already available in the literature. The research presented in this paper explores a novel approach using paths on an ontological graph extracted from DBpedia. It is based on an algorithm for finding and weighting a collection of paths connecting concept nodes. This algorithm was implemented on a tool called Shakti that extract relevant ontological data for a given domain from DBpedia using its SPARQL endpoint. To validate the proposed approach Shakti was used to recommend web pages on a Portuguese social site related to alternative music and the results of that experiment are reported in this paper.
Resumo:
Many of the most common human functions such as temporal and non-monotonic reasoning have not yet been fully mapped in developed systems, even though some theoretical breakthroughs have already been accomplished. This is mainly due to the inherent computational complexity of the theoretical approaches. In the particular area of fault diagnosis in power systems however, some systems which tried to solve the problem, have been deployed using methodologies such as production rule based expert systems, neural networks, recognition of chronicles, fuzzy expert systems, etc. SPARSE (from the Portuguese acronym, which means expert system for incident analysis and restoration support) was one of the developed systems and, in the sequence of its development, came the need to cope with incomplete and/or incorrect information as well as the traditional problems for power systems fault diagnosis based on SCADA (supervisory control and data acquisition) information retrieval, namely real-time operation, huge amounts of information, etc. This paper presents an architecture for a decision support system, which can solve the presented problems, using a symbiosis of the event calculus and the default reasoning rule based system paradigms, insuring soft real-time operation with incomplete, incorrect or domain incoherent information handling ability. A prototype implementation of this system is already at work in the control centre of the Portuguese Transmission Network.
Resumo:
Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.
Resumo:
Este trabalho foi realizado no âmbito da disciplina de Dissertação/Estágio do ramo de Optimização Energética na Indústria Química, do Mestrado em Engenharia Química do Instituto Superior de Engenharia do Porto e foi desenvolvido na empresa GreenWatt. O principal objectivo é efectuar uma auditoria energética e uma auditoria QAI a uma clínica de fisiatria de forma a preparar as ferramentas necessárias para a Certificação Energética e da QAI no enquadramento do Sistema de Certificação Energética. Na auditoria QAI foram analisados parâmetros físicos - temperatura, humidade relativa e partículas respiráveis PM10, parâmetros químicos - CO2, CO, O3, COVs, HCOH e o radão, e ainda parâmetros microbiológicos - bactérias, fungos e legionella. Na auditoria energética foi feita a caracterização dos vectores de energia utilizados no edifício, nomeadamente, gás natural e electricidade. Para esta caracterização efectuou-se um levantamento de toda a informação disponível relativa aos combustíveis utilizados, iluminação instalada, outros equipamentos consumidores de energia e perfis de utilização. Com recurso a analisadores de energia foram ainda medidos os consumos eléctricos do edifício. Com suporte nos dados provenientes da auditoria energética e das facturas anuais efectuou-se a validação da simulação dinâmica do edifício. Esta simulação é a base do cálculo do IEEnominal do edifício. Os resultados da auditoria QAI, permitiram verificar que existem valores nãoregulamentares em relação aos compostos orgânicos voláteis, fungos e bactérias. Da auditoria energética concluiu-se que o principal consumo de energia é o gás natural utilizado pelas caldeiras existentes. Este valor representa cerca de 81% do consumo total de energia, reproduzindo os mesmos resultados obtidos pela desagregação das facturas energéticas. No que respeita à electricidade concluiu-se que as bombas de água e os equipamentos eléctricos são os maiores consumidores deste vector, com, respectivamente, 53% e 23% do consumo total de energia eléctrica. Após a realização da simulação dinâmica, com base nos levantamentos realizados no edifício e na auditoria energética efectuada, obteve-se uma fotografia do edifício no que respeita ao seu desempenho energético, e calculou-se um IEEnominal de 40,54 kgep/m2.ano o que qualifica o edifício com uma Classe Energética E. O valor de CO2 emitido por este edifício em termos nominais, anualmente, é de 76,39 toneladas.
Resumo:
Para obtenção do grau de Doutor pela Universidade de Vigo com menção internacional Departamento de Informática
Resumo:
This paper reports on the design and development of an Android-based context-aware system to support Erasmus students during their mobility in Porto. It enables: (i) guest users to create, rate and store personal points of interest (POI) in a private, local on board database; and (ii) authenticated users to upload and share POI as well as get and rate recommended POI from the shared central database. The system is a distributed client / server application. The server interacts with a central database that maintains the user profiles and the shared POI organized by category and rating. The Android GUI application works both as a standalone application and as a client module. In standalone mode, guest users have access to generic info, a map-based interface and a local database to store and retrieve personal POI. Upon successful authentication, users can, additionally, share POI as well as get and rate recommendations sorted by category, rating and distance-to-user.
Resumo:
Este trabalho incide sobre a gestão do conhecimento e cultura organizacional, as suas barreiras os seus facilitadores na Parque Escolar E.P.E. Este estudo teve por base o método quadripolar. Várias foram as atividades ao longo deste trabalho, inicialmente foi recolhida a documentação interna, nomeadamente diplomas legais, regulamentos, manuais de procedimentos, manuais de formações internas, entre outros documentos, que serviram de base ao reconhecimento da instituição, a sua evolução estrutural e de funcionamento. Para identificar as barreiras e os facilitadores na recuperação da informação nos três principais meios para o efeito: arquivo físico, file system e aplicações informáticas foram aplicados inquéritos aos produtores/ utilizadores de informação da Parque Escolar, E.P.E. Com base neste estudo foi possível identificar qual o recurso de recuperação de informação que traz mais dificuldades na sua utilização, se existem documentos exclusivos em papel ou exclusivos em formato digital, se os mesmos são recuperáveis com facilidade. Foi possível averiguar se os colaboradores da Parque Escolar, E.P.E. consideram os documentos que constam no Arquivo Físico mais fidedignos do que os documentos em formato digital guardados no file system ou nas aplicações informáticas. Em relação às aplicações informáticas foi ainda possível averiguar se os colaboradores consideram uteis as suas atualizações, ou se demonstram alguma resistência à mudança, e se consideram que tiveram o acompanhamento necessário para compreender e aplicar as alterações. Com este estudo esperamos ter contribuído para dar uma maior visibilidade à temática da gestão do conhecimento e como a cultura organizacional pode influenciar, criando barreiras ou facilitadores.
Resumo:
Mestrado em Engenharia Eletrotécnica e de Computadores - Área de Especialização de Telecomunicações
Resumo:
As technology is increasingly being seen as a facilitator to learning, open remote laboratories are increasingly available and in widespread use around the world. They provide some advantages over traditional hands-on labs or simulations. This paper presents the results of integrating the open remote laboratory VISIR into several courses, in various contexts and using various methodologies. These integrations, all related to higher education engineering, were designed by teachers with different perspectives to achieve a range of learning outcomes. The degree to which these VISIR-related outcomes were accomplished is discussed. The results reflect the levels of student engagement and learning and of teacher involvement. From the analysis, a connection between these two aspects was traced, although only related to the user profiles. VISIR is shown to be always of benefit for more motivated students, but this benefit can be maximized under particular conditions and characteristics.
Resumo:
As novas tecnologias, e a Internet em particular, criaram novas formas de transmissão de informação para o público e alteraram a forma como as pessoas comunicam. Isto abriu portas a novas formas de publicidade e ao aparecimento de um novo género de jogos, os advergames, aproveitando o facto dos jogos online contarem já com milhões de jogadores a nível mundial, um número que continua em constante crescimento. O conceito é relativamente recente mas apresenta resultados bastante positivos, com muitos especialistas a defender que os advergames são o futuro da publicidade, em grande parte devido aos custos inferiores e ao tempo de exposição do produto, quando comparado com os métodos mais tradicionais de publicidade. Os Jogos Sérios e, em especial, os advergames são o tema principal desta tese, com uma análise detalhada das suas vantagens e desvantagens, origens e oportunidade de desenvolvimento no futuro. São também analisados alguns casos de advergames de sucesso. A componente prática da tese tem como objetivo a criação de um advergame com o propósito principal de auxiliar os novos alunos do ISEP no seu processo de integração. O jogo consiste num formato de labirinto em duas dimensões, com objetivos que consistem na captura de certos objetos e entrega dos mesmos em pontos de destino pré-definidos, sempre dentro de um tempo limite e evitando outros perigos e obstáculos. Os resultados obtidos com a aplicação deste jogo demonstram que a transmissão de informação é bastante eficaz junto do seu público-alvo, devido em parte à abordagem mais dinâmica e interativa que um advergame tem com os seus utilizadores. A simplicidade da interface e facilidade de utilização proporcionada pelo jogo permitem uma exposição alargada da mensagem a passar, aumentando a motivação do jogador para se manter em contacto com o mesmo. Isto apresenta perspetivas bastante otimistas para o futuro da utilização de advergames no meio Universitário.
Resumo:
La biblioteca escolar es un servicio de información básico para todos los miembros de una comunidad educativa, que forma parte de los espacios docentes de los centros y de los procesos pedagógicos que tienen lugar en ellos. Las bibliotecas escolares funcionan como centros de recursos para las actividades de enseñanza-aprendizaje, están constituidas por un conjunto sistematizado y dinámico de servicios y fondos documentales que permiten a los usuarios desarrollar hábitos lectores y buscar y valorar las fuentes de información, entre otras relevantes funciones. Los recursos de información que albergan son uno de sus principales activos, pero si colección documental no está organizada, las tareas de búsqueda y localización de la información resultarán complicadas y la calidad de los recursos obtenidos, cuestionable. Los bibliotecarios deben conocer en profundidad las características específicas del fondo documental y las fuentes disponibles; las técnicas y herramientas adecuadas para procesar y tratar el fondo bibliográfico, así como los métodos de recuperación de la información más convenientes. En este contexto, el objetivo de este trabajo es analizar de forma pormenorizada los procesos de indización y clasificación que se realizan en las bibliotecas escolares para procesar y recuperar la información que albergan su colecciones, así como describir las características más relevantes de las herramientas específicas que se usan en las bibliotecas escolares españolas, brasileñas y portuguesas, adaptadas a las características de los usuarios que utilizan sus servicios y acuden a ellas para resolver necesidades de información. Para lograr este propósito, se analiza el concepto de biblioteca escolar de forma crítica, se estudian sus funciones y se examinan las técnicas y los instrumentos que permiten organizar la información. Entre otras herramientas, se estudian listas de encabezamientos de materia como los Encabezamientos de materia para libros infantiles y juveniles y la Lista de Encabezamientos de materia para las bibliotecas públicas; sistemas de clasificación, como la Clasificación Decimal Universal (edición de bolsillo) o la clasificación por centros de interés y tesauros especializados como el Tesauro de la Educación UNESCO-OIE y el Tesauro Europeo de la Educación, entre otros.
Resumo:
A composição musical é um tema de muito interesse para a computação evolucionária dentro da área da inteligência artificial. É uma área que tem sofrido vários desenvolvimentos ao longo dos últimos anos pois o interesse em que hajam computadores que façam obras musicais é deveras aliciante. Este trabalho tem por objectivo realizar mais um passo nesse sentido. Assim, foi desenvolvida uma aplicação informática que realiza composições musicais de dois géneros distintos: Músicas Infantis e Músicas Blues. A aplicação foi implementada com recurso aos Algoritmos Genéticos, que são os algoritmos evolucionários mais populares da área da computação evolucionária. O trabalho foi estruturado em duas fases de desenvolvimento. Na primeira fase, realizou-se um levantamento estatístico sobre as características específicas de cada um dos géneros musicais. Analisaram-se quinze músicas de cada género musical, com o intuito de se chegar a uma proporção do uso que cada nota tem em cada um dos casos. Na segunda fase, desenvolveu-se o software que compõe as músicas com implementação de um algoritmo genético. Além disso, foi também desenvolvida uma interface gráfica que permite ao utilizador a escolha do género musical que pretende compor. O algoritmo genético começa por gerar uma população inicial de potenciais soluções de acordo com a escolha do utilizador, realizando, de seguida, o ciclo que caracteriza o algoritmo genético. A população inicial é constituída por soluções que seguem as regras que foram implementadas de acordo com os dados recolhidos ao longo da primeira fase. Foi também implementada uma interface de avaliação, através da qual, o utilizador pode ouvir cada uma das músicas para posterior avaliação em termos de fitness. O estado de evolução do algoritmo é apresentado, numa segunda interface, a qual facilita a clareza e justiça na avaliação ao longo de todo o processo. Esta última apresenta informação sobre a média das fitness da geração anterior e actual, sendo assim possível ter uma noção da evolução do algoritmo, no sentido de se obterem resultados satisfatórios no que diz respeito às composições musicais.
Resumo:
One of the most difficult issues of e-Learning is the students’ assessment. Being this an outstanding task regarding theoretical topics, it becomes even more challenging when the topics under evaluation are practical. ISCAP’s Information Systems Department is composed of about twenty teachers who have been for several years using an e-learning environment (at the moment Moodle 2.3) combined with traditional assessment. They are now planning and implementing a new e-learning assessment strategy. This effort was undertaken in order to evaluate a practical topic (the use of spreadsheets to solve management problems) common to shared courses of several undergraduate degree programs. The same team group is already experienced in the assessment of theoretical information systems topics using the b-learning platform. Therefore, this project works as an extension to previous experiences being the team aware of the additional difficulties due to the practical nature of the topics. This paper describes this project and presents two cycles of the action research methodology, used to conduct the research. The first cycle goal was to produce a database of questions. When it was implemented in order to be used with a pilot group of students, several problems were identified. Subsequently, the second cycle consisted in solving the identified problems preparing the database and all the players to a broader scope implementation. For each cycle, all the phases, its drawbacks and achievements are described. This paper suits all those who are or are planning to be in the process of shifting their assessment strategy from a traditional to one supported by an e-learning platform.
Resumo:
A Teia Mundial (Web) foi prevista como uma rede de documentos de hipertexto interligados de forma a criar uma espaço de informação onde humanos e máquinas poderiam comunicar. No entanto, a informação contida na Web tradicional foi/é armazenada de forma não estruturada o que leva a que apenas os humanos a possam consumir convenientemente. Consequentemente, a procura de informações na Web sintáctica é uma tarefa principalmente executada pelos humanos e nesse sentido nem sempre é fácil de concretizar. Neste contexto, tornou-se essencial a evolução para uma Web mais estruturada e mais significativa onde é dado significado bem definido à informação de forma a permitir a cooperação entre humanos e máquinas. Esta Web é usualmente referida como Web Semântica. Além disso, a Web Semântica é totalmente alcançável apenas se os dados de diferentes fontes forem ligados criando assim um repositório de Dados Abertos Ligados (LOD). Com o aparecimento de uma nova Web de Dados (Abertos) Ligados (i.e. a Web Semântica), novas oportunidades e desafios surgiram. Pergunta Resposta (QA) sobre informação semântica é actualmente uma área de investigação activa que tenta tirar vantagens do uso das tecnologias ligadas à Web Semântica para melhorar a tarefa de responder a questões. O principal objectivo do projecto World Search passa por explorar a Web Semântica para criar mecanismos que suportem os utilizadores de domínios de aplicação específicos a responder a questões complexas com base em dados oriundos de diferentes repositórios. No entanto, a avaliação feita ao estado da arte permite concluir que as aplicações existentes não suportam os utilizadores na resposta a questões complexas. Nesse sentido, o trabalho desenvolvido neste documento foca-se em estudar/desenvolver metodologias/processos que permitam ajudar os utilizadores a encontrar respostas exactas/corretas para questões complexas que não podem ser respondidas fazendo uso dos sistemas tradicionais. Tal inclui: (i) Ultrapassar a dificuldade dos utilizadores visionarem o esquema subjacente aos repositórios de conhecimento; (ii) Fazer a ponte entre a linguagem natural expressa pelos utilizadores e a linguagem (formal) entendível pelos repositórios; (iii) Processar e retornar informações relevantes que respondem apropriadamente às questões dos utilizadores. Para esse efeito, são identificadas um conjunto de funcionalidades que são consideradas necessárias para suportar o utilizador na resposta a questões complexas. É também fornecida uma descrição formal dessas funcionalidades. A proposta é materializada num protótipo que implementa as funcionalidades previamente descritas. As experiências realizadas com o protótipo desenvolvido demonstram que os utilizadores efectivamente beneficiam das funcionalidades apresentadas: ▪ Pois estas permitem que os utilizadores naveguem eficientemente sobre os repositórios de informação; ▪ O fosso entre as conceptualizações dos diferentes intervenientes é minimizado; ▪ Os utilizadores conseguem responder a questões complexas que não conseguiam responder com os sistemas tradicionais. Em suma, este documento apresenta uma proposta que comprovadamente permite, de forma orientada pelo utilizador, responder a questões complexas em repositórios semiestruturados.