1000 resultados para Processamento da linguagem natural
Resumo:
Nos últimos anos, a relevância da Teoria dos Grafos na descrição da rela ção entre indiví duos cresceu signifi cativamente, contribuindo para a ascensão do fenômeno das redes sociais. Sua importância tem permitido a explora ção polí tico-econômica de informa ções escondidas em sua estrutura. Assumindo que um parlamentar maximiza sua utilidade ao fortalecer o seu partido e o estado que representa, construímos uma rede política baseada no Congresso Brasileiro, o que permite a identificação de elementos da Teoria do Seletorado. Através de técnicas de Processamento de Linguagem Natural aplicadas à diferentes fontes de notícia, é possível atualizar a rede de forma a identificar alterações na estrutura de poder do sistema político brasileiro.
Resumo:
É senso comum que o texto escrito é uma importante forma de registrar as informações e que atualmente grande parte desse conteúdo informacional está disponível em meio digital. Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural (PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é extrair o significado do texto através de um conjunto de expressões multipalavras identificadas. Os resultados obtidos foram melhores se comparados com aqueles que utilizam-se das técnicas de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).
Resumo:
O processamento de linguagem natural e as ontologias são ferramentas cuja interação permite uma melhor compreensão dos dados armazenados. Este trabalho, ao associar estas duas áreas aos elementos disponíveis numa base de dados prosopográfica, tornou possível identificar e classificar relacionamentos entre setores de ocupação na forma como eram designados na época, setores de atividade num formato mais próximo do de hoje e o estatuto social que essas incumbências tinham na sociedade coeva. Os dados utilizados são sobretudo de membros do Santo Ofício – do século XVI ao século XVIII. Para atingir este objetivo utilizaram-se algumas descrições textuais de ocorrências da época e outras pouco estruturadas, disponíveis no repositório SPARES. A aplicação de processamento de linguagem natural (remoção de stopwords e aplicação de stemming), conjugada com a construção de duas ontologias, tornou possível classificar esses dados, permitindo consultas mais eficazes. Ao contribuir para a classificação automática de dados históricos, propõem-se metodologias que podem ser aplicadas em dados de qualquer outra área do conhecimento, especialmente as que lidam com as variáveis de tempo e espaço de forma mais intensa; Abstract: OntoSPARES: from natural language to ontologies Contributions to the automatic classification of historical data (16th-18th centuries) The interaction between the natural language processing and ontologies are tools allowing a better understanding of the data stored. This work, by combining these two areas to the elements available in a prosopographic database, has made possible to identify and classify relationships between occupations of many individuals (in general Holy Office members of the 16th-18th centuries). To achieve this goal the data used was gathered in SPARES repository, including some textual descriptions of the time occurrences. They are all few structured. The application of natural language processing (stopwords removal and stemming application), combined with the construction of two ontologies, made possible to classify those data, allowing a more effective search. By contributing to the automatic classification of historical data, this thesis proposes methodologies that can be applied to data from any other field of knowledge, specially data dealing with time and space variables.
Resumo:
As análises de Rousseau indicam que o ingresso no universo simbólico traz consigo a possibilidade da perda da unidade do indivíduo e com ela a possibilidade de ruptura do vínculo social. Partindo da demonstração que a mediação dos signos representativos dá-se em três instâncias distintas, procurou-se detectar se a mesma lógica que comanda o sistema como um todo subjaz às suas teorias musicais. A idéia de que uma seqüência hierarquizada de valores, que vão do mínimo ao máximo de inserção de signos representativos, também se exprime nas concepções musicais de Rousseau é aqui demonstrada, de modo que estas se integram perfeitamente ao conjunto da obra do autor por estarem em conformidade com os princípios que fundamentam suas doutrinas.
Resumo:
Nowadays, where the market competition requires products with better quality and a constant search for cost savings and a better use of raw materials, the research for more efficient control strategies becomes vital. In Natural Gas Processin Units (NGPUs), as in the most chemical processes, the quality control is accomplished through their products composition. However, the chemical composition analysis has a long measurement time, even when performed by instruments such as gas chromatographs. This fact hinders the development of control strategies to provide a better process yield. The natural gas processing is one of the most important activities in the petroleum industry. The main economic product of a NGPU is the liquefied petroleum gas (LPG). The LPG is ideally composed by propane and butane, however, in practice, its composition has some contaminants, such as ethane and pentane. In this work is proposed an inferential system using neural networks to estimate the ethane and pentane mole fractions in LPG and the propane mole fraction in residual gas. The goal is to provide the values of these estimated variables in every minute using a single multilayer neural network, making it possibly to apply inferential control techniques in order to monitor the LPG quality and to reduce the propane loss in the process. To develop this work a NGPU was simulated in HYSYS R software, composed by two distillation collumns: deethanizer and debutanizer. The inference is performed through the process variables of the PID controllers present in the instrumentation of these columns. To reduce the complexity of the inferential neural network is used the statistical technique of principal component analysis to decrease the number of network inputs, thus forming a hybrid inferential system. It is also proposed in this work a simple strategy to correct the inferential system in real-time, based on measurements of the chromatographs which may exist in process under study
Resumo:
Pós-graduação em Ciência da Informação - FFC
Resumo:
A evolução tecnológica tem provocado uma evolução na medicina, através de sistemas computacionais voltados para o armazenamento, captura e disponibilização de informações médicas. Os relatórios médicos são, na maior parte das vezes, guardados num texto livre não estruturado e escritos com vocabulário proprietário, podendo ocasionar falhas de interpretação. Através das linguagens da Web Semântica, é possível utilizar antologias como modo de estruturar e padronizar a informação dos relatórios médicos, adicionando¬ lhe anotações semânticas. A informação contida nos relatórios pode desta forma ser publicada na Web, permitindo às máquinas o processamento automático da informação. No entanto, o processo de criação de antologias é bastante complexo, pois existe o problema de criar uma ontologia que não cubra todo o domínio pretendido. Este trabalho incide na criação de uma ontologia e respectiva povoação, através de técnicas de PLN e Aprendizagem Automática que permitem extrair a informação dos relatórios médicos. Foi desenvolvida uma aplicação, que permite ao utilizador converter relatórios do formato digital para o formato OWL. ABSTRACT: Technological evolution has caused a medicine evolution through computer systems which allow storage, gathering and availability of medical information. Medical reports are, most of the times, stored in a non-structured free text and written in a personal way so that misunderstandings may occur. Through Semantic Web languages, it’s possible to use ontology as a way to structure and standardize medical reports information by adding semantic notes. The information in those reports can, by these means, be displayed on the web, allowing machines automatic information processing. However, the process of creating ontology is very complex, as there is a risk creating of an ontology that not covering the whole desired domain. This work is about creation of an ontology and its population through NLP and Machine Learning techniques to extract information from medical reports. An application was developed which allows the user to convert reports from digital for¬ mat to OWL format.
Resumo:
Mapas Conceituais são representações gráficas do conhecimento de uma pessoa num dado momento e área de conhecimento. Por sua natureza investigativa, são utilizados como ferramentas de apoio em abordagens pedagógicas que objetivam promover a aprendizagem significativa. No entanto, o processo de avaliação de um mapa tende a ser custoso pois acarreta uma pesada carga de processamento cognitivo por parte do avaliador, já que este precisa mapear os conceitos e relações em busca de nuances de conhecimento alí presentes. Essa pesquisa tem por objetivo aumentar o nível de abstração nas interações entre o avaliador e os mapas conceituais fornecendo uma camada intermediária de inteligência computacional que favoreça a comunicação por meio de perguntas e respostas em linguagem natural, fornecendo ao avaliador ferramentas que lhe permita examinar o conteúdo do mapa conceitual sem exigir deste o mapeamento visual dos conceitos e relações presentes nos mapas avaliados. Uma ferramenta é prototipada e uma prova de conceito apresentada. A análise da arquitetura proposta permitiu definir uma arquitetura final com características que permitem potencializar o uso de mapas conceituais e facilitar diversas operações pedagógicas com estes. Essa pesquisa situa-se na área de investigação de sistemas de perguntas e resposta, aplicando técnicas de processamento de linguagem natural para análise da pergunta e interpretação do mapa conceitual e aplica técnica de inteligência artificial para inferir respostas às perguntas.
Resumo:
Ao longo dos tempos foi possível constatar que uma grande parte do tempo dos professores é gasta na componente de avaliação. Por esse facto, há já algumas décadas que a correcção automática de texto livre é alvo de investigação. Sendo a correcção de exercícios efectuada pelo computador permite que o professor dedique o seu tempo em tarefas que melhorem a aprendizagem dos alunos. Para além disso, cada vez mais as novas tecnologias permitem o uso de ferramentas com bastante utilidade no ensino, pois para além de facilitarem a exposição do conhecimento também permitem uma maior retenção da informação. Logo, associar ferramentas de gestão de sala de aula à correcção automática de respostas de texto livre é um desafio bastante interessante. O objectivo desta dissertação foi a realização de um estudo relativamente à área de avaliação assistida por computador em que este trabalho se insere. Inicialmente, foram analisados alguns correctores ortográficos para seleccionar aquele que seria integrado no módulo proposto. De seguida, foram estudadas as técnicas mais relevantes e as ferramentas que mais se enquadram no âmbito deste trabalho. Neste contexto, a ideia foi partir da existência de uma ferramenta de gestão de sala de aula e desenvolver um módulo para a correcção de exercícios. A aplicação UNI_NET-Classroom, que foi a ferramenta para a qual o módulo foi desenvolvido, já continha um componente de gestão de exercícios que apenas efectuava a correcção para as respostas de escolha múltipla. Com este trabalho pretendeu-se acrescentar mais uma funcionalidade a esse componente, cujo intuito é dar apoio ao professor através da correcção de exercícios e sugestão da cotação a atribuir. Por último, foram realizadas várias experiências sobre o módulo desenvolvido, de forma a ser possível retirar algumas conclusões para o presente trabalho. A conclusão mais importante foi que as ferramentas de correcção automática são uma mais-valia para os professores e escolas.
Resumo:
Tecnologias da Web Semântica como RDF, OWL e SPARQL sofreram nos últimos anos um forte crescimento e aceitação. Projectos como a DBPedia e Open Street Map começam a evidenciar o verdadeiro potencial da Linked Open Data. No entanto os motores de pesquisa semânticos ainda estão atrasados neste crescendo de tecnologias semânticas. As soluções disponíveis baseiam-se mais em recursos de processamento de linguagem natural. Ferramentas poderosas da Web Semântica como ontologias, motores de inferência e linguagens de pesquisa semântica não são ainda comuns. Adicionalmente a esta realidade, existem certas dificuldades na implementação de um Motor de Pesquisa Semântico. Conforme demonstrado nesta dissertação, é necessária uma arquitectura federada de forma a aproveitar todo o potencial da Linked Open Data. No entanto um sistema federado nesse ambiente apresenta problemas de performance que devem ser resolvidos através de cooperação entre fontes de dados. O standard actual de linguagem de pesquisa na Web Semântica, o SPARQL, não oferece um mecanismo para cooperação entre fontes de dados. Esta dissertação propõe uma arquitectura federada que contém mecanismos que permitem cooperação entre fontes de dados. Aborda o problema da performance propondo um índice gerido de forma centralizada assim como mapeamentos entre os modelos de dados de cada fonte de dados. A arquitectura proposta é modular, permitindo um crescimento de repositórios e funcionalidades simples e de forma descentralizada, à semelhança da Linked Open Data e da própria World Wide Web. Esta arquitectura trabalha com pesquisas por termos em linguagem natural e também com inquéritos formais em linguagem SPARQL. No entanto os repositórios considerados contêm apenas dados em formato RDF. Esta dissertação baseia-se em múltiplas ontologias partilhadas e interligadas.
Resumo:
A evolução tecnológica, associada às mudanças sociais a que temos assistido, nomeadamente nas últimas décadas, originou mudanças significativas na forma como os utentes interagem com as instituições, passando a privilegiar a utilização de meios electrónicos, tais como as mensagens de correio electrónico, em detrimento de formas mais tradicionais, como a carta e o telefone. Neste contexto, sendo o ISEP uma instituição de ensino superior que alberga milhares de alunos e recebe centenas de novos alunos todos os anos, necessita de ter condições para que possa responder de forma atempada às inúmeras mensagens de correio electrónico que recebe. Esta necessidade fez com que surgisse um projecto, de nome SiRAC, que servisse para auxiliar na resposta a essas mensagens. O SiRAC tem como objectivo responder a mensagens de correio electrónico de forma automática. De salientar que se admite não ser possível responder a todas as mensagens, privilegiando-se aquelas que são recorrentemente colocadas à Divisão Académica. Assim será possível encurtar o tempo de comunicação entre os diversos intervenientes, criando uma relação mais próxima entre o ISEP e o público que o contacta. O SiRAC analisa as mensagens e procura responder de forma automática sempre que o seu conteúdo possa ser classificado como fazendo parte de um conjunto de questões previamente identificadas pelos recursos humanos da Divisão Académica como recorrentes e para as quais já exista uma resposta tipo. As questões constantes da mensagem são identificadas através de palavras e expressões normalmente associadas aos diferentes tipos de questão. O envio da resposta pressupõe a identificação correcta dos tipos associados e de acordo com requisitos mínimos definidos, de forma a evitar enviar uma resposta errada a uma mensagem. A implementação do SiRAC permite a libertação de recursos humanos da Divisão Académica que anteriormente estavam afectas à resposta de mensagens para o desempenho de outras funções.
Resumo:
As redes sociais são cada vez mais utilizadas no nosso dia-a-dia. O recente aumento de popularidade deste tipo de serviço veio trazer novas funcionalidades e aplicações. Os utilizadores contribuem com as suas opiniões e conhecimentos, formando um repositório de informação de grandes proporções. Esta informação é cada vez mais utilizada por empresas, que vêem nas redes sociais uma forma de promover os seus produtos junto do público ou analisar de que forma os mesmos são considerados. O estudo apresentado neste artigo aplicou técnicas de Análise Sentimental para verificar se a informação existente em duas redes sociais (Facebook e Twitter) pode ser utilizada para estimar valores que podem vir a ser obtidos na comercialização de bens ou serviços a serem lançados no mercado.
Resumo:
The automatic acquisition of lexical associations from corpora is a crucial issue for Natural Language Processing. A lexical association is a recurrent combination of words that co-occur together more often than expected by chance in a given domain. In fact, lexical associations define linguistic phenomena such as idiomes, collocations or compound words. Due to the fact that the sense of a lexical association is not compositionnal, their identification is fundamental for the realization of analysis and synthesis that take into account all the subtilities of the language. In this report, we introduce a new statistically-based architecture that extracts from naturally occurring texts contiguous and non contiguous. For that purpose, three new concepts have been defined : the positional N-gram models, the Mutual Expectation and the GenLocalMaxs algorithm. Thus, the initial text is fisrtly transformed in a set of positionnal N-grams i.e ordered vectors of simple lexical units. Then, an association measure, the Mutual Expectation, evaluates the degree of cohesion of each positional N-grams based on the identification of local maximum values of Mutual Expectation. Great efforts have also been carried out to evaluate our metodology. For that purpose, we have proposed the normalisation of five well-known association measures and shown that both the Mutual Expectation and the GenLocalMaxs algorithm evidence significant improvements comparing to existent metodologies.
Resumo:
Dissertação de Mestrado em Engenharia Informática
Resumo:
Trabalho de Projeto apresentado como requisito parcial para obtenção do grau de Mestre em Estatística e Gestão de Informação