144 resultados para NLP


Relevância:

10.00% 10.00%

Publicador:

Resumo:

In questo lavoro si introducono i concetti di base di Natural Language Processing, soffermandosi su Information Extraction e analizzandone gli ambiti applicativi, le attività principali e la differenza rispetto a Information Retrieval. Successivamente si analizza il processo di Named Entity Recognition, focalizzando l’attenzione sulle principali problematiche di annotazione di testi e sui metodi per la valutazione della qualità dell’estrazione di entità. Infine si fornisce una panoramica della piattaforma software open-source di language processing GATE/ANNIE, descrivendone l’architettura e i suoi componenti principali, con approfondimenti sugli strumenti che GATE offre per l'approccio rule-based a Named Entity Recognition.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La Sentiment analysis, nata nell'ambito dell’informatica, è una delle aree di ricerca più attive nel campo dell’analisi del linguaggio naturale e si è diffusa ampiamente anche in altri rami scientifici come ad esempio le scienze sociali, l’economia e il marketing. L’enorme diffusione della sentiment analysis coincide con la crescita dei cosiddetti social media: siti di commercio e recensioni di prodotti, forum di discussione, blog, micro-blog e di vari social network. L'obiettivo del presente lavoro di tesi è stato quello di progettare un sistema di sentiment analysis in grado di rilevare e classificare le opinioni e i sentimenti espressi tramite chat dagli utenti della piattaforma di video streaming Twitch.tv. Per impostare ed organizzare il lavoro, giungendo quindi alla definizione del sistema che ci si è proposti di realizzare, sono stati utilizzati vari modelli di analisi in particolare le recurrent neural networks (RNNLM) e sistemi di word embedding (word2vec),nello specifico i Paragraph Vectors, applicandoli, dapprima, su dati etichettati in maniera automatica attraverso l'uso di emoticon e, successivamente, su dati etichettati a mano.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The various meanings of discourse connectives like while and however are difficult to identify and annotate, even for trained human annotators. This problem is all the more important that connectives are salient textual markers of cohesion and need to be correctly interpreted for many NLP applications. In this paper, we suggest an alternative route to reach a reliable annotation of connectives, by making use of the information provided by their translation in large parallel corpora. This method thus replaces the difficult explicit reasoning involved in traditional sense annotation by an empirical clustering of the senses emerging from the translations. We argue that this method has the advantage of providing more reliable reference data than traditional sense annotation. In addition, its simplicity allows for the rapid constitution of large annotated datasets.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The access to medical literature collections such as PubMed, MedScape or Cochrane has been increased notably in the last years by the web-based tools that provide instant access to the information. However, more sophisticated methodologies are needed to exploit efficiently all that information. The lack of advanced search methods in clinical domain produce that even using well-defined questions for a particular disease, clinicians receive too many results. Since no information analysis is applied afterwards, some relevant results which are not presented in the top of the resultant collection could be ignored by the expert causing an important loose of information. In this work we present a new method to improve scientific article search using patient information for query generation. Using federated search strategy, it is able to simultaneously search in different resources and present a unique relevant literature collection. And applying NLP techniques it presents semantically similar publications together, facilitating the identification of relevant information to clinicians. This method aims to be the foundation of a collaborative environment for sharing clinical knowledge related to patients and scientific publications.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Ontologies and taxonomies are widely used to organize concepts providing the basis for activities such as indexing, and as background knowledge for NLP tasks. As such, translation of these resources would prove useful to adapt these systems to new languages. However, we show that the nature of these resources is significantly different from the "free-text" paradigm used to train most statistical machine translation systems. In particular, we see significant differences in the linguistic nature of these resources and such resources have rich additional semantics. We demonstrate that as a result of these linguistic differences, standard SMT methods, in particular evaluation metrics, can produce poor performance. We then look to the task of leveraging these semantics for translation, which we approach in three ways: by adapting the translation system to the domain of the resource; by examining if semantics can help to predict the syntactic structure used in translation; and by evaluating if we can use existing translated taxonomies to disambiguate translations. We present some early results from these experiments, which shed light on the degree of success we may have with each approach

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Lexica and terminology databases play a vital role in many NLP applications, but currently most such resources are published in application-specific formats, or with custom access interfaces, leading to the problem that much of this data is in ‘‘data silos’’ and hence difficult to access. The Semantic Web and in particular the Linked Data initiative provide effective solutions to this problem, as well as possibilities for data reuse by inter-lexicon linking, and incorporation of data categories by dereferencable URIs. The Semantic Web focuses on the use of ontologies to describe semantics on the Web, but currently there is no standard for providing complex lexical information for such ontologies and for describing the relationship between the lexicon and the ontology. We present our model, lemon, which aims to address these gaps

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This work investigates to what degree speakers with different verbal intelligence may adapt to each other. The work is based on a corpus consisting of 100 descriptions of a short film (monologues), 56 discussions about the same topic (dialogues), and verbal intelligence scores of the test participants. Adaptation between two dialogue partners was measured using cross-referencing, proportion of "I", "You" and "We" words, between-subject correlation and similarity of texts. It was shown that lower verbal intelligence speakers repeated more nouns and adjectives from the other and used the same linguistic categories more often than higher verbal intelligence speakers. In dialogues between strangers, participants with higher verbal intelligence showed a greater level of adaptation.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Language resources, such as multilingual lexica and multilingual electronic dictionaries, contain collections of lexical entries in several languages. Having access to the corresponding explicit or implicit translation relations between such entries might be of great interest for many NLP-based applications. By using Semantic Web-based techniques, translations can be available on the Web to be consumed by other (semantic enabled) resources in a direct manner, not relying on application-specific formats. To that end, in this paper we propose a model for representing translations as linked data, as an extension of the lemon model. Our translation module represents some core information associated to term translations and does not commit to specific views or translation theories. As a proof of concept, we have extracted the translations of the terms contained in Terminesp, a multilingual terminological database, and represented them as linked data. We have made them accessible on the Web both for humans (via a Web interface) and software agents (with a SPARQL endpoint).

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Recently, experts and practitioners in language resources have started recognizing the benefits of the linked data (LD) paradigm for the representation and exploitation of linguistic data on the Web. The adoption of the LD principles is leading to an emerging ecosystem of multilingual open resources that conform to the Linguistic Linked Open Data Cloud, in which datasets of linguistic data are interconnected and represented following common vocabularies, which facilitates linguistic information discovery, integration and access. In order to contribute to this initiative, this paper summarizes several key aspects of the representation of linguistic information as linked data from a practical perspective. The main goal of this document is to provide the basic ideas and tools for migrating language resources (lexicons, corpora, etc.) as LD on the Web and to develop some useful NLP tasks with them (e.g., word sense disambiguation). Such material was the basis of a tutorial imparted at the EKAW’14 conference, which is also reported in the paper.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El presente Trabajo Fin de Grado (TFG) surge de la necesidad de disponer de tecnologías que faciliten el Procesamiento de Lenguaje Natural (NLP) en español dentro del sector de la medicina. Centrado concretamente en la extracción de conocimiento de las historias clínicas electrónicas (HCE), que recogen toda la información relacionada con la salud del paciente y en particular, de los documentos recogidos en dichas historias, pretende la obtención de todos los términos relacionados con la medicina. El Procesamiento de Lenguaje Natural permite la obtención de datos estructurados a partir de información no estructurada. Estas técnicas permiten un análisis de texto que genera etiquetas aportando significado semántico a las palabras para la manipulación de información. A partir de la investigación realizada del estado del arte en NLP y de las tecnologías existentes para otras lenguas, se propone como solución un módulo de anotación de términos médicos extraídos de documentos clínicos. Como términos médicos se han considerado síntomas, enfermedades, partes del cuerpo o tratamientos obtenidos de UMLS, una ontología categorizada que agrega distintas fuentes de datos médicos. Se ha realizado el diseño y la implementación del módulo así como el análisis de los resultados obtenidos realizando una evaluación con treinta y dos documentos que contenían 1372 menciones de terminología médica y que han dado un resultado medio de Precisión: 70,4%, Recall: 36,2%, Accuracy: 31,4% y F-Measure: 47,2%.---ABSTRACT---This Final Thesis arises from the need for technologies that facilitate the Natural Language Processing (NLP) in Spanish in the medical sector. Specifically it is focused on extracting knowledge from Electronic Health Records (EHR), which contain all the information related to the patient's health and, in particular, it expects to obtain all the terms related to medicine from the documents contained in these records. Natural Language Processing allows us to obtain structured information from unstructured data. These techniques enable analysis of text generating labels providing semantic meaning to words for handling information. From the investigation of the state of the art in NLP and existing technologies in other languages, an annotation module of medical terms extracted from clinical documents is proposed as a solution. Symptoms, diseases, body parts or treatments are considered part of the medical terms contained in UMLS ontology which is categorized joining different sources of medical data. This project has completed the design and implementation of a module and the analysis of the results have been obtained. Thirty two documents which contain 1372 mentions of medical terminology have been evaluated and the average results obtained are: Precision: 70.4% Recall: 36.2% Accuracy: 31.4% and F-Measure: 47.2%.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En este trabajo se estudia la modelización y optimización de procesos industriales de separación mediante el empleo de mezclas de líquidos iónicos como disolventes. Los disolventes habitualmente empleados en procesos de absorción o extracción suelen ser componentes orgánicos muy volátiles y dañinos para la salud humana. Las innovadoras propiedades que presentan los líquidos iónicos, los convierten en alternativas adecuadas para solucionar estos problemas. La presión de vapor de estos compuestos es muy baja y apenas varía con la temperatura. Por tanto, estos compuestos apenas se evaporan incluso a temperaturas altas. Esto supone una gran ventaja en cuanto al empleo de estos compuestos como disolventes industriales ya que permite el reciclaje continuo del disolvente al final del proceso sin necesidad de introducir disolvente fresco debido a la evaporación del mismo. Además, al no evaporarse, estos compuestos no suponen un peligro para la salud humana por inhalación; al contrario que otros disolventes como el benceno. El único peligro para la salud que tienen estos compuestos es por tanto el de contacto directo o ingesta, aunque de hecho muchos Líquidos Iónicos son inocuos con lo cual no existe peligro para la salud ni siquiera a través de estas vías. Los procesos de separación estudiados en este trabajo, se rigen por la termodinámica de fases, concretamente el equilibrio líquido-vapor. Para la predicción de los equilibrios se ha optado por el empleo de modelos COSMO (COnductor-like Screening MOdel). Estos modelos tienen su origen en el empleo de la termodinámica de solvatación y en la mecánica cuántica. En el desarrollo de procesos y productos, químicos e ingenieros frecuentemente precisan de la realización de cálculos de predicción de equilibrios de fase. Previamente al desarrollo de los modelos COSMO, se usaban métodos de contribución de grupos como UNIFAC o modelos de coeficientes de actividad como NRTL.La desventaja de estos métodos, es que requieren parámetros de interacción binaria que únicamente pueden obtenerse mediante ajustes por regresión a partir de resultados experimentales. Debido a esto, estos métodos apenas tienen aplicabilidad para compuestos con grupos funcionales novedosos debido a que no se dispone de datos experimentales para llevar a cabo los ajustes por regresión correspondientes. Una alternativa a estos métodos, es el empleo de modelos de solvatación basados en la química cuántica para caracterizar las interacciones moleculares y tener en cuenta la no idealidad de la fase líquida. Los modelos COSMO, permiten la predicción de equilibrios sin la necesidad de ajustes por regresión a partir de resultados experimentales. Debido a la falta de resultados experimentales de equilibrios líquido-vapor de mezclas en las que se ven involucrados los líquidos iónicos, el empleo de modelos COSMO es una buena alternativa para la predicción de equilibrios de mezclas con este tipo de materiales. Los modelos COSMO emplean las distribuciones superficiales de carga polarizada (sigma profiles) de los compuestos involucrados en la mezcla estudiada para la predicción de los coeficientes de actividad de la misma, definiéndose el sigma profile de una molécula como la distribución de probabilidad de densidad de carga superficial de dicha molécula. Dos de estos modelos son COSMO-RS (Realistic Solvation) y COSMO-SAC (Segment Activity Coefficient). El modelo COSMO-RS fue la primera extensión de los modelos de solvatación basados en continuos dieléctricos a la termodinámica de fases líquidas mientras que el modelo COSMO-SAC es una variación de este modelo, tal y como se explicará posteriormente. Concretamente en este trabajo se ha empleado el modelo COSMO-SAC para el cálculo de los coeficientes de actividad de las mezclas estudiadas. Los sigma profiles de los líquidos iónicos se han obtenido mediante el empleo del software de química computacional Turbomole y el paquete químico-cuántico COSMOtherm. El software Turbomole permite optimizar la geometría de la molécula para hallar la configuración más estable mientras que el paquete COSMOtherm permite la obtención del perfil sigma del compuesto mediante el empleo de los datos proporcionados por Turbomole. Por otra parte, los sigma profiles del resto de componentes se han obtenido de la base de datos Virginia Tech-2005 Sigma Profile Database. Para la predicción del equilibrio a partir de los coeficientes de actividad se ha empleado la Ley de Raoult modificada. Se ha supuesto por tanto que la fracción de cada componente en el vapor es proporcional a la fracción del mismo componente en el líquido, dónde la constante de proporcionalidad es el coeficiente de actividad del componente en la mezcla multiplicado por la presión de vapor del componente y dividido por la presión del sistema. Las presiones de vapor de los componentes se han obtenido aplicando la Ley de Antoine. Esta ecuación describe la relación entre la temperatura y la presión de vapor y se deduce a partir de la ecuación de Clausius-Clapeyron. Todos estos datos se han empleado para la modelización de una separación flash usando el algoritmo de Rachford-Rice. El valor de este modelo reside en la deducción de una función que relaciona las constantes de equilibrio, composición total y fracción de vapor. Para llevar a cabo la implementación del modelado matemático descrito, se ha programado un código empleando el software MATLAB de análisis numérico. Para comprobar la fiabilidad del código programado, se compararon los resultados obtenidos en la predicción de equilibrios de mezclas mediante el código con los resultados obtenidos mediante el simulador ASPEN PLUS de procesos químicos. Debido a la falta de datos relativos a líquidos iónicos en la base de datos de ASPEN PLUS, se han introducido estos componentes como pseudocomponentes, de manera que se han introducido únicamente los datos necesarios de estos componentes para realizar las simulaciones. El modelo COSMO-SAC se encuentra implementado en ASPEN PLUS, de manera que introduciendo los sigma profiles, los volúmenes de la cavidad y las presiones de vapor de los líquidos iónicos, es posible predecir equilibrios líquido-vapor en los que se ven implicados este tipo de materiales. De esta manera pueden compararse los resultados obtenidos con ASPEN PLUS y como el código programado en MATLAB y comprobar la fiabilidad del mismo. El objetivo principal del presente Trabajo Fin de Máster es la optimización de mezclas multicomponente de líquidos iónicos para maximizar la eficiencia de procesos de separación y minimizar los costes de los mismos. La estructura de este problema es la de un problema de optimización no lineal con variables discretas y continuas, es decir, un problema de optimización MINLP (Mixed Integer Non-Linear Programming). Tal y como se verá posteriormente, el modelo matemático de este problema es no lineal. Por otra parte, las variables del mismo son tanto continuas como binarias. Las variables continuas se corresponden con las fracciones molares de los líquidos iónicos presentes en las mezclas y con el caudal de la mezcla de líquidos iónicos. Por otra parte, también se ha introducido un número de variables binarias igual al número de líquidos iónicos presentes en la mezcla. Cada una de estas variables multiplican a las fracciones molares de sus correspondientes líquidos iónicos, de manera que cuando dicha variable es igual a 1, el líquido se encuentra en la mezcla mientras que cuando dicha variable es igual a 0, el líquido iónico no se encuentra presente en dicha mezcla. El empleo de este tipo de variables obliga por tanto a emplear algoritmos para la resolución de problemas de optimización MINLP ya que si todas las variables fueran continuas, bastaría con el empleo de algoritmos para la resolución de problemas de optimización NLP (Non-Linear Programming). Se han probado por tanto diversos algoritmos presentes en el paquete OPTI Toolbox de MATLAB para comprobar cuál es el más adecuado para abordar este problema. Finalmente, una vez validado el código programado, se han optimizado diversas mezclas de líquidos iónicos para lograr la máxima recuperación de compuestos aromáticos en un proceso de absorción de mezclas orgánicas. También se ha usado este código para la minimización del coste correspondiente a la compra de los líquidos iónicos de la mezcla de disolventes empleada en la operación de absorción. En este caso ha sido necesaria la introducción de restricciones relativas a la recuperación de aromáticos en la fase líquida o a la pureza de la mezcla obtenida una vez separada la mezcla de líquidos iónicos. Se han modelizado los dos problemas descritos previamente (maximización de la recuperación de Benceno y minimización del coste de operación) empleando tanto únicamente variables continuas (correspondientes a las fracciones o cantidades molares de los líquidos iónicos) como variables continuas y binarias (correspondientes a cada uno de los líquidos iónicos implicados en las mezclas).

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En los últimos años han surgido nuevos campos de las tecnologías de la información que exploran el tratamiento de la gran cantidad de datos digitales existentes y cómo transformarlos en conocimiento explícito. Las técnicas de Procesamiento del Lenguaje Natural (NLP) son capaces de extraer información de los textos digitales presentados en forma narrativa. Además, las técnicas de machine learning clasifican instancias o ejemplos en función de sus atributos, en distintas categorías, aprendiendo de otros previamente clasificados. Los textos clínicos son una gran fuente de información no estructurada; en consecuencia, información no explotada en su totalidad. Algunos términos usados en textos clínicos se encuentran en una situación de afirmación, negación, hipótesis o histórica. La detección de esta situación es necesaria para la estructuración de información, pero a su vez tiene una gran complejidad. Extrayendo características lingüísticas de los elementos, o tokens, de los textos mediante NLP; transformando estos tokens en instancias y las características en atributos, podemos mediante técnicas de machine learning clasificarlos con el objetivo de detectar si se encuentran afirmados, negados, hipotéticos o históricos. La selección de los atributos que cada token debe tener para su clasificación, así como la selección del algoritmo de machine learning utilizado son elementos cruciales para la clasificación. Son, de hecho, los elementos que componen el modelo de clasificación. Consecuentemente, este trabajo aborda el proceso de extracción de características, selección de atributos y selección del algoritmo de machine learning para la detección de la negación en textos clínicos en español. Se expone un modelo para la clasificación que, mediante el algoritmo J48 y 35 atributos obtenidos de características lingüísticas (morfológicas y sintácticas) y disparadores de negación, detecta si un token está negado en 465 frases provenientes de textos clínicos con un F-Score del 73%, una exhaustividad del 66% y una precisión del 81% con una validación cruzada de 10 iteraciones. ---ABSTRACT--- New information technologies have emerged in the recent years which explore the processing of the huge amount of existing digital data and its transformation into knowledge. Natural Language Processing (NLP) techniques are able to extract certain features from digital texts. Additionally, through machine learning techniques it is feasible to classify instances according to different categories, learning from others previously classified. Clinical texts contain great amount of unstructured data, therefore information not fully exploited. Some terms (tokens) in clinical texts appear in different situations such as affirmed, negated, hypothetic or historic. Detecting this situation is necessary for the structuring of this data, however not simple. It is possible to detect whether if a token is negated, affirmed, hypothetic or historic by extracting its linguistic features by NLP; transforming these tokens into instances, the features into attributes, and classifying these instances through machine learning techniques. Selecting the attributes each instance must have, and choosing the machine learning algorithm are crucial issues for the classification. In fact, these elements set the classification model. Consequently, this work approaches the features retrieval as well as the attributes and algorithm selection process used by machine learning techniques for the detection of negation in clinical texts in Spanish. We present a classification model which, through J48 algorithm and 35 attributes from linguistic features (morphologic and syntactic) and negation triggers, detects whether if a token is negated in 465 sentences from historical records, with a result of 73% FScore, 66% recall and 81% precision using a 10-fold cross-validation.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Ethylene-responsive element-binding proteins (EREBPs) of tobacco (Nicotiana tabacum L.) bind to the GCC box of many pathogenesis-related (PR) gene promoters, including osmotin (PR-5). The two GCC boxes on the osmotin promoter are known to be required, but not sufficient, for maximal ethylene responsiveness. EREBPs participate in the signal transduction pathway leading from exogenous ethylene application and pathogen infection to PR gene induction. In this study EREBP3 was used as bait in a yeast two-hybrid interaction trap with a tobacco cDNA library as prey to isolate signal transduction pathway intermediates that interact with EREBPs. One of the strongest interactors was found to encode a nitrilase-like protein (NLP). Nitrilase is an enzyme involved in auxin biosynthesis. NLP interacted with other EREBP family members, namely tobacco EREBP2 and tomato (Lycopersicon esculentum L.) Pti4/5/6. The EREBP2-EREBP3 interaction with NLP required part of the DNA-binding domain. The specificity of interaction was further confirmed by protein-binding studies in solution. We propose that the EREBP-NLP interaction serves to regulate PR gene expression by sequestration of EREBPs in the cytoplasm.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The field of natural language processing (NLP) has seen a dramatic shift in both research direction and methodology in the past several years. In the past, most work in computational linguistics tended to focus on purely symbolic methods. Recently, more and more work is shifting toward hybrid methods that combine new empirical corpus-based methods, including the use of probabilistic and information-theoretic techniques, with traditional symbolic methods. This work is made possible by the recent availability of linguistic databases that add rich linguistic annotation to corpora of natural language text. Already, these methods have led to a dramatic improvement in the performance of a variety of NLP systems with similar improvement likely in the coming years. This paper focuses on these trends, surveying in particular three areas of recent progress: part-of-speech tagging, stochastic parsing, and lexical semantics.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O presente estudo considera a aplicação do modelo SISAGUA de simulação matemática e de otimização para a operação de sistemas de reservatórios integrados em sistemas complexos para o abastecimento de água. O SISAGUA utiliza a programação não linear inteira mista (PNLIM) com os objetivos de evitar ou minimizar racionamentos, equilibrar a distribuição dos armazenamentos em sistemas com múltiplos reservatórios e minimizar os custos de operação. A metodologia de otimização foi aplicada para o sistema produtor de água da Região Metropolitana de São Paulo (RMSP), que enfrenta a crise hídrica diante de um cenário de estiagem em 2013-2015, o pior na série histórica dos últimos 85 anos. Trata-se de uma região com 20,4 milhões de habitantes. O sistema é formado por oito sistemas produtores parcialmente integrados e operados pela Sabesp (Companhia de Saneamento do Estado de São Paulo). A RMSP é uma região com alta densidade demográfica, localizada na Bacia Hidrográfica do Alto Tietê e caracterizada pela baixa disponibilidade hídrica per capita. Foi abordada a possibilidade de considerar a evaporação durante as simulações, e a aplicação de uma regra de racionamento contínua nos reservatórios, que transforma a formulação do problema em programação não linear (PNL). A evaporação se mostrou pouco representativa em relação a vazão de atendimento à demanda, com cerca de 1% da vazão. Se por um lado uma vazão desta magnitude pode contribuir em um cenário crítico, por outro essa ordem de grandeza pode ser comparada às incertezas de medições ou previsões de afluências. O teste de sensibilidade das diferentes taxas de racionamento em função do volume armazenado permite analisar o tempo de resposta de cada sistema. A variação do tempo de recuperação, porém, não se mostrou muito significativo.