34 resultados para annotation sémantique


Relevância:

10.00% 10.00%

Publicador:

Resumo:

In this paper, the authors introduce a novel mechanism for data management in a middleware for smart home control, where a relational database and semantic ontology storage are used at the same time in a Data Warehouse. An annotation system has been designed for instructing the storage format and location, registering new ontology concepts and most importantly, guaranteeing the Data Consistency between the two storage methods. For easing the data persistence process, the Data Access Object (DAO) pattern is applied and optimized to enhance the Data Consistency assurance. Finally, this novel mechanism provides an easy manner for the development of applications and their integration with BATMP. Finally, an application named "Parameter Monitoring Service" is given as an example for assessing the feasibility of the system.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El presente Trabajo Fin de Grado (TFG) surge de la necesidad de disponer de tecnologías que faciliten el Procesamiento de Lenguaje Natural (NLP) en español dentro del sector de la medicina. Centrado concretamente en la extracción de conocimiento de las historias clínicas electrónicas (HCE), que recogen toda la información relacionada con la salud del paciente y en particular, de los documentos recogidos en dichas historias, pretende la obtención de todos los términos relacionados con la medicina. El Procesamiento de Lenguaje Natural permite la obtención de datos estructurados a partir de información no estructurada. Estas técnicas permiten un análisis de texto que genera etiquetas aportando significado semántico a las palabras para la manipulación de información. A partir de la investigación realizada del estado del arte en NLP y de las tecnologías existentes para otras lenguas, se propone como solución un módulo de anotación de términos médicos extraídos de documentos clínicos. Como términos médicos se han considerado síntomas, enfermedades, partes del cuerpo o tratamientos obtenidos de UMLS, una ontología categorizada que agrega distintas fuentes de datos médicos. Se ha realizado el diseño y la implementación del módulo así como el análisis de los resultados obtenidos realizando una evaluación con treinta y dos documentos que contenían 1372 menciones de terminología médica y que han dado un resultado medio de Precisión: 70,4%, Recall: 36,2%, Accuracy: 31,4% y F-Measure: 47,2%.---ABSTRACT---This Final Thesis arises from the need for technologies that facilitate the Natural Language Processing (NLP) in Spanish in the medical sector. Specifically it is focused on extracting knowledge from Electronic Health Records (EHR), which contain all the information related to the patient's health and, in particular, it expects to obtain all the terms related to medicine from the documents contained in these records. Natural Language Processing allows us to obtain structured information from unstructured data. These techniques enable analysis of text generating labels providing semantic meaning to words for handling information. From the investigation of the state of the art in NLP and existing technologies in other languages, an annotation module of medical terms extracted from clinical documents is proposed as a solution. Symptoms, diseases, body parts or treatments are considered part of the medical terms contained in UMLS ontology which is categorized joining different sources of medical data. This project has completed the design and implementation of a module and the analysis of the results have been obtained. Thirty two documents which contain 1372 mentions of medical terminology have been evaluated and the average results obtained are: Precision: 70.4% Recall: 36.2% Accuracy: 31.4% and F-Measure: 47.2%.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Phaseolus vulgaris L. (frijol común o judía) es una leguminosa de gran demanda para la nutrición humana y un producto agrícola muy importante. Sin embargo, la producción de frijol se ve limitada por presiones ambientales como la sequía. En México, el 85% de la cosecha de frijol se produce en la temporada de primavera-verano, principalmente en las regiones del altiplano semiárido con una precipitación anual entre 250 y 400 mm. A pesar del implemento de tecnología en el campo, los factores naturales impiden al agricultor llegar a los rendimientos deseados. El Instituto Nacional de Investigaciones Forestales, Agrícolas y Pecuarias (INIFAP), como instituto de investigación gubernamental en México, tiene como objetivo la mejora de cultivos estratégicos, uno de ellos, P. vulgaris. Los estudios en relación a la sequía se enfocan especialmente en la selección de genotipos tolerantes, los cuales son sometidos en condiciones de estrés y monitoreando parámetros como el rendimiento y peso de semilla, además de algunos indicadores tales como índice de cosecha. El resultado de estos trabajos ha sido la obtención de variedades con mayor tolerancia a la sequía, tales como Pinto Villa y Pinto Saltillo. En los últimos años se ha avanzado notablemente en el conocimiento de las bases moleculares en las respuestas de las plantas al estrés. De acuerdo a diversos estudios se ha demostrado que las plantas bajo estrés por sequía experimentan cambios en la expresión de genes involucrados en la señalización, regulación de la transcripción y la traducción, transporte de agua y la función directa en la protección celular. También se ha observado que el déficit de agua es causado por las temperaturas extremas y la alta concentración de sales, por lo que al nivel molecular, las respuestas al estrés tienen puntos de especificidad y puntos de entrecruzamiento. La sequía puede generar estreses secundarios, tales como el nutricional, oxidativo y osmótico. Sin embargo, es necesario identificar y caracterizar muchos de los componentes involucrados en las respuestas al déficit hídrico, la caracterización de estos genes permitirá tener una mejor comprensión de los mecanismos bioquímicos y fisiológicos involucrados en la tolerancia al estrés. Actualmente, con el apoyo de la biología molecular se han identificado algunos genes que otorgan ventajas para la adaptación a ambientes desfavorables. Por lo que el objetivo del presente trabajo es identificar marcadores genéticos asociados a rasgos fenotípicos con énfasis a la tolerancia a estrés hídrico en P. vulgaris. Una vez establecidos los marcadores asociados al estrés hídrico, es factible considerar su uso para la selección asistida por marcadores en líneas o variedades de frijol de interés para los mejoradores. Se evaluaron 282 familias F3:5 derivadas de la cruza entre los cultivares Pinto Villa y Pinto Saltillo. Las familias se sembraron bajo un diseño simple de látice 17x17, el experimento se llevo acabo en el ciclo primavera-verano del 2010 y 2011, y otoñoinvierno de 2010 en el Campo Experimental Bajío del INIFAP con dos repeticiones para cada tratamiento de humedad (riego completo y sequía terminal). En todos los genotipos se realizó el fenotipado (variables fenotípicas) y el genotipado a través de marcadores moleculares. Los análisis estadísticos se basaron en el análisis de componentes principales (Eigen Analysis Selection Index Method, ESIM), la asociación entre marcadores SNP y el fenotipado (paquete SNPassoc para R) y el análisis de varianza (ANOVA). Los valores ESIM mostraron que las variables de Rendimiento, Días a floración, Días a madurez fisiológica e Índice de cosecha fueron sobresalientes en sequía terminal, por lo que se sugieren tomarse en consideración para los estudios de sequía en P. vulgaris como monitores de evaluación a la resistencia. Se identificaron nueve familias sobresalieron por sus valores ESIM (PV/PS6, 22, 131, 137, 149, 154, 201, 236 y 273), además de presentar valores superiores para el rendimiento en comparación con los parentales. Estos genotipos son candidatos interesantes para realizar estudios de identificación de loci asociados con la respuesta al estrés, y como potenciales parentales en el desarrollo de nuevas variedades de frijol. En los análisis de asociación SNPassoc se identificaron 83 SNPs significativos (p<0,0003) asociados a los rasgos fenotípicos, obteniendo un total de 222 asociaciones, de las cuales predomina el modelo genético de codominancia para las variables Días a floración, Periodo reproductivo y Biomasa total. Treinta y siete SNPs se identificaron a diferentes funciones biológicas a través del análisis de anotación funcional, de los cuales 12 SNPs (9, 18, 28, 39, 61, 69, 80, 106, 115, 128, 136 y 142) sobresalen por su asociación al fenotipado, y cuya anotación funcional indica que se encuentran en genes relacionados a la tolerancia a la sequía, tales como la actividad kinasa, actividad metabólica del almidón, carbohidratos y prolina, respuesta al estrés oxidativo, así como en los genes LEA y posibles factores de transcripción. En el caso de los análisis ANOVA, se identificaron 72 asociaciones entre los SNPs y las variables fenotípicas (F< 3,94E-04). Las 72 asociaciones corresponden a 30 SNPs y 7 variables fenotípicas, de las que predomina Peso de 100 semillas y Periodo reproductivo. Para los rasgos de Rendimiento, Índice de cosecha y Días a madurez fisiológica se presentaron asociaciones con seis SNPs (17, 34, 37, 50, 93 y 107), de los cuales, a los SNP37 y SNP107 fueron identificados a la anotación biológica de protein binding. Por otro lado, los SNP106 y SNP128 asociados al Periodo reproductivo, son genes con actividad kinasa y actividad metabólica del almidón, respectivamente. Para los marcadores tipo AFLP, se identificaron 271 asociaciones (F<2,34E-04). Las asociaciones corresponden a 86 AFLPs con todas las variables fenotípicas evaluadas, de las que predomina peso de 100 semillas, Días a floración y Periodo reproductivo. Debido a que los en los AFLPs no es posible determinar su anotación biológica, se proponen como marcadores potenciales relacionados a la resistencia a la sequía en frijol. Los AFLPs candidatos requieren más estudios tales como la secuenciación de los alelos respectivos, así como la identificación de éstas secuencias en el genoma de referencia y su anotación biológica, entre otros análisis, de esta manera podríamos establecer aquellos marcadores candidatos a la validación para la selección asistida. El presente trabajo propone tanto genotipos como marcadores genéticos, que deben ser validados para ser utilizados en el programa de mejoramiento de P. vulgaris, con el objetivo de desarrollar nuevas líneas o variedades tolerantes a la sequía. ABSTRACT Phaseolus vulgaris L. (common bean or judia) is a legume of great demand for human consumption and an important agricultural product. However, the common bean production is limited by environmental stresses, such as drought. In Mexico, 85% of the common bean crop is produced in the spring-summer season mainly in semiarid highland regions with a rainfall between 250 and 400 mm per year. In spite of the improvement of crop technology, the natural factors hamper getting an optimal yield. The National Institute for Forestry, Agriculture and Livestock (INIFAP) is a government research institute from Mexico, whose main objective is the genetic breeding of strategic crops, like P. vulgaris L. The drought tolerance studies particularly focus on the selection of bean tolerant genotypes, which are subjected to stress conditions, by means of monitoring parameters such as yield and seed weight, plus some agronomic indicators such as harvest index. The results of these works have led to obtain cultivars with higher drought tolerance such as Pinto Villa and Pinto Saltillo. Significant achievements have been recently made in understanding the molecular basis of stress plant responses. Several studies have shown that plants under drought stress present changes in gene expression related to cell signalling, transcriptional and translational regulation, water transport and cell protection. In addition, it has been observed that the extreme temperatures and high salt concentrations can cause a water deficiency so, at the molecular level, stress responses have specific and crossover points. The drought can cause secondary stresses, such as nutritional, oxidative and osmotic stress. It is required the identification of more components involved in the response to water deficit, the characterization of these genes will allow a better understanding of the biochemical and physiological mechanisms involved in stress tolerance. Currently, with the support of molecular biology techniques, some genes that confer an advantage for the crop adaptation to unfavourable environments have been identified. The objective of this study is to identify genetic markers associated with phenotypic traits with emphasis on water stress tolerance in P. vulgaris. The establishment of molecular markers linked to drought tolerance would make possible their use for marker-assisted selection in bean breeding programs. Two hundred and eighty two F3:5 families derived from a cross between the drought resistant cultivars Pinto Villa and Pinto Saltillo were evaluated. The families were sowed under a 17x17 simple lattice design. The experiment was conducted between spring-summer seasons in 2010 and 2011, and autumn-winter seasons in 2010 at the Bajio Experimental Station of INIFAP with two treatments (full irrigation and terminal drought). All families were phenotyped and genotyped using molecular markers. Statistical analysis was based on principal component analysis (Eigen Analysis Selection Index Method, ESIM), association analysis between SNP markers and phenotype (SNPassoc package R) and analysis of variance (ANOVA). The ESIM values showed that seed yield, days to flowering, days to physiological maturity and harvest index were outstanding traits in terminal drought treatment, so they could be considered as suitable parameters for drought-tolerance evaluation in P. vulgaris. Nine outstanding families for the ESIM values were identified (PV/PS6, 22, 131, 137, 149, 154, 201, 236 and 273), in addition, these families showed higher values for seed yield compared to the parental cultivars. These families are promising candidates for studies focused on the identification of loci associated to the stress response, and as potential parental cultivars for the development of new varieties of common bean. In the SNPassoc analysis, 83 SNPs were found significantly associated (p<0.0003) with phenotypic traits, obtaining a total of 222 associations, most of which involved the traits days to flowering, reproductive period and total biomass under a codominant genetic model. The functional annotation analysis showed 37 SNPs with different biological functions, 12 of them (9, 18, 28, 39, 61, 69, 80, 106, 115, 128, 136 and 142) stand out by their association to phenotype. The functional annotation suggested a connection with genes related to drought tolerance, such as kinase activity, starch, carbohydrates and proline metabolic processes, responses to oxidative stress, as well as LEA genes and putative transcription factors. In the ANOVA analysis, 72 associations between SNPs and phenotypic traits (F<3.94E- 04) were identified. All of these associations corresponded to 30 SNPs markers and seven phenotypic traits. Weight of 100 seeds and reproductive period were the traits with more associations. Seed yield, harvest index and days to physiological maturity were associated to six SNPs (17, 34, 37, 50, 93 and 107), the SNP37 and SNP107 were identified as located in protein binding genes. The SNP106 and SNP128 were associated with the reproductive period and belonged to genes with kinase activity and genes related to starch metabolic process, respectively. In the case of AFLP markers, 271 associations (F<2.34E-04) were identified. The associations involved 86 AFLPs and all phenotypic traits, being the most frequently associated weight of 100 seeds, days to flowering and reproductive period. Even though it is not possible to perform a functional annotation for AFLP markers, they are proposed as potential markers related to drought resistance in common bean. AFLPs candidates require additional studies such as the sequencing of the respective alleles, identification of these sequences in the reference genome and gene annotation, before their use in marker assisted selection. This work, although requires further validation, proposes both genotypes and genetic markers that could be used in breeding programs of P. vulgaris in order to develop new lines or cultivars with enhanced drought-tolerance.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Esta tesis presenta un modelo, una metodología, una arquitectura, varios algoritmos y programas para crear un lexicón de sentimientos unificado (LSU) que cubre cuatro lenguas: inglés, español, portugués y chino. El objetivo principal es alinear, unificar, y expandir el conjunto de lexicones de sentimientos disponibles en Internet y los desarrollados a lo largo de esta investigación. Así, el principal problema a resolver es la tarea de unificar de forma automatizada los diferentes lexicones de sentimientos obtenidos por el crawler CSR, porque la unidad de medida para asignar la intensidad de los valores de la polaridad (de forma manual, semiautomática y automática) varía de acuerdo con las diferentes metodologías utilizadas para la construcción de cada lexicón. La representación codificada de la estructura de datos de los términos presenta también una variación en la estructura de lexicón a lexicón. Por lo que al unificar en un lexicón de sentimientos se hace posible la reutilización del conocimiento recopilado por los diferentes grupos de investigación y se incrementa, a la vez, el alcance, la calidad y la robustez de los lexicones. Nuestra metodología LSU calcula un valor unificado de la intensidad de la polaridad para cada entrada léxica que está presente en al menos dos de los lexicones de sentimientos que forman parte de este estudio. En contraste, las entradas léxicas que no son comunes en al menos dos de los lexicones conservan su valor original. El coeficiente de Pearson resultante permite medir la correlación existente entre las entradas léxicas asignándoles un rango de valores de uno a menos uno, donde uno indica que los valores de los términos están perfectamente correlacionados, cero indica que no existe correlación y menos uno significa que están inversamente correlacionados. Este procedimiento se lleva acabo con la función de MetricasUnificadas tanto en la CPU como en la GPU. Otro problema a resolver es el tiempo de procesamiento que se requiere para realizar la tarea de unificación de la intensidad de la polaridad y con ello alcanzar una cobertura mayor de lemas en los lexicones de sentimientos existentes. Asimismo, la metodología LSU utiliza el procesamiento paralelo para unificar los 155 802 términos. El algoritmo LSU procesa mediante cargas iguales el subconjunto de entradas léxicas en cada uno de los 1344 núcleos en la GPU. Los resultados de nuestro análisis arrojaron un total de 95 430 entradas léxicas donde 35 201 obtuvieron valores positivos, 22 029 negativos y 38 200 neutrales. Finalmente, el tiempo de ejecución fue de 2,506 segundos para el total de las entradas léxicas, lo que permitió reducir el procesamiento de cómputo hasta en una tercera parte con respecto al algoritmo secuencial. De estos resultados se concluye que al lograr un lexicón de sentimientos unificado que permite homogeneizar la intensidad de la polaridad de las unidades léxicas (con valores positivos, negativos y neutrales) deriva no sólo en el análisis semántico del corpus basado en los términos con una mayor carga de polaridad, o del resumen de las valoraciones o las tendencias de neuromarketing, sino también en aplicaciones como el etiquetado subjetivo de sitios web o de portales sintácticos y semánticos, por mencionar algunas. ABSTRACT This thesis presents an approach to create what we have called a Unified Sentiment Lexicon (USL). This approach aims at aligning, unifying, and expanding the set of sentiment lexicons which are available on the web in order to increase their robustness of coverage. One problem related to the task of the automatic unification of different scores of sentiment lexicons is that there are multiple lexical entries for which the classification of positive, negative, or neutral P, N, Z depends on the unit of measurement used in the annotation methodology of the source sentiment lexicon. Our USL approach computes the unified strength of polarity of each lexical entry based on the Pearson correlation coefficient which measures how correlated lexical entries are with a value between 1 and - 1 , where 1 indicates that the lexical entries are perfectly correlated, 0 indicates no correlation, and -1 means they are perfectly inversely correlated and so is the UnifiedMetrics procedure for CPU and GPU, respectively. Another problem is the high processing time required for computing all the lexical entries in the unification task. Thus, the USL approach computes a subset of lexical entries in each of the 1344 GPU cores and uses parallel processing in order to unify 155,802 lexical entries. The results of the analysis conducted using the USL approach show that the USL has 95,430 lexical entries, out of which there are 35,201 considered to be positive, 22,029 negative, and 38,200 neutral. Finally, the runtime was 2.505 seconds for 95,430 lexical entries; this allows a reduction of the time computing for the UnifiedMetrics by 3 times with respect to the sequential implementation. A key contribution of this work is that we preserve the use of a unified sentiment lexicon for all tasks. Such lexicon is used to define resources and resource-related properties that can be verified based on the results of the analysis and is powerful, general and extensible enough to express a large class of interesting properties. Some applications of this work include merging, aligning, pruning and extending the current sentiment lexicons.