138 resultados para Sistema de extracción de información

em Universidad Politécnica de Madrid


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Las redes sociales en la actualidad son muy relevantes, no solo ocupan mucho tiempo en la vida diaria de las personas si no que también sirve a millones de empresas para publicitarse entre otras cosas. Al fenómeno de las redes sociales se le ha unido la faceta empresarial. La liberación de las APIs de algunas redes sociales ha permitido el desarrollo de aplicaciones de todo tipo y que puedan tener diferentes objetivos como por ejemplo este proyecto. Este proyecto comenzó desde el interés por Ericsson del estudio del API de Google+ y sugerencias para dar valores añadidos a las empresas de telecomunicaciones. También ha complementando la referencia disponible en Ericsson y de los otros dos proyectos de recuperación de información de las redes sociales, añadiendo una serie de opciones para el usuario en la aplicación. Para ello, se ha analizado y realizado un ejemplo, de lo que podemos obtener de las redes sociales, principalmente Twitter y Google+. Lo primero en lo que se ha basado el proyecto ha sido en realizar un estudio teórico sobre el inicio de las redes sociales, el desarrollo y el estado en el que se encuentran, analizando así las principales redes sociales que existen y aportando una visión general sobre todas ellas. También se ha realizado un estado de arte sobre una serie de webs que se dedican al uso de esa información disponible en Internet. Posteriormente, de todas las redes sociales con APIs disponibles se realizó la elección de Google+ porque es una red social nueva aun por explorar y mejorar. Y la elección de Twitter por la serie de opciones y datos que se puede obtener de ella. De ambas se han estudiado sus APIs, para posteriormente con la información obtenida, realizar una aplicación prototipo que recogiera una serie de funciones útiles a partir de los datos de sus redes sociales. Por último se ha realizado una simple interfaz en la cual se puede acceder a los datos de la cuenta como si se estuviera en Twitter o Google+, además con los datos de Twitter se puede realizar una búsqueda avanzada con alertas, un análisis de sentimiento, ver tus mayores retweets de los que te siguen y por último realizar un seguimiento comparando lo que se comenta sobre dos temas determinados. Con este proyecto se ha pretendido proporcionar una idea general de todo lo relacionado con las redes sociales, las aplicaciones disponibles para trabajar con ellas, la información del API de Twitter y Google+ y un concepto de lo que se puede obtener. Today social networks are very relevant, they not only take a long time in daily life of people but also serve millions of businesses to advertise and other things. The phenomenon of social networks has been joined the business side. The release of the APIs of some social networks has allowed the development of applications of all types and different objectives such as this project. This project started from an interest in the study of Ericsson about Google+ API and suggestions to add value to telecommunications companies. This project has complementing the reference available in Ericsson and the other two projects of information retrieval of social networks, adding a number of options for the user in the application. To do this, we have analyzed and made an example of what we can get it from social networks, mainly Twitter and Google+. The first thing that has done in the project was to make a theoretical study on the initiation of social networks, the development and the state in which they are found, and analyze the major social networks that exist. There has also been made a state of art on a number of websites that are dedicated to the use of this information available online. Subsequently, about all the social networks APIs available, Google+ was choice because it is a new social network even to explore and improve. And the choice of Twitter for the number of options and data that can be obtained from it. In both APIs have been studied, and later with the information obtained, make a prototype application to collect a number of useful features from data of social networks. Finally there has been a simple interface, in which you can access the account as if you were on Twitter or Google+. With Twitter data can perform an advanced search with alerts, sentiment analysis, see retweets of who follow you and make comparing between two particular topics. This project is intended to provide an overview of everything related to social networks, applications available to work with them, information about API of Google+ and Twitter, and a concept of what you can get.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En torno al problema del abandono se han difundido opiniones y datos que han generado una honda preocupación social y ante la cual no existe, por lo general una intervención planificada para solucionarlo.Las Instituciones de Educación Superior(IES), por si solas, encuentran grandes dificultades para poder diagnosticar adecuadamente el problema de la deserción estudiantil, y abordar con éxito, el problema del abandono de sus estudiantes. Para poder afrontarlo no es suficiente tener control y poder actuar sobre el contexto en el cual se produce el abandono, es decir las instituciones de educación superior, sino que se hace necesario vincularlo con la situación previa y especialmente con la situación posterior del estudiante que abandona. Esto no es posible sin la cooperación de Organismos superiores, de carácter regional y nacional,que entre otros objetivos, faciliten soporte a través de un Sistema de Registro de Información en el marco de un Modelo Nacional de caracterización del abandono e intervención en la educación superior. El Proyecto ALFA-GUIA, viene trabajando en diferentes ámbitos para tener una visión integral del problema del abandono y detectar aquellos elementos que están suponiendo un obstáculo para mejorar la eficiencia en los esfuerzos que muchos organismos e instituciones realizan para reducir el abandono. Particularmente se han puesto de manifiesto la imprecisión y/o falta de comparabilidad con la que se describe el alcance del abandono, la escasa identificación de los diferentes tipos de abandono y especialmente la falta de un establecimiento de categorías relacionadas con la acción académica posterior del estudiante que ha abandonado, o la conveniencia de un modelo predictivo y de unos procedimientos vinculados a los sistemas de garantía de calidad. En este artículos se abordan estos temas, poniendo especial énfasis en el interés por analizar profundamente la relación del problema del abandono con las acciones académicas posteriores que realiza el estudiante que ha abandonado. La preocupación e interés social y las consecuencias personales y colectivas del abandono son diferentes si el alumno continúa otros estudios similares o si de desliga totalmente del sistema educativo, así como situaciones intermedias cuyo impacto personal y social es muy distinto. Algunos estudios también han relacionado los factores determinantes del abandono con la acción académica posterior del estudiante que abandona. Ambas razones llevan a la reflexión de que un mejor conocimiento de esta variable es determinante para una gestión integral del problema. Se proponen ciertas variables que caracterizan la acción académica posterior al abandono, tales como nivel, ámbito, institución y tiempo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Este trabajo corresponde con la implementación de componentes software dentro de la Plataforma COMPUTAPLEX, la cual tiene como objetivo facilitar a los investigadores la realización de tareas del proceso experimental de ingeniería de software. Uno de los aportes a esta plataforma tecnológica corresponde con el desarrolló de los componentes necesarios para la recuperación de datos experimentales disponibles en diversas fuentes de datos, para ello se hizo uso de un mecanismo capaz de unificar la extracción de información de MySQL, ficheros excel y ficheros SPSS. Con ello diferentes grupos de investigación asociados pueden compartir y tener acceso a repositorios experimentales que se mantienen tanto de manera local como externa. Por otra parte, se ha realizado un estudio de la tecnología de agentes en la que se describe sus definiciones, lenguajes de comunicación, especificación FIPA, JADE como implementación FIPA y parser XML. Además para este trabajo se ha definido e implementado una ontología de comunicación entre agentes, la misma que fue diseñada en la herramienta Protégé. En lo que se refiere al desarrollo de componentes se hizo uso de una amplía variedad de tecnologías que incluye lenguaje de programación Java, framework JADE para el desarrollo de agentes, librería JENA para manejo de ontologías, librería SAXParser para lectura de archivos XML y patrón de diseño Factory. Finalmente se describe la metodología de trabajo utilizada en el proyecto, la cual por medio de la realización de varios ciclos iterativos permitió obtener prototipos que poco a poco fueron cubriendo las necesidades del producto software.----ABSTRACT---- This work relates to the implementation of software components within the platform Computaplex, which aims to enable researchers to conduct experimental software engineering process tasks. One of the contributions to this platform technology corresponds to the development of components which are necessary for the recovery of experimental data available in different data sources, to archive this goal a mechanism able to unify the extraction of information from MySQL, Excel and SPSS files was made. Therefore, associated research groups can share and access experimental repositories that remain both locally and externally. Moreover, it has been conducted a study of agent technology in its definition is described, languages communication, FIPA, JADE and FIPA implementation and XML parser. In addition to this work, it has been defined and implemented an ontology for communication between agents, the same as was designed in the Protégé tool. In what refers to the development of components, a wide range of technologies have been made which includes Java programming language, framework JADE for agent development, JENA library for handling ontologies, SAXParser for reading XML files and Factory design pattern. Finally, describing the work methodology used in this project, which through the implementation of several iterative cycles allowed to obtain prototypes were gradually meeting the needs of the software product.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

El objetivo de este proyecto es la continuación del desarrollo de una plataforma web bajo el sistema WebRTC que, integrada en el ámbito académico, proporcionase un servicio en tiempo real de compartición de información tanto a alumnos como a profesores. Entre esta información posible a compartir, además de mensajes y la propia videollamada que resulta la base de la plataforma, se pueden compartir explicaciones en una pizarra, videos o presentaciones que ayuden en la interacción entre los integrantes de la plataforma. Mientras que la base de la plataforma se encontraba implementada, el sistema no resultaba útil y funcional en dicho estado debido a la multitud de errores y fallos que ocurrían durante su funcionamiento en el sistema de intercambio de información entre los módulos que componen el sistema. Por ello, el objetivo de este trabajo es introducirse en esas capas, rediseñar dicho sistema de intercambio de información entre los diferentes actores que forman parte de la plataforma e implementarlo, logrando así un producto usable para un potencial cliente a partir de este punto y abierto a futuras mejores partiendo de este estado. Para ello además de la tecnología WebRTC, se han incluido funcionalidades con Javascript, Node.JS, jQuery o Socket.IO entre otras APIs. A partir de este sistema y de estas tecnologías, un profesor puede crear un aula virtual, seleccionar los derechos que les proporciona a sus alumnos en la misma y realizar una clase por dicha plataforma sin apenas diferencia a una presencial. Pero no se limita sólo a eso, sino que pueden realizarse tutorías, debates o reuniones entre compañeros de departamento para preparar asignaturas o exámenes. Lo cual genera multitud de posibilidades, no sólo en el ámbito académico, sino fuera de él, para reuniones en empresas, cursos online… En definitiva, con la base de funcionalidades ya implementada previamente y la adición del objetivo de este trabajo de fin de grado que finaliza esas funcionalidades y rediseña e implementa el sistema de intercambio de información para que la plataforma sea 100% usable sin los problemas que el usuario se podía encontrar anteriormente, se obtiene una plataforma con un gran potencial académico con la que los usuarios, bajo la base de la videollamada, podrán encontrar un ambiente de compartición de información como si estuviesen en el mismo lugar físico.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Parte de la investigación biomédica actual se encuentra centrada en el análisis de datos heterogéneos. Estos datos pueden tener distinto origen, estructura, y semántica. Gran cantidad de datos de interés para los investigadores se encuentran en bases de datos públicas, que recogen información de distintas fuentes y la ponen a disposición de la comunidad de forma gratuita. Para homogeneizar estas fuentes de datos públicas con otras de origen privado, existen diversas herramientas y técnicas que permiten automatizar los procesos de homogeneización de datos heterogéneos. El Grupo de Informática Biomédica (GIB) [1] de la Universidad Politécnica de Madrid colabora en el proyecto europeo P-medicine [2], cuya finalidad reside en el desarrollo de una infraestructura que facilite la evolución de los procedimientos médicos actuales hacia la medicina personalizada. Una de las tareas enmarcadas en el proyecto P-medicine que tiene asignado el grupo consiste en elaborar herramientas que ayuden a usuarios en el proceso de integración de datos contenidos en fuentes de información heterogéneas. Algunas de estas fuentes de información son bases de datos públicas de ámbito biomédico contenidas en la plataforma NCBI [3] (National Center for Biotechnology Information). Una de las herramientas que el grupo desarrolla para integrar fuentes de datos es Ontology Annotator. En una de sus fases, la labor del usuario consiste en recuperar información de una base de datos pública y seleccionar de forma manual los resultados relevantes. Para automatizar el proceso de búsqueda y selección de resultados relevantes, por un lado existe un gran interés en conseguir generar consultas que guíen hacia resultados lo más precisos y exactos como sea posible, por otro lado, existe un gran interés en extraer información relevante de elevadas cantidades de documentos, lo cual requiere de sistemas que analicen y ponderen los datos que caracterizan a los mismos. En el campo informático de la inteligencia artificial, dentro de la rama de la recuperación de la información, existen diversos estudios acerca de la expansión de consultas a partir de retroalimentación relevante que podrían ser de gran utilidad para dar solución a la cuestión. Estos estudios se centran en técnicas para reformular o expandir la consulta inicial utilizando como realimentación los resultados que en una primera instancia fueron relevantes para el usuario, de forma que el nuevo conjunto de resultados tenga mayor proximidad con los que el usuario realmente desea. El objetivo de este trabajo de fin de grado consiste en el estudio, implementación y experimentación de métodos que automaticen el proceso de extracción de información trascendente de documentos, utilizándola para expandir o reformular consultas. De esta forma se pretende mejorar la precisión y el ranking de los resultados asociados. Dichos métodos serán integrados en la herramienta Ontology Annotator y enfocados a la fuente de datos de PubMed [4].---ABSTRACT---Part of the current biomedical research is focused on the analysis of heterogeneous data. These data may have different origin, structure and semantics. A big quantity of interesting data is contained in public databases which gather information from different sources and make it open and free to be used by the community. In order to homogenize thise sources of public data with others which origin is private, there are some tools and techniques that allow automating the processes of integration heterogeneous data. The biomedical informatics group of the Universidad Politécnica de Madrid cooperates with the European project P-medicine which main purpose is to create an infrastructure and models to facilitate the transition from current medical practice to personalized medicine. One of the tasks of the project that the group is in charge of consists on the development of tools that will help users in the process of integrating data from diverse sources. Some of the sources are biomedical public data bases from the NCBI platform (National Center for Biotechnology Information). One of the tools in which the group is currently working on for the integration of data sources is called the Ontology Annotator. In this tool there is a phase in which the user has to retrieve information from a public data base and select the relevant data contained in it manually. For automating the process of searching and selecting data on the one hand, there is an interest in automatically generating queries that guide towards the more precise results as possible. On the other hand, there is an interest on retrieve relevant information from large quantities of documents. The solution requires systems that analyze and weigh the data allowing the localization of the relevant items. In the computer science field of the artificial intelligence, in the branch of information retrieval there are diverse studies about the query expansion from relevance feedback that could be used to solve the problem. The main purpose of this studies is to obtain a set of results that is the closer as possible to the information that the user really wants to retrieve. In order to reach this purpose different techniques are used to reformulate or expand the initial query using a feedback the results that where relevant for the user, with this method, the new set of results will have more proximity with the ones that the user really desires. The goal of this final dissertation project consists on the study, implementation and experimentation of methods that automate the process of extraction of relevant information from documents using this information to expand queries. This way, the precision and the ranking of the results associated will be improved. These methods will be integrated in the Ontology Annotator tool and will focus on the PubMed data source.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Un estudio geofísico mediante resonancia se realiza mediante la excitación del agua del subsuelo a partir de la emisión de una intensidad variable a lo largo de un cable extendido sobre la superficie en forma cuadrada o circular. El volumen investigado depende del tamaño de dicho cable, lo cual, junto con la intensidad utilizada para la excitación del agua determina las diferentes profundidades del terreno de las que se va a extraer información, que se encuentran entre 10 y 100 m, habitualmente. La tesis doctoral presentada consiste en la adaptación del Método de Resonancia Magnética para su utilización en aplicaciones superficiales mediante bucles de tamaño reducido. Dicha información sobre el terreno en la escala desde decímetros a pocos metros es interesante en relación a la física de suelos y en general en relación a diferentes problemas de Ingeniería, tanto de extracción de agua como constructiva. Una vez realizada la revisión del estado de conocimiento actual del método en relación a sus aplicaciones usuales, se estudian los problemas inherentes a su adaptación a medidas superficiales. Para solventar dichos problemas se han considerado dos líneas de investigación principales: En primer lugar se realiza un estudio de la influencia de las características del pulso de excitación emitido por el equipo en la calidad de las medidas obtenidas, y las posibles estrategias para mejorar dicho pulso. El pulso de excitación es un parámetro clave en la extracción de información sobre diferentes profundidades del terreno. Por otro lado se busca la optimización del dispositivo de medida para su adaptación al estudio de los primeros metros del suelo mediante el equipo disponible, tratándose éste del equipo NumisLITE de la casa Iris Instruments. ABSTRACT Magnetic Resonance Sounding is a geophysical method performed through the excitation of the subsurface water by a variable electrical intensity delivered through a wire extended on the surface, forming a circle or a square. The investigated volume depends on the wire length and the intensity used, determining the different subsurface depths reached. In the usual application of the method, this depth ranges between 10 and 100 m. This thesis studies the adaptation of the above method to more superficial applications using smaller wire loops. Information about the subsurface in the range of decimeter to a few meters is interesting regarding physics of soils, as well as different Engineering problems, either for water extraction or for construction. After a review of the nowadays state of the art of the method regarding its usual applications, the special issues attached to its use to perform very shallow measures are studied. In order to sort out these problems two main research lines are considered: On the one hand, a study about the influence of the characteristics of the emitted pulse in the resulting measure quality is performed. Possible strategies in order to improve this pulse are investigated, as the excitation pulse is a key parameter to obtain information from different depths of the subsurface. On the other hand, the study tries to optimize the measurement device to its adaptation to the study of the first meters of the ground with the available instrumentation, the NumisLITE equipment from Iris Instruments.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La construcción de los túneles de El Padrún constituye un hito en la realización de obras subterráneas en España. Su ejecución se ha caracterizado por la utilización de la más reciente tecnología. La aplicación del llamado Nuevo Método Austriaco de Construcción de Túneles (NATM) como base del proyecto se ha llevado a cabo con rigor en todos sus extremos. De acuerdo a esta filosofía, el trabajo de la Asistencia Técnica se ha centrado en una doble línea: el control instrumental sistemático de la obra, y la interpretación de los datos recogidos mediante análisis numérico. El primer objetivo se ha cubierto mediante un ambicioso plan de instrumentación. En él se han incluido medidas para la caracterización del sistema terreno-sostenimiento. La información se ha mantenido centralizada en una base de datos dispuesta a pie de obra. Los datos recogidos de la instrumentación han sido la base de modelos teóricos desarrollados con el objetivo de interpretar la evolución de convergencias e identificar las presiones actuantes sobre el sostenimiento. Por otro lado, en el análisis de estabilidad exterior e interior se han aplicado refinadas técnicas de cálculo numérico (Elementos Finitos, Elementos de Contorno, Teoría de Bloques etc.). Finalmente, se ha desarrollado una aplicación específica de Métodos de Fiabilidad. En ella se aborda, con un planteamiento avanzado, el problema de evaluación de la seguridad de la obra.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

El proyecto TIMPANO tiene por objetivo profundizar en el desarrollo de sistemas de comunicación oral hombre-máquina atendiendo principalmente a la capacidad de dar respuesta a múltiples requerimientos de los usuarios, como pueden ser el acceso a información, la extracción de información, o el análisis de grandes repositorios de información en audio. En el proyecto se hace especial énfasis en la adaptación dinámica de los modelos a diversos contextos, tanto de tipo acústico, como semántico o de idioma.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La relación entre la ingeniería y la medicina cada vez se está haciendo más estrecha, y debido a esto se ha creado una nueva disciplina, la bioingeniería, ámbito en el que se centra el proyecto. Este ámbito cobra gran interés debido al rápido desarrollo de nuevas tecnologías que en particular permiten, facilitan y mejoran la obtención de diagnósticos médicos respecto de los métodos tradicionales. Dentro de la bioingeniería, el campo que está teniendo mayor desarrollo es el de la imagen médica, gracias al cual se pueden obtener imágenes del interior del cuerpo humano con métodos no invasivos y sin necesidad de recurrir a la cirugía. Mediante métodos como la resonancia magnética, rayos X, medicina nuclear o ultrasonidos, se pueden obtener imágenes del cuerpo humano para realizar diagnósticos. Para que esas imágenes puedan ser utilizadas con ese fin hay que realizar un correcto tratamiento de éstas mediante técnicas de procesado digital. En ése ámbito del procesado digital de las imágenes médicas es en el que se ha realizado este proyecto. Gracias al desarrollo del tratamiento digital de imágenes con métodos de extracción de información, mejora de la visualización o resaltado de rasgos de interés de las imágenes, se puede facilitar y mejorar el diagnóstico de los especialistas. Por todo esto en una época en la que se quieren automatizar todos los procesos para mejorar la eficacia del trabajo realizado, el automatizar el procesado de las imágenes para extraer información con mayor facilidad, es muy útil. Actualmente una de las herramientas más potentes en el tratamiento de imágenes médicas es Matlab, gracias a su toolbox de procesado de imágenes. Por ello se eligió este software para el desarrollo de la parte práctica de este proyecto, su potencia y versatilidad simplifican la implementación de algoritmos. Este proyecto se estructura en dos partes. En la primera se realiza una descripción general de las diferentes modalidades de obtención de imágenes médicas y se explican los diferentes usos de cada método, dependiendo del campo de aplicación. Posteriormente se hace una descripción de las técnicas más importantes de procesado de imagen digital que han sido utilizadas en el proyecto. En la segunda parte se desarrollan cuatro aplicaciones en Matlab para ejemplificar el desarrollo de algoritmos de procesado de imágenes médicas. Dichas implementaciones demuestran la aplicación y utilidad de los conceptos explicados anteriormente en la parte teórica, como la segmentación y operaciones de filtrado espacial de la imagen, así como otros conceptos específicos. Las aplicaciones ejemplo desarrolladas han sido: obtención del porcentaje de metástasis de un tejido, diagnóstico de las deformidades de la columna vertebral, obtención de la MTF de una cámara de rayos gamma y medida del área de un fibroadenoma de una ecografía de mama. Por último, para cada una de las aplicaciones se detallará su utilidad en el campo de la imagen médica, los resultados obtenidos y su implementación en una interfaz gráfica para facilitar su uso. ABSTRACT. The relationship between medicine and engineering is becoming closer than ever giving birth to a recently appeared science field: bioengineering. This project is focused on this subject. This recent field is becoming more and more important due to the fast development of new technologies that provide tools to improve disease diagnosis, with regard to traditional procedures. In bioengineering the fastest growing field is medical imaging, in which we can obtain images of the inside of the human body without need of surgery. Nowadays by means of the medical modalities of magnetic resonance, X ray, nuclear medicine or ultrasound, we can obtain images to make a more accurate diagnosis. For those images to be useful within the medical field, they should be processed properly with some digital image processing techniques. It is in this field of digital medical image processing where this project is developed. Thanks to the development of digital image processing providing methods for data collection, improved visualization or data highlighting, diagnosis can be eased and facilitated. In an age where automation of processes is much sought, automated digital image processing to ease data collection is extremely useful. One of the most powerful image processing tools is Matlab, together with its image processing toolbox. That is the reason why that software was chosen to develop the practical algorithms in this project. This final project is divided into two main parts. Firstly, the different modalities for obtaining medical images will be described. The different usages of each method according to the application will also be specified. Afterwards we will give a brief description of the most important image processing tools that have been used in the project. Secondly, four algorithms in Matlab are implemented, to provide practical examples of medical image processing algorithms. This implementation shows the usefulness of the concepts previously explained in the first part, such as: segmentation or spatial filtering. The particular applications examples that have been developed are: calculation of the metastasis percentage of a tissue, diagnosis of spinal deformity, approximation to the MTF of a gamma camera, and measurement of the area of a fibroadenoma in an ultrasound image. Finally, for each of the applications developed, we will detail its usefulness within the medical field, the results obtained, and its implementation in a graphical user interface to ensure ease of use.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La nanotecnología es un área de investigación de reciente creación que trata con la manipulación y el control de la materia con dimensiones comprendidas entre 1 y 100 nanómetros. A escala nanométrica, los materiales exhiben fenómenos físicos, químicos y biológicos singulares, muy distintos a los que manifiestan a escala convencional. En medicina, los compuestos miniaturizados a nanoescala y los materiales nanoestructurados ofrecen una mayor eficacia con respecto a las formulaciones químicas tradicionales, así como una mejora en la focalización del medicamento hacia la diana terapéutica, revelando así nuevas propiedades diagnósticas y terapéuticas. A su vez, la complejidad de la información a nivel nano es mucho mayor que en los niveles biológicos convencionales (desde el nivel de población hasta el nivel de célula) y, por tanto, cualquier flujo de trabajo en nanomedicina requiere, de forma inherente, estrategias de gestión de información avanzadas. Desafortunadamente, la informática biomédica todavía no ha proporcionado el marco de trabajo que permita lidiar con estos retos de la información a nivel nano, ni ha adaptado sus métodos y herramientas a este nuevo campo de investigación. En este contexto, la nueva área de la nanoinformática pretende detectar y establecer los vínculos existentes entre la medicina, la nanotecnología y la informática, fomentando así la aplicación de métodos computacionales para resolver las cuestiones y problemas que surgen con la información en la amplia intersección entre la biomedicina y la nanotecnología. Las observaciones expuestas previamente determinan el contexto de esta tesis doctoral, la cual se centra en analizar el dominio de la nanomedicina en profundidad, así como en el desarrollo de estrategias y herramientas para establecer correspondencias entre las distintas disciplinas, fuentes de datos, recursos computacionales y técnicas orientadas a la extracción de información y la minería de textos, con el objetivo final de hacer uso de los datos nanomédicos disponibles. El autor analiza, a través de casos reales, alguna de las tareas de investigación en nanomedicina que requieren o que pueden beneficiarse del uso de métodos y herramientas nanoinformáticas, ilustrando de esta forma los inconvenientes y limitaciones actuales de los enfoques de informática biomédica a la hora de tratar con datos pertenecientes al dominio nanomédico. Se discuten tres escenarios diferentes como ejemplos de actividades que los investigadores realizan mientras llevan a cabo su investigación, comparando los contextos biomédico y nanomédico: i) búsqueda en la Web de fuentes de datos y recursos computacionales que den soporte a su investigación; ii) búsqueda en la literatura científica de resultados experimentales y publicaciones relacionadas con su investigación; iii) búsqueda en registros de ensayos clínicos de resultados clínicos relacionados con su investigación. El desarrollo de estas actividades requiere el uso de herramientas y servicios informáticos, como exploradores Web, bases de datos de referencias bibliográficas indexando la literatura biomédica y registros online de ensayos clínicos, respectivamente. Para cada escenario, este documento proporciona un análisis detallado de los posibles obstáculos que pueden dificultar el desarrollo y el resultado de las diferentes tareas de investigación en cada uno de los dos campos citados (biomedicina y nanomedicina), poniendo especial énfasis en los retos existentes en la investigación nanomédica, campo en el que se han detectado las mayores dificultades. El autor ilustra cómo la aplicación de metodologías provenientes de la informática biomédica a estos escenarios resulta efectiva en el dominio biomédico, mientras que dichas metodologías presentan serias limitaciones cuando son aplicadas al contexto nanomédico. Para abordar dichas limitaciones, el autor propone un enfoque nanoinformático, original, diseñado específicamente para tratar con las características especiales que la información presenta a nivel nano. El enfoque consiste en un análisis en profundidad de la literatura científica y de los registros de ensayos clínicos disponibles para extraer información relevante sobre experimentos y resultados en nanomedicina —patrones textuales, vocabulario en común, descriptores de experimentos, parámetros de caracterización, etc.—, seguido del desarrollo de mecanismos para estructurar y analizar dicha información automáticamente. Este análisis concluye con la generación de un modelo de datos de referencia (gold standard) —un conjunto de datos de entrenamiento y de test anotados manualmente—, el cual ha sido aplicado a la clasificación de registros de ensayos clínicos, permitiendo distinguir automáticamente los estudios centrados en nanodrogas y nanodispositivos de aquellos enfocados a testear productos farmacéuticos tradicionales. El presente trabajo pretende proporcionar los métodos necesarios para organizar, depurar, filtrar y validar parte de los datos nanomédicos existentes en la actualidad a una escala adecuada para la toma de decisiones. Análisis similares para otras tareas de investigación en nanomedicina ayudarían a detectar qué recursos nanoinformáticos se requieren para cumplir los objetivos actuales en el área, así como a generar conjunto de datos de referencia, estructurados y densos en información, a partir de literatura y otros fuentes no estructuradas para poder aplicar nuevos algoritmos e inferir nueva información de valor para la investigación en nanomedicina. ABSTRACT Nanotechnology is a research area of recent development that deals with the manipulation and control of matter with dimensions ranging from 1 to 100 nanometers. At the nanoscale, materials exhibit singular physical, chemical and biological phenomena, very different from those manifested at the conventional scale. In medicine, nanosized compounds and nanostructured materials offer improved drug targeting and efficacy with respect to traditional formulations, and reveal novel diagnostic and therapeutic properties. Nevertheless, the complexity of information at the nano level is much higher than the complexity at the conventional biological levels (from populations to the cell). Thus, any nanomedical research workflow inherently demands advanced information management. Unfortunately, Biomedical Informatics (BMI) has not yet provided the necessary framework to deal with such information challenges, nor adapted its methods and tools to the new research field. In this context, the novel area of nanoinformatics aims to build new bridges between medicine, nanotechnology and informatics, allowing the application of computational methods to solve informational issues at the wide intersection between biomedicine and nanotechnology. The above observations determine the context of this doctoral dissertation, which is focused on analyzing the nanomedical domain in-depth, and developing nanoinformatics strategies and tools to map across disciplines, data sources, computational resources, and information extraction and text mining techniques, for leveraging available nanomedical data. The author analyzes, through real-life case studies, some research tasks in nanomedicine that would require or could benefit from the use of nanoinformatics methods and tools, illustrating present drawbacks and limitations of BMI approaches to deal with data belonging to the nanomedical domain. Three different scenarios, comparing both the biomedical and nanomedical contexts, are discussed as examples of activities that researchers would perform while conducting their research: i) searching over the Web for data sources and computational resources supporting their research; ii) searching the literature for experimental results and publications related to their research, and iii) searching clinical trial registries for clinical results related to their research. The development of these activities will depend on the use of informatics tools and services, such as web browsers, databases of citations and abstracts indexing the biomedical literature, and web-based clinical trial registries, respectively. For each scenario, this document provides a detailed analysis of the potential information barriers that could hamper the successful development of the different research tasks in both fields (biomedicine and nanomedicine), emphasizing the existing challenges for nanomedical research —where the major barriers have been found. The author illustrates how the application of BMI methodologies to these scenarios can be proven successful in the biomedical domain, whilst these methodologies present severe limitations when applied to the nanomedical context. To address such limitations, the author proposes an original nanoinformatics approach specifically designed to deal with the special characteristics of information at the nano level. This approach consists of an in-depth analysis of the scientific literature and available clinical trial registries to extract relevant information about experiments and results in nanomedicine —textual patterns, common vocabulary, experiment descriptors, characterization parameters, etc.—, followed by the development of mechanisms to automatically structure and analyze this information. This analysis resulted in the generation of a gold standard —a manually annotated training or reference set—, which was applied to the automatic classification of clinical trial summaries, distinguishing studies focused on nanodrugs and nanodevices from those aimed at testing traditional pharmaceuticals. The present work aims to provide the necessary methods for organizing, curating and validating existing nanomedical data on a scale suitable for decision-making. Similar analysis for different nanomedical research tasks would help to detect which nanoinformatics resources are required to meet current goals in the field, as well as to generate densely populated and machine-interpretable reference datasets from the literature and other unstructured sources for further testing novel algorithms and inferring new valuable information for nanomedicine.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

En esta Tesis se plantea una nueva forma de entender la evacuación apoyándonos en tecnologías existentes y accesibles que nos permitirán ver este proceso como un ente dinámico. Se trata de una metodología que implica no solo el uso de herramientas de análisis que permitan la definición de planes de evacuación en tiempo real, sino que también se apunta hacia la creación de una infraestructura física que permita alimentar con información actualizada al sistema de forma que, según la situación y la evolución de la emergencia, sea posible realizar planes alternativos que se adapten a las nuevas circunstancias. En base a esto, el sistema asimilará toda esa información y aportará soluciones que faciliten la toma de decisiones durante toda la evolución del incidente. Las aportaciones originales de esta Tesis son múltiples y muy variadas, pudiéndolas resumir en los siguientes puntos: 1. Estudio completo del estado del arte: a. Detección y análisis de diferentes proyectos a nivel internacional que de forma parcial tratan algunos aspectos desarrollados en la Tesis. b. Completo estudio a nivel mundial del software desarrollado total o parcialmente para la simulación del comportamiento humano y análisis de procesos de evacuación. Se ha generado una base de datos que cataloga de forma exhaustiva estas aplicaciones, permitiendo realizar un completo análisis y posibilitando la evolución futura de los contenidos de la misma. En la tesis se han analizado casi un centenar de desarrollos, pero el objetivo es seguir completando esta base de datos debido a la gran utilidad y a las importantes posibilidades que ofrece. 2. Desarrollo de un importante capítulo que trata sobre la posibilidad de utilizar entornos virtuales como alternativa intermedia al uso de simuladores y simulacros. En esta sección se divide en dos bloques: a. Ensayos en entornos reales y virtuales. b. Ensayos en entornos virtuales (pruebas realizadas con varios entornos virtuales). 3. Desarrollo de e-Flow net design: paquete de herramientas desarrolladas sobre Rhinoceros para el diseño de la red de evacuación basada en los elementos definidos en la tesis: Nodes, paths, Relations y Areas. 4. Desarrollo de e-Flow Simulator: Conjunto de herramientas que transforman Rhinoceros en un simulador 3D de comportamiento humano. Este simulador, de desarrollo propio, incorpora un novedoso algoritmo de comportamiento a nivel de individuo que incluye aspectos que no se han encontrado en otros simuladores. Esta herramienta permite realizar simulaciones programadas de grupos de individuos cuyo comportamiento se basa en el análisis del entorno y en la presencia de referencias dinámicas. Incluye otras importantes novedades como por ejemplo: herramientas para análisis de la señalización, elementos de señalización dinámica, incorporación sencilla de obstáculos, etc. También se ha creado una herramienta que posibilita la implementación del movimiento del propio escenario simulando la oscilación del mismo, con objeto de reflejar la influencia del movimiento del buque en el desplazamiento de los individuos. 5. En una fase avanzada del desarrollo, se incorporó la posibilidad de generar un vídeo de toda la simulación, momento a partir del cual, se han documentado todas las pruebas (y se continúan documentando) en una base de datos que recoge todas las características de las simulaciones, los problemas detectados, etc. Estas pruebas constituyen, en el momento en que se ha cerrado la redacción de la Tesis, un total de 81 GB de datos. Generación y análisis de rutas en base a la red de evacuación creada con e-Flow Net design y las simulaciones realizadas con e-Flow Net simulator. a. Análisis para la optimización de la configuración de la red en base a los nodos por área existentes. b. Definición de procesos previos al cálculo de rutas posibles. c. Cálculo de rutas: i. Análisis de los diferentes algoritmos que existen en la actualidad para la optimización de rutas. ii. Desarrollo de una nueva familia de algoritmos que he denominado “Minimum Decision Algorithm (MDA)”, siendo los algoritmos que componen esta familia: 1. MDA básico. 2. MDA mínimo. 3. MDA de no interferencia espacial. 4. MDA de expansión. 5. MDA de expansión ordenada para un único origen. 6. MDA de expansión ordenada. iii. Todos estos algoritmos se han implementado en la aplicación e-Flow creada en la Tesis para el análisis de rutas y que constituye el núcleo del Sistema de Ayuda al Capitán. d. Determinación de las alternativas para el plan de evacuación. Tras la definición de las rutas posibles, se describen diferentes procesos existentes de análisis por ponderación en base a criterios, para pasar finalmente a definir el método de desarrollo propio propuesto en esta Tesis y cuyo objetivo es responder en base a la población de rutas posibles obtenidas mediante los algoritmos MDA, qué combinación de rutas constituyen el Plan o Planes más adecuados para cada situación. La metodología creada para la selección de combinaciones de rutas que determinan un Plan completo, se basa en cuatro criterios básicos que tras su aplicación ofrecen las mejores alternativas. En esta fase también se incluye un complejo análisis de evolución temporal que incorpora novedosas definiciones y formulaciones. e. Derivado de la definición de la metodología creada en esta Tesis para la realización de los análisis de evolución temporal, se ha podido definir un nuevo teorema matemático que se ha bautizado como “Familia de cuadriláteros de área constante”. 7. Especificación de la infraestructura física del Sistema de Ayuda al Capitán: parte fundamental de sistema es la infraestructura física sobre la que se sustentaría. Esta infraestructura estaría compuesta por sensores, actuadores, aplicaciones para dispositivos móviles, etc. En este capítulo se analizan los diferentes elementos que la constituirían y las tecnologías implicadas. 8. Especificación de la infraestructura de servicios. 9. Creación del Blog Virtual Environments (http://epcinnova-virtualenvironments.blogspot.com.es/) en el que se han publicado todas las pruebas realizadas en el capítulo que analiza los entornos virtuales como alternativa a los simuladores y a los ensayos en laboratorio o los simulacros, incluyendo en muchos casos la posibilidad de que el visitante del blog pueda realizar la simulación en el entorno virtual. Este blog también incluye otras secciones que se han trabajado durante la Tesis: • Recopilación de diferentes entornos virtuales existentes. • Diagrama que recopila información sobre accidentes tanto en el ámbito marítimo como en el terrestre (en desarrollo). • Esquema propuesto para el acopio de información obtenida a partir de un simulacro. 10. Esta Tesis es la base para el proyecto e-Flow (nombre de una de las aplicaciones que desarrolladas en esta obra), un proyecto en el que el autor de esta Tesis ha trabajado como Project Manager. En el proyecto participa un consorcio de empresas y la UPM, y tiene como objetivo trasladar a la realidad gran parte de los planteamientos e ideas presentadas en esta Tesis. Este proyecto incluye el desarrollo de la infraestructura física y de servicios que permitirán, entre otras cosas, implementar en infraestructuras complejas una plataforma que posibilita la evacuación dinámica y un control ubicuo de los sistemas de monitorización y actuación implementados. En estos momentos se está finalizando el proyecto, cuyo objetivo final es la implementación de un piloto en un Hospital. También destacamos los siguientes avances a nivel de difusión científico-tecnológico: • Ponencia en el “52 congreso de la Ingeniería Naval en España” presentando un artículo “e-Flow- Sistema integral inteligente de soporte a la evacuación”. En este artículo se trata tanto el proyecto e-Flow del que soy Project Manager, como esta Tesis Doctoral, al ser temas estrechamente vinculados. En 2014 se publicó en dos números de la Revista Ingeniería Naval el artículo presentado a estas jornadas. • Co-autor en el artículo “E-Flow: A communication system for user notification in dynamic evacuation scenarios” presentado en el 7th International Conference on Ubicuous Computing & Ambient Intelligence (UCAMI) celebrado en Costa Rica. Por último, una de las aportaciones más interesantes, es la definición de un gran número de líneas de investigación futuras en base a todos los avances realizados en esta Tesis. ABSTRACT With this Thesis a new approach for understanding evacuation process is considered, taking advantage of the existing and open technologies that will allow this process to be interpreted as a dynamic entity. The methodology involves not only tools that allows on.-time evacuation plans, but also creates a physical insfrastructure that makes possible to feed the system with information on real time so, considering in each moment the real situation as well as the specific emergency development it will be feasible to generate alternative plans that responds to the current emergency situation. In this respect, the system will store all this information and will feedback with solutions that will help the decision making along the evacuation process. The innovative and singular contributions of this Thesis are numerous and rich, summarised as follows: 1.- Complete state-of-art study: a. Detection and analysis of different projects on an international level that, although partially, deal with some aspects developed in this Thesis. b. Thorough study at a international level of the developed software - total or partially done - for the simulation of the human behaviour and evacuation processes analysis. A database has been generated that classifies in detail these applications allowing to perform a full analysis and leading to future evolution of its contents. Within the Thesis work, almost a hundred of developments have been analysed but the purpose is to keep up updating this database due to the broad applications and possibilities that it involves. 2. Development of an important chapter that studies the possibility of using virtual scenarios as mid-term alternative for the use of simulations. This section is divided in two blocks: a. Trials in virtual and real scenarios b. Trials in virutal scenarios (trials performed with several ones). 3. E-Flow net design development: Set of tools developed under Rhinoceros for the evacuation net design based on the elements defined in the Thesis: Nodes, Paths, Relations, Areas 4. E-Flow simulator development: Set of tools that uses Rhinoceros as a 3D simulator of human behaviour. This simulator, of my own design, includes a new and original algorithm of human behaviour that involves aspects that are not found in other simulators. This tool allows to perform groups programmed simulations which behaviour is based on their enviroment analysis and presence of dynamic references. It includes other important innovations as for example: tools for signals analysis, dynamic signal elements, easy obstacle adding etc... More over, a tool that allows the own scenario movement implementation has been created by simulating the own oscillation movement, with the purpose of playing the vessel movement's influences in the individuals' displacements. 5. In an advanced stage of the development, the possibility of generating a video recording of all the simulation was also integrated, then from that moment all tests have been filed (and keep on doing so) in a database that collects all simulation characteristics, failures detected, etc. These stored tests amounts to a total of 81 GB at the moment of finishing the Thesis work. Generation and analysis of paths regarding the evacuation net created with E-Flow design and the simulations performed with E-Flow net Simulator. a. Analysis for the optimisation of the network configuration based in the existing nodes per area. b. Definition of the processes previous to the calculation of the feasible paths c. Paths calculation: i. Analysis of the different algorithms on existance nowadays for the routes optimisation. ii. Development of a new family of algorithms that I have called “Minimum Decision Algorithm (MDA)”, being composed of: 1. MDA basic 2. MDA minimum 3. MDA of not spacial interference 4. MDA of expansion (es de extenderse) o enlargement ( es de crecimiento) 5. MDA of organised expansion for a single origin (of organised enlargement for a single origin) 6. MDA of organised expansion (of organised enlargement) iii. All these algorithms have been implemented in the E-Flow application created in the Thesis dfor the routes analysis and it is the core of the Captain's support system. d. Determination of the alternatives for the evacuation plan. After defining all possible paths, different processes of analysis existing for weighing-based criteria are described, thus to end defining the own development method proposed in this Thesis and that aims to respond in an agreggation of possible routes basis obtained by means of the MDA algorithms what is the routes' combination more suitable for the Plan or Plans in every situation. The methodology created fot the selection of the combinations of routes that determine a complete Plan is baesd in four basic criteria that after applying, offer the best alternatives. In this stage a complex analysis of the progress along time is also included, that adds original and innovative defintions and formulations. e. Originated from the methodology created in this Thesis for the perfoming of the analysy of the progress along time, a new mathematic theorem has been defined, that has been called as "Family of quadrilateral of constant area". 7. Specification of the physiscal infrastructure of the Captain's help system: essential part is this physical infrastructure that will support it. This system will be made of sensors, actuators, apps for mobile devices etc... Within this chapter the different elements and technologies that make up this infrastructure will be studied. 8. Specification for the services infrastructure. 9. Start up of the Blog. " Virtual Environments (http://epcinnova-virtualenvironments.blogspot.com.es/)" in which all tests performed have been published in terms of analysis of the virtual enviroments as alternative to the simulators as well as to the laboratory experiments or simulations, including in most of the cases the possibility that the visitor can perform the simulation within the virtual enviroment. This blog also includes other sections that have been worked along and within this Thesis: - Collection of different virtual scenarios existent. - Schema that gathers information concerning accidents for maritime and terrestrial areas (under development) - Schema proposed for the collecting of information obtained from a simulation. 10. This Thesis is the basis of the E-Flow project (name of one of the applications developed in this work), a project in which the Thesis' author has worked in as Project Manager. In the project takes part a consortium of firms as well as the UPM and the aim is to bring to real life most part of the approaches and ideas contained in this Thesis. This project includes the development of the physical infrastructure as well as the services that will allow, among others, implement in complex infrastrucutres a platform that will make possible a dynamic evacuation and a continuous control of the monitoring and acting systems implemented. At the moment the project is getting to an end which goal is the implementation of a pilot project in a Hospital. We also would like to highlight the following advances concerning the scientific-technology divulgation: • Talk in the " 52th Congress of the Naval Engineering in Spain" with the article "E-Flow . Intelligent system integrated for supporting evacuation". This paper is about project E-Flow which I am Project Manager of, as well as this Thesis for the Doctorate, being both closely related. Two papers published In 2014 in the Naval Engineering Magazine. • Co-author in the article “E-Flow: A communication system for user notification in dynamic evacuation scenarios” [17] introduced in the 7th International Conference on Ubicuous Computing & Ambient Intelligence (UCAMI) held in Costa Rica. Last, but not least, one of the more interesting contributions is the defintion of several lines of research in the future, based on the advances made in this Thesis.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

El avance tecnológico de los últimos años ha aumentado la necesidad de guardar enormes cantidades de datos de forma masiva, llegando a una situación de desorden en el proceso de almacenamiento de datos, a su desactualización y a complicar su análisis. Esta situación causó un gran interés para las organizaciones en la búsqueda de un enfoque para obtener información relevante de estos grandes almacenes de datos. Surge así lo que se define como inteligencia de negocio, un conjunto de herramientas, procedimientos y estrategias para llevar a cabo la “extracción de conocimiento”, término con el que se refiere comúnmente a la extracción de información útil para la propia organización. Concretamente en este proyecto, se ha utilizado el enfoque Knowledge Discovery in Databases (KDD), que permite lograr la identificación de patrones y un manejo eficiente de las anomalías que puedan aparecer en una red de comunicaciones. Este enfoque comprende desde la selección de los datos primarios hasta su análisis final para la determinación de patrones. El núcleo de todo el enfoque KDD es la minería de datos, que contiene la tecnología necesaria para la identificación de los patrones mencionados y la extracción de conocimiento. Para ello, se utilizará la herramienta RapidMiner en su versión libre y gratuita, debido a que es más completa y de manejo más sencillo que otras herramientas como KNIME o WEKA. La gestión de una red engloba todo el proceso de despliegue y mantenimiento. Es en este procedimiento donde se recogen y monitorizan todas las anomalías ocasionadas en la red, las cuales pueden almacenarse en un repositorio. El objetivo de este proyecto es realizar un planteamiento teórico y varios experimentos que permitan identificar patrones en registros de anomalías de red. Se ha estudiado el repositorio de MAWI Lab, en el que se han almacenado anomalías diarias. Se trata de buscar indicios característicos anuales detectando patrones. Los diferentes experimentos y procedimientos de este estudio pretenden demostrar la utilidad de la inteligencia de negocio a la hora de extraer información a partir de un almacén de datos masivo, para su posterior análisis o futuros estudios. ABSTRACT. The technological progresses in the recent years required to store a big amount of information in repositories. This information is often in disorder, outdated and needs a complex analysis. This situation has caused a relevant interest in investigating methodologies to obtain important information from these huge data stores. Business intelligence was born as a set of tools, procedures and strategies to implement the "knowledge extraction". Specifically in this project, Knowledge Discovery in Databases (KDD) approach has been used. KDD is one of the most important processes of business intelligence to achieve the identification of patterns and the efficient management of the anomalies in a communications network. This approach includes all necessary stages from the selection of the raw data until the analysis to determine the patterns. The core process of the whole KDD approach is the Data Mining process, which analyzes the information needed to identify the patterns and to extract the knowledge. In this project we use the RapidMiner tool to carry out the Data Mining process, because this tool has more features and is easier to use than other tools like WEKA or KNIME. Network management includes the deployment, supervision and maintenance tasks. Network management process is where all anomalies are collected, monitored, and can be stored in a repository. The goal of this project is to construct a theoretical approach, to implement a prototype and to carry out several experiments that allow identifying patterns in some anomalies records. MAWI Lab repository has been selected to be studied, which contains daily anomalies. The different experiments show the utility of the business intelligence to extract information from big data warehouse.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La tesis que se presenta tiene como propósito la construcción automática de ontologías a partir de textos, enmarcándose en el área denominada Ontology Learning. Esta disciplina tiene como objetivo automatizar la elaboración de modelos de dominio a partir de fuentes información estructurada o no estructurada, y tuvo su origen con el comienzo del milenio, a raíz del crecimiento exponencial del volumen de información accesible en Internet. Debido a que la mayoría de información se presenta en la web en forma de texto, el aprendizaje automático de ontologías se ha centrado en el análisis de este tipo de fuente, nutriéndose a lo largo de los años de técnicas muy diversas provenientes de áreas como la Recuperación de Información, Extracción de Información, Sumarización y, en general, de áreas relacionadas con el procesamiento del lenguaje natural. La principal contribución de esta tesis consiste en que, a diferencia de la mayoría de las técnicas actuales, el método que se propone no analiza la estructura sintáctica superficial del lenguaje, sino que estudia su nivel semántico profundo. Su objetivo, por tanto, es tratar de deducir el modelo del dominio a partir de la forma con la que se articulan los significados de las oraciones en lenguaje natural. Debido a que el nivel semántico profundo es independiente de la lengua, el método permitirá operar en escenarios multilingües, en los que es necesario combinar información proveniente de textos en diferentes idiomas. Para acceder a este nivel del lenguaje, el método utiliza el modelo de las interlinguas. Estos formalismos, provenientes del área de la traducción automática, permiten representar el significado de las oraciones de forma independiente de la lengua. Se utilizará en concreto UNL (Universal Networking Language), considerado como la única interlingua de propósito general que está normalizada. La aproximación utilizada en esta tesis supone la continuación de trabajos previos realizados tanto por su autor como por el equipo de investigación del que forma parte, en los que se estudió cómo utilizar el modelo de las interlinguas en las áreas de extracción y recuperación de información multilingüe. Básicamente, el procedimiento definido en el método trata de identificar, en la representación UNL de los textos, ciertas regularidades que permiten deducir las piezas de la ontología del dominio. Debido a que UNL es un formalismo basado en redes semánticas, estas regularidades se presentan en forma de grafos, generalizándose en estructuras denominadas patrones lingüísticos. Por otra parte, UNL aún conserva ciertos mecanismos de cohesión del discurso procedentes de los lenguajes naturales, como el fenómeno de la anáfora. Con el fin de aumentar la efectividad en la comprensión de las expresiones, el método provee, como otra contribución relevante, la definición de un algoritmo para la resolución de la anáfora pronominal circunscrita al modelo de la interlingua, limitada al caso de pronombres personales de tercera persona cuando su antecedente es un nombre propio. El método propuesto se sustenta en la definición de un marco formal, que ha debido elaborarse adaptando ciertas definiciones provenientes de la teoría de grafos e incorporando otras nuevas, con el objetivo de ubicar las nociones de expresión UNL, patrón lingüístico y las operaciones de encaje de patrones, que son la base de los procesos del método. Tanto el marco formal como todos los procesos que define el método se han implementado con el fin de realizar la experimentación, aplicándose sobre un artículo de la colección EOLSS “Encyclopedia of Life Support Systems” de la UNESCO. ABSTRACT The purpose of this thesis is the automatic construction of ontologies from texts. This thesis is set within the area of Ontology Learning. This discipline aims to automatize domain models from structured or unstructured information sources, and had its origin with the beginning of the millennium, as a result of the exponential growth in the volume of information accessible on the Internet. Since most information is presented on the web in the form of text, the automatic ontology learning is focused on the analysis of this type of source, nourished over the years by very different techniques from areas such as Information Retrieval, Information Extraction, Summarization and, in general, by areas related to natural language processing. The main contribution of this thesis consists of, in contrast with the majority of current techniques, the fact that the method proposed does not analyze the syntactic surface structure of the language, but explores his deep semantic level. Its objective, therefore, is trying to infer the domain model from the way the meanings of the sentences are articulated in natural language. Since the deep semantic level does not depend on the language, the method will allow to operate in multilingual scenarios, where it is necessary to combine information from texts in different languages. To access to this level of the language, the method uses the interlingua model. These formalisms, coming from the area of machine translation, allow to represent the meaning of the sentences independently of the language. In this particular case, UNL (Universal Networking Language) will be used, which considered to be the only interlingua of general purpose that is standardized. The approach used in this thesis corresponds to the continuation of previous works carried out both by the author of this thesis and by the research group of which he is part, in which it is studied how to use the interlingua model in the areas of multilingual information extraction and retrieval. Basically, the procedure defined in the method tries to identify certain regularities at the UNL representation of texts that allow the deduction of the parts of the ontology of the domain. Since UNL is a formalism based on semantic networks, these regularities are presented in the form of graphs, generalizing in structures called linguistic patterns. On the other hand, UNL still preserves certain mechanisms of discourse cohesion from natural languages, such as the phenomenon of the anaphora. In order to increase the effectiveness in the understanding of expressions, the method provides, as another significant contribution, the definition of an algorithm for the resolution of pronominal anaphora limited to the model of the interlingua, in the case of third person personal pronouns when its antecedent is a proper noun. The proposed method is based on the definition of a formal framework, adapting some definitions from Graph Theory and incorporating new ones, in order to locate the notions of UNL expression and linguistic pattern, as well as the operations of pattern matching, which are the basis of the method processes. Both the formal framework and all the processes that define the method have been implemented in order to carry out the experimentation, applying on an article of the "Encyclopedia of Life Support Systems" of the UNESCO-EOLSS collection.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La edificación residencial existente en España y en Europa se encuentra abocada a una rehabilitación profunda para cumplir los objetivos marcados en la estrategia europea para el año 2050. Estos, para el sector de la edificación, se proponen una reducción del 90% de emisiones de gases de efecto invernadero (GEI) respecto a niveles del año 1990. Este plan a largo plazo establece hitos intermedios de control, con objetivos parciales para el año 2020 y 2030. El objetivo último es aprovechar el potencial de reducción de demanda energética del sector de la edificación, del cual la edificación residencial supone el 85% en España. Dentro de estos requerimientos, de reducción de demanda energética en la edificación, la ventilación en la edificación residencial se convierte en uno de los retos a resolver por su vinculación directa a la salud y el confort de los ocupantes de la misma, y al mismo tiempo su relación proporcional con la demanda energética que presenta el edificio asociada al acondicionamiento térmico. Gran parte de las pérdidas térmicas de la edificación residencial se producen por el aire de renovación y la infiltración de aire a través de la envolvente. La directiva europea de eficiencia energética de la edificación (EPBD), que establece las directrices necesarias para alcanzar los objetivos de este sector en cuanto a emisiones de CO2 y gases de efecto invernadero (GEI), contempla la ventilación con aire limpio como un requisito fundamental a tener en cuenta de cara a las nuevas construcciones y a la rehabilitación energética de los edificios existentes. El síndrome del edificio enfermo, un conjunto de molestias y síntomas asociados a la baja calidad del aire de edificios no residenciales que surgió a raíz de la crisis del petróleo de 1973, tuvo su origen en una ventilación deficiente y una renovación del aire interior insuficiente de estos edificios, producto del intento de ahorro en la factura energética. Teniendo en cuenta que, de media, pasamos un 58% de nuestro tiempo en las viviendas, es fundamental cuidar la calidad del aire interior y no empeorarla aplicando medidas de “eficiencia energética” con efectos no esperados. Para conseguir esto es fundamental conocer en profundidad cómo se produce la ventilación en la edificación en bloque en España en sus aspectos de calidad del aire interior y demanda energética asociada a la ventilación. El objetivo de esta tesis es establecer una metodología de caracterización y de optimización de las necesidades de ventilación para los espacios residenciales existentes en España que aúne el doble objetivo de garantizar la calidad ambiental y reducir la demanda energética de los mismos. La caracterización del parque edificatorio residencial español en cuanto a ventilación es concluyente: La vivienda en España se distribuye principalmente en tres periodos en los que se encuentran más del 80% del total de las viviendas construidas. El periodo anterior a las normas básicas de la edificación (NBE), de 1960 a 1980, el periodo desde 1980 al año 2005, con el mayor número total de viviendas construidas, guiado por la NTE ISV 75, y el periodo correspondiente a la edificación construida a partir del Código Técnico de la Edificación, en 2006, cuyo documento básico de condiciones de salubridad (DB HS3) es la primera norma de obligado cumplimiento en diseño y dimensionamiento de ventilación residencial en España. La selección de un modelo de bloque de viviendas de referencia, un valor medio y representativo, seleccionado de entre estos periodos, pero con cualidades que se extienden más allá de uno de ellos, nos permite realizar un intensivo análisis comparativo de las condiciones de calidad de aire interior y la demanda energética del mismo, aplicando las distintas configuraciones que presenta la ventilación en viviendas dependiendo del escenario o época constructiva (o normativa) en que esta fuera construida. Este análisis se lleva a cabo apoyándose en un doble enfoque: el modelado numérico de simulaciones y el análisis de datos experimentales, para comprobar y afinar los modelos y observar la situación real de las viviendas en estos dos aspectos. Gracias a las conclusiones del análisis previo, se define una estrategia de optimización de la ventilación basada fundamentalmente en dos medidas: 1) La introducción de un sistema de extracción mecánica y recuperación de calor que permita reducir la demanda energética debida a la renovación del aire y a la vez diluir los contaminantes interiores más eficazmente para mejorar, de esta forma, la calidad del ambiente interior. 2) La racionalización del horario de utilización de estos sistemas, no malgastando la energía en periodos de no ocupación, permitiendo una leve ventilación de fondo, debida a la infiltración, que no incida en pérdidas energéticas cuantiosas. A esta optimización, además de aplicar la metodología de análisis previo, en cuanto a demanda energética y calidad del aire, se aplica una valoración económica integradora y comparativa basada en el reglamento delegado EU244/2012 de coste óptimo (Cost Optimal Methodology). Los resultados principales de esta tesis son: • Un diagnóstico de la calidad del aire interior de la edificación residencial en España y su demanda energética asociada, imprescindible para lograr una rehabilitación energética profunda garantizando la calidad del aire interior. • Un indicador de la relación directa entre calidad de aire y demanda energética, para evaluar la adecuación de los sistemas de ventilación, respecto de las nuevas normativas de eficiencia energética y ventilación. • Una estrategia de optimización, que ofrece una alternativa de intervención, y la aplicación de un método de valoración que permite evaluar la amortización comparada de la instalación de los sistemas. ABSTRACT The housing building stock already built in Spain and Europe faces a deep renovation in the present and near future to accomplish with the objectives agreed in the European strategy for 2050. These objectives, for the building sector, are set in a 90% of Green House Gases (GHG) reduction compared to levels in 1990. This long‐term plan has set milestones to control the correct advance of achievement in 2020 and 2030. The main objective is to take advantage of the great potential to reduce energy demand from the building sector, in which housing represents 85% share in Spain. Among this reduction on building energy demand requirements, ventilation of dwellings becomes one of the challenges to solve as it’s directly connected to the indoor air quality (IAQ) and comfort conditions for the users, as well as proportional to the building energy demand on thermal conditioning. A big share of thermal losses in housing is caused by air renovation and infiltration through the envelope leaks. The European Directive on Building energy performance (EPBD), establishes the roots needed to reach the building sector objectives in terms of CO2 and GHG emissions. This directive sets the ventilation and renovation with clean air of the new and existing buildings as a fundamental requirement. The Sick Building Syndrome (SBS), an aggregation of symptoms and annoys associated to low air quality in non residential buildings, appeared as common after the 1973 oil crisis. It is originated in defective ventilation systems and deficient air renovation rates, as a consequence of trying to lower the energy bill. Accounting that we spend 58% of our time in dwellings, it becomes crucial to look after the indoor air quality and focus in not worsening it by applying “energy efficient” measures, with not expected side effects. To do so, it is primary to research in deep how the ventilation takes place in the housing blocks in Spain, in the aspects related to IAQ and ventilation energy demand. This thesis main objective is to establish a characterization and optimization methodology regarding the ventilation needs for existing housing in Spain, considering the twofold objective of guaranteeing the air quality as reducing the energy demand. The characterization of the existing housing building stock in Spain regarding ventilation is conclusive. More of 80% of the housing stock is distributed in 3 main periods: before the implementation of the firsts regulations on building comfort conditions (Normas Básicas de la Edificación), from 1960 to 1980; the period after the first recommendations on ventilation (NTE ISV 75) for housing were set, around 1980 until 2005 and; the period corresponding to the housing built after the existing mandatory regulation in terms of indoor sanity conditions and ventilation (Spanish Building Code, DB HS3) was set, in 2006. Selecting a representative blueprint of a housing block in Spain, which has medium characteristics not just within the 3 periods mention, but which qualities extent beyond the 3 of them, allows the next step, analyzing. This comparative and intense analyzing phase is focused on the air indoor conditions and the related energy demand, applying different configurations to the ventilation systems according to the different constructive or regulation period in which the building is built. This analysis is also twofold: 1) Numerical modeling with computer simulations and 2) experimental data collection from existing housing in real conditions to check and refine the models to be tested. Thanks to the analyzing phase conclusions, an optimization strategy on the ventilation of the housing stock is set, based on two actions to take: 1) To introduce a mechanical exhaust and intake ventilation system with heat recovery that allows reducing energy demand, as improves the capacity of the system to dilute the pollutant load. This way, the environmental quality is improved. 2) To optimize the schedule of the system use, avoids waste of energy in no occupancy periods, relying ventilation during this time in a light infiltration ventilation, intended not to become large and not causing extra energy losses. Apart from applying the previous analyzing methodology to the optimization strategy, regarding energy demand and air quality, a ROI valorization is performed, based on the cost optimal methodology (delegated regulation EU244/2012). The main results from the thesis are: • To obtain a through diagnose regarding air quality and energy demand for the existing housing stock in Spain, unavoidable to reach a energy deep retrofitting scheme with no air quality worsening. • To obtain a marker to relate air quality and energy demand and evaluate adequateness of ventilation systems, for the new regulations to come. • To establish an optimization strategy to improve both air quality and energy demand, applying a compared valorization methodology to obtain the Return On Investment (ROI).

Relevância:

50.00% 50.00%

Publicador:

Resumo:

El presente proyecto de fin de grado es uno de los resultados generados en un proyecto de financiación privada por parte de Telefónica consistente en el desarrollo y posterior implantación de un sistema para minería de datos de empresas presentes en Internet. Este TFG surge a partir de un proyecto que el grupo de investigación AICU-LABS (Mercator) de la UPM ha desarrollado para Telefónica, y tiene como elemento principal el desarrollo de Agentes web (también llamados robots software, “softbots” o “crawlers”) capaces de obtener datos de empresas a partir de sus CIF a través de internet. El listado de empresas nos los proporciona Telefónica, y está compuesto por empresas que no son clientes de Telefónica en la actualidad. Nuestra misión es proporcionarles los datos necesarios (principalmente teléfono, correo electrónico y dirección de la empresa) para la creación de una base de datos de potenciales clientes. Para llevar a cabo esta tarea, se ha realizado una aplicación que, a partir de los CIF que nos proporcionan, busque información en internet y extraiga aquella que nos interese. Además se han desarrollado sistemas de validación de datos para ayudarnos a descartar datos no válidos y clasificar los datos según su calidad para así maximizar la calidad de los datos producidos por el robot. La búsqueda de datos se hará tanto en bases de datos online como, en caso de localizarlas, las propias páginas web de las empresas. ABSTRACT This Final Degree Project is one of the results obtained from a project funded by Telefónica. This project consists on the development and subsequent implantation of a system which performs data mining on companies operating on the Internet. This document arises from a project the research group AICU-LABS (Mercator) from the Universidad Politécnica de Madrid has developed for Telefónica. The main goal of this project is the creation of web agents (also known as “crawlers” or “web spiders”) able to obtain data from businesses through the Internet, knowing only their VAT identification number. The list of companies is given by Telefónica, and it is composed by companies that are not Telefónica’s customers today. Our mission is to provide the data required (mainly phone, email and address of the company) to create a database of potential customers. To perform this task, we’ve developed an application that, starting with the given VAT numbers, searches the web for information and extracts the data sought. In addition, we have developed data validation systems, that are capable of discarding low quality data and also sorting the data according to their quality, to maximize the quality of the results produced by the robot. We’ll use both the companies’ websites and external databases as our sources of information.