131 resultados para DISEÑO DE BASES DE DATOS
Resumo:
En el trabajo que aquí presentamos se incluye la base teórica (sintaxis y semántica) y una implementación de un framework para codificar el razonamiento de la representación difusa o borrosa del mundo (tal y como nosotros, seres humanos, entendemos éste). El interés en la realización de éste trabajo parte de dos fuentes: eliminar la complejidad existente cuando se realiza una implementación con un lenguaje de programación de los llamados de propósito general y proporcionar una herramienta lo suficientemente inteligente para dar respuestas de forma constructiva a consultas difusas o borrosas. El framework, RFuzzy, permite codificar reglas y consultas en una sintaxis muy cercana al lenguaje natural usado por los seres humanos para expresar sus pensamientos, pero es bastante más que eso. Permite representar conceptos muy interesantes, como fuzzificaciones (funciones usadas para convertir conceptos no difusos en difusos), valores por defecto (que se usan para devolver resultados un poco menos válidos que los que devolveríamos si tuviésemos la información necesaria para calcular los más válidos), similaridad entre atributos (característica que utilizamos para buscar aquellos individuos en la base de datos con una característica similar a la buscada), sinónimos o antónimos y, además, nos permite extender el numero de conectivas y modificadores (incluyendo modificadores de negación) que podemos usar en las reglas y consultas. La personalización de la definición de conceptos difusos (muy útil para lidiar con el carácter subjetivo de los conceptos borrosos, donde nos encontramos con que cualificar a alguien de “alto” depende de la altura de la persona que cualifica) es otra de las facilidades incluida. Además, RFuzzy implementa la semántica multi-adjunta. El interés en esta reside en que introduce la posibilidad de obtener la credibilidad de una regla a partir de un conjunto de datos y una regla dada y no solo el grado de satisfacción de una regla a partir de el universo modelado en nuestro programa. De esa forma podemos obtener automáticamente la credibilidad de una regla para una determinada situación. Aún cuando la contribución teórica de la tesis es interesante en si misma, especialmente la inclusión del modificador de negacion, sus multiples usos practicos lo son también. Entre los diferentes usos que se han dado al framework destacamos el reconocimiento de emociones, el control de robots, el control granular en computacion paralela/distribuída y las busquedas difusas o borrosas en bases de datos. ABSTRACT In this work we provide a theoretical basis (syntax and semantics) and a practical implementation of a framework for encoding the reasoning and the fuzzy representation of the world (as human beings understand it). The interest for this work comes from two sources: removing the existing complexity when doing it with a general purpose programming language (one developed without focusing in providing special constructions for representing fuzzy information) and providing a tool intelligent enough to answer, in a constructive way, expressive queries over conventional data. The framework, RFuzzy, allows to encode rules and queries in a syntax very close to the natural language used by human beings to express their thoughts, but it is more than that. It allows to encode very interesting concepts, as fuzzifications (functions to easily fuzzify crisp concepts), default values (used for providing results less adequate but still valid when the information needed to provide results is missing), similarity between attributes (used to search for individuals with a characteristic similar to the one we are looking for), synonyms or antonyms and it allows to extend the number of connectives and modifiers (even negation) we can use in the rules. The personalization of the definition of fuzzy concepts (very useful for dealing with the subjective character of fuzziness, in which a concept like tall depends on the height of the person performing the query) is another of the facilities included. Besides, RFuzzy implements the multi-adjoint semantics. The interest in them is that in addition to obtaining the grade of satisfaction of a consequent from a rule, its credibility and the grade of satisfaction of the antecedents we can determine from a set of data how much credibility we must assign to a rule to model the behaviour of the set of data. So, we can determine automatically the credibility of a rule for a particular situation. Although the theoretical contribution is interesting by itself, specially the inclusion of the negation modifier, the practical usage of it is equally important. Between the different uses given to the framework we highlight emotion recognition, robocup control, granularity control in parallel/distributed computing and flexible searches in databases.
Resumo:
Parte de la investigación biomédica actual se encuentra centrada en el análisis de datos heterogéneos. Estos datos pueden tener distinto origen, estructura, y semántica. Gran cantidad de datos de interés para los investigadores se encuentran en bases de datos públicas, que recogen información de distintas fuentes y la ponen a disposición de la comunidad de forma gratuita. Para homogeneizar estas fuentes de datos públicas con otras de origen privado, existen diversas herramientas y técnicas que permiten automatizar los procesos de homogeneización de datos heterogéneos. El Grupo de Informática Biomédica (GIB) [1] de la Universidad Politécnica de Madrid colabora en el proyecto europeo P-medicine [2], cuya finalidad reside en el desarrollo de una infraestructura que facilite la evolución de los procedimientos médicos actuales hacia la medicina personalizada. Una de las tareas enmarcadas en el proyecto P-medicine que tiene asignado el grupo consiste en elaborar herramientas que ayuden a usuarios en el proceso de integración de datos contenidos en fuentes de información heterogéneas. Algunas de estas fuentes de información son bases de datos públicas de ámbito biomédico contenidas en la plataforma NCBI [3] (National Center for Biotechnology Information). Una de las herramientas que el grupo desarrolla para integrar fuentes de datos es Ontology Annotator. En una de sus fases, la labor del usuario consiste en recuperar información de una base de datos pública y seleccionar de forma manual los resultados relevantes. Para automatizar el proceso de búsqueda y selección de resultados relevantes, por un lado existe un gran interés en conseguir generar consultas que guíen hacia resultados lo más precisos y exactos como sea posible, por otro lado, existe un gran interés en extraer información relevante de elevadas cantidades de documentos, lo cual requiere de sistemas que analicen y ponderen los datos que caracterizan a los mismos. En el campo informático de la inteligencia artificial, dentro de la rama de la recuperación de la información, existen diversos estudios acerca de la expansión de consultas a partir de retroalimentación relevante que podrían ser de gran utilidad para dar solución a la cuestión. Estos estudios se centran en técnicas para reformular o expandir la consulta inicial utilizando como realimentación los resultados que en una primera instancia fueron relevantes para el usuario, de forma que el nuevo conjunto de resultados tenga mayor proximidad con los que el usuario realmente desea. El objetivo de este trabajo de fin de grado consiste en el estudio, implementación y experimentación de métodos que automaticen el proceso de extracción de información trascendente de documentos, utilizándola para expandir o reformular consultas. De esta forma se pretende mejorar la precisión y el ranking de los resultados asociados. Dichos métodos serán integrados en la herramienta Ontology Annotator y enfocados a la fuente de datos de PubMed [4].---ABSTRACT---Part of the current biomedical research is focused on the analysis of heterogeneous data. These data may have different origin, structure and semantics. A big quantity of interesting data is contained in public databases which gather information from different sources and make it open and free to be used by the community. In order to homogenize thise sources of public data with others which origin is private, there are some tools and techniques that allow automating the processes of integration heterogeneous data. The biomedical informatics group of the Universidad Politécnica de Madrid cooperates with the European project P-medicine which main purpose is to create an infrastructure and models to facilitate the transition from current medical practice to personalized medicine. One of the tasks of the project that the group is in charge of consists on the development of tools that will help users in the process of integrating data from diverse sources. Some of the sources are biomedical public data bases from the NCBI platform (National Center for Biotechnology Information). One of the tools in which the group is currently working on for the integration of data sources is called the Ontology Annotator. In this tool there is a phase in which the user has to retrieve information from a public data base and select the relevant data contained in it manually. For automating the process of searching and selecting data on the one hand, there is an interest in automatically generating queries that guide towards the more precise results as possible. On the other hand, there is an interest on retrieve relevant information from large quantities of documents. The solution requires systems that analyze and weigh the data allowing the localization of the relevant items. In the computer science field of the artificial intelligence, in the branch of information retrieval there are diverse studies about the query expansion from relevance feedback that could be used to solve the problem. The main purpose of this studies is to obtain a set of results that is the closer as possible to the information that the user really wants to retrieve. In order to reach this purpose different techniques are used to reformulate or expand the initial query using a feedback the results that where relevant for the user, with this method, the new set of results will have more proximity with the ones that the user really desires. The goal of this final dissertation project consists on the study, implementation and experimentation of methods that automate the process of extraction of relevant information from documents using this information to expand queries. This way, the precision and the ranking of the results associated will be improved. These methods will be integrated in the Ontology Annotator tool and will focus on the PubMed data source.
Resumo:
El cerebro humano es probablemente uno de los sistemas más complejos a los que nos enfrentamos en la actualidad, si bien es también uno de los más fascinantes. Sin embargo, la compresión de cómo el cerebro organiza su actividad para llevar a cabo tareas complejas es un problema plagado de restos y obstáculos. En sus inicios la neuroimagen y la electrofisiología tenían como objetivo la identificación de regiones asociadas a activaciones relacionadas con tareas especificas, o con patrones locales que variaban en el tiempo dada cierta actividad. Sin embargo, actualmente existe un consenso acerca de que la actividad cerebral tiene un carácter temporal multiescala y espacialmente extendido, lo que lleva a considerar el cerebro como una gran red de áreas cerebrales coordinadas, cuyas conexiones funcionales son continuamente creadas y destruidas. Hasta hace poco, el énfasis de los estudios de la actividad cerebral funcional se han centrado en la identidad de los nodos particulares que forman estas redes, y en la caracterización de métricas de conectividad entre ellos: la hipótesis subyacente es que cada nodo, que es una representación mas bien aproximada de una región cerebral dada, ofrece a una única contribución al total de la red. Por tanto, la neuroimagen funcional integra los dos ingredientes básicos de la neuropsicología: la localización de la función cognitiva en módulos cerebrales especializados y el rol de las fibras de conexión en la integración de dichos módulos. Sin embargo, recientemente, la estructura y la función cerebral han empezado a ser investigadas mediante la Ciencia de la Redes, una interpretación mecánico-estadística de una antigua rama de las matemáticas: La teoría de grafos. La Ciencia de las Redes permite dotar a las redes funcionales de una gran cantidad de propiedades cuantitativas (robustez, centralidad, eficiencia, ...), y así enriquecer el conjunto de elementos que describen objetivamente la estructura y la función cerebral a disposición de los neurocientíficos. La conexión entre la Ciencia de las Redes y la Neurociencia ha aportado nuevos puntos de vista en la comprensión de la intrincada anatomía del cerebro, y de cómo las patrones de actividad cerebral se pueden sincronizar para generar las denominadas redes funcionales cerebrales, el principal objeto de estudio de esta Tesis Doctoral. Dentro de este contexto, la complejidad emerge como el puente entre las propiedades topológicas y dinámicas de los sistemas biológicos y, específicamente, en la relación entre la organización y la dinámica de las redes funcionales cerebrales. Esta Tesis Doctoral es, en términos generales, un estudio de cómo la actividad cerebral puede ser entendida como el resultado de una red de un sistema dinámico íntimamente relacionado con los procesos que ocurren en el cerebro. Con este fin, he realizado cinco estudios que tienen en cuenta ambos aspectos de dichas redes funcionales: el topológico y el dinámico. De esta manera, la Tesis está dividida en tres grandes partes: Introducción, Resultados y Discusión. En la primera parte, que comprende los Capítulos 1, 2 y 3, se hace un resumen de los conceptos más importantes de la Ciencia de las Redes relacionados al análisis de imágenes cerebrales. Concretamente, el Capitulo 1 está dedicado a introducir al lector en el mundo de la complejidad, en especial, a la complejidad topológica y dinámica de sistemas acoplados en red. El Capítulo 2 tiene como objetivo desarrollar los fundamentos biológicos, estructurales y funcionales del cerebro, cuando éste es interpretado como una red compleja. En el Capítulo 3, se resumen los objetivos esenciales y tareas que serán desarrolladas a lo largo de la segunda parte de la Tesis. La segunda parte es el núcleo de la Tesis, ya que contiene los resultados obtenidos a lo largo de los últimos cuatro años. Esta parte está dividida en cinco Capítulos, que contienen una versión detallada de las publicaciones llevadas a cabo durante esta Tesis. El Capítulo 4 está relacionado con la topología de las redes funcionales y, específicamente, con la detección y cuantificación de los nodos mas importantes: aquellos denominados “hubs” de la red. En el Capítulo 5 se muestra como las redes funcionales cerebrales pueden ser vistas no como una única red, sino más bien como una red-de-redes donde sus componentes tienen que coexistir en una situación de balance funcional. De esta forma, se investiga cómo los hemisferios cerebrales compiten para adquirir centralidad en la red-de-redes, y cómo esta interacción se mantiene (o no) cuando se introducen fallos deliberadamente en la red funcional. El Capítulo 6 va un paso mas allá al considerar las redes funcionales como sistemas vivos. En este Capítulo se muestra cómo al analizar la evolución de la topología de las redes, en vez de tratarlas como si estas fueran un sistema estático, podemos caracterizar mejor su estructura. Este hecho es especialmente relevante cuando se quiere tratar de encontrar diferencias entre grupos que desempeñan una tarea de memoria, en la que las redes funcionales tienen fuertes fluctuaciones. En el Capítulo 7 defino cómo crear redes parenclíticas a partir de bases de datos de actividad cerebral. Este nuevo tipo de redes, recientemente introducido para estudiar las anormalidades entre grupos de control y grupos anómalos, no ha sido implementado nunca en datos cerebrales y, en este Capítulo explico cómo hacerlo cuando se quiere evaluar la consistencia de la dinámica cerebral. Para concluir esta parte de la Tesis, el Capítulo 8 se centra en la relación entre las propiedades topológicas de los nodos dentro de una red y sus características dinámicas. Como mostraré más adelante, existe una relación entre ellas que revela que la posición de un nodo dentro una red está íntimamente correlacionada con sus propiedades dinámicas. Finalmente, la última parte de esta Tesis Doctoral está compuesta únicamente por el Capítulo 9, el cual contiene las conclusiones y perspectivas futuras que pueden surgir de los trabajos expuestos. En vista de todo lo anterior, espero que esta Tesis aporte una perspectiva complementaria sobre uno de los más extraordinarios sistemas complejos frente a los que nos encontramos: El cerebro humano. ABSTRACT The human brain is probably one of the most complex systems we are facing, thus being a timely and fascinating object of study. Characterizing how the brain organizes its activity to carry out complex tasks is highly non-trivial. While early neuroimaging and electrophysiological studies typically aimed at identifying patches of task-specific activations or local time-varying patterns of activity, there has now been consensus that task-related brain activity has a temporally multiscale, spatially extended character, as networks of coordinated brain areas are continuously formed and destroyed. Up until recently, though, the emphasis of functional brain activity studies has been on the identity of the particular nodes forming these networks, and on the characterization of connectivity metrics between them, the underlying covert hypothesis being that each node, constituting a coarse-grained representation of a given brain region, provides a unique contribution to the whole. Thus, functional neuroimaging initially integrated the two basic ingredients of early neuropsychology: localization of cognitive function into specialized brain modules and the role of connection fibres in the integration of various modules. Lately, brain structure and function have started being investigated using Network Science, a statistical mechanics understanding of an old branch of pure mathematics: graph theory. Network Science allows endowing networks with a great number of quantitative properties, thus vastly enriching the set of objective descriptors of brain structure and function at neuroscientists’ disposal. The link between Network Science and Neuroscience has shed light about how the entangled anatomy of the brain is, and how cortical activations may synchronize to generate the so-called functional brain networks, the principal object under study along this PhD Thesis. Within this context, complexity appears to be the bridge between the topological and dynamical properties of biological systems and, more specifically, the interplay between the organization and dynamics of functional brain networks. This PhD Thesis is, in general terms, a study of how cortical activations can be understood as the output of a network of dynamical systems that are intimately related with the processes occurring in the brain. In order to do that, I performed five studies that encompass both the topological and the dynamical aspects of such functional brain networks. In this way, the Thesis is divided into three major parts: Introduction, Results and Discussion. In the first part, comprising Chapters 1, 2 and 3, I make an overview of the main concepts of Network Science related to the analysis of brain imaging. More specifically, Chapter 1 is devoted to introducing the reader to the world of complexity, specially to the topological and dynamical complexity of networked systems. Chapter 2 aims to develop the biological, topological and functional fundamentals of the brain when it is seen as a complex network. Next, Chapter 3 summarizes the main objectives and tasks that will be developed along the forthcoming Chapters. The second part of the Thesis is, in turn, its core, since it contains the results obtained along these last four years. This part is divided into five Chapters, containing a detailed version of the publications carried out during the Thesis. Chapter 4 is related to the topology of functional networks and, more specifically, to the detection and quantification of the leading nodes of the network: the hubs. In Chapter 5 I will show that functional brain networks can be viewed not as a single network, but as a network-of-networks, where its components have to co-exist in a trade-off situation. In this way, I investigate how the brain hemispheres compete for acquiring the centrality of the network-of-networks and how this interplay is maintained (or not) when failures are introduced in the functional network. Chapter 6 goes one step beyond by considering functional networks as living systems. In this Chapter I show how analyzing the evolution of the network topology instead of treating it as a static system allows to better characterize functional networks. This fact is especially relevant when trying to find differences between groups performing certain memory tasks, where functional networks have strong fluctuations. In Chapter 7 I define how to create parenclitic networks from brain imaging datasets. This new kind of networks, recently introduced to study abnormalities between control and anomalous groups, have not been implemented with brain datasets and I explain in this Chapter how to do it when evaluating the consistency of brain dynamics. To conclude with this part of the Thesis, Chapter 8 is devoted to the interplay between the topological properties of the nodes within a network and their dynamical features. As I will show, there is an interplay between them which reveals that the position of a node in a network is intimately related with its dynamical properties. Finally, the last part of this PhD Thesis is composed only by Chapter 9, which contains the conclusions and future perspectives that may arise from the exposed results. In view of all, I hope that reading this Thesis will give a complementary perspective of one of the most extraordinary complex systems: The human brain.
Resumo:
Los ataques a redes de información son cada vez más sofisticados y exigen una constante evolución y mejora de las técnicas de detección. Para ello, en este proyecto se ha diseñado e implementado una plataforma cooperativa para la detección de intrusiones basada en red. En primer lugar, se ha realizado un estudio teórico previo del marco tecnológico relacionado con este ámbito, en el que se describe y caracteriza el software que se utiliza para realizar ataques a sistemas (malware) así como los métodos que se utilizan para llegar a transmitir ese software (vectores de ataque). En el documento también se describen los llamados APT, que son ataques dirigidos con una gran inversión económica y temporal. Estos pueden englobar todos los malware y vectores de ataque existentes. Para poder evitar estos ataques, se estudiarán los sistemas de detección y prevención de intrusiones, describiendo brevemente los algoritmos que se tienden a utilizar en la actualidad. En segundo lugar, se ha planteado y desarrollado una plataforma en red dedicada al análisis de paquetes y conexiones para detectar posibles intrusiones. Este sistema está orientado a sistemas SCADA (Supervisory Control And Data Adquisition) aunque funciona sobre cualquier red IPv4/IPv6, para ello se definirá previamente lo que es un sistema SCADA, así como sus partes principales. Para implementar el sistema se han utilizado dispositivos de bajo consumo llamados Raspberry PI, estos se ubican entre la red y el equipo final que se quiera analizar. En ellos se ejecutan 2 aplicaciones desarrolladas de tipo cliente-servidor (la Raspberry central ejecutará la aplicación servidora y las esclavas la aplicación cliente) que funcionan de forma cooperativa utilizando la tecnología distribuida de Hadoop, la cual se explica previamente. Mediante esta tecnología se consigue desarrollar un sistema completamente escalable. La aplicación servidora muestra una interfaz gráfica que permite administrar la plataforma de análisis de forma centralizada, pudiendo ver así las alarmas de cada dispositivo y calificando cada paquete según su peligrosidad. El algoritmo desarrollado en la aplicación calcula el ratio de paquetes/tiempo que entran/salen del equipo final, procesando los paquetes y analizándolos teniendo en cuenta la información de señalización, creando diferentes bases de datos que irán mejorando la robustez del sistema, reduciendo así la posibilidad de ataques externos. Para concluir, el proyecto inicial incluía el procesamiento en la nube de la aplicación principal, pudiendo administrar así varias infraestructuras concurrentemente, aunque debido al trabajo extra necesario se ha dejado preparado el sistema para poder implementar esta funcionalidad. En el caso experimental actual el procesamiento de la aplicación servidora se realiza en la Raspberry principal, creando un sistema escalable, rápido y tolerante a fallos. ABSTRACT. The attacks to networks of information are increasingly sophisticated and demand a constant evolution and improvement of the technologies of detection. For this project it is developed and implemented a cooperative platform for detect intrusions based on networking. First, there has been a previous theoretical study of technological framework related to this area, which describes the software used for attacks on systems (malware) as well as the methods used in order to transmit this software (attack vectors). In this document it is described the APT, which are attacks directed with a big economic and time inversion. These can contain all existing malware and attack vectors. To prevent these attacks, intrusion detection systems and prevention intrusion systems will be discussed, describing previously the algorithms tend to use today. Secondly, a platform for analyzing network packets has been proposed and developed to detect possible intrusions in SCADA (Supervisory Control And Data Adquisition) systems. This platform is designed for SCADA systems (Supervisory Control And Data Acquisition) but works on any IPv4 / IPv6 network. Previously, it is defined what a SCADA system is and the main parts of it. To implement it, we used low-power devices called Raspberry PI, these are located between the network and the final device to analyze it. In these Raspberry run two applications client-server developed (the central Raspberry runs the server application and the slaves the client application) that work cooperatively using Hadoop distributed technology, which is previously explained. Using this technology is achieved develop a fully scalable system. The server application displays a graphical interface to manage analytics platform centrally, thereby we can see each device alarms and qualifying each packet by dangerousness. The algorithm developed in the application calculates the ratio of packets/time entering/leaving the terminal device, processing the packets and analyzing the signaling information of each packet, reating different databases that will improve the system, thereby reducing the possibility of external attacks. In conclusion, the initial project included cloud computing of the main application, being able to manage multiple concurrent infrastructure, but due to the extra work required has been made ready the system to implement this funcionality. In the current test case the server application processing is made on the main Raspberry, creating a scalable, fast and fault-tolerant system.
Resumo:
RDB to RDF Mapping Language (R2RML) es una recomendación del W3C que permite especificar reglas para transformar bases de datos relacionales a RDF. Estos datos en RDF se pueden materializar y almacenar en un sistema gestor de tripletas RDF (normalmente conocidos con el nombre triple store), en el cual se pueden evaluar consultas SPARQL. Sin embargo, hay casos en los cuales la materialización no es adecuada o posible, por ejemplo, cuando la base de datos se actualiza frecuentemente. En estos casos, lo mejor es considerar los datos en RDF como datos virtuales, de tal manera que las consultas SPARQL anteriormente mencionadas se traduzcan a consultas SQL que se pueden evaluar sobre los sistemas gestores de bases de datos relacionales (SGBD) originales. Para esta traducción se tienen en cuenta los mapeos R2RML. La primera parte de esta tesis se centra en la traducción de consultas. Se propone una formalización de la traducción de SPARQL a SQL utilizando mapeos R2RML. Además se proponen varias técnicas de optimización para generar consultas SQL que son más eficientes cuando son evaluadas en sistemas gestores de bases de datos relacionales. Este enfoque se evalúa mediante un benchmark sintético y varios casos reales. Otra recomendación relacionada con R2RML es la conocida como Direct Mapping (DM), que establece reglas fijas para la transformación de datos relacionales a RDF. A pesar de que ambas recomendaciones se publicaron al mismo tiempo, en septiembre de 2012, todavía no se ha realizado un estudio formal sobre la relación entre ellas. Por tanto, la segunda parte de esta tesis se centra en el estudio de la relación entre R2RML y DM. Se divide este estudio en dos partes: de R2RML a DM, y de DM a R2RML. En el primer caso, se estudia un fragmento de R2RML que tiene la misma expresividad que DM. En el segundo caso, se representan las reglas de DM como mapeos R2RML, y también se añade la semántica implícita (relaciones de subclase, 1-N y M-N) que se puede encontrar codificada en la base de datos. Esta tesis muestra que es posible usar R2RML en casos reales, sin necesidad de realizar materializaciones de los datos, puesto que las consultas SQL generadas son suficientemente eficientes cuando son evaluadas en el sistema gestor de base de datos relacional. Asimismo, esta tesis profundiza en el entendimiento de la relación existente entre las dos recomendaciones del W3C, algo que no había sido estudiado con anterioridad. ABSTRACT. RDB to RDF Mapping Language (R2RML) is a W3C recommendation that allows specifying rules for transforming relational databases into RDF. This RDF data can be materialized and stored in a triple store, so that SPARQL queries can be evaluated by the triple store. However, there are several cases where materialization is not adequate or possible, for example, if the underlying relational database is updated frequently. In those cases, RDF data is better kept virtual, and hence SPARQL queries over it have to be translated into SQL queries to the underlying relational database system considering that the translation process has to take into account the specified R2RML mappings. The first part of this thesis focuses on query translation. We discuss the formalization of the translation from SPARQL to SQL queries that takes into account R2RML mappings. Furthermore, we propose several optimization techniques so that the translation procedure generates SQL queries that can be evaluated more efficiently over the underlying databases. We evaluate our approach using a synthetic benchmark and several real cases, and show positive results that we obtained. Direct Mapping (DM) is another W3C recommendation for the generation of RDF data from relational databases. While R2RML allows users to specify their own transformation rules, DM establishes fixed transformation rules. Although both recommendations were published at the same time, September 2012, there has not been any study regarding the relationship between them. The second part of this thesis focuses on the study of the relationship between R2RML and DM. We divide this study into two directions: from R2RML to DM, and from DM to R2RML. From R2RML to DM, we study a fragment of R2RML having the same expressive power than DM. From DM to R2RML, we represent DM transformation rules as R2RML mappings, and also add the implicit semantics encoded in databases, such as subclass, 1-N and N-N relationships. This thesis shows that by formalizing and optimizing R2RML-based SPARQL to SQL query translation, it is possible to use R2RML engines in real cases as the resulting SQL is efficient enough to be evaluated by the underlying relational databases. In addition to that, this thesis facilitates the understanding of bidirectional relationship between the two W3C recommendations, something that had not been studied before.
Resumo:
La diabetes mellitus es un trastorno en la metabolización de los carbohidratos, caracterizado por la nula o insuficiente segregación de insulina (hormona producida por el páncreas), como resultado del mal funcionamiento de la parte endocrina del páncreas, o de una creciente resistencia del organismo a esta hormona. Esto implica, que tras el proceso digestivo, los alimentos que ingerimos se transforman en otros compuestos químicos más pequeños mediante los tejidos exocrinos. La ausencia o poca efectividad de esta hormona polipéptida, no permite metabolizar los carbohidratos ingeridos provocando dos consecuencias: Aumento de la concentración de glucosa en sangre, ya que las células no pueden metabolizarla; consumo de ácidos grasos mediante el hígado, liberando cuerpos cetónicos para aportar la energía a las células. Esta situación expone al enfermo crónico, a una concentración de glucosa en sangre muy elevada, denominado hiperglucemia, la cual puede producir a medio o largo múltiples problemas médicos: oftalmológicos, renales, cardiovasculares, cerebrovasculares, neurológicos… La diabetes representa un gran problema de salud pública y es la enfermedad más común en los países desarrollados por varios factores como la obesidad, la vida sedentaria, que facilitan la aparición de esta enfermedad. Mediante el presente proyecto trabajaremos con los datos de experimentación clínica de pacientes con diabetes de tipo 1, enfermedad autoinmune en la que son destruidas las células beta del páncreas (productoras de insulina) resultando necesaria la administración de insulina exógena. Dicho esto, el paciente con diabetes tipo 1 deberá seguir un tratamiento con insulina administrada por la vía subcutánea, adaptado a sus necesidades metabólicas y a sus hábitos de vida. Para abordar esta situación de regulación del control metabólico del enfermo, mediante una terapia de insulina, no serviremos del proyecto “Páncreas Endocrino Artificial” (PEA), el cual consta de una bomba de infusión de insulina, un sensor continuo de glucosa, y un algoritmo de control en lazo cerrado. El objetivo principal del PEA es aportar al paciente precisión, eficacia y seguridad en cuanto a la normalización del control glucémico y reducción del riesgo de hipoglucemias. El PEA se instala mediante vía subcutánea, por lo que, el retardo introducido por la acción de la insulina, el retardo de la medida de glucosa, así como los errores introducidos por los sensores continuos de glucosa cuando, se descalibran dificultando el empleo de un algoritmo de control. Llegados a este punto debemos modelar la glucosa del paciente mediante sistemas predictivos. Un modelo, es todo aquel elemento que nos permita predecir el comportamiento de un sistema mediante la introducción de variables de entrada. De este modo lo que conseguimos, es una predicción de los estados futuros en los que se puede encontrar la glucosa del paciente, sirviéndonos de variables de entrada de insulina, ingesta y glucosa ya conocidas, por ser las sucedidas con anterioridad en el tiempo. Cuando empleamos el predictor de glucosa, utilizando parámetros obtenidos en tiempo real, el controlador es capaz de indicar el nivel futuro de la glucosa para la toma de decisones del controlador CL. Los predictores que se están empleando actualmente en el PEA no están funcionando correctamente por la cantidad de información y variables que debe de manejar. Data Mining, también referenciado como Descubrimiento del Conocimiento en Bases de Datos (Knowledge Discovery in Databases o KDD), ha sido definida como el proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Todo ello, sirviéndonos las siguientes fases del proceso de extracción del conocimiento: selección de datos, pre-procesado, transformación, minería de datos, interpretación de los resultados, evaluación y obtención del conocimiento. Con todo este proceso buscamos generar un único modelo insulina glucosa que se ajuste de forma individual a cada paciente y sea capaz, al mismo tiempo, de predecir los estados futuros glucosa con cálculos en tiempo real, a través de unos parámetros introducidos. Este trabajo busca extraer la información contenida en una base de datos de pacientes diabéticos tipo 1 obtenidos a partir de la experimentación clínica. Para ello emplearemos técnicas de Data Mining. Para la consecución del objetivo implícito a este proyecto hemos procedido a implementar una interfaz gráfica que nos guía a través del proceso del KDD (con información gráfica y estadística) de cada punto del proceso. En lo que respecta a la parte de la minería de datos, nos hemos servido de la denominada herramienta de WEKA, en la que a través de Java controlamos todas sus funciones, para implementarlas por medio del programa creado. Otorgando finalmente, una mayor potencialidad al proyecto con la posibilidad de implementar el servicio de los dispositivos Android por la potencial capacidad de portar el código. Mediante estos dispositivos y lo expuesto en el proyecto se podrían implementar o incluso crear nuevas aplicaciones novedosas y muy útiles para este campo. Como conclusión del proyecto, y tras un exhaustivo análisis de los resultados obtenidos, podemos apreciar como logramos obtener el modelo insulina-glucosa de cada paciente. ABSTRACT. The diabetes mellitus is a metabolic disorder, characterized by the low or none insulin production (a hormone produced by the pancreas), as a result of the malfunctioning of the endocrine pancreas part or by an increasing resistance of the organism to this hormone. This implies that, after the digestive process, the food we consume is transformed into smaller chemical compounds, through the exocrine tissues. The absence or limited effectiveness of this polypeptide hormone, does not allow to metabolize the ingested carbohydrates provoking two consequences: Increase of the glucose concentration in blood, as the cells are unable to metabolize it; fatty acid intake through the liver, releasing ketone bodies to provide energy to the cells. This situation exposes the chronic patient to high blood glucose levels, named hyperglycemia, which may cause in the medium or long term multiple medical problems: ophthalmological, renal, cardiovascular, cerebrum-vascular, neurological … The diabetes represents a great public health problem and is the most common disease in the developed countries, by several factors such as the obesity or sedentary life, which facilitate the appearance of this disease. Through this project we will work with clinical experimentation data of patients with diabetes of type 1, autoimmune disease in which beta cells of the pancreas (producers of insulin) are destroyed resulting necessary the exogenous insulin administration. That said, the patient with diabetes type 1 will have to follow a treatment with insulin, administered by the subcutaneous route, adapted to his metabolic needs and to his life habits. To deal with this situation of metabolic control regulation of the patient, through an insulin therapy, we shall be using the “Endocrine Artificial Pancreas " (PEA), which consists of a bomb of insulin infusion, a constant glucose sensor, and a control algorithm in closed bow. The principal aim of the PEA is providing the patient precision, efficiency and safety regarding the normalization of the glycemic control and hypoglycemia risk reduction". The PEA establishes through subcutaneous route, consequently, the delay introduced by the insulin action, the delay of the glucose measure, as well as the mistakes introduced by the constant glucose sensors when, decalibrate, impede the employment of an algorithm of control. At this stage we must shape the patient glucose levels through predictive systems. A model is all that element or set of elements which will allow us to predict the behavior of a system by introducing input variables. Thus what we obtain, is a prediction of the future stages in which it is possible to find the patient glucose level, being served of input insulin, ingestion and glucose variables already known, for being the ones happened previously in the time. When we use the glucose predictor, using obtained real time parameters, the controller is capable of indicating the future level of the glucose for the decision capture CL controller. The predictors that are being used nowadays in the PEA are not working correctly for the amount of information and variables that it need to handle. Data Mining, also indexed as Knowledge Discovery in Databases or KDD, has been defined as the not trivial extraction process of implicit information, previously unknown and potentially useful. All this, using the following phases of the knowledge extraction process: selection of information, pre- processing, transformation, data mining, results interpretation, evaluation and knowledge acquisition. With all this process we seek to generate the unique insulin glucose model that adjusts individually and in a personalized way for each patient form and being capable, at the same time, of predicting the future conditions with real time calculations, across few input parameters. This project of end of grade seeks to extract the information contained in a database of type 1 diabetics patients, obtained from clinical experimentation. For it, we will use technologies of Data Mining. For the attainment of the aim implicit to this project we have proceeded to implement a graphical interface that will guide us across the process of the KDD (with graphical and statistical information) of every point of the process. Regarding the data mining part, we have been served by a tool called WEKA's tool called, in which across Java, we control all of its functions to implement them by means of the created program. Finally granting a higher potential to the project with the possibility of implementing the service for Android devices, porting the code. Through these devices and what has been exposed in the project they might help or even create new and very useful applications for this field. As a conclusion of the project, and after an exhaustive analysis of the obtained results, we can show how we achieve to obtain the insulin–glucose model for each patient.
Resumo:
La realización de este estudio pretende cumplir con los siguientes objetivos: 1. Partiendo de la información contenida en las bases de datos del proyecto Anthos, y de las variables ambientales que se determinen, localizar las zonas en las que las condiciones son a priori más propicias para albergar poblaciones de las 16 especies de Vicia objeto de este estudio. 2. Analizar la proporción de los datos de presencia de Anthos disponibles, correspondientes a poblaciones enclavadas en espacios protegidos. 3. Elaborar un mapa de caracterización ecogeográfica del terreno y validar el mismo para alguna especie del género Vicia de las que se dispone de la información suficiente, relativa a alguna característica con probado valor adaptativo. 4. Determinar, para cada categoría del mapa de caracterización ecogeográfica del terreno, las zonas que potencialmente albergan mayor número de especies. Dichas zonas tendrán la consideración de áreas prioritarias para la recolección de semillas de cara a su conservación en bancos de germoplasma.
Resumo:
El desarrollo de la Ingeniería Civil en el siglo XXI debe estar dirigido a proporcionar de forma simultánea tanto las necesidades funcionales del proyecto como la conservación y sostenibilidad del territorio. Para que este proceso se pueda realizar de forma eficiente debe integrarse a los promotores (públicos y privados), a la administración y a los ciudadanos y sus asociaciones en el mecanismo de gestión y documentación del proyecto. Las directrices de la Unión Europea y el nuevo marco legislativo actual (Ley 21/2013) está orientado en esta dirección, pero las herramientas que estamos utilizando en este momento no cumplen adecuadamente estas necesidades. La norma UNE 157921:2006 y sucesivas debería renovarse contemplando tanto el nuevo marco legislativo como sobre todo la nueva realidad tecnológica para la gestión de la documentación técnica y científica mediante los lenguajes extensibles, la integración de bases de datos, las herramientas de participación social y las herramientas de protección y conservación del territorio todo ello a lo largo del ciclo de vida del proyecto En esta tesis vamos a presentar los trabajos que estamos realizando de análisis y propuesta de metodologías para la normalización de los informes de evaluación ambiental. que permita la gestión, documentación y participación social ABSTRACT The development of Civil Engineering in the XXI century should be leading towards a simultaneous sustenance of both the functional needs of the project, and the conservation and sustainability of the territory. Public and private promoters should collaborate with administration, citizens and their associations in the management mechanism and project documentation, in order to perform this process efficiently. The guidelines of the European Union and the current legislative framework (Law 21/2013) are oriented towards this, but the tools which are being used at the moment do not adequately meet the mentioned needs. The UNE 157921: 2006 and successive should be renewed in order to contemplate both the new legislative framework and the new technological reality for the management of technical and scientific documentation by the extensible languages, integration of databases, tools of social participation and tools protection and conservation of land all along the project life cycle. The analysis and proposal of different methodologies for the standardisation of environmental assessment reports, which admits for the correct management, documentation and social participation, will be presented in this paper.
Resumo:
Disponer de información precisa y actualizada de inventario forestal es una pieza clave para mejorar la gestión forestal sostenible y para proponer y evaluar políticas de conservación de bosques que permitan la reducción de emisiones de carbono debidas a la deforestación y degradación forestal (REDD). En este sentido, la tecnología LiDAR ha demostrado ser una herramienta perfecta para caracterizar y estimar de forma continua y en áreas extensas la estructura del bosque y las principales variables de inventario forestal. Variables como la biomasa, el número de pies, el volumen de madera, la altura dominante, el diámetro o la altura media son estimadas con una calidad comparable a los inventarios tradicionales de campo. La presente tesis se centra en analizar la aplicación de los denominados métodos de masa de inventario forestal con datos LIDAR bajo diferentes condiciones y características de masa forestal (bosque templados puros y mixtos) y utilizando diferentes bases de datos LiDAR (información proveniente de vuelo nacionales e información capturada de forma específica). Como consecuencia de lo anterior, se profundiza en la generación de inventarios forestales continuos con LiDAR en grandes áreas. Los métodos de masa se basan en la búsqueda de relaciones estadísticas entre variables predictoras derivadas de la nube de puntos LiDAR y las variables de inventario forestal medidas en campo con el objeto de generar una cartografía continua de inventario forestal. El rápido desarrollo de esta tecnología en los últimos años ha llevado a muchos países a implantar programas nacionales de captura de información LiDAR aerotransportada. Estos vuelos nacionales no están pensados ni diseñados para fines forestales por lo que es necesaria la evaluación de la validez de esta información LiDAR para la descripción de la estructura del bosque y la medición de variables forestales. Esta información podría suponer una drástica reducción de costes en la generación de información continua de alta resolución de inventario forestal. En el capítulo 2 se evalúa la estimación de variables forestales a partir de la información LiDAR capturada en el marco del Plan Nacional de Ortofotografía Aérea (PNOA-LiDAR) en España. Para ello se compara un vuelo específico diseñado para inventario forestal con la información de la misma zona capturada dentro del PNOA-LiDAR. El caso de estudio muestra cómo el ángulo de escaneo, la pendiente y orientación del terreno afectan de forma estadísticamente significativa, aunque con pequeñas diferencias, a la estimación de biomasa y variables de estructura forestal derivadas del LiDAR. La cobertura de copas resultó más afectada por estos factores que los percentiles de alturas. Considerando toda la zona de estudio, la estimación de la biomasa con ambas bases de datos no presentó diferencias estadísticamente significativas. Las simulaciones realizadas muestran que las diferencias medias en la estimación de biomasa entre un vuelo específico y el vuelo nacional podrán superar el 4% en áreas abruptas, con ángulos de escaneo altos y cuando la pendiente de la ladera no esté orientada hacia la línea de escaneo. En el capítulo 3 se desarrolla un estudio en masas mixtas y puras de pino silvestre y haya, con un enfoque multi-fuente empleando toda la información disponible (vuelos LiDAR nacionales de baja densidad de puntos, imágenes satelitales Landsat y parcelas permanentes del inventario forestal nacional español). Se concluye que este enfoque multi-fuente es adecuado para realizar inventarios forestales continuos de alta resolución en grandes superficies. Los errores obtenidos en la fase de ajuste y de validación de los modelos de área basimétrica y volumen son similares a los registrados por otros autores (usando un vuelo específico y parcelas de campo específicas). Se observan errores mayores en la variable número de pies que los encontrados en la literatura, que pueden ser explicados por la influencia de la metodología de parcelas de radio variable en esta variable. En los capítulos 4 y 5 se evalúan los métodos de masa para estimar biomasa y densidad de carbono en bosques tropicales. Para ello se trabaja con datos del Parque Nacional Volcán Poás (Costa Rica) en dos situaciones diferentes: i) se dispone de una cobertura completa LiDAR del área de estudio (capitulo 4) y ii) la cobertura LiDAR completa no es técnica o económicamente posible y se combina una cobertura incompleta de LiDAR con imágenes Landsat e información auxiliar para la estimación de biomasa y carbono (capitulo 5). En el capítulo 4 se valida un modelo LiDAR general de estimación de biomasa aérea en bosques tropicales y se compara con los resultados obtenidos con un modelo ajustado de forma específica para el área de estudio. Ambos modelos están basados en la variable altura media de copas (TCH por sus siglas en inglés) derivada del modelo digital LiDAR de altura de la vegetación. Los resultados en el área de estudio muestran que el modelo general es una alternativa fiable al ajuste de modelos específicos y que la biomasa aérea puede ser estimada en una nueva zona midiendo en campo únicamente la variable área basimétrica (BA). Para mejorar la aplicación de esta metodología es necesario definir en futuros trabajos procedimientos adecuados de medición de la variable área basimétrica en campo (localización, tamaño y forma de las parcelas de campo). La relación entre la altura media de copas del LiDAR y el área basimétrica (Coeficiente de Stock) obtenida en el área de estudio varía localmente. Por tanto es necesario contar con más información de campo para caracterizar la variabilidad del Coeficiente de Stock entre zonas de vida y si estrategias como la estratificación pueden reducir los errores en la estimación de biomasa y carbono en bosques tropicales. En el capítulo 5 se concluye que la combinación de una muestra sistemática de información LiDAR con una cobertura completa de imagen satelital de moderada resolución (e información auxiliar) es una alternativa efectiva para la realización de inventarios continuos en bosques tropicales. Esta metodología permite estimar altura de la vegetación, biomasa y carbono en grandes zonas donde la captura de una cobertura completa de LiDAR y la realización de un gran volumen de trabajo de campo es económica o/y técnicamente inviable. Las alternativas examinadas para la predicción de biomasa a partir de imágenes Landsat muestran una ligera disminución del coeficiente de determinación y un pequeño aumento del RMSE cuando la cobertura de LiDAR es reducida de forma considerable. Los resultados indican que la altura de la vegetación, la biomasa y la densidad de carbono pueden ser estimadas en bosques tropicales de forma adecuada usando coberturas de LIDAR bajas (entre el 5% y el 20% del área de estudio). ABSTRACT The availability of accurate and updated forest data is essential for improving sustainable forest management, promoting forest conservation policies and reducing carbon emissions from deforestation and forest degradation (REDD). In this sense, LiDAR technology proves to be a clear-cut tool for characterizing forest structure in large areas and assessing main forest-stand variables. Forest variables such as biomass, stem volume, basal area, mean diameter, mean height, dominant height, and stem number can be thus predicted with better or comparable quality than with costly traditional field inventories. In this thesis, it is analysed the potential of LiDAR technology for the estimation of plot-level forest variables under a range of conditions (conifer & broadleaf temperate forests and tropical forests) and different LiDAR capture characteristics (nationwide LiDAR information vs. specific forest LiDAR data). This study evaluates the application of LiDAR-based plot-level methods in large areas. These methods are based on statistical relationships between predictor variables (derived from airborne data) and field-measured variables to generate wall to wall forest inventories. The fast development of this technology in recent years has led to an increasing availability of national LiDAR datasets, usually developed for multiple purposes throughout an expanding number of countries and regions. The evaluation of the validity of nationwide LiDAR databases (not designed specifically for forest purposes) is needed and presents a great opportunity for substantially reducing the costs of forest inventories. In chapter 2, the suitability of Spanish nationwide LiDAR flight (PNOA) to estimate forest variables is analyzed and compared to a specifically forest designed LiDAR flight. This study case shows that scan angle, terrain slope and aspect significantly affect the assessment of most of the LiDAR-derived forest variables and biomass estimation. Especially, the estimation of canopy cover is more affected than height percentiles. Considering the entire study area, biomass estimations from both databases do not show significant differences. Simulations show that differences in biomass could be larger (more than 4%) only in particular situations, such as steep areas when the slopes are non-oriented towards the scan lines and the scan angles are larger than 15º. In chapter 3, a multi-source approach is developed, integrating available databases such as nationwide LiDAR flights, Landsat imagery and permanent field plots from SNFI, with good resultos in the generation of wall to wall forest inventories. Volume and basal area errors are similar to those obtained by other authors (using specific LiDAR flights and field plots) for the same species. Errors in the estimation of stem number are larger than literature values as a consequence of the great influence that variable-radius plots, as used in SNFI, have on this variable. In chapters 4 and 5 wall to wall plot-level methodologies to estimate aboveground biomass and carbon density in tropical forest are evaluated. The study area is located in the Poas Volcano National Park (Costa Rica) and two different situations are analyzed: i) available complete LiDAR coverage (chapter 4) and ii) a complete LiDAR coverage is not available and wall to wall estimation is carried out combining LiDAR, Landsat and ancillary data (chapter 5). In chapter 4, a general aboveground biomass plot-level LiDAR model for tropical forest (Asner & Mascaro, 2014) is validated and a specific model for the study area is fitted. Both LiDAR plot-level models are based on the top-of-canopy height (TCH) variable that is derived from the LiDAR digital canopy model. Results show that the pantropical plot-level LiDAR methodology is a reliable alternative to the development of specific models for tropical forests and thus, aboveground biomass in a new study area could be estimated by only measuring basal area (BA). Applying this methodology, the definition of precise BA field measurement procedures (e.g. location, size and shape of the field plots) is decisive to achieve reliable results in future studies. The relation between BA and TCH (Stocking Coefficient) obtained in our study area in Costa Rica varied locally. Therefore, more field work is needed for assessing Stocking Coefficient variations between different life zones and the influence of the stratification of the study areas in tropical forests on the reduction of uncertainty. In chapter 5, the combination of systematic LiDAR information sampling and full coverage Landsat imagery (and ancillary data) prove to be an effective alternative for forest inventories in tropical areas. This methodology allows estimating wall to wall vegetation height, biomass and carbon density in large areas where full LiDAR coverage and traditional field work are technically and/or economically unfeasible. Carbon density prediction using Landsat imaginery shows a slight decrease in the determination coefficient and an increase in RMSE when harshly decreasing LiDAR coverage area. Results indicate that feasible estimates of vegetation height, biomass and carbon density can be accomplished using low LiDAR coverage areas (between 5% and 20% of the total area) in tropical locations.
Resumo:
Ontology-Based Data Access (OBDA) permite el acceso a diferentes tipos de fuentes de datos (tradicionalmente bases de datos) usando un modelo más abstracto proporcionado por una ontología. La reescritura de consultas (query rewriting) usa una ontología para reescribir una consulta en una consulta reescrita que puede ser evaluada en la fuente de datos. Las consultas reescritas recuperan las respuestas que están implicadas por la combinación de los datos explicitamente almacenados en la fuente de datos, la consulta original y la ontología. Al trabajar sólo sobre las queries, la reescritura de consultas permite OBDA sobre cualquier fuente de datos que puede ser consultada, independientemente de las posibilidades para modificarla. Sin embargo, producir y evaluar las consultas reescritas son procesos costosos que suelen volverse más complejos conforme la expresividad y tamaño de la ontología y las consultas aumentan. En esta tesis exploramos distintas optimizaciones que peuden ser realizadas tanto en el proceso de reescritura como en las consultas reescritas para mejorar la aplicabilidad de OBDA en contextos realistas. Nuestra contribución técnica principal es un sistema de reescritura de consultas que implementa las optimizaciones presentadas en esta tesis. Estas optimizaciones son las contribuciones principales de la tesis y se pueden agrupar en tres grupos diferentes: -optimizaciones que se pueden aplicar al considerar los predicados en la ontología que no están realmente mapeados con las fuentes de datos. -optimizaciones en ingeniería que se pueden aplicar al manejar el proceso de reescritura de consultas en una forma que permite reducir la carga computacional del proceso de generación de consultas reescritas. -optimizaciones que se pueden aplicar al considerar metainformación adicional acerca de las características de la ABox. En esta tesis proporcionamos demostraciones formales acerca de la corrección y completitud de las optimizaciones propuestas, y una evaluación empírica acerca del impacto de estas optimizaciones. Como contribución adicional, parte de este enfoque empírico, proponemos un banco de pruebas (benchmark) para la evaluación de los sistemas de reescritura de consultas. Adicionalmente, proporcionamos algunas directrices para la creación y expansión de esta clase de bancos de pruebas. ABSTRACT Ontology-Based Data Access (OBDA) allows accessing different kinds of data sources (traditionally databases) using a more abstract model provided by an ontology. Query rewriting uses such ontology to rewrite a query into a rewritten query that can be evaluated on the data source. The rewritten queries retrieve the answers that are entailed by the combination of the data explicitly stored in the data source, the original query and the ontology. However, producing and evaluating the rewritten queries are both costly processes that become generally more complex as the expressiveness and size of the ontology and queries increase. In this thesis we explore several optimisations that can be performed both in the rewriting process and in the rewritten queries to improve the applicability of OBDA in real contexts. Our main technical contribution is a query rewriting system that implements the optimisations presented in this thesis. These optimisations are the core contributions of the thesis and can be grouped into three different groups: -optimisations that can be applied when considering the predicates in the ontology that are actually mapped to the data sources. -engineering optimisations that can be applied by handling the process of query rewriting in a way that permits to reduce the computational load of the query generation process. -optimisations that can be applied when considering additional metainformation about the characteristics of the ABox. In this thesis we provide formal proofs for the correctness of the proposed optimisations, and an empirical evaluation about the impact of the optimisations. As an additional contribution, part of this empirical approach, we propose a benchmark for the evaluation of query rewriting systems. We also provide some guidelines for the creation and expansion of this kind of benchmarks.
Resumo:
En la actualidad, y en consonancia con la tendencia de “sostenibilidad” extendida a todos los campos y parcelas de la ciencia, nos encontramos con un área de estudio basado en la problemática del inevitable deterioro de las estructuras existentes, y la gestión de las acciones a realizar para mantener las condiciones de servicio de los puentes y prolongar su vida útil. Tal y como se comienza a ver en las inversiones en los países avanzados, con una larga tradición en el desarrollo de sus infraestructuras, se muestra claramente el nuevo marco al que nos dirigimos. Las nuevas tendencias van encaminadas cada vez más a la conservación y mantenimiento, reduciéndose las partidas presupuestarias destinadas a nuevas actuaciones, debido a la completa vertebración territorial que se ha ido instaurando en estos países, entre los que España se encuentra. Este nutrido patrimonio de infraestructuras viarias, que cuentan a su vez con un importante número de estructuras, hacen necesarias las labores de gestión y mantenimiento de los puentes integrantes en las mismas. Bajo estas premisas, la tesis aborda el estado de desarrollo de la implementación de los sistemas de gestión de puentes, las tendencias actuales e identificación de campos por desarrollar, así como la aplicación específica a redes de carreteras de escasos recursos, más allá de la Red Estatal. Además de analizar las diversas metodologías de formación de inventarios, realización de inspecciones y evaluación del estado de puentes, se ha enfocado, como principal objetivo, el desarrollo de un sistema específico de predicción del deterioro y ayuda a la toma de decisiones. Este sistema, adicionalmente a la configuración tradicional de criterios de formación de bases de datos de estructuras e inspecciones, plantea, de forma justificada, la clasificación relativa al conjunto de la red gestionada, según su estado de condición. Eso permite, mediante técnicas de optimización, la correcta toma de decisiones a los técnicos encargados de la gestión de la red. Dentro de los diversos métodos de evaluación de la predicción de evolución del deterioro de cada puente, se plantea la utilización de un método bilineal simplificado envolvente del ajuste empírico realizado y de los modelos markovianos como la solución más efectiva para abordar el análisis de la predicción de la propagación del daño. Todo ello explotando la campaña experimenta realizada que, a partir de una serie de “fotografías técnicas” del estado de la red de puentes gestionados obtenidas mediante las inspecciones realizadas, es capaz de mejorar el proceso habitual de toma de decisiones. Toda la base teórica reflejada en el documento, se ve complementada mediante la implementación de un Sistema de Gestión de Puentes (SGP) específico, adaptado según las necesidades y limitaciones de la administración a la que se ha aplicado, en concreto, la Dirección General de Carreteras de la Junta de Comunidades de Castilla-La Mancha, para una muestra representativa del conjunto de puentes de la red de la provincia de Albacete, partiendo de una situación en la que no existe, actualmente, un sistema formal de gestión de puentes. Tras un meditado análisis del estado del arte dentro de los Capítulos 2 y 3, se plantea un modelo de predicción del deterioro dentro del Capítulo 4 “Modelo de Predicción del Deterioro”. De la misma manera, para la resolución del problema de optimización, se justifica la utilización de un novedoso sistema de optimización secuencial elegido dentro del Capítulo 5, los “Algoritmos Evolutivos”, en sus diferentes variantes, como la herramienta matemática más correcta para distribuir adecuadamente los recursos económicos dedicados a mantenimiento y conservación de los que esta administración pueda disponer en sus partidas de presupuesto a medio plazo. En el Capítulo 6, y en diversos Anexos al presente documento, se muestran los datos y resultados obtenidos de la aplicación específica desarrollada para la red local analizada, utilizando el modelo de deterioro y optimización secuencial, que garantiza la correcta asignación de los escasos recursos de los que disponen las redes autonómicas en España. Se plantea con especial interés la implantación de estos sistemas en la red secundaria española, debido a que reciben en los últimos tiempos una mayor responsabilidad de gestión, con recursos cada vez más limitados. Finalmente, en el Capítulo 7, se plantean una serie de conclusiones que nos hacen reflexionar de la necesidad de comenzar a pasar, en materia de gestión de infraestructuras, de los estudios teóricos y los congresos, hacia la aplicación y la práctica, con un planteamiento que nos debe llevar a cambios importantes en la forma de concebir la labor del ingeniero y las enseñanzas que se imparten en las escuelas. También se enumeran las aportaciones originales que plantea el documento frente al actual estado del arte. Se plantean, de la misma manera, las líneas de investigación en materia de Sistemas de Gestión de Puentes que pueden ayudar a refinar y mejorar los actuales sistemas utilizados. In line with the development of "sustainability" extended to all fields of science, we are faced with the inevitable and ongoing deterioration of existing structures, leading nowadays to the necessary management of maintaining the service conditions and life time extension of bridges. As per the increased amounts of money that can be observed being spent in the countries with an extensive and strong tradition in the development of their infrastructure, the trend can be clearly recognized. The new tendencies turn more and more towards conservation and maintenance, reducing programmed expenses for new construction activities, in line with the already wellestablished territorial structures, as is the case for Spain. This significant heritage of established road infrastructure, consequently containing a vast number of structures, imminently lead to necessary management and maintenance of the including bridges. Under these conditions, this thesis focusses on the status of the development of the management implementation for bridges, current trends, and identifying areas for further development. This also includes the specific application to road networks with limited resources, beyond the national highways. In addition to analyzing the various training methodologies, inventory inspections and condition assessments of bridges, the main objective has been the development of a specific methodology. This methodology, in addition to the traditional system of structure and inspection database training criteria, sustains the classification for the entire road network, according to their condition. This allows, through optimization techniques, for the correct decision making by the technical managers of the network. Among the various methods for assessing the evolution forecast of deterioration of each bridge, a simplified bilinear envelope adjustment made empirical method and Markov models as the most effective solution to address the analysis of predicting the spread of damage, arising from a "technical snapshot" obtained through inspections of the condition of the bridges included in the investigated network. All theoretical basis reflected in the document, is completed by implementing a specific Bridges Management System (BMS), adapted according to the needs and limitations of the authorities for which it has been applied, being in this case particularly the General Highways Directorate of the autonomous region of Castilla-La Mancha, for a representative sample of all bridges in the network in the province of Albacete, starting from a situation where there is currently no formal bridge management system. After an analysis of the state of the art in Chapters 2 and 3, a new deterioration prediction model is developed in Chapter 4, "Deterioration Prediction Model". In the same way, to solve the optimization problem is proposed the use of a singular system of sequential optimization elected under Chapter 5, the "Evolutionary Algorithms", the most suitable mathematical tool to adequately distribute the economic resources for maintenance and conservation for mid-term budget planning. In Chapter 6, and in the various appendices, data and results are presented of the developed application for the analyzed local network, from the optimization model, which guarantees the correct allocation of scarce resources at the disposal of authorities responsible for the regional networks in Spain. The implementation of these systems is witnessed with particular interest for the Spanish secondary network, because of the increasing management responsibility, with decreasing resources. Chapter 7 presents a series of conclusions that triggers to reconsider shifting from theoretical studies and conferences towards a practical implementation, considering how to properly conceive the engineering input and the related education. The original contributions of the document are also listed. In the same way, the research on the Bridges Management System can help evaluating and improving the used systematics.
Resumo:
En esta revisión bibliográfica, llevada a cabo a través de una búsqueda en distintas bases de datos (PubMed, SportDiscus, Scielo) así como en revistas tales como Elsevier y buscadores como Google, se busca la evidencia referente a las patologías de la columna vertebral en la infancia así como programas educativos de prevención y tratamiento y el papel que puede desempeñar la educación física en las patologías de la columna vertebral en general y de la hiperlordosis específicamente. La literatura existente debía estar comprendida entre los años 2005g2015. Como visión global de esta revisión, podríamos decir que los problemas de espalda en la niñez son muy habituales pese a producirse en menor número que en poblaciones adultas y que, actualmente, siguen considerándose como un desafío clínico debido a que, en la mayoría de las veces, vienen acompañadas de patologías más complejas. Dentro de los problemas más prevalentes se encuentran algunos como la hiperlordosis, el genu valgum, el desequilibrio entre los hombros, la inclinación pélvica lateral, la escoliosis, la rotación del tronco y la hipercifosis torácica, entre otros. Se exponen, además de los problemas más habituales de columna vertebral en la niñez, las posibles causas, diversos programas de prevención e intervención y, finalmente, se exponen la importancia que tienen la educación postural, el papel del profesor de educación física en la prevención, detección y tratamiento de dichas patologías así como el papel vital que puede desarrollar la educación física en dichos niños. ABSTRACT This literature review was carried out through a search in different databases (PubMed, SportDiscus, Scielo) as well as in magazines such as Elsevier and, finally, in Google. Evidences related to the pathologies of the spine in children as well as educational programs for the prevention and treatment were searched. The role that educational programs can play in the prevention of the spine pathologies in general and specifically in the hyperlordosis was also analyzed. Literature review period was from 2005 till 2015. Results showed that back problems in childhood are very common although the prevalence is lower than in adults. The fact that these pathologies come normally associated with other more important problems, makes spine diseases a medical challenge. Within the most prevalent problems we can find hyperlordosis, genu valgum, lateral pelvic tilt, scoliosis, trunk rotation, uneven shoulders and chest’s hipercifosis, among others. Most common problems of vertebral column in the childhood, the possible causes, different programs of prevention and intervention were also reviewed. Importance of postural education in schools as well as the figure of the physical education teacher in the prevention, detection and treatment were analyzed.
Resumo:
En esta tesis se estudia la representación, modelado y comparación de colecciones mediante el uso de ontologías en el ámbito de la Web Semántica. Las colecciones, entendidas como agrupaciones de objetos o elementos con entidad propia, son construcciones que aparecen frecuentemente en prácticamente todos los dominios del mundo real, y por tanto, es imprescindible disponer de conceptualizaciones de estas estructuras abstractas y de representaciones de estas conceptualizaciones en los sistemas informáticos, que definan adecuadamente su semántica. Mientras que en muchos ámbitos de la Informática y la Inteligencia Artificial, como por ejemplo la programación, las bases de datos o la recuperación de información, las colecciones han sido ampliamente estudiadas y se han desarrollado representaciones que responden a multitud de conceptualizaciones, en el ámbito de la Web Semántica, sin embargo, su estudio ha sido bastante limitado. De hecho hasta la fecha existen pocas propuestas de representación de colecciones mediante ontologías, y las que hay sólo cubren algunos tipos de colecciones y presentan importantes limitaciones. Esto impide la representación adecuada de colecciones y dificulta otras tareas comunes como la comparación de colecciones, algo crítico en operaciones habituales como las búsquedas semánticas o el enlazado de datos en la Web Semántica. Para solventar este problema esta tesis hace una propuesta de modelización de colecciones basada en una nueva clasificación de colecciones de acuerdo a sus características estructurales (homogeneidad, unicidad, orden y cardinalidad). Esta clasificación permite definir una taxonomía con hasta 16 tipos de colecciones distintas. Entre otras ventajas, esta nueva clasificación permite aprovechar la semántica de las propiedades estructurales de cada tipo de colección para realizar comparaciones utilizando las funciones de similitud y disimilitud más apropiadas. De este modo, la tesis desarrolla además un nuevo catálogo de funciones de similitud para las distintas colecciones, donde se han recogido las funciones de (di)similitud más conocidas y también algunas nuevas. Esta propuesta se ha implementado mediante dos ontologías paralelas, la ontología E-Collections, que representa los distintos tipos de colecciones de la taxonomía y su axiomática, y la ontología SIMEON (Similarity Measures Ontology) que representa los tipos de funciones de (di)similitud para cada tipo de colección. Gracias a estas ontologías, para comparar dos colecciones, una vez representadas como instancias de la clase más apropiada de la ontología E-Collections, automáticamente se sabe qué funciones de (di)similitud de la ontología SIMEON pueden utilizarse para su comparación. Abstract This thesis studies the representation, modeling and comparison of collections in the Semantic Web using ontologies. Collections, understood as groups of objects or elements with their own identities, are constructions that appear frequently in almost all areas of the real world. Therefore, it is essential to have conceptualizations of these abstract structures and representations of these conceptualizations in computer systems, that define their semantic properly. While in many areas of Computer Science and Artificial Intelligence, such as Programming, Databases or Information Retrieval, the collections have been extensively studied and there are representations that match many conceptualizations, in the field Semantic Web, however, their study has been quite limited. In fact, there are few representations of collections using ontologies so far, and they only cover some types of collections and have important limitations. This hinders a proper representation of collections and other common tasks like comparing collections, something critical in usual operations such as semantic search or linking data on the Semantic Web. To solve this problem this thesis makes a proposal for modelling collections based on a new classification of collections according to their structural characteristics (homogeneity, uniqueness, order and cardinality). This classification allows to define a taxonomy with up to 16 different types of collections. Among other advantages, this new classification can leverage the semantics of the structural properties of each type of collection to make comparisons using the most appropriate (dis)similarity functions. Thus, the thesis also develops a new catalog of similarity functions for the different types of collections. This catalog contains the most common (dis)similarity functions as well as new ones. This proposal is implemented through two parallel ontologies, the E-Collections ontology that represents the different types of collections in the taxonomy and their axiomatic, and the SIMEON ontology (Similarity Measures Ontology) that represents the types of (dis)similarity functions for each type of collection. Thanks to these ontologies, to compare two collections, once represented as instances of the appropriate class of E-Collections ontology, we can know automatically which (dis)similarity functions of the SIMEON ontology are suitable for the comparison. Finally, the feasibility and usefulness of this modeling and comparison of collections proposal is proved in the field of oenology, applying both E-Collections and SIMEON ontologies to the representation and comparison of wines with the E-Baco ontology.
Resumo:
Sin duda, el rostro humano ofrece mucha más información de la que pensamos. La cara transmite sin nuestro consentimiento señales no verbales, a partir de las interacciones faciales, que dejan al descubierto nuestro estado afectivo, actividad cognitiva, personalidad y enfermedades. Estudios recientes [OFT14, TODMS15] demuestran que muchas de nuestras decisiones sociales e interpersonales derivan de un previo análisis facial de la cara que nos permite establecer si esa persona es confiable, trabajadora, inteligente, etc. Esta interpretación, propensa a errores, deriva de la capacidad innata de los seres humanas de encontrar estas señales e interpretarlas. Esta capacidad es motivo de estudio, con un especial interés en desarrollar métodos que tengan la habilidad de calcular de manera automática estas señales o atributos asociados a la cara. Así, el interés por la estimación de atributos faciales ha crecido rápidamente en los últimos años por las diversas aplicaciones en que estos métodos pueden ser utilizados: marketing dirigido, sistemas de seguridad, interacción hombre-máquina, etc. Sin embargo, éstos están lejos de ser perfectos y robustos en cualquier dominio de problemas. La principal dificultad encontrada es causada por la alta variabilidad intra-clase debida a los cambios en la condición de la imagen: cambios de iluminación, oclusiones, expresiones faciales, edad, género, etnia, etc.; encontradas frecuentemente en imágenes adquiridas en entornos no controlados. Este de trabajo de investigación estudia técnicas de análisis de imágenes para estimar atributos faciales como el género, la edad y la postura, empleando métodos lineales y explotando las dependencias estadísticas entre estos atributos. Adicionalmente, nuestra propuesta se centrará en la construcción de estimadores que tengan una fuerte relación entre rendimiento y coste computacional. Con respecto a éste último punto, estudiamos un conjunto de estrategias para la clasificación de género y las comparamos con una propuesta basada en un clasificador Bayesiano y una adecuada extracción de características. Analizamos en profundidad el motivo de porqué las técnicas lineales no han logrado resultados competitivos hasta la fecha y mostramos cómo obtener rendimientos similares a las mejores técnicas no-lineales. Se propone un segundo algoritmo para la estimación de edad, basado en un regresor K-NN y una adecuada selección de características tal como se propuso para la clasificación de género. A partir de los experimentos desarrollados, observamos que el rendimiento de los clasificadores se reduce significativamente si los ´estos han sido entrenados y probados sobre diferentes bases de datos. Hemos encontrado que una de las causas es la existencia de dependencias entre atributos faciales que no han sido consideradas en la construcción de los clasificadores. Nuestro resultados demuestran que la variabilidad intra-clase puede ser reducida cuando se consideran las dependencias estadísticas entre los atributos faciales de el género, la edad y la pose; mejorando el rendimiento de nuestros clasificadores de atributos faciales con un coste computacional pequeño. Abstract Surely the human face provides much more information than we think. The face provides without our consent nonverbal cues from facial interactions that reveal our emotional state, cognitive activity, personality and disease. Recent studies [OFT14, TODMS15] show that many of our social and interpersonal decisions derive from a previous facial analysis that allows us to establish whether that person is trustworthy, hardworking, intelligent, etc. This error-prone interpretation derives from the innate ability of human beings to find and interpret these signals. This capability is being studied, with a special interest in developing methods that have the ability to automatically calculate these signs or attributes associated with the face. Thus, the interest in the estimation of facial attributes has grown rapidly in recent years by the various applications in which these methods can be used: targeted marketing, security systems, human-computer interaction, etc. However, these are far from being perfect and robust in any domain of problems. The main difficulty encountered is caused by the high intra-class variability due to changes in the condition of the image: lighting changes, occlusions, facial expressions, age, gender, ethnicity, etc.; often found in images acquired in uncontrolled environments. This research work studies image analysis techniques to estimate facial attributes such as gender, age and pose, using linear methods, and exploiting the statistical dependencies between these attributes. In addition, our proposal will focus on the construction of classifiers that have a good balance between performance and computational cost. We studied a set of strategies for gender classification and we compare them with a proposal based on a Bayesian classifier and a suitable feature extraction based on Linear Discriminant Analysis. We study in depth why linear techniques have failed to provide competitive results to date and show how to obtain similar performances to the best non-linear techniques. A second algorithm is proposed for estimating age, which is based on a K-NN regressor and proper selection of features such as those proposed for the classification of gender. From our experiments we note that performance estimates are significantly reduced if they have been trained and tested on different databases. We have found that one of the causes is the existence of dependencies between facial features that have not been considered in the construction of classifiers. Our results demonstrate that intra-class variability can be reduced when considering the statistical dependencies between facial attributes gender, age and pose, thus improving the performance of our classifiers with a reduced computational cost.
Resumo:
Los hipergrafos dirigidos se han empleado en problemas relacionados con lógica proposicional, bases de datos relacionales, linguística computacional y aprendizaje automático. Los hipergrafos dirigidos han sido también utilizados como alternativa a los grafos (bipartitos) dirigidos para facilitar el estudio de las interacciones entre componentes de sistemas complejos que no pueden ser fácilmente modelados usando exclusivamente relaciones binarias. En este contexto, este tipo de representación es conocida como hiper-redes. Un hipergrafo dirigido es una generalización de un grafo dirigido especialmente adecuado para la representación de relaciones de muchos a muchos. Mientras que una arista en un grafo dirigido define una relación entre dos de sus nodos, una hiperarista en un hipergrafo dirigido define una relación entre dos conjuntos de sus nodos. La conexión fuerte es una relación de equivalencia que divide el conjunto de nodos de un hipergrafo dirigido en particiones y cada partición define una clase de equivalencia conocida como componente fuertemente conexo. El estudio de los componentes fuertemente conexos de un hipergrafo dirigido puede ayudar a conseguir una mejor comprensión de la estructura de este tipo de hipergrafos cuando su tamaño es considerable. En el caso de grafo dirigidos, existen algoritmos muy eficientes para el cálculo de los componentes fuertemente conexos en grafos de gran tamaño. Gracias a estos algoritmos, se ha podido averiguar que la estructura de la WWW tiene forma de “pajarita”, donde más del 70% del los nodos están distribuidos en tres grandes conjuntos y uno de ellos es un componente fuertemente conexo. Este tipo de estructura ha sido también observada en redes complejas en otras áreas como la biología. Estudios de naturaleza similar no han podido ser realizados en hipergrafos dirigidos porque no existe algoritmos capaces de calcular los componentes fuertemente conexos de este tipo de hipergrafos. En esta tesis doctoral, hemos investigado como calcular los componentes fuertemente conexos de un hipergrafo dirigido. En concreto, hemos desarrollado dos algoritmos para este problema y hemos determinado que son correctos y cuál es su complejidad computacional. Ambos algoritmos han sido evaluados empíricamente para comparar sus tiempos de ejecución. Para la evaluación, hemos producido una selección de hipergrafos dirigidos generados de forma aleatoria inspirados en modelos muy conocidos de grafos aleatorios como Erdos-Renyi, Newman-Watts-Strogatz and Barabasi-Albert. Varias optimizaciones para ambos algoritmos han sido implementadas y analizadas en la tesis. En concreto, colapsar los componentes fuertemente conexos del grafo dirigido que se puede construir eliminando ciertas hiperaristas complejas del hipergrafo dirigido original, mejora notablemente los tiempos de ejecucion de los algoritmos para varios de los hipergrafos utilizados en la evaluación. Aparte de los ejemplos de aplicación mencionados anteriormente, los hipergrafos dirigidos han sido también empleados en el área de representación de conocimiento. En concreto, este tipo de hipergrafos se han usado para el cálculo de módulos de ontologías. Una ontología puede ser definida como un conjunto de axiomas que especifican formalmente un conjunto de símbolos y sus relaciones, mientras que un modulo puede ser entendido como un subconjunto de axiomas de la ontología que recoge todo el conocimiento que almacena la ontología sobre un conjunto especifico de símbolos y sus relaciones. En la tesis nos hemos centrado solamente en módulos que han sido calculados usando la técnica de localidad sintáctica. Debido a que las ontologías pueden ser muy grandes, el cálculo de módulos puede facilitar las tareas de re-utilización y mantenimiento de dichas ontologías. Sin embargo, analizar todos los posibles módulos de una ontología es, en general, muy costoso porque el numero de módulos crece de forma exponencial con respecto al número de símbolos y de axiomas de la ontología. Afortunadamente, los axiomas de una ontología pueden ser divididos en particiones conocidas como átomos. Cada átomo representa un conjunto máximo de axiomas que siempre aparecen juntos en un modulo. La decomposición atómica de una ontología es definida como un grafo dirigido de tal forma que cada nodo del grafo corresponde con un átomo y cada arista define una dependencia entre una pareja de átomos. En esta tesis introducimos el concepto de“axiom dependency hypergraph” que generaliza el concepto de descomposición atómica de una ontología. Un modulo en una ontología correspondería con un componente conexo en este tipo de hipergrafos y un átomo de una ontología con un componente fuertemente conexo. Hemos adaptado la implementación de nuestros algoritmos para que funcionen también con axiom dependency hypergraphs y poder de esa forma calcular los átomos de una ontología. Para demostrar la viabilidad de esta idea, hemos incorporado nuestros algoritmos en una aplicación que hemos desarrollado para la extracción de módulos y la descomposición atómica de ontologías. A la aplicación la hemos llamado HyS y hemos estudiado sus tiempos de ejecución usando una selección de ontologías muy conocidas del área biomédica, la mayoría disponibles en el portal de Internet NCBO. Los resultados de la evaluación muestran que los tiempos de ejecución de HyS son mucho mejores que las aplicaciones más rápidas conocidas. ABSTRACT Directed hypergraphs are an intuitive modelling formalism that have been used in problems related to propositional logic, relational databases, computational linguistic and machine learning. Directed hypergraphs are also presented as an alternative to directed (bipartite) graphs to facilitate the study of the interactions between components of complex systems that cannot naturally be modelled as binary relations. In this context, they are known as hyper-networks. A directed hypergraph is a generalization of a directed graph suitable for representing many-to-many relationships. While an edge in a directed graph defines a relation between two nodes of the graph, a hyperedge in a directed hypergraph defines a relation between two sets of nodes. Strong-connectivity is an equivalence relation that induces a partition of the set of nodes of a directed hypergraph into strongly-connected components. These components can be collapsed into single nodes. As result, the size of the original hypergraph can significantly be reduced if the strongly-connected components have many nodes. This approach might contribute to better understand how the nodes of a hypergraph are connected, in particular when the hypergraphs are large. In the case of directed graphs, there are efficient algorithms that can be used to compute the strongly-connected components of large graphs. For instance, it has been shown that the macroscopic structure of the World Wide Web can be represented as a “bow-tie” diagram where more than 70% of the nodes are distributed into three large sets and one of these sets is a large strongly-connected component. This particular structure has been also observed in complex networks in other fields such as, e.g., biology. Similar studies cannot be conducted in a directed hypergraph because there does not exist any algorithm for computing the strongly-connected components of the hypergraph. In this thesis, we investigate ways to compute the strongly-connected components of directed hypergraphs. We present two new algorithms and we show their correctness and computational complexity. One of these algorithms is inspired by Tarjan’s algorithm for directed graphs. The second algorithm follows a simple approach to compute the stronglyconnected components. This approach is based on the fact that two nodes of a graph that are strongly-connected can also reach the same nodes. In other words, the connected component of each node is the same. Both algorithms are empirically evaluated to compare their performances. To this end, we have produced a selection of random directed hypergraphs inspired by existent and well-known random graphs models like Erd˝os-Renyi and Newman-Watts-Strogatz. Besides the application examples that we mentioned earlier, directed hypergraphs have also been employed in the field of knowledge representation. In particular, they have been used to compute the modules of an ontology. An ontology is defined as a collection of axioms that provides a formal specification of a set of terms and their relationships; and a module is a subset of an ontology that completely captures the meaning of certain terms as defined in the ontology. In particular, we focus on the modules computed using the notion of syntactic locality. As ontologies can be very large, the computation of modules facilitates the reuse and maintenance of these ontologies. Analysing all modules of an ontology, however, is in general not feasible as the number of modules grows exponentially in the number of terms and axioms of the ontology. Nevertheless, the modules can succinctly be represented using the Atomic Decomposition of an ontology. Using this representation, an ontology can be partitioned into atoms, which are maximal sets of axioms that co-occur in every module. The Atomic Decomposition is then defined as a directed graph such that each node correspond to an atom and each edge represents a dependency relation between two atoms. In this thesis, we introduce the notion of an axiom dependency hypergraph which is a generalization of the atomic decomposition of an ontology. A module in the ontology corresponds to a connected component in the hypergraph, and the atoms of the ontology to the strongly-connected components. We apply our algorithms for directed hypergraphs to axiom dependency hypergraphs and in this manner, we compute the atoms of an ontology. To demonstrate the viability of this approach, we have implemented the algorithms in the application HyS which computes the modules of ontologies and calculate their atomic decomposition. In the thesis, we provide an experimental evaluation of HyS with a selection of large and prominent biomedical ontologies, most of which are available in the NCBO Bioportal. HyS outperforms state-of-the-art implementations in the tasks of extracting modules and computing the atomic decomposition of these ontologies.