11 resultados para recuperação semântica
em Universidad Politécnica de Madrid
Resumo:
Cuando los usuarios acceden a servicios telemáticos, esperan obtener experiencias cada vez más adaptadas a su contexto y situación específicos. Esto adquiere especial relevancia al aumentar la cantidad de contenidos en línea al alcance de los usuarios a través de dichos servicios. Con el fin de que los servicios telemáticos proporcionen funcionalidades centradas en el usuario –como, por ejemplo, búsquedas relevantes, adaptación de contenidos, personalización y recomendación– es necesario que los contenidos estén correctamente anotados (enriquecidos con metadatos semánticos) y disponer de un modelo preciso que represente al usuario junto con su respectivo contexto de uso. En este escenario, presentamos un marco genérico de servicios centrados en el usuario a partir de su caracterización semántica y del mapeo a los contenidos. En concreto, aplicamos dicho marco a un buscador semántico que caracteriza automáticamente tanto los contenidos a los que los usuarios pueden acceder como el contexto de uso desde el que acceden. La solución propuesta incluye, pues, modelos de usuario dinámicos y adaptativos, con información explícita e implícita; así como descriptores de los contenidos que pueden utilizarse para determinar cuáles son más adecuados para cada usuario. Durante todo este proceso, los usuarios mantienen un rol fundamental: proveyendo nuevos contenidos, contribuyendo a folksonomías moderadas, supervisando su propio modelo de usuario, etc.
Resumo:
Se plantea una estrategia de interoperabilidad basada en ontologías basado en un método de adquisición del conocimiento, un marco integrado de conocimiento y una red de ontologías.
Resumo:
Los avances logrados en la última década en los métodos y técnicas para la obtención de información mediante secuenciación genética de muestras orgánicas han supuesto una revolución en el área de la investigación biomédica. La disponibilidad de nuevas fuentes de datos abre vías novedosas de trabajo para investigadores que ya están dando sus frutos con técnicas mejoradas de diagnóstico y nuevos tratamientos para enfermedades como el cáncer. El cambio ha sido tan drástico que, por contra, los métodos empleados para acceder a la información han quedado obsoletos. Para remediar esta situación se ha realizado un gran esfuerzo en el campo de la informática biomédica con el objetivo de desarrollar herramientas adecuadas para este reto tecnológico. Así, la “revolución” genética ha ido acompañada de un importante esfuerzo en el desarrollo de sistemas de integración de datos heterogéneos cada vez más sofisticados. Sin embargo, los sistemas construidos han utilizado a menudo soluciones “ad hoc” para cada problema. Aún cuando existen arquitecturas y estándares bien establecidos en esta área, cada sistema es diseñado y construido desde cero ante cada nueva situación. Asimismo, los sistemas desarrollados no son, en general, válidos para problemas diferentes o para un conjunto distinto de requisitos. Ha faltado por tanto un verdadero esfuerzo por estandarizar este tipo de sistemas. En esta tesis doctoral se propone un modelo genérico de sistemas de integración de datos heterogéneos que facilite el diseño de los mismos. Se aporta asimismo una metodología basada en dicho modelo y destinada a hacer más eficientes los procesos de implementación y despliegue de estos sistemas. El modelo presentado se basa en un análisis exhaustivo de las características inherentes de los sistemas de integración de datos. La metodología propuesta, por su parte, hace uso de los estándares y tecnologías más extendidos hoy en día en el ámbito de acceso, gestión y compartición de información de carácter biomédico. Asimismo, dicha metodologia se basa en el uso de modelos ontológicos como paradigma de caracterización de la información, dado su uso mayoritario en este campo. Se persigue de esta manera ofrecer un marco estándar de diseño y desarrollo de sistemas de integración que evite las implementaciones redundantes tan comunes en esta área. Se lograría así un avance importante en el área del desarrollo de herramientas de integración de datos heterogéneos al proporcionar un marco para el diseño e implementación de estos sistemas. El trabajo de esta tesis doctoral se ha llevado a cabo en el marco de un proyecto europeo de investigación, que ha servido a su vez de entorno de pruebas y validación del modelo y metodología propuestos.
Resumo:
El crecimiento de Internet y la proliferación de información multidominio de forma pública ha propiciado la aparición de nuevas oportunidades en entornos muy dispares, principalmente en el ámbito de la investigación. Además, desde que se planteara el concepto de Web Semántica se han venido desarrollando un nutrido conjunto de herramientas y estándares ideados para facilitar la interoperabilidad en la World Wide Web. Este factor adicional posibilita el acceso a datos compartidos y su integración de forma mucho más abierta y comprensible, siendo la tendencia esperada la de acercarse poco a poco a la completa homogeneización de los contenidos disponibles en Internet. En este trabajo de tesis doctoral se presenta un método en cinco fases para la mediación semántica y sintáctica en sistemas de bases de datos integradas. Los lenguajes y estándares más utilizados para el desarrollo de este método son los asociados a la Web Semántica para la descripción de esquemas, recursos y consultas. En conjunto con este trabajo teórico se han desarrollado una serie de componentes software para dar servicio conjunto a las distintas problemáticas asociadas al enfoque elegido. Estos componentes han sido construidos dentro del marco del proyecto europeo ACGT1, centrado en el apoyo a los ensayos clínicos post-genómicos en cáncer. La ejecución completa del método propuesto permite crear consultas SPARQL a partir de descripciones en lenguaje natural, y resolver automáticamente algunos de los problemas más importantes en el proceso de mediación, tales como la resolución de conflictos y ambigüedades, la traducción de consultas y la gestión de restricciones. Además, lo experimentos llevados a cabo en este trabajo muestran cómo estas tareas pueden ser realizadas de manera eficiente. Además de las tareas propias de la mediación semántica, se ha dotado al método de una solución para agilizar la construcción de componentes para la homogeneización de las interfaces sintácticas y tecnológicas con los propios recursos de datos. Esto resulta especialmente útil cuando las fuentes carecen de esquema o el medio de acceso no está diseñado específicamente para llevar a cabo una integración. Para la evaluación de la utilidad, viabilidad y eficiencia del método y las herramientas asociadas se han desarrollado en primer lugar una serie de experimentos en el contexto de ACGT. Estos experimentos han sido validados en diversas revisiones por expertos en el dominio de la medicina y los sistemas de información. Además se presenta una evaluación teórica de la eficiencia de los algoritmos presentados, demostrándose que para el caso general se encuentra una solución en tiempo polinómico. La conclusión final de esta tesis es que el conjunto de técnicas presentadas es útil, viable y eficiente para la explotación de la información integrada a partir de repositorios heterogéneos.
Resumo:
El siguiente artículo describe el proceso de aplicación de tecnologías de la Web semántica para el enriquecimiento de una biblioteca de contenidos musicales, en el contexto del proyecto Semusici. El propósito del proyecto Semusici es investigar como las tecnologías de la Web semántica pueden ser aplicadas a bibliotecas digitales y como esto puede mejorar la búsqueda y la accesibilidad. Este proyecto parte de los resultados del proyecto de eContent Harmos, que definía una taxonomía musical para la catalogación de clases magistrales, y propone una metodología para la conversión de esta taxonomía en una ontología y la migración de los contenidos de Harmos.
Resumo:
Estamos viviendo la era de la Internetificación. A día de hoy, las conexiones a Internet se asumen presentes en nuestro entorno como una necesidad más. La Web, se ha convertido en un lugar de generación de contenido por los usuarios. Una información generada, que sobrepasa la idea con la que surgió esta, ya que en la mayoría de casos, su contenido no se ha diseñado más que para ser consumido por humanos, y no por máquinas. Esto supone un cambio de mentalidad en la forma en que diseñamos sistemas capaces de soportar una carga computacional y de almacenamiento que crece sin un fin aparente. Al mismo tiempo, vivimos un momento de crisis de la educación superior: los altos costes de una educación de calidad suponen una amenaza para el mundo académico. Mediante el uso de la tecnología, se puede lograr un incremento de la productividad, y una reducción en dichos costes en un campo, en el que apenas se ha avanzado desde el Renacimiento. En CloudRoom se ha diseñado una plataforma MOOC con una arquitectura ajustada a las últimas convenciones en Cloud Computing, que implica el uso de Servicios REST, bases de datos NoSQL, y que hace uso de las últimas recomendaciones del W3C en materia de desarrollo web y Linked Data. Para su construcción, se ha hecho uso de métodos ágiles de Ingeniería del Software, técnicas de Interacción Persona-Ordenador, y tecnologías de última generación como Neo4j, Redis, Node.js, AngularJS, Bootstrap, HTML5, CSS3 o Amazon Web Services. Se ha realizado un trabajo integral de Ingeniería Informática, combinando prácticamente la totalidad de aquellas áreas de conocimiento fundamentales en Informática. En definitiva se han ideado las bases de un sistema distribuido robusto, mantenible, con características sociales y semánticas, que puede ser ejecutado en múltiples dispositivos, y que es capaz de responder ante millones de usuarios. We are living through an age of Internetification. Nowadays, Internet connections are a utility whose presence one can simply assume. The web has become a place of generation of content by users. The information generated surpasses the notion with which the World Wide Web emerged because, in most cases, this content has been designed to be consumed by humans and not by machines. This fact implies a change of mindset in the way that we design systems; these systems should be able to support a computational and storage capacity that apparently grows endlessly. At the same time, our education system is in a state of crisis: the high costs of high-quality education threaten the academic world. With the use of technology, we could achieve an increase of productivity and quality, and a reduction of these costs in this field, which has remained largely unchanged since the Renaissance. In CloudRoom, a MOOC platform has been designed with an architecture that satisfies the last conventions on Cloud Computing; which involves the use of REST services, NoSQL databases, and uses the last recommendations from W3C in terms of web development and Linked Data. For its building process, agile methods of Software Engineering, Human-Computer Interaction techniques, and state of the art technologies such as Neo4j, Redis, Node.js, AngularJS, Bootstrap, HTML5, CSS3 or Amazon Web Services have been used. Furthermore, a comprehensive Informatics Engineering work has been performed, by combining virtually all of the areas of knowledge in Computer Science. Summarizing, the pillars of a robust, maintainable, and distributed system have been devised; a system with social and semantic capabilities, which runs in multiple devices, and scales to millions of users.
Resumo:
El trabajo ha sido realizado dentro del marco de los proyectos EURECA (Enabling information re-Use by linking clinical REsearch and Care) e INTEGRATE (Integrative Cancer Research Through Innovative Biomedical Infrastructures), en los que colabora el Grupo de Informática Biomédica de la UPM junto a otras universidades e instituciones sanitarias europeas. En ambos proyectos se desarrollan servicios e infraestructuras con el objetivo principal de almacenar información clínica, procedente de fuentes diversas (como por ejemplo de historiales clínicos electrónicos de hospitales, de ensayos clínicos o artículos de investigación biomédica), de una forma común y fácilmente accesible y consultable para facilitar al máximo la investigación de estos ámbitos, de manera colaborativa entre instituciones. Esta es la idea principal de la interoperabilidad semántica en la que se concentran ambos proyectos, siendo clave para el correcto funcionamiento del software del que se componen. El intercambio de datos con un modelo de representación compartido, común y sin ambigüedades, en el que cada concepto, término o dato clínico tendrá una única forma de representación. Lo cual permite la inferencia de conocimiento, y encaja perfectamente en el contexto de la investigación médica. En concreto, la herramienta a desarrollar en este trabajo también está orientada a la idea de maximizar la interoperabilidad semántica, pues se ocupa de la carga de información clínica con un formato estandarizado en un modelo común de almacenamiento de datos, implementado en bases de datos relacionales. El trabajo ha sido desarrollado en el periodo comprendido entre el 3 de Febrero y el 6 de Junio de 2014. Se ha seguido un ciclo de vida en cascada para la organización del trabajo realizado en las tareas de las que se compone el proyecto, de modo que una fase no puede iniciarse sin que se haya terminado, revisado y aceptado la fase anterior. Exceptuando la tarea de documentación del trabajo (para la elaboración de esta memoria), que se ha desarrollado paralelamente a todas las demás. ----ABSTRACT--- The project has been developed during the second semester of the 2013/2014 academic year. This Project has been done inside EURECA and INTEGRATE European biomedical research projects, where the GIB (Biomedical Informatics Group) of the UPM works as a partner. Both projects aim is to develop platforms and services with the main goal of storing clinical information (e.g. information from hospital electronic health records (EHRs), clinical trials or research articles) in a common way and easy to access and query, in order to support medical research. The whole software environment of these projects is based on the idea of semantic interoperability, which means the ability of computer systems to exchange data with unambiguous and shared meaning. This idea allows knowledge inference, which fits perfectly in medical research context. The tool to develop in this project is also "semantic operability-oriented". Its purpose is to store standardized clinical information in a common data model, implemented in relational databases. The project has been performed during the period between February 3rd and June 6th, of 2014. It has followed a "Waterfall model" of software development, in which progress is seen as flowing steadily downwards through its phases. Each phase starts when its previous phase has been completed and reviewed. The task of documenting the project‟s work is an exception; it has been performed in a parallel way to the rest of the tasks.
Resumo:
El trabajo se enmarca dentro de los proyecto INTEGRATE y EURECA, cuyo objetivo es el desarrollo de una capa de interoperabilidad semántica que permita la integración de datos e investigación clínica, proporcionando una plataforma común que pueda ser integrada en diferentes instituciones clínicas y que facilite el intercambio de información entre las mismas. De esta manera se promueve la mejora de la práctica clínica a través de la cooperación entre instituciones de investigación con objetivos comunes. En los proyectos se hace uso de estándares y vocabularios clínicos ya existentes, como pueden ser HL7 o SNOMED, adaptándolos a las necesidades particulares de los datos con los que se trabaja en INTEGRATE y EURECA. Los datos clínicos se representan de manera que cada concepto utilizado sea único, evitando ambigüedades y apoyando la idea de plataforma común. El alumno ha formado parte de un equipo de trabajo perteneciente al Grupo de Informática de la UPM, que a su vez trabaja como uno de los socios de los proyectos europeos nombrados anteriormente. La herramienta desarrollada, tiene como objetivo realizar tareas de homogenización de la información almacenada en las bases de datos de los proyectos haciendo uso de los mecanismos de normalización proporcionados por el vocabulario médico SNOMED-CT. Las bases de datos normalizadas serán las utilizadas para llevar a cabo consultas por medio de servicios proporcionados en la capa de interoperabilidad, ya que contendrán información más precisa y completa que las bases de datos sin normalizar. El trabajo ha sido realizado entre el día 12 de Septiembre del año 2014, donde comienza la etapa de formación y recopilación de información, y el día 5 de Enero del año 2015, en el cuál se termina la redacción de la memoria. El ciclo de vida utilizado ha sido el de desarrollo en cascada, en el que las tareas no comienzan hasta que la etapa inmediatamente anterior haya sido finalizada y validada. Sin embargo, no todas las tareas han seguido este modelo, ya que la realización de la memoria del trabajo se ha llevado a cabo de manera paralela con el resto de tareas. El número total de horas dedicadas al Trabajo de Fin de Grado es 324. Las tareas realizadas y el tiempo de dedicación de cada una de ellas se detallan a continuación: Formación. Etapa de recopilación de información necesaria para implementar la herramienta y estudio de la misma [30 horas. Especificación de requisitos. Se documentan los diferentes requisitos que ha de cumplir la herramienta [20 horas]. Diseño. En esta etapa se toman las decisiones de diseño de la herramienta [35 horas]. Implementación. Desarrollo del código de la herramienta [80 horas]. Pruebas. Etapa de validación de la herramienta, tanto de manera independiente como integrada en los proyectos INTEGRATE y EURECA [70 horas]. Depuración. Corrección de errores e introducción de mejoras de la herramienta [45 horas]. Realización de la memoria. Redacción de la memoria final del trabajo [44 horas].---ABSTRACT---This project belongs to the semantic interoperability layer developed in the European projects INTEGRATE and EURECA, which aims to provide a platform to promote interchange of medical information from clinical trials to clinical institutions. Thus, research institutions may cooperate to enhance clinical practice. Different health standards and clinical terminologies has been used in both INTEGRATE and EURECA projects, e.g. HL7 or SNOMED-CT. These tools have been adapted to the projects data requirements. Clinical data are represented by unique concepts, avoiding ambiguity problems. The student has been working in the Biomedical Informatics Group from UPM, partner of the INTEGRATE and EURECA projects. The tool developed aims to perform homogenization tasks over information stored in databases of the project, through normalized representation provided by the SNOMED-CT terminology. The data query is executed against the normalized version of the databases, since the information retrieved will be more informative than non-normalized databases. The project has been performed from September 12th of 2014, when initiation stage began, to January 5th of 2015, when the final report was finished. The waterfall model for software development was followed during the working process. Therefore, a phase may not start before the previous one finishes and has been validated, except from the final report redaction, which has been carried out in parallel with the others phases. The tasks that have been developed and time for each one are detailed as follows: Training. Gathering the necessary information to develop the tool [30 hours]. Software requirement specification. Requirements the tool must accomplish [20 hours]. Design. Decisions on the design of the tool [35 hours]. Implementation. Tool development [80 hours]. Testing. Tool evaluation within the framework of the INTEGRATE and EURECA projects [70 hours]. Debugging. Improve efficiency and correct errors [45 hours]. Documenting. Final report elaboration [44 hours].
Resumo:
El trabajo que se presenta a continuación desarrolla un modelo para calcular la distancia semántica entre dos oraciones representadas por grafos UNL. Este problema se plantea en el contexto de la traducción automática donde diferentes traductores pueden generar oraciones ligeramente diferentes partiendo del mismo original. La medida de distancia que se propone tiene como objetivo proporcionar una evaluación objetiva sobre la calidad del proceso de generación del texto. El autor realiza una exploración del estado del arte sobre esta materia, reuniendo en un único trabajo los modelos propuestos de distancia semántica entre conceptos, los modelos de comparación de grafos y las pocas propuestas realizadas para calcular distancias entre grafos conceptuales. También evalúa los pocos recursos disponibles para poder experimentar el modelo y plantea una metodología para generar los conjuntos de datos que permitirían aplicar la propuesta con el rigor científico necesario y desarrollar la experimentación. Utilizando las piezas anteriores se propone un modelo novedoso de comparación entre grafos conceptuales que permite utilizar diferentes algoritmos de distancia entre conceptos y establecer umbrales de tolerancia para permitir una comparación flexible entre las oraciones. Este modelo se programa utilizando C++, se alimenta con los recursos a los que se ha hecho referencia anteriormente, y se experimenta con un conjunto de oraciones creado por el autor ante la falta de otros recursos disponibles. Los resultados del modelo muestran que la metodología y la implementación pueden conducir a la obtención de una medida de distancia entre grafos UNL con aplicación en sistemas de traducción automática, sin embargo, la carencia de recursos y de datos etiquetados con los que validar el algoritmo requieren un esfuerzo previo importante antes de poder ofrecer resultados concluyentes.---ABSTRACT---The work presented here develops a model to calculate the semantic distance between two sentences represented by their UNL graphs. This problem arises in the context of machine translation where different translators can generate slightly different sentences from the same original. The distance measure that is proposed aims to provide an objective evaluation on the quality of the process involved in the generation of text. The author carries out an exploration of the state of the art on this subject, bringing together in a single work the proposed models of semantic distance between concepts, models for comparison of graphs and the few proposals made to calculate distances between conceptual graphs. It also assesses the few resources available to experience the model and presents a methodology to generate the datasets that would be needed to develop the proposal with the scientific rigor required and to carry out the experimentation. Using the previous parts a new model is proposed to compute differences between conceptual graphs; this model allows the use of different algorithms of distance between concepts and is parametrized in order to be able to perform a flexible comparison between the resulting sentences. This model is implemented in C++ programming language, it is powered with the resources referenced above and is experienced with a set of sentences created by the author due to the lack of other available resources. The results of the model show that the methodology and the implementation can lead to the achievement of a measure of distance between UNL graphs with application in machine translation systems, however, lack of resources and of labeled data to validate the algorithm requires an important effort to be done first in order to be able to provide conclusive results.
Resumo:
Tradicionalmente, los entornos virtuales se han relacionado o vinculado de forma muy estrecha con campos como el diseño de escenarios tridimensionales o los videojuegos; dejando poco margen a poder pensar en sus aplicaciones en otros ámbitos. Sin embargo, estas tendencias pueden cambiar en tanto se demuestre que las aplicaciones y ventajas de estas facilidades software, se pueden extrapolar a su uso en el ámbito de la enseñanza y el aprendizaje. Estas aplicaciones son los conocidos como Entornos Virtuales Inteligentes (EVI); los cuales, tratan de usar un entorno virtual para llevar a cabo labores de enseñanza y tutoría, aportando ventajas como simulación de entornos peligrosos o tutorización personalizada; cosa que no podemos encontrar en la mayoría de los casos de las situaciones de enseñanza reales. Este trabajo trata de dar solución a una de las problemáticas que se plantean a la hora de trabajar con cualquier entorno virtual con el que nos encontremos y prepararlo para su cometido, sobre todo en aquellos enfocados a la enseñanza: dotar de forma automática e inteligente de una semántica propia a cada uno de los objetos que se encuentran en un entorno virtual y almacenar esta información para su posterior consulta o uso para otras tareas. Esto quiere decir que el objetivo principal de este trabajo, es el proceso de recolección de información que se considera importante de los objetos de los entornos virtuales, como pueden ser sus aspectos de la forma, tamaño o color. Aspectos que, por otra parte, son realmente importantes para poder caracterizar los objetos y hacerlos únicos en un entorno virtual donde, a priori, todos los objetos son los mismos a ojos de un ordenador. Este trabajo que puede parecer trivial en un principio, no lo es tanto; y servirá de sustento fundamental para que otras aplicaciones futuras o ya existentes puedan realizar sus tareas. Una de estas tareas pudiera ser la generación de indicaciones en lenguaje natural para guiar a usuarios a localizar objetos en un entorno virtual, como es el caso del proyecto LORO sobre el que se engloba este trabajo. Algunos ejemplos de uso de esta tarea pueden ser desde ayudar a cualquier usuario a encontrar sus llaves en su propia casa a ayudar a un cirujano a localizar cierta herramienta en un quirófano. Para ello, es indispensable conocer la semántica e información relevante de cada uno de los objetos que se presentan en la escena y diferenciarlos claramente del resto. La solución propuesta se trata de una completa aplicación integrada en el motor de videojuegos y escenarios 3D de mayor soporte del mundo como es Unity 3D, el cual se interrelaciona con ontologías para poder guardar la información de los objetos de cada escena. Esto hace que la aplicación tenga una potencial difusión, gracias a las herramientas antes mencionadas para su desarrollo y a que está pensada para tanto el usuario experto como el usuario común.---ABSTRACT---Traditionally, virtual environments have been related to tridimensional design and videogames; leaving a little margin to think about its applications in other fields. However, this tendencies can be changed as soon as it is proven that the applications and advantages of this software can be taken to the learning and teaching environment. This applications are known as intelligent virtual environments, these use the virtual environment to perform teaching and tutoring tasks; tasks we cannot find in most real life teaching situations. This project aims to give a solution to one of the problematics that appears when someone works with any virtual environments we may encounter and prepare it for its duty, mainly those environments dedicated to teaching: automatically and intelligently give its own semantic to the objects that are in any virtual environment and save this information for its posterior query or use in other tasks. The main purpose of this project is the information recollection process that considers the different important facts about the objects that are in the virtual environments, such as their shape, size or color. Facts that are very important for characterizing the objects; to make them unique in the environment where the objects are all the same to the computer’s eye. This project may seem banal in the beginning, but it is not, it will be the fundamental base for future applications. One of this applications may be a natural language indicator generator for guiding users to locate objects in a virtual environment, such as the LORO project, where this project is included. Some examples of the use of this task are: helping any user to find the keys of his house, helping a surgeon to find a tool in an operation room… For this goals, it is very important to know the semantics and the relevant information of each object of the scenario and differentiate each one of them from the rest. The solution for this proposal is a fully integrated application in the videogame and Unity 3D engine that is related to ontologies so it can save the object’s information in every scenario. The previously mentioned tools, as well as the idea that this application is made for an expert user as well as for a common user, make the application more spreadable.
Resumo:
En esta tesis se estudia la representación, modelado y comparación de colecciones mediante el uso de ontologías en el ámbito de la Web Semántica. Las colecciones, entendidas como agrupaciones de objetos o elementos con entidad propia, son construcciones que aparecen frecuentemente en prácticamente todos los dominios del mundo real, y por tanto, es imprescindible disponer de conceptualizaciones de estas estructuras abstractas y de representaciones de estas conceptualizaciones en los sistemas informáticos, que definan adecuadamente su semántica. Mientras que en muchos ámbitos de la Informática y la Inteligencia Artificial, como por ejemplo la programación, las bases de datos o la recuperación de información, las colecciones han sido ampliamente estudiadas y se han desarrollado representaciones que responden a multitud de conceptualizaciones, en el ámbito de la Web Semántica, sin embargo, su estudio ha sido bastante limitado. De hecho hasta la fecha existen pocas propuestas de representación de colecciones mediante ontologías, y las que hay sólo cubren algunos tipos de colecciones y presentan importantes limitaciones. Esto impide la representación adecuada de colecciones y dificulta otras tareas comunes como la comparación de colecciones, algo crítico en operaciones habituales como las búsquedas semánticas o el enlazado de datos en la Web Semántica. Para solventar este problema esta tesis hace una propuesta de modelización de colecciones basada en una nueva clasificación de colecciones de acuerdo a sus características estructurales (homogeneidad, unicidad, orden y cardinalidad). Esta clasificación permite definir una taxonomía con hasta 16 tipos de colecciones distintas. Entre otras ventajas, esta nueva clasificación permite aprovechar la semántica de las propiedades estructurales de cada tipo de colección para realizar comparaciones utilizando las funciones de similitud y disimilitud más apropiadas. De este modo, la tesis desarrolla además un nuevo catálogo de funciones de similitud para las distintas colecciones, donde se han recogido las funciones de (di)similitud más conocidas y también algunas nuevas. Esta propuesta se ha implementado mediante dos ontologías paralelas, la ontología E-Collections, que representa los distintos tipos de colecciones de la taxonomía y su axiomática, y la ontología SIMEON (Similarity Measures Ontology) que representa los tipos de funciones de (di)similitud para cada tipo de colección. Gracias a estas ontologías, para comparar dos colecciones, una vez representadas como instancias de la clase más apropiada de la ontología E-Collections, automáticamente se sabe qué funciones de (di)similitud de la ontología SIMEON pueden utilizarse para su comparación. Abstract This thesis studies the representation, modeling and comparison of collections in the Semantic Web using ontologies. Collections, understood as groups of objects or elements with their own identities, are constructions that appear frequently in almost all areas of the real world. Therefore, it is essential to have conceptualizations of these abstract structures and representations of these conceptualizations in computer systems, that define their semantic properly. While in many areas of Computer Science and Artificial Intelligence, such as Programming, Databases or Information Retrieval, the collections have been extensively studied and there are representations that match many conceptualizations, in the field Semantic Web, however, their study has been quite limited. In fact, there are few representations of collections using ontologies so far, and they only cover some types of collections and have important limitations. This hinders a proper representation of collections and other common tasks like comparing collections, something critical in usual operations such as semantic search or linking data on the Semantic Web. To solve this problem this thesis makes a proposal for modelling collections based on a new classification of collections according to their structural characteristics (homogeneity, uniqueness, order and cardinality). This classification allows to define a taxonomy with up to 16 different types of collections. Among other advantages, this new classification can leverage the semantics of the structural properties of each type of collection to make comparisons using the most appropriate (dis)similarity functions. Thus, the thesis also develops a new catalog of similarity functions for the different types of collections. This catalog contains the most common (dis)similarity functions as well as new ones. This proposal is implemented through two parallel ontologies, the E-Collections ontology that represents the different types of collections in the taxonomy and their axiomatic, and the SIMEON ontology (Similarity Measures Ontology) that represents the types of (dis)similarity functions for each type of collection. Thanks to these ontologies, to compare two collections, once represented as instances of the appropriate class of E-Collections ontology, we can know automatically which (dis)similarity functions of the SIMEON ontology are suitable for the comparison. Finally, the feasibility and usefulness of this modeling and comparison of collections proposal is proved in the field of oenology, applying both E-Collections and SIMEON ontologies to the representation and comparison of wines with the E-Baco ontology.