Biblioteca Digital

50 resultados para heterogeneous data sources

Towards efficient processing of RDF Data Streams

Relevância:

90.00% 90.00%

Publicador:

Resumo:

In the last years, there has been an increase in the amount of real-time data generated. Sensors attached to things are transforming how we interact with our environment. Extracting meaningful information from these streams of data is essential for some application areas and requires processing systems that scale to varying conditions in data sources, complex queries, and system failures. This paper describes ongoing research on the development of a scalable RDF streaming engine.

Efficient RDF Interchange (ERI) format for RDF data streams

Relevância:

90.00% 90.00%

Publicador:

Resumo:

RDF streams are sequences of timestamped RDF statements or graphs, which can be generated by several types of data sources (sensors, social networks, etc.). They may provide data at high volumes and rates, and be consumed by applications that require real-time responses. Hence it is important to publish and interchange them efficiently. In this paper, we exploit a key feature of RDF data streams, which is the regularity of their structure and data values, proposing a compressed, efficient RDF interchange (ERI) format, which can reduce the amount of data transmitted when processing RDF streams. Our experimental evaluation shows that our format produces state-of-the-art streaming compression, remaining efficient in performance.

Sistema para integrar automáticamente datos públicos del NCBI en la plataforma de medicina personalizada p-medicine

Relevância:

90.00% 90.00%

Publicador:

Resumo:

En los últimos años ha habido un gran aumento de fuentes de datos biomédicos. La aparición de nuevas técnicas de extracción de datos genómicos y generación de bases de datos que contienen esta información ha creado la necesidad de guardarla para poder acceder a ella y trabajar con los datos que esta contiene. La información contenida en las investigaciones del campo biomédico se guarda en bases de datos. Esto se debe a que las bases de datos permiten almacenar y manejar datos de una manera simple y rápida. Dentro de las bases de datos existen una gran variedad de formatos, como pueden ser bases de datos en Excel, CSV o RDF entre otros. Actualmente, estas investigaciones se basan en el análisis de datos, para a partir de ellos, buscar correlaciones que permitan inferir, por ejemplo, tratamientos nuevos o terapias más efectivas para una determinada enfermedad o dolencia. El volumen de datos que se maneja en ellas es muy grande y dispar, lo que hace que sea necesario el desarrollo de métodos automáticos de integración y homogeneización de los datos heterogéneos. El proyecto europeo p-medicine (FP7-ICT-2009-270089) tiene como objetivo asistir a los investigadores médicos, en este caso de investigaciones relacionadas con el cáncer, proveyéndoles con nuevas herramientas para el manejo de datos y generación de nuevo conocimiento a partir del análisis de los datos gestionados. La ingestión de datos en la plataforma de p-medicine, y el procesamiento de los mismos con los métodos proporcionados, buscan generar nuevos modelos para la toma de decisiones clínicas. Dentro de este proyecto existen diversas herramientas para integración de datos heterogéneos, diseño y gestión de ensayos clínicos, simulación y visualización de tumores y análisis estadístico de datos. Precisamente en el ámbito de la integración de datos heterogéneos surge la necesidad de añadir información externa al sistema proveniente de bases de datos públicas, así como relacionarla con la ya existente mediante técnicas de integración semántica. Para resolver esta necesidad se ha creado una herramienta, llamada Term Searcher, que permite hacer este proceso de una manera semiautomática. En el trabajo aquí expuesto se describe el desarrollo y los algoritmos creados para su correcto funcionamiento. Esta herramienta ofrece nuevas funcionalidades que no existían dentro del proyecto para la adición de nuevos datos provenientes de fuentes públicas y su integración semántica con datos privados.---ABSTRACT---Over the last few years, there has been a huge growth of biomedical data sources. The emergence of new techniques of genomic data generation and data base generation that contain this information, has created the need of storing it in order to access and work with its data. The information employed in the biomedical research field is stored in databases. This is due to the capability of databases to allow storing and managing data in a quick and simple way. Within databases there is a variety of formats, such as Excel, CSV or RDF. Currently, these biomedical investigations are based on data analysis, which lead to the discovery of correlations that allow inferring, for example, new treatments or more effective therapies for a specific disease or ailment. The volume of data handled in them is very large and dissimilar, which leads to the need of developing new methods for automatically integrating and homogenizing the heterogeneous data. The p-medicine (FP7-ICT-2009-270089) European project aims to assist medical researchers, in this case related to cancer research, providing them with new tools for managing and creating new knowledge from the analysis of the managed data. The ingestion of data into the platform and its subsequent processing with the provided tools aims to enable the generation of new models to assist in clinical decision support processes. Inside this project, there exist different tools related to areas such as the integration of heterogeneous data, the design and management of clinical trials, simulation and visualization of tumors and statistical data analysis. Particularly in the field of heterogeneous data integration, there is a need to add external information from public databases, and relate it to the existing ones through semantic integration methods. To solve this need a tool has been created: the term Searcher. This tool aims to make this process in a semiautomatic way. This work describes the development of this tool and the algorithms employed in its operation. This new tool provides new functionalities that did not exist inside the p-medicine project for adding new data from public databases and semantically integrate them with private data.

Recuperación cruzada de información pública clínico-genómica a partir de consultas sobre repositorios clínicos privados

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Parte de la investigación biomédica actual se encuentra centrada en el análisis de datos heterogéneos. Estos datos pueden tener distinto origen, estructura, y semántica. Gran cantidad de datos de interés para los investigadores se encuentran en bases de datos públicas, que recogen información de distintas fuentes y la ponen a disposición de la comunidad de forma gratuita. Para homogeneizar estas fuentes de datos públicas con otras de origen privado, existen diversas herramientas y técnicas que permiten automatizar los procesos de homogeneización de datos heterogéneos. El Grupo de Informática Biomédica (GIB) [1] de la Universidad Politécnica de Madrid colabora en el proyecto europeo P-medicine [2], cuya finalidad reside en el desarrollo de una infraestructura que facilite la evolución de los procedimientos médicos actuales hacia la medicina personalizada. Una de las tareas enmarcadas en el proyecto P-medicine que tiene asignado el grupo consiste en elaborar herramientas que ayuden a usuarios en el proceso de integración de datos contenidos en fuentes de información heterogéneas. Algunas de estas fuentes de información son bases de datos públicas de ámbito biomédico contenidas en la plataforma NCBI [3] (National Center for Biotechnology Information). Una de las herramientas que el grupo desarrolla para integrar fuentes de datos es Ontology Annotator. En una de sus fases, la labor del usuario consiste en recuperar información de una base de datos pública y seleccionar de forma manual los resultados relevantes. Para automatizar el proceso de búsqueda y selección de resultados relevantes, por un lado existe un gran interés en conseguir generar consultas que guíen hacia resultados lo más precisos y exactos como sea posible, por otro lado, existe un gran interés en extraer información relevante de elevadas cantidades de documentos, lo cual requiere de sistemas que analicen y ponderen los datos que caracterizan a los mismos. En el campo informático de la inteligencia artificial, dentro de la rama de la recuperación de la información, existen diversos estudios acerca de la expansión de consultas a partir de retroalimentación relevante que podrían ser de gran utilidad para dar solución a la cuestión. Estos estudios se centran en técnicas para reformular o expandir la consulta inicial utilizando como realimentación los resultados que en una primera instancia fueron relevantes para el usuario, de forma que el nuevo conjunto de resultados tenga mayor proximidad con los que el usuario realmente desea. El objetivo de este trabajo de fin de grado consiste en el estudio, implementación y experimentación de métodos que automaticen el proceso de extracción de información trascendente de documentos, utilizándola para expandir o reformular consultas. De esta forma se pretende mejorar la precisión y el ranking de los resultados asociados. Dichos métodos serán integrados en la herramienta Ontology Annotator y enfocados a la fuente de datos de PubMed [4].---ABSTRACT---Part of the current biomedical research is focused on the analysis of heterogeneous data. These data may have different origin, structure and semantics. A big quantity of interesting data is contained in public databases which gather information from different sources and make it open and free to be used by the community. In order to homogenize thise sources of public data with others which origin is private, there are some tools and techniques that allow automating the processes of integration heterogeneous data. The biomedical informatics group of the Universidad Politécnica de Madrid cooperates with the European project P-medicine which main purpose is to create an infrastructure and models to facilitate the transition from current medical practice to personalized medicine. One of the tasks of the project that the group is in charge of consists on the development of tools that will help users in the process of integrating data from diverse sources. Some of the sources are biomedical public data bases from the NCBI platform (National Center for Biotechnology Information). One of the tools in which the group is currently working on for the integration of data sources is called the Ontology Annotator. In this tool there is a phase in which the user has to retrieve information from a public data base and select the relevant data contained in it manually. For automating the process of searching and selecting data on the one hand, there is an interest in automatically generating queries that guide towards the more precise results as possible. On the other hand, there is an interest on retrieve relevant information from large quantities of documents. The solution requires systems that analyze and weigh the data allowing the localization of the relevant items. In the computer science field of the artificial intelligence, in the branch of information retrieval there are diverse studies about the query expansion from relevance feedback that could be used to solve the problem. The main purpose of this studies is to obtain a set of results that is the closer as possible to the information that the user really wants to retrieve. In order to reach this purpose different techniques are used to reformulate or expand the initial query using a feedback the results that where relevant for the user, with this method, the new set of results will have more proximity with the ones that the user really desires. The goal of this final dissertation project consists on the study, implementation and experimentation of methods that automate the process of extraction of relevant information from documents using this information to expand queries. This way, the precision and the ranking of the results associated will be improved. These methods will be integrated in the Ontology Annotator tool and will focus on the PubMed data source.

Query Rewriting Optimisation Techniques for Ontology-Based Data Access

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Ontology-Based Data Access (OBDA) permite el acceso a diferentes tipos de fuentes de datos (tradicionalmente bases de datos) usando un modelo más abstracto proporcionado por una ontología. La reescritura de consultas (query rewriting) usa una ontología para reescribir una consulta en una consulta reescrita que puede ser evaluada en la fuente de datos. Las consultas reescritas recuperan las respuestas que están implicadas por la combinación de los datos explicitamente almacenados en la fuente de datos, la consulta original y la ontología. Al trabajar sólo sobre las queries, la reescritura de consultas permite OBDA sobre cualquier fuente de datos que puede ser consultada, independientemente de las posibilidades para modificarla. Sin embargo, producir y evaluar las consultas reescritas son procesos costosos que suelen volverse más complejos conforme la expresividad y tamaño de la ontología y las consultas aumentan. En esta tesis exploramos distintas optimizaciones que peuden ser realizadas tanto en el proceso de reescritura como en las consultas reescritas para mejorar la aplicabilidad de OBDA en contextos realistas. Nuestra contribución técnica principal es un sistema de reescritura de consultas que implementa las optimizaciones presentadas en esta tesis. Estas optimizaciones son las contribuciones principales de la tesis y se pueden agrupar en tres grupos diferentes: -optimizaciones que se pueden aplicar al considerar los predicados en la ontología que no están realmente mapeados con las fuentes de datos. -optimizaciones en ingeniería que se pueden aplicar al manejar el proceso de reescritura de consultas en una forma que permite reducir la carga computacional del proceso de generación de consultas reescritas. -optimizaciones que se pueden aplicar al considerar metainformación adicional acerca de las características de la ABox. En esta tesis proporcionamos demostraciones formales acerca de la corrección y completitud de las optimizaciones propuestas, y una evaluación empírica acerca del impacto de estas optimizaciones. Como contribución adicional, parte de este enfoque empírico, proponemos un banco de pruebas (benchmark) para la evaluación de los sistemas de reescritura de consultas. Adicionalmente, proporcionamos algunas directrices para la creación y expansión de esta clase de bancos de pruebas. ABSTRACT Ontology-Based Data Access (OBDA) allows accessing different kinds of data sources (traditionally databases) using a more abstract model provided by an ontology. Query rewriting uses such ontology to rewrite a query into a rewritten query that can be evaluated on the data source. The rewritten queries retrieve the answers that are entailed by the combination of the data explicitly stored in the data source, the original query and the ontology. However, producing and evaluating the rewritten queries are both costly processes that become generally more complex as the expressiveness and size of the ontology and queries increase. In this thesis we explore several optimisations that can be performed both in the rewriting process and in the rewritten queries to improve the applicability of OBDA in real contexts. Our main technical contribution is a query rewriting system that implements the optimisations presented in this thesis. These optimisations are the core contributions of the thesis and can be grouped into three different groups: -optimisations that can be applied when considering the predicates in the ontology that are actually mapped to the data sources. -engineering optimisations that can be applied by handling the process of query rewriting in a way that permits to reduce the computational load of the query generation process. -optimisations that can be applied when considering additional metainformation about the characteristics of the ABox. In this thesis we provide formal proofs for the correctness of the proposed optimisations, and an empirical evaluation about the impact of the optimisations. As an additional contribution, part of this empirical approach, we propose a benchmark for the evaluation of query rewriting systems. We also provide some guidelines for the creation and expansion of this kind of benchmarks.

Arquitectura y modelo de referencia para un ecosistema de intercambio de datos personales centrado en el usuario

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Los servicios telemáticos han transformando la mayoría de nuestras actividades cotidianas y ofrecen oportunidades sin precedentes con características como, por ejemplo, el acceso ubicuo, la disponibilidad permanente, la independencia del dispositivo utilizado, la multimodalidad o la gratuidad, entre otros. No obstante, los beneficios que destacan en cuanto se reflexiona sobre estos servicios, tienen como contrapartida una serie de riesgos y amenazas no tan obvios, ya que éstos se nutren de y tratan con datos personales, lo cual suscita dudas respecto a la privacidad de las personas. Actualmente, las personas que asumen el rol de usuarios de servicios telemáticos generan constantemente datos digitales en distintos proveedores. Estos datos reflejan parte de su intimidad, de sus características particulares, preferencias, intereses, relaciones sociales, hábitos de consumo, etc. y lo que es más controvertido, toda esta información se encuentra bajo la custodia de distintos proveedores que pueden utilizarla más allá de las necesidades y el control del usuario. Los datos personales y, en particular, el conocimiento sobre los usuarios que se puede extraer a partir de éstos (modelos de usuario) se han convertido en un nuevo activo económico para los proveedores de servicios. De este modo, estos recursos se pueden utilizar para ofrecer servicios centrados en el usuario basados, por ejemplo, en la recomendación de contenidos, la personalización de productos o la predicción de su comportamiento, lo cual permite a los proveedores conectar con los usuarios, mantenerlos, involucrarlos y en definitiva, fidelizarlos para garantizar el éxito de un modelo de negocio. Sin embargo, dichos recursos también pueden utilizarse para establecer otros modelos de negocio que van más allá de su procesamiento y aplicación individual por parte de un proveedor y que se basan en su comercialización y compartición con otras entidades. Bajo esta perspectiva, los usuarios sufren una falta de control sobre los datos que les refieren, ya que esto depende de la voluntad y las condiciones impuestas por los proveedores de servicios, lo cual implica que habitualmente deban enfrentarse ante la disyuntiva de ceder sus datos personales o no acceder a los servicios telemáticos ofrecidos. Desde el sector público se trata de tomar medidas que protejan a los usuarios con iniciativas y legislaciones que velen por su privacidad y que aumenten el control sobre sus datos personales, a la vez que debe favorecer el desarrollo económico propiciado por estos proveedores de servicios. En este contexto, esta tesis doctoral propone una arquitectura y modelo de referencia para un ecosistema de intercambio de datos personales centrado en el usuario que promueve la creación, compartición y utilización de datos personales y modelos de usuario entre distintos proveedores, al mismo tiempo que ofrece a los usuarios las herramientas necesarias para ejercer su control en cuanto a la cesión y uso de sus recursos personales y obtener, en su caso, distintos incentivos o contraprestaciones económicas. Las contribuciones originales de la tesis son la especificación y diseño de una arquitectura que se apoya en un proceso de modelado distribuido que se ha definido en el marco de esta investigación. Éste se basa en el aprovechamiento de recursos que distintas entidades (fuentes de datos) ofrecen para generar modelos de usuario enriquecidos que cubren las necesidades específicas de terceras entidades, considerando la participación del usuario y el control sobre sus recursos personales (datos y modelos de usuario). Lo anterior ha requerido identificar y caracterizar las fuentes de datos con potencial de abastecer al ecosistema, determinar distintos patrones para la generación de modelos de usuario a partir de datos personales distribuidos y heterogéneos y establecer una infraestructura para la gestión de identidad y privacidad que permita a los usuarios expresar sus preferencias e intereses respecto al uso y compartición de sus recursos personales. Además, se ha definido un modelo de negocio de referencia que sustenta las investigaciones realizadas y que ha sido particularizado en dos ámbitos de aplicación principales, en concreto, el sector de publicidad en redes sociales y el sector financiero para la implantación de nuevos servicios. Finalmente, cabe destacar que las contribuciones de esta tesis han sido validadas en el contexto de distintos proyectos de investigación industrial aplicada y también en el marco de proyectos fin de carrera que la autora ha tutelado o en los que ha colaborado. Los resultados obtenidos han originado distintos méritos de investigación como dos patentes en explotación, la publicación de un artículo en una revista con índice de impacto y diversos artículos en congresos internacionales de relevancia. Algunos de éstos han sido galardonados con premios de distintas instituciones, así como en las conferencias donde han sido presentados. ABSTRACT Information society services have changed most of our daily activities, offering unprecedented opportunities with certain characteristics, such as: ubiquitous access, permanent availability, device independence, multimodality and free-of-charge services, among others. However, all the positive aspects that emerge when thinking about these services have as counterpart not-so-obvious threats and risks, because they feed from and use personal data, thus creating concerns about peoples’ privacy. Nowadays, people that play the role of user of services are constantly generating digital data in different service providers. These data reflect part of their intimacy, particular characteristics, preferences, interests, relationships, consumer behavior, etc. Controversy arises because this personal information is stored and kept by the mentioned providers that can use it beyond the user needs and control. Personal data and, in particular, the knowledge about the user that can be obtained from them (user models) have turned into a new economic asset for the service providers. In this way, these data and models can be used to offer user centric services based, for example, in content recommendation, tailored-products or user behavior, all of which allows connecting with the users, keeping them more engaged and involved with the provider, finally reaching customer loyalty in order to guarantee the success of a business model. However, these resources can be used to establish a different kind of business model; one that does not only processes and individually applies personal data, but also shares and trades these data with other entities. From that perspective, the users lack control over their referred data, because it depends from the conditions imposed by the service providers. The consequence is that the users often face the following dilemma: either giving up their personal data or not using the offered services. The Public Sector takes actions in order to protect the users approving, for example, laws and legal initiatives that reinforce privacy and increase control over personal data, while at the same time the authorities are also key players in the economy development that derives from the information society services. In this context, this PhD Dissertation proposes an architecture and reference model to achieve a user-centric personal data ecosystem that promotes the creation, sharing and use of personal data and user models among different providers, while offering users the tools to control who can access which data and why and if applicable, to obtain different incentives. The original contributions obtained are the specification and design of an architecture that supports a distributed user modelling process defined by this research. This process is based on leveraging scattered resources of heterogeneous entities (data sources) to generate on-demand enriched user models that fulfill individual business needs of third entities, considering the involvement of users and the control over their personal resources (data and user models). This has required identifying and characterizing data sources with potential for supplying resources, defining different generation patterns to produce user models from scattered and heterogeneous data, and establishing identity and privacy management infrastructures that allow users to set their privacy preferences regarding the use and sharing of their resources. Moreover, it has also been proposed a reference business model that supports the aforementioned architecture and this has been studied for two application fields: social networks advertising and new financial services. Finally, it has to be emphasized that the contributions obtained in this dissertation have been validated in the context of several national research projects and master thesis that the author has directed or has collaborated with. Furthermore, these contributions have produced different scientific results such as two patents and different publications in relevant international conferences and one magazine. Some of them have been awarded with different prizes.

Modelling the Impact of Built Environment, Geographical Scales and Latent Constructs On Individual Travel Behaviour

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La relación entre la estructura urbana y la movilidad ha sido estudiada desde hace más de 70 años. El entorno urbano incluye múltiples dimensiones como por ejemplo: la estructura urbana, los usos de suelo, la distribución de instalaciones diversas (comercios, escuelas y zonas de restauración, parking, etc.). Al realizar una revisión de la literatura existente en este contexto, se encuentran distintos análisis, metodologías, escalas geográficas y dimensiones, tanto de la movilidad como de la estructura urbana. En este sentido, se trata de una relación muy estudiada pero muy compleja, sobre la que no existe hasta el momento un consenso sobre qué dimensión del entorno urbano influye sobre qué dimensión de la movilidad, y cuál es la manera apropiada de representar esta relación. Con el propósito de contestar estas preguntas investigación, la presente tesis tiene los siguientes objetivos generales: (1) Contribuir al mejor entendimiento de la compleja relación estructura urbana y movilidad. y (2) Entender el rol de los atributos latentes en la relación entorno urbano y movilidad. El objetivo específico de la tesis es analizar la influencia del entorno urbano sobre dos dimensiones de la movilidad: número de viajes y tipo de tour. Vista la complejidad de la relación entorno urbano y movilidad, se pretende contribuir al mejor entendimiento de la relación a través de la utilización de 3 escalas geográficas de las variables y del análisis de la influencia de efectos inobservados en la movilidad. Para el análisis se utiliza una base de datos conformada por tres tipos de datos: (1) Una encuesta de movilidad realizada durante los años 2006 y 2007. Se obtuvo un total de 943 encuestas, en 3 barrios de Madrid: Chamberí, Pozuelo y Algete. (2) Información municipal del Instituto Nacional de Estadística: dicha información se encuentra enlazada con los orígenes y destinos de los viajes recogidos en la encuesta. Y (3) Información georeferenciada en Arc-GIS de los hogares participantes en la encuesta: la base de datos contiene información respecto a la estructura de las calles, localización de escuelas, parking, centros médicos y lugares de restauración. Se analizó la correlación entre e intra-grupos y se modelizaron 4 casos de atributos bajo la estructura ordinal logit. Posteriormente se evalúa la auto-selección a través de la estimación conjunta de las elecciones de tipo de barrio y número de viajes. La elección del tipo de barrio consta de 3 alternativas: CBD, Urban y Suburban, según la zona de residencia recogida en las encuestas. Mientras que la elección del número de viajes consta de 4 categorías ordinales: 0 viajes, 1-2 viajes, 3-4 viajes y 5 o más viajes. A partir de la mejor especificación del modelo ordinal logit. Se desarrolló un modelo joint mixed-ordinal conjunto. Los resultados indican que las variables exógenas requieren un análisis exhaustivo de correlaciones con el fin de evitar resultados sesgados. ha determinado que es importante medir los atributos del BE donde se realiza el viaje, pero también la información municipal es muy explicativa de la movilidad individual. Por tanto, la percepción de las zonas de destino a nivel municipal es considerada importante. En el contexto de la Auto-selección (self-selection) es importante modelizar conjuntamente las decisiones. La Auto-selección existe, puesto que los parámetros estimados conjuntamente son significativos. Sin embargo, sólo ciertos atributos del entorno urbano son igualmente importantes sobre la elección de la zona de residencia y frecuencia de viajes. Para analizar la Propensión al Viaje, se desarrolló un modelo híbrido, formado por: una variable latente, un indicador y un modelo de elección discreta. La variable latente se denomina “Propensión al Viaje”, cuyo indicador en ecuación de medida es el número de viajes; la elección discreta es el tipo de tour. El modelo de elección consiste en 5 alternativas, según la jerarquía de actividades establecida en la tesis: HOME, no realiza viajes durante el día de estudio, HWH tour cuya actividad principal es el trabajo o estudios, y no se realizan paradas intermedias; HWHs tour si el individuo reaiza paradas intermedias; HOH tour cuya actividad principal es distinta a trabajo y estudios, y no se realizan paradas intermedias; HOHs donde se realizan paradas intermedias. Para llegar a la mejor especificación del modelo, se realizó un trabajo importante considerando diferentes estructuras de modelos y tres tipos de estimaciones. De tal manera, se obtuvieron parámetros consistentes y eficientes. Los resultados muestran que la modelización de los tours, representa una ventaja sobre la modelización de los viajes, puesto que supera las limitaciones de espacio y tiempo, enlazando los viajes realizados por la misma persona en el día de estudio. La propensión al viaje (PT) existe y es específica para cada tipo de tour. Los parámetros estimados en el modelo híbrido resultaron significativos y distintos para cada alternativa de tipo de tour. Por último, en la tesis se verifica que los modelos híbridos representan una mejora sobre los modelos tradicionales de elección discreta, dando como resultado parámetros consistentes y más robustos. En cuanto a políticas de transporte, se ha demostrado que los atributos del entorno urbano son más importantes que los LOS (Level of Service) en la generación de tours multi-etapas. la presente tesis representa el primer análisis empírico de la relación entre los tipos de tours y la propensión al viaje. El concepto Propensity to Travel ha sido desarrollado exclusivamente para la tesis. Igualmente, el desarrollo de un modelo conjunto RC-Number of trips basado en tres escalas de medida representa innovación en cuanto a la comparación de las escalas geográficas, que no había sido hecha en la modelización de la self-selection. The relationship between built environment (BE) and travel behaviour (TB) has been studied in a number of cases, using several methods - aggregate and disaggregate approaches - and different focuses – trip frequency, automobile use, and vehicle miles travelled and so on. Definitely, travel is generated by the need to undertake activities and obtain services, and there is a general consensus that urban components affect TB. However researches are still needed to better understand which components of the travel behaviour are affected most and by which of the urban components. In order to fill the gap in the research, the present dissertation faced two main objectives: (1) To contribute to the better understanding of the relationship between travel demand and urban environment. And (2) To develop an econometric model for estimating travel demand with urban environment attributes. With this purpose, the present thesis faced an exhaustive research and computation of land-use variables in order to find the best representation of BE for modelling trip frequency. In particular two empirical analyses are carried out: 1. Estimation of three dimensions of travel demand using dimensions of urban environment. We compare different travel dimensions and geographical scales, and we measure self-selection contribution following the joint models. 2. Develop a hybrid model, integrated latent variable and discrete choice model. The implementation of hybrid models is new in the analysis of land-use and travel behaviour. BE and TB explicitly interact and allow richness information about a specific individual decision process For all empirical analysis is used a data-base from a survey conducted in 2006 and 2007 in Madrid. Spatial attributes describing neighbourhood environment are derived from different data sources: National Institute of Statistics-INE (Administrative: municipality and district) and GIS (circular units). INE provides raw data for such spatial units as: municipality and district. The construction of census units is trivial as the census bureau provides tables that readily define districts and municipalities. The construction of circular units requires us to determine the radius and associate the spatial information to our households. The first empirical part analyzes trip frequency by applying an ordered logit model. In this part is studied the effect of socio-economic, transport and land use characteristics on two travel dimensions: trip frequency and type of tour. In particular the land use is defined in terms of type of neighbourhoods and types of dwellers. Three neighbourhood representations are explored, and described three for constructing neighbourhood attributes. In particular administrative units are examined to represent neighbourhood and circular – unit representation. Ordered logit models are applied, while ordinal logit models are well-known, an intensive work for constructing a spatial attributes was carried out. On the other hand, the second empirical analysis consists of the development of an innovative econometric model that considers a latent variable called “propensity to travel”, and choice model is the choice of type of tour. The first two specifications of ordinal models help to estimate this latent variable. The latent variable is unobserved but the manifestation is called “indicators”, then the probability of choosing an alternative of tour is conditional to the probability of latent variable and type of tour. Since latent variable is unknown we fit the integral over its distribution. Four “sets of best variables” are specified, following the specification obtained from the correlation analysis. The results evidence that the relative importance of SE variables versus BE variables depends on how BE variables are measured. We found that each of these three spatial scales has its intangible qualities and drawbacks. Spatial scales play an important role on predicting travel demand due to the variability in measures at trip origin/destinations within the same administrative unit (municipality, district and so on). Larger units will produce less variation in data; but it does not affect certain variables, such as public transport supply, that are more significant at municipality level. By contrast, land-use measures are more efficient at district level. Self-selection in this context, is weak. Thus, the influence of BE attributes is true. The results of the hybrid model show that unobserved factors affect the choice of tour complexity. The latent variable used in this model is propensity to travel that is explained by socioeconomic aspects and neighbourhood attributes. The results show that neighbourhood attributes have indeed a significant impact on the choice of the type of tours either directly and through the propensity to travel. The propensity to travel has a different impact depending on the structure of each tour and increases the probability of choosing more complex tours, such as tours with many intermediate stops. The integration of choice and latent variable model shows that omitting important perception and attitudes leads to inconsistent estimates. The results also indicate that goodness of fit improves by adding the latent variable in both sequential and simultaneous estimation. There are significant differences in the sensitivity to the latent variable across alternatives. In general, as expected, the hybrid models show a major improvement into the goodness of fit of the model, compared to a classical discrete choice model that does not incorporate latent effects. The integrated model leads to a more detailed analysis of the behavioural process. Summarizing, the effect that built environment characteristics on trip frequency studied is deeply analyzed. In particular we tried to better understand how land use characteristics can be defined and measured and which of these measures do have really an impact on trip frequency. We also tried to test the superiority of HCM on this field. We can concluded that HCM shows a major improvement into the goodness of fit of the model, compared to classical discrete choice model that does not incorporate latent effects. And consequently, the application of HCM shows the importance of LV on the decision of tour complexity. People are more elastic to built environment attributes than level of services. Thus, policy implications must take place to develop more mixed areas, work-places in combination with commercial retails.

Modelización del cálculo de Indicadores Ambientales, a partir de sensores ópticos de alta resolución temporal a bordo de satélite

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La presente tesis doctoral tiene por objeto el estudio y análisis de técnicas y modelos de obtención de parámetros biofísicos e indicadores ambientales, de manera automatizada a partir de imágenes procedentes de satélite de alta resolución temporal. En primer lugar se revisan los diferentes programas espaciales de observación del territorio, con especial atención a los que proporcionan dicha resolución. También se han revisado las metodologías y procesos que permiten la obtención de diferentes parámetros cuantitativos y documentos cualitativos, relacionados con diversos aspectos de las cubiertas terrestres, atendiendo a su adaptabilidad a las particularidades de los datos. En segundo lugar se propone un modelo de obtención de parámetros ambientales, que integra información proveniente de sensores espaciales y de otras fuentes auxiliares utilizando, en cierta medida, las metodologías presentadas en apartados anteriores y optimizando algunas de las referidas o proponiendo otras nuevas, de manera que se permita dicha obtención de manera eficiente, a partir de los datos disponibles y de forma sistemática. Tras esta revisión de metodologías y propuesta del modelo, se ha procedido a la realización de experimentos, con la finalidad de comprobar su comportamiento en diferentes casos prácticos, depurar los flujos de datos y procesos, así como establecer las situaciones que pueden afectar a los resultados. De todo ello se deducirá la evaluación del referido modelo. Los sensores considerados en este trabajo han sido MODIS, de alta resolución temporal y Thematic Mapper (TM), de media resolución espacial, por tratarse de instrumentos de referencia en la realización de estudios ambientales. También por la duración de sus correspondientes misiones de registro de datos, lo que permite realizar estudios de evolución temporal de ciertos parámetros biofísicos, durante amplios periodos de tiempo. Así mismo. es de destacar que la continuidad de los correspondientes programas parece estar asegurada. Entre los experimentos realizados, se ha ensayado una metodología para la integración de datos procedentes de ambos sensores. También se ha analizado un método de interpolación temporal que permite obtener imágenes sintéticas con la resolución espacial de TM (30 m) y la temporal de MODIS (1 día), ampliando el rango de aplicación de este último sensor. Asimismo, se han analizado algunos de los factores que afectan a los datos registrados, tal como la geometría de la toma de los mismos y los episodios de precipitación, los cuales alteran los resultados obtenidos. Por otro lado, se ha comprobado la validez del modelo propuesto en el estudio de fenómenos ambientales dinámicos, en concreto la contaminación orgánica de aguas embalsadas. Finalmente, se ha demostrado un buen comportamiento del modelo en todos los casos ensayados, así como su flexibilidad, lo que le permite adaptarse a nuevos orígenes de datos, o nuevas metodologías de cálculo. Abstract This thesis aims to the study and analysis of techniques and models, in order to obtain biophysical parameters and environmental indicators in an automated way, using high temporal resolution satellite data. Firstly we have reviewed the main Earth Observation Programs, paying attention to those that provide high temporal resolution. Also have reviewed the methodologies and process flow diagrams in order to obtain quantitative parameters and qualitative documents, relating to various aspects of land cover, according to their adaptability to the peculiarities of the data. In the next stage, a model which allows obtaining environmental parameters, has been proposed. This structure integrates information from space sensors and ancillary data sources, using the methodologies presented in previous sections that permits the parameters calculation in an efficient and automated way. After this review of methodologies and the proposal of the model, we proceeded to carry out experiments, in order to check the behavior of the structure in real situations. From this, we derive the accuracy of the model. The sensors used in this work have been MODIS, which is a high temporal resolution sensor, and Thematic Mapper (TM), which is a medium spatial resolution instrument. This choice was motivated because they are reference sensors in environmental studies, as well as for the duration of their corresponding missions of data logging, and whose continuity seems assured. Among the experiments, we tested a methodology that allows the integration of data from cited sensors, we discussed a proposal for a temporal interpolation method for obtaining synthetic images with spatial resolution of TM (30 m) and temporal of MODIS (1 day), extending the application range of this one. Furthermore, we have analyzed some of the factors that affect the recorded data, such as the relative position of the satellite with the ground point, and the rainfall events, which alter the obtained results. On the other hand, we have proven the validity of the proposed model in the study of the organic contamination in inland water bodies. Finally, we have demonstrated a good performance of the proposed model in all cases tested, as well as its flexibility and adaptability.

Implicaciones de la accesibilidad configuracional en la movilidad peatonal. El caso de Madrid = The implications of configurational accessibility in pedestrian mobility. The case of Madrid

Relevância:

80.00% 80.00%

Publicador:

Resumo:

- Resumen La hipótesis que anima esta tesis doctoral es que algunas de las características del entorno urbano, en particular las que describen la accesibilidad de su red de espacio público, podrían estar relacionadas con la proporción de viajes a pie o reparto modal, que tiene cada zona o barrio de Madrid. Uno de los puntos de partida de dicha hipótesis que el entorno urbano tiene una mayor influencia sobre los viaje a pie que en sobre otros modos de transporte, por ejemplo que en los viajes de bicicleta o en transporte público; y es que parece razonable suponer que estos últimos van a estar más condicionadas por ejemplo por la disponibilidad de vías ciclistas, en el primer caso, o por la existencia de un servicio fiable y de calidad, en el segundo. Otra de las motivaciones del trabajo es que la investigación en este campo de la accesibilidad del espacio público, en concreto la denominada “Space Syntax”, ha probado en repetidas ocasiones la influencia de la red de espacio público en cómo se distribuye la intensidad del tráfico peatonal por la trama urbana, pero no se han encontrado referencias de la influencia de dicho elemento sobre el reparto modal. De acuerdo con la hipótesis y con otros trabajos anteriores se propone una metodología basada en el análisis empírico y cuantitativo. Su objetivo es comprobar si la red de espacio público, independientemente de otras variables como los usos del suelo, incluso de las variables de ajenas entorno no construido, como las socioeconómicas, está o no relacionada estadísticamente con la proporción de peatones viajes en las zonas urbanas. Las técnicas estadísticas se utilizan para comprobar sistemáticamente la asociación de las variables del entorno urbano, denominadas variables independientes, con el porcentaje de viajes a pie, la variable dependiente. En términos generales, la metodología es similar a la usada en otros trabajos en este campo como los de CERVERÓ y KOCKLEMAN (1997), CERVERÓ y DUNCAN (2003), o para los que se utilizan principalmente en la revisión general de TRB (2005) o, más recientemente, en ZEGRAS (2006) o CHATMAN (2009). Otras opciones metodológicas, como los métodos de preferencias declaradas (ver LOUVIERE, HENSHER y SWAIT, 2000) o el análisis basado en agentes (PENN & TURNER, 2004) fueron descartados, debido a una serie de razones, demasiado extensas para ser descritas aquí. El caso de estudio utilizado es la zona metropolitana de Madrid, abarcándola hasta la M-50, es decir en su mayor parte, con un tamaño aproximado de 31x34 Km y una población de 4.132.820 habitantes (aproximadamente el 80% de la población de la región). Las principales fuentes de datos son la Encuesta Domiciliaria de Movilidad de 2004 (EDM04), del Consorcio Regional de Transportes de Madrid que es la última disponible (muestra: > 35.000 familias,> 95.000 personas), y un modelo espacial del área metropolitana, integrando el modelo para calcular los índices de Space Syntax y un Sistema de Información Geográfica (SIG). La unidad de análisis, en este caso las unidades espaciales, son las zonas de transporte (con una población media de 7.063 personas) y los barrios (con una población media de 26.466 personas). Las variables del entorno urbano son claramente el centro del estudio. Un total de 20 índices (de 21) se seleccionan de entre los más relevantes encontrados en la revisión de la producción científica en este campo siendo que, al mismo tiempo, fueran accesibles. Nueve de ellos se utilizan para describir las características de los usos del suelo, mientras que otros once se usan para describir la red de espacios públicos. Estos últimos incluyen las variables de accesibilidad configuracional, que son, como se desprende de su título, el centro del estudio propuesto. La accesibilidad configuracional es un tipo especial de accesibilidad que se basa en la configuración de la trama urbana, según esta fue definida por HILLIER (1996), el autor de referencia dentro de esta línea de investigación de Space Syntax. Además se incluyen otras variables de la red de espacio público más habituales en los estudios de movilidad, y que aquí se denominan características geométricas de los elementos de la red, tales como su longitud, tipo de intersección, conectividad, etc. Por último se incluye además una variable socioeconómica, es decir ajena al entorno urbano, para evaluar la influencia de los factores externos, pues son varios los que pueden tener un impacto en la decisión de caminar (edad, género, nivel de estudios, ingresos, tasa de motorización, etc.). La asociación entre las variables se han establecido usando análisis de correlación (bivariante) y modelos de análisis multivariante. Las primeras se calculan entre por pares entre cada una de las 21 variables independientes y la dependiente, el porcentaje de viajes a pie. En cuanto a los segundos, se han realizado tres tipos de estudios: modelo multivariante general lineal, modelo multivariante general curvilíneo y análisis discriminante. Todos ellos son capaces de generar modelos de asociación entre diversas variables, pudiéndose de esta manera evaluar con bastante precisión en qué medida cada modelo reproduce el comportamiento de la variable dependiente, y además, el peso o influencia de cada variable en el modelo respecto a las otras. Los resultados fundamentales del estudio se expresan en dos modelos finales alternativos, que demuestran tener una significativa asociación con el porcentaje de viajes a pie (R2 = 0,6789, p <0,0001), al explicar las dos terceras partes de su variabilidad. En ellos, y en general en todo el estudio realizado, se da una influencia constante de tres índices en particular, que quedan como los principales. Dos de ellos, de acuerdo con muchos de los estudios previos, corresponden a la densidad y la mezcla de usos del suelo. Pero lo más novedoso de los resultados obtenidos es que el tercero es una medida de la accesibilidad de la red de espacio público, algo de lo que no había referencias hasta ahora. Pero, ¿cuál es la definición precisa y el peso relativo de cada uno en el modelo, es decir, en la variable independiente? El de mayor peso en la mayor parte de los análisis realizados es el índice de densidad total (n º residentes + n º puestos de trabajo + n º alumnos / Ha). Es decir, una densidad no sólo de población, sino que incluye algunas de las actividades más importantes que pueden darse una zona para generar movilidad a pie. El segundo que mayor peso adquiere, llegando a ser el primero en alguno de los análisis estadísticos efecturados, es el índice de accesibuilidad configuracional denominado integración de radio 5. Se trata de una medida de la accesibilidad de la zona, de su centralidad, a la escala de, más un menor, un distrito o comarca. En cuanto al tercero, obtiene una importancia bastante menor que los anteriores, y es que representa la mezcla de usos. En concreto es una medida del equilibrio entre los comercios especializados de venta al por menor y el número de residentes (n º de tiendas especializadas en alimentación, bebidas y tabaco / n º de habitantes). Por lo tanto, estos resultados confirman buena parte de los de estudios anteriores, especialmente los relativas a los usos del suelo, pero al mismo tiempo, apuntan a que la red de espacio público podría tener una influir mayor de la comprobada hasta ahora en la proporción de peatones sobre el resto de modos de transportes. Las razones de por qué esto puede ser así, se discuten ampliamente en las conclusiones. Finalmente se puede precisar que dicha conclusión principal se refiere a viajes de una sola etapa (no multimodales) que se dan en los barrios y zonas del área metropolitana de Madrid. Por supuesto, esta conclusión tiene en la actualidad, una validez limitada, ya que es el resultado de un solo caso — Abstract The research hypothesis for this Ph.D. Thesis is that some characteristics of the built environment, particularly those describing the accessibility of the public space network, could be associated with the proportion of pedestrians in all trips (modal split), found in the different parts of a city. The underlying idea is that walking trips are more sensitive to built environment than those by other transport modes, such as for example those by bicycle or by public transport, which could be more conditioned by, e.g. infrastructure availability or service frequency and quality. On the other hand, it has to be noted that the previously research on this field, in particular within Space Syntax’s where this study can be referred, have tested similar hypothesis using pedestrian volumes as the dependent variable, but never against modal split. According to such hypothesis, research methodology is based primarily on empirical quantitative analysis, and it is meant to be able to assess whether public space network, no matter other built environment and non-built environment variables, could have a relationship with the proportion of pedestrian trips in urban areas. Statistical techniques are used to check the association of independent variables with the percentage of walking in all trips, the dependent one. Broadly speaking this methodology is similar to that of previous studies in the field such as CERVERO&KOCKLEMAN (1997), CERVERO & DUNCAN (2003), or to those used mainly in the general review of T.R.B. (2005) or, more recently in ZEGRAS (2006) or CHATMAN (2009). Other methodological options such as stated choice methods (see LOUVIERE, HENSHER & SWAIT, 2000) or agent based analysis (PENN & TURNER, 2004), were discarded, due to a number of reasons, too long to be described here. The case study is not the entire Madrid’s metropolitan area, but almost (4.132.820 inhabitants, about 80% of region´s population). Main data sources are the Regional Mobility Home Based Survey 2004 (EDM04), which is the last available (sample: >35.000 families, > 95.000 individuals), and a spatial model of the metropolitan area, developed using Space Syntax and G.I.S. techniques. The analysis unit, in this case spatial units, are both transport zones (mean population = 7.063) and neighborhoods (mean population = 26.466). The variables of the built environment are clearly the core of the study. A total of 20 (out of 21) are selected from among those found in the literature while, at the same time, being accessible. Nine out of them are used to describe land use characteristics while another eleven describe the network of public spaces. Latter ones include configurational accessibility or Space Syntax variables. This is a particular sort of accessibility related with the concept of configuration, by HILLIER (1996), one of the main authors of Space Syntax, But it also include more customary variables used in mobility research to describe the urban design or spatial structure (here public space network), which here are called geometric characteristics of the such as its length, type of intersection, conectivity, density, etc. Finally a single socioeconomic variable was included in order to assess the influence non built environment factors that also may have an impact on walking (age, income, motorization rate, etc.). The association among variables is worked out using bi-variate correlation analysis and multivariate-analysis. Correlations are calculated among the 21 independent variables and the dependent one, the percentage of walking trips. Then, three types of multi-variate studies are run: general linear, curvilinear and discriminant multi-variate analysis. The latter are fully capable of generating complex association models among several variables, assessing quite precisely to what extent each model reproduces the behavior of the dependent variable, and also the weight or influence of each variable in the model. This study’s results show a consistent influence of three particular indexes in the two final alternative models of the multi-variate study (best, R2=0,6789, p<0,0000). Not surprisingly, two of them correspond to density and mix of land uses. But perhaps more interesting is that the third one is a measure of the accessibility of the public space network, a variable less important in the literature up to now. Additional precisions about them and their relative weight could also be of some interest. The density index is not only about population but includes most important activities in an area (nº residents + nº jobs+ nº students/Ha). The configurational index (radius 5 integration) is a measure of the accessibility of the area, i.e. centrality, at the scale of, more a less, a district. Regarding the mix of land uses index, this one is a measure of the balance between retail, in fact local basic retail, and the number of residents (nº of convenience shops / nº of residents). Referring to their weights, configurational index (radius 5 integration) gets the higher standardized coefficient of the final equation. However, in the final equations, there are a higher number of indexes coming from the density or land use mix categories than from public space network enter. Therefore, these findings seem to support part of the field’s knowledge, especially those concerning land uses, but at the same time they seem to bring in the idea that the configuration of the urban grid could have an influence in the proportion of walkers (as a part of total trips on any transport mode) that do single journey trips in the neighborhoods of Madrid, Spain. Of course this conclusion has, at present, a limited validity since it’s the result of a single case. The reasons of why this can be so, are discussed in the last part of the thesis.

Evaluation of a Change Detection Methodology by Means of Binary Thresholding Algorithms and Informational Fusion Processes

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Landcover is subject to continuous changes on a wide variety of temporal and spatial scales. Those changes produce significant effects in human and natural activities. Maintaining an updated spatial database with the occurred changes allows a better monitoring of the Earth?s resources and management of the environment. Change detection (CD) techniques using images from different sensors, such as satellite imagery, aerial photographs, etc., have proven to be suitable and secure data sources from which updated information can be extracted efficiently, so that changes can also be inventoried and monitored. In this paper, a multisource CD methodology for multiresolution datasets is applied. First, different change indices are processed, then different thresholding algorithms for change/no_change are applied to these indices in order to better estimate the statistical parameters of these categories, finally the indices are integrated into a change detection multisource fusion process, which allows generating a single CD result from several combination of indices. This methodology has been applied to datasets with different spectral and spatial resolution properties. Then, the obtained results are evaluated by means of a quality control analysis, as well as with complementary graphical representations. The suggested methodology has also been proved efficiently for identifying the change detection index with the higher contribution.

Deriving semantic sensor metadata from raw measurements

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Sensor network deployments have become a primary source of big data about the real world that surrounds us, measuring a wide range of physical properties in real time. With such large amounts of heterogeneous data, a key challenge is to describe and annotate sensor data with high-level metadata, using and extending models, for instance with ontologies. However, to automate this task there is a need for enriching the sensor metadata using the actual observed measurements and extracting useful meta-information from them. This paper proposes a novel approach of characterization and extraction of semantic metadata through the analysis of sensor data raw observations. This approach consists in using approximations to represent the raw sensor measurements, based on distributions of the observation slopes, building a classi?cation scheme to automatically infer sensor metadata like the type of observed property, integrating the semantic analysis results with existing sensor networks metadata.

Comparative assessment of global irradiation from a satellite estimate model (CM SAF) and on-ground measurements (SIAR): a Spanish case study

Relevância:

80.00% 80.00%

Publicador:

Resumo:

An analysis and comparison of daily and yearly solar irradiation from the satellite CM SAF database and a set of 301 stations from the Spanish SIAR network is performed using data of 2010 and 2011. This analysis is completed with the comparison of the estimations of effective irradiation incident on three different tilted planes (fixed, two axis tracking, north-south hori- zontal axis) using irradiation from these two data sources. Finally, a new map of yearly values of irradiation both on the horizontal plane and on inclined planes is produced mixing both sources with geostatistical techniques (kriging with external drift, KED) The Mean Absolute Difference (MAD) between CM SAF and SIAR is approximately 4% for the irradiation on the horizontal plane and is comprised between 5% and 6% for the irradiation incident on the inclined planes. The MAD between KED and SIAR, and KED and CM SAF is approximately 3% for the irradiation on the horizontal plane and is comprised between 3% and 4% for the irradiation incident on the inclined planes. The methods have been implemented using free software, available as supplementary ma- terial, and the data sources are freely available without restrictions.

Comparative assessment of global irradiation from a satellite estimate model (CM SAF) and on-ground measurements (SIAR): a Spanish case study

Relevância:

80.00% 80.00%

Publicador:

Resumo:

An analysis and comparison of daily and yearly solar irradiation from the satellite CM SAF database and a set of 301 stations from the Spanish SIAR network is performed using data of 2010 and 2011. This analysis is completed with the comparison of the estimations of effective irradiation incident on three different tilted planes (fixed, two axis tracking, north-south hori- zontal axis) using irradiation from these two data sources. Finally, a new map of yearly values of irradiation both on the horizontal plane and on inclined planes is produced mixing both sources with geostatistical techniques (kriging with external drift, KED) The Mean Absolute Difference (MAD) between CM SAF and SIAR is approximately 4% for the irradiation on the horizontal plane and is comprised between 5% and 6% for the irradiation incident on the inclined planes. The MAD between KED and SIAR, and KED and CM SAF is approximately 3% for the irradiation on the horizontal plane and is comprised between 3% and 4% for the irradiation incident on the inclined planes. The methods have been implemented using free software, available as supplementary ma- terial, and the data sources are freely available without restrictions.

Merging person-specific bio-markers for predicting oral cancer recurrence through an ontology

Relevância:

80.00% 80.00%

Publicador:

Resumo:

One of the major problems related to cancer treatment is its recurrence. Without knowing in advance how likely the cancer will relapse, clinical practice usually recommends adjuvant treatments that have strong side effects. A way to optimize treatments is to predict the recurrence probability by analyzing a set of bio-markers. The NeoMark European project has identified a set of preliminary bio-markers for the case of oral cancer by collecting a large series of data from genomic, imaging, and clinical evidence. This heterogeneous set of data needs a proper representation in order to be stored, computed, and communicated efficiently. Ontologies are often considered the proper mean to integrate biomedical data, for their high level of formality and for the need of interoperable, universally accepted models. This paper presents the NeoMark system and how an ontology has been designed to integrate all its heterogeneous data. The system has been validated in a pilot in which data will populate the ontology and will be made public for further research.

Contribution to proactivity in mobile context-aware recommender systems

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Los sistemas de recomendación son potentes herramientas de filtrado de información que permiten a usuarios solicitar sugerencias sobre ítems que cubran sus necesidades. Tradicionalmente estas recomendaciones han estado basadas en opiniones de los mismos, así como en datos obtenidos de su consumo histórico o comportamiento en el propio sistema. Sin embargo, debido a la gran penetración y uso de los dispositivos móviles en nuestra sociedad, han surgido nuevas oportunidades en el campo de los sistemas de recomendación móviles gracias a la información contextual que se puede obtener sobre la localización o actividad de los usuarios. Debido a este estilo de vida en el que todo tiende a la movilidad y donde los usuarios están plenamente interconectados, la información contextual no sólo es física, sino que también adquiere una dimensión social. Todo esto ha dado lugar a una nueva área de investigación relacionada con los Sistemas de Recomendación Basados en Contexto (CARS) móviles donde se busca incrementar el nivel de personalización de las recomendaciones al usar dicha información. Por otro lado, este nuevo escenario en el que los usuarios llevan en todo momento un terminal móvil consigo abre la puerta a nuevas formas de recomendar. Sustituir el tradicional patrón de uso basado en petición-respuesta para evolucionar hacia un sistema proactivo es ahora posible. Estos sistemas deben identificar el momento más adecuado para generar una recomendación sin una petición explícita del usuario, siendo para ello necesario analizar su contexto. Esta tesis doctoral propone un conjunto de modelos, algoritmos y métodos orientados a incorporar proactividad en CARS móviles, a la vez que se estudia el impacto que este tipo de recomendaciones tienen en la experiencia de usuario con el fin de extraer importantes conclusiones sobre "qué", "cuándo" y "cómo" se debe notificar proactivamente. Con este propósito, se comienza planteando una arquitectura general para construir CARS móviles en escenarios sociales. Adicionalmente, se propone una nueva forma de representar el proceso de recomendación a través de una interfaz REST, lo que permite crear una arquitectura independiente de dispositivo y plataforma. Los detalles de su implementación tras su puesta en marcha en el entorno bancario español permiten asimismo validar el sistema construido. Tras esto se presenta un novedoso modelo para incorporar proactividad en CARS móviles. Éste muestra las ideas principales que permiten analizar una situación para decidir cuándo es apropiada una recomendación proactiva. Para ello se presentan algoritmos que establecen relaciones entre lo propicia que es una situación y cómo esto influye en los elementos a recomendar. Asimismo, para demostrar la viabilidad de este modelo se describe su aplicación a un escenario de recomendación para herramientas de creación de contenidos educativos. Siguiendo el modelo anterior, se presenta el diseño e implementación de nuevos interfaces móviles de usuario para recomendaciones proactivas, así como los resultados de su evaluación entre usuarios, lo que aportó importantes conclusiones para identificar cuáles son los factores más relevantes a considerar en el diseño de sistemas proactivos. A raíz de los resultados anteriores, el último punto de esta tesis presenta una metodología para calcular cuán apropiada es una situación de cara a recomendar de manera proactiva siguiendo el modelo propuesto. Como conclusión, se describe la validación llevada a cabo tras la aplicación de la arquitectura, modelo de recomendación y métodos descritos en este trabajo en una red social de aprendizaje europea. Finalmente, esta tesis discute las conclusiones obtenidas a lo largo de la extensa investigación llevada a cabo, y que ha propiciado la consecución de una buena base teórica y práctica para la creación de sistemas de recomendación móviles proactivos basados en información contextual. ABSTRACT Recommender systems are powerful information filtering tools which offer users personalized suggestions about items whose aim is to satisfy their needs. Traditionally the information used to make recommendations has been based on users’ ratings or data on the item’s consumption history and transactions carried out in the system. However, due to the remarkable growth in mobile devices in our society, new opportunities have arisen to improve these systems by implementing them in ubiquitous environments which provide rich context-awareness information on their location or current activity. Because of this current all-mobile lifestyle, users are socially connected permanently, which allows their context to be enhanced not only with physical information, but also with a social dimension. As a result of these novel contextual data sources, the advent of mobile Context-Aware Recommender Systems (CARS) as a research area has appeared to improve the level of personalization in recommendation. On the other hand, this new scenario in which users have their mobile devices with them all the time offers the possibility of looking into new ways of making recommendations. Evolving the traditional user request-response pattern to a proactive approach is now possible as a result of this rich contextual scenario. Thus, the key idea is that recommendations are made to the user when the current situation is appropriate, attending to the available contextual information without an explicit user request being necessary. This dissertation proposes a set of models, algorithms and methods to incorporate proactivity into mobile CARS, while the impact of proactivity is studied in terms of user experience to extract significant outcomes as to "what", "when" and "how" proactive recommendations have to be notified to users. To this end, the development of this dissertation starts from the proposal of a general architecture for building mobile CARS in scenarios with rich social data along with a new way of managing a recommendation process through a REST interface to make this architecture multi-device and cross-platform compatible. Details as regards its implementation and evaluation in a Spanish banking scenario are provided to validate its usefulness and user acceptance. After that, a novel model is presented for proactivity in mobile CARS which shows the key ideas related to decide when a situation warrants a proactive recommendation by establishing algorithms that represent the relationship between the appropriateness of a situation and the suitability of the candidate items to be recommended. A validation of these ideas in the area of e-learning authoring tools is also presented. Following the previous model, this dissertation presents the design and implementation of new mobile user interfaces for proactive notifications. The results of an evaluation among users testing these novel interfaces is also shown to study the impact of proactivity in the user experience of mobile CARS, while significant factors associated to proactivity are also identified. The last stage of this dissertation merges the previous outcomes to design a new methodology to calculate the appropriateness of a situation so as to incorporate proactivity into mobile CARS. Additionally, this work provides details about its validation in a European e-learning social network in which the whole architecture and proactive recommendation model together with its methods have been implemented. Finally, this dissertation opens up a discussion about the conclusions obtained throughout this research, resulting in useful information from the different design and implementation stages of proactive mobile CARS.

«
1
2
3
4
»