11 resultados para DISEÑO DE BASES DE DATOS
em Universidade Complutense de Madrid
Resumo:
En esta memoria hacemos contribuciones dentro del campo de los lenguajes de bases de datos. Nos hemos propuesto tres objetivos fundamentales: 1. Mejorar la expresividad de los lenguajes de bases de datos actuales. 2. Desarrollar semánticas formales para nuestras propuestas de lenguajes de bases de datos extendidos. 3. Llevar a cabo la implementación de las semánticas anteriores en sistemas de bases de datos prácticos. Hemos conseguido estos tres objetivos en distintas áreas dentro de las bases de datos. Por un lado, en el campo de las bases de datos deductivas, proponemos HH:(C). Este lenguaje extiende las capacidades de los lenguajes de bases de datos deductivos con restricciones dado que permite consultas hipotéticas y cuanti cación universal. Por otro lado, utilizamos el estudio dentro de las bases de datos deductivas y lo aplicamos a las bases de datos relacionales. En concreto proponemos HR-SQL que incorpora consultas hipotéticas y de niciones recursivas no lineales y mutuamente recursivas. La idea tras esta propuesta es superar algunas limitaciones expresivas del lenguaje estándar de de nición de bases de datos SQL. A continuación introducimos ambas aproximaciones. Las fórmulas de Harrop hereditarias con restricciones, HH(C), se han usado como base para lenguajes de programación lógica con restricciones. Al igual que la programación lógica da soporte a lenguajes de bases de datos deductivas como Datalog (con restricciones), este marco se usa como base para un sistema de bases de datos deductivas que mejora la expresividad de los sistemas aparecidos hasta el momento. En el segundo capítulo de esta memoria se muestran los resultados teóricos que fundamentan el lenguaje HH:(C) y una implementación concreta de este esquema que demuestra la viabilidad y expresividad del esquema. Las principales aportaciones con respecto a Datalog son la incorporación de la implicación intuicionista, que permite formular hipótesis, y el uso de cuanti cadores incluso en el lenguaje de restricciones. El sistema está diseñado de forma que soporta diferentes sistemas de restricciones. La implementación incluye varios dominios concretos y también funciones de agregación y restricciones de integridad que son habituales en otros lenguajes de bases de datos relacionales. El signi cado del lenguaje se de ne mediante una semántica de pruebas y el mecanismo operacional se de ne mediante una sem ánica de punto jo que es correcta y completa con respecto a la primera. Para el cómputo de las consultas hipotéticas y de las funciones de agregación se hace uso de una noción de estrati cación más compleja que la que usa Datalog. La semántica de punto jo desarrollada constituye un marco apropiado que lleva a la implementación de un sistema concreto...
Resumo:
La publicación de los resultados de programas de screening (exámenes médicos orientados a un grupo genérico de la población) es de sumo interés para la comunidad científica. A pesar de eliminar datos personales como DNI, nombre, etc, el resto de la información, los llamados cuasi-identificadores (código postal, género, edad, profesión, o información de la cita médica incluyendo el centro y la hora) pueden ser utilizados para desvelar la identidad de los participantes en el programa. En particular, la información de la cita médica puede resultar comprometedora si, ya sea intencionadamente o por casualidad, se descubre que una persona determinada ha acudido a un determinado centro en una fecha concreta. bastaría entonces con consultar los resultados del test para saber si el individuo cuyos cuasi-identificadores conocemos padece la enfermedad. El objetivo de este trabajo es programar la asignación de citas, de manera que se aumente el nivel de anonimato de las bases de datos finales. Para ello, se pretende que personas con características comunes (edad, etc.) acudan a la misma cita (hora y centro), dificultando la identificación de los resultados médicos de un individuo aunque se conozcan sus datos personales, ya que se encontrarán con varias personas con los que comparte los mismos cuasi-identificadores.
Resumo:
La Metabolómica es una sub-área de la biología de sistemas que tiene como objetivo el estudio de las moléculas de pequeño tamaño (normalmente <1000 Da) llamadas metabolitos. Los metabolitos son el resultado de las reacciones químicas que concurren en una célula y que revelan información acerca del estado del organismo en el que se encuentran. La parte computacional de un análisis metabolómico comienza con la identifcación de los compuestos químicos (metabolitos) correspondientes con las masas obtenidas mediante espectrografía de masas, y se lleva a cabo mediante búsquedas manuales en múltiples bases de datos de metabolitos. El proceso de identificación requiere del análisis de cada una de las masas detectadas en el espectrómetro junto a datos que ofrece la espectrometría, como es la abundancia de cada una de las masas o los tiempos de retención. Este proceso es tedioso y consume una gran cantidad de tiempo del químico analítico, pues debe buscarse la información base de datos a base de datos e ir cruzando los datos de cada una de las búsquedas hasta obtener una lista de resultados formada por los metabolitos presentes en la muestra a analizar. El objetivo de este proyecto es desarrollar una herramienta web que simplifque y automatice la búsqueda e identifcación de metabolitos. Para ello se ha construido una herramienta capaz de integrar y buscar automáticamente información de los metabolitos en múltiples bases de datos metabolómicas. Esto ha requerido unifcar los compuestos entre las diferentes bases de datos cuando había sufciente información para asegurar que los compuestos provenientes de varias fuentes de datos eran realmente el mismo. Además, en este proceso de búsqueda se tiene en cuenta conocimiento sobre las reacciones químicas que pueden alterar la masa del metabolito registrada por el espectrómetro de masas, como la formación de aductos y multímeros.
Resumo:
En la actualidad, muchos gobiernos están publicando (o tienen la intención de publicar en breve) miles de conjuntos de datos para que personas y organizaciones los puedan utilizar. Como consecuencia, la cantidad de aplicaciones basadas en Open Data está incrementándose. Sin embargo cada gobierno tiene sus propios procedimientos para publicar sus datos, y esto causa una variedad de formatos dado que no existe un estándar internacional para especificar los formatos de estos datos. El objetivo principal de este trabajo es un análisis comparativo de datos ambientales en bases de datos abiertas (Open Data) pertenecientes a distintos gobiernos. Debido a esta variedad de formatos, debemos construir un proceso de integración de datos que sea capaz de unir todos los tipos de formatos. El trabajo implica un pre-procesado, limpieza e integración de las diferentes fuentes de datos. Existen muchas aplicaciones desarrolladas para dar soporte en el proceso de integración por ejemplo Data Tamer, Data Wrangler como se explica en este documento. El problema con estas aplicaciones es que necesitan la interacción del usuario como parte fundamental del proceso de integración. En este trabajo tratamos de evitar la supervisión humana aprovechando las similitudes de los datasets procedentes de igual área que en nuestro caso se aplica al área de medioambiente. De esta forma los procesos pueden ser automatizados con una programación adecuada. Para conseguirlo, la idea principal de este trabajo es construir procesos ad hoc adaptados a las fuentes de cada gobierno para conseguir una integración automática. Concretamente este trabajo se enfoca en datos ambientales como lo son la temperatura, consumo de energía, calidad de aire, radiación solar, velocidad del viento, etc. Desde hace dos años el gobierno de Madrid está publicando sus datos relativos a indicadores ambientales en tiempo real. Del mismo modo, otros gobiernos han publicado conjuntos de datos Open Data relativos al medio ambiente (como Andalucía o Bilbao), pero todos estos datos tienen diferentes formatos. En este trabajo se presenta una solución capaz de integrar todas ellos que además permite al usuario visualizar y hacer análisis sobre los datos en tiempo real. Una vez que el proceso de integración está realizado, todos los datos de cada gobierno poseen el mismo formato y se pueden lanzar procesos de análisis de una manera más computacional. Este trabajo tiene tres partes fundamentales: 1. Estudio de los entornos Open Data y la literatura al respecto; 2. Desarrollo de un proceso de integración y 3. Desarrollo de una Interface Gráfica y Analítica. Aunque en una primera fase se implementaron los procesos de integración mediante Java y Oracle y la Interface Gráfica con Java (jsp), en una fase posterior se realizó toda la implementación con lenguaje R y la interface gráfica mediante sus librerías, principalmente con Shiny. El resultado es una aplicación que provee de un conjunto de Datos Ambientales Integrados en Tiempo Real respecto a dos gobiernos muy diferentes en España, disponible para cualquier desarrollador que desee construir sus propias aplicaciones.
Resumo:
Las comunidades colaborativas, donde grandes cantidades de personas colaboran para la producción de recursos compartidos (e.g. Github, Wikipedia, OpenStreetMap, Arduino, StackOverflow) están extendiéndose progresivamente a multitud de campos. No obstante, es complicado comprender cómo funcionan y evolucionan. ¿Qué tipos de usuarios son más activos en Wikia? ¿Cómo ha evolucionado el número de wikis activas en los últimos años? ¿Qué perfil de actividad presentan la mayor parte de colaboradores de Wikia? ¿Son más activos los hombres o las mujeres en la Wikipedia? En los proyectos de Github, ¿el esfuerzo de programación (y frecuencia de commits) se distribuye de forma homogénea a lo largo del tiempo o suele estar concentrado? Estas comunidades, típicamente online, dejan registrada su actividad en grandes bases de datos, muchas de ellas disponibles públicamente. Sin embargo, el ciudadano de a pie no tiene ni las herramientas ni el conocimiento necesario para sacar conclusiones de esos datos. En este TFG desarrollamos una herramienta de análisis exploratorio y visualización de datos de la plataforma Wikia, sitio web colaborativo que permite la creación, edición y modificación del contenido y estructura de miles de páginas web de tipo enciclopedia basadas en la tecnología wiki. Nuestro objetivo es que esta aplicación web sea usable por cualquiera y que no requiera que el usuario sea un experto en Big Data para poder visualizar las gráficas de evolución o distribuciones del comportamiento interno de la comunidad, pudiendo modificar algunos de sus parámetros y visualizando cómo cambian. Como resultado de este trabajo se ha desarrollado una primera versión de la aplicación disponible en GitHub1 y en http://chartsup.esy.es/
Resumo:
Este estudio pretende evaluar un programa de Prevención Universal de las drogodependencias en el ámbito educativo a través de los cambios que produce en los diferentes factores de riesgo y protección seleccionados. La intensidad de la exposición al programa y la realización de talleres de refuerzo también han sido objetivo de la evaluación. La valoración se ha realizado en todas las etapas educativas: Educación Infantil, Educación Primaria y Educación Secundaria, teniéndose en cuenta el sexo y el curso. Metodología: La muestra está compuesta por 3.454 estudiantes de la Comunidad de Madrid. 250 estudiantes de Educación Infantil, 849 estudiantes de 1º y 2º Ciclo de Primaria, 520 estudiantes de 3º Ciclo de Primaria y 1.835 estudiantes de ESO. Se elaboraron 4 instrumentos de medida de factores de riesgo y protección: Preval_PP1 para Educación Infantil y Preval_PP2 para el 1º y 2º Ciclo de Primaria, ambos son informes a rellenar por el profesorado. El Preval_PP3 para el 3º Ciclo de Primaria y el Preval_PP4 para la ESO en forma de autoinforme a rellenar por el alumnado. A través de las bases de datos evaluamos la cantidad de años que cada centro ha participado en el programa preventivo así como el número de estudiantes que ha participado en talleres de refuerzo. Mediante un diseño cuasi-experimental con medida pre-test y post-test se realizan ANOVAs de medidas repetidas teniendo en cuenta el sexo y el curso para evaluar los cambios en los factores de riesgo y protección y comparar los centros de alta y baja exposición así como comparar al alumnado que realiza talleres de refuerzo con los que no los realizan...
Resumo:
El análisis de datos actual se enfrenta a problemas derivados de la combinación de datos procedentes de diversas fuentes de información. El valor de la información puede enriquecerse enormemente facilitando la integración de nuevas fuentes de datos y la industria es muy consciente de ello en la actualidad. Sin embargo, no solo el volumen sino también la gran diversidad de los datos constituye un problema previo al análisis. Una buena integración de los datos garantiza unos resultados fiables y por ello merece la pena detenerse en la mejora de procesos de especificación, recolección, limpieza e integración de los datos. Este trabajo está dedicado a la fase de limpieza e integración de datos analizando los procedimientos existentes y proponiendo una solución que se aplica a datos médicos, centrándose así en los proyectos de predicción (con finalidad de prevención) en ciencias de la salud. Además de la implementación de los procesos de limpieza, se desarrollan algoritmos de detección de outliers que permiten mejorar la calidad del conjunto de datos tras su eliminación. El trabajo también incluye la implementación de un proceso de predicción que sirva de ayuda a la toma de decisiones. Concretamente este trabajo realiza un análisis predictivo de los datos de pacientes drogodependientes de la Clínica Nuestra Señora de la Paz, con la finalidad de poder brindar un apoyo en la toma de decisiones del médico a cargo de admitir el internamiento de pacientes en dicha clínica. En la mayoría de los casos el estudio de los datos facilitados requiere un pre-procesado adecuado para que los resultados de los análisis estadísticos tradicionales sean fiables. En tal sentido en este trabajo se implementan varias formas de detectar los outliers: un algoritmo propio (Detección de Outliers con Cadenas No Monótonas), que utiliza las ventajas del algoritmo Knuth-Morris-Pratt para reconocimiento de patrones, y las librerías outliers y Rcmdr de R. La aplicación de procedimientos de cleaning e integración de datos, así como de eliminación de datos atípicos proporciona una base de datos limpia y fiable sobre la que se implementarán procedimientos de predicción de los datos con el algoritmo de clasificación Naive Bayes en R.
Resumo:
En el presente artículo se exponen las bases para un nuevo proyecto de gestión del yacimiento arqueológico de Calatrava la Vieja (Carrión de Calatrava, Ciudad Real), en el que se plantea la implantación de una Infraestructura de Datos Espaciales (IDE) como sistema de gestión global, utilizando como herramienta los SIG, y su potencialidad como integrador de informaciones cartográficas a diferentes escalas, indispensables en la continua codificación gráfica de la información arqueológica, con informaciones documentales de diverso ámbito y entidad, presentadas en bases de datos. Se analizan en el artículo una serie de pautas fundamentales, a tener en cuenta en un proyecto de esta envergadura, que deben servir de referencia a lo largo del trabajo, de esta forma se presentan las cuestiones claves de interés que puede conllevar la aplicación de estas herramientas en la gestión de un yacimiento arqueológico, así como de su entorno tanteando las posibilidades de su proyección y utilidad. A partir de esta presunción, se presenta la compleja diacronía del complejo de Calatrava «la Vieja», desde su primera ocupación en la Edad del Bronce, hasta su abandono en el siglo XV, destacando su continuidad y la importancia de nuestras actuaciones que han de ser igualmente expuestas. Partiendo de este «palimpsesto» evolutivo presentado, se analizan las posibilidades que ofrecen los SIG a través de las diferentes relaciones que podamos obtener con las Bases de Datos y analizando la potencialidad de su aplicación en estudios inter-site. Además, se plantean las premisas que debería tener la Base de Datos, «caballo de batalla» fundamental para la correcta inserción digital de datos, para su interrelación con otros datos y con el posterior análisis y estudio de sus relaciones con las diferentes realidades del yacimiento. En último lugar exponemos las primeras pautas de trabajo que hemos realizado en la codificación digital del yacimiento y de su georreferenciación espacial, para su posterior inserción en el Sistema de Información Geográfico. Éste exige una correcta ubicación geo-espacial, y con ello un amplio trabajo de aplicaciones topográficas para crear una geometría espacial y una cartografía de calidad suficiente para insertar información real de las diferentes evidencias, que se pueden encontrar en un yacimiento de estas características.
Resumo:
En un intento por mejorar las propuestas de la información, los medios de comunicación españoles, a través de los centros de documentación, se adaptan a los nuevos tiempos. Un recorrido por los últimos avances en materia de información y documentación permite a los lectores situarse frente a los retos y tareas para construir una buena información. Este texto, además, analiza el uso de la documentación por parte de los periodistas españoles, así como el funcionamiento de sus centros de documentación, con lo que se valora el servicio documental del medio y su influencia en la información, en una encuesta aplicada a través de la Asociación de la Prensa de Madrid. Otro de los objetivos es conocer el empleo de otras fuentes de información y bases de datos que los periodistas requieren para elaborar contenidos de calidad. Por último se pide a los periodistas que indiquen el valor que para ellos tienen las redes sociales Twitter, Facebook y LinkedIn.
Resumo:
En la actualidad, existe un concepto que está cobrando especial relevancia, el cual es conocido como IoT (Internet of Things, Internet de las Cosas) [1]. En el IoT [2] se define la interconexión digital de objetos cotidianos con internet, esto significa que no sólo “los humanos” tenemos la capacidad de conectarnos a internet, sino que caminamos hacia una nueva era donde prácticamente cualquier cosa podría ser conectada a internet, desde un reloj (smartwatch), como tenemos en la actualidad, hasta una nevera, una persiana, una sartén, etc. En este proyecto se ha querido aplicar ciertas fases del IoT, para convertir una información ambiental poco sesgada, proporcionada por una pequeña estación meteorológica, en un valor adicional a la hora de tomar decisiones basadas en las variables ambientales, para determinar, según un proceso de aprendizaje automático, la sensación que una persona percibe en relación al tiempo meteorológico en un determinado momento. Para ello utilizamos una serie de sensores que se encargan de darnos la información ambiental necesaria (como la temperatura, humedad y presión atmosférica) una fuente de procesamiento como puede ser un micro-controlador, para después poder manejarla y procesarla en la nube, de forma remota, adquiriendo así el valor añadido que se espera en el IoT. Además, en este proyecto se aplican técnicas de Inteligencia Artificial para ayudar al usuario en esa toma de decisiones, mediante un proceso de entrenamiento previo, que permite obtener información relevante para aplicarla posteriormente en el contexto meteorológico mencionado. Para manejar todos estos conceptos y elementos, se hace uso de servicios Web, bases de datos, procesamiento y aprendizaje automático, integrando todos los servicios en una misma plataforma que facilite la comunicación de todos los elementos involucrados.