948 resultados para DISEÑO DE BASES DE DATOS
Resumo:
El trabajo ha sido realizado dentro del marco de los proyectos EURECA (Enabling information re-Use by linking clinical REsearch and Care) e INTEGRATE (Integrative Cancer Research Through Innovative Biomedical Infrastructures), en los que colabora el Grupo de Informática Biomédica de la UPM junto a otras universidades e instituciones sanitarias europeas. En ambos proyectos se desarrollan servicios e infraestructuras con el objetivo principal de almacenar información clínica, procedente de fuentes diversas (como por ejemplo de historiales clínicos electrónicos de hospitales, de ensayos clínicos o artículos de investigación biomédica), de una forma común y fácilmente accesible y consultable para facilitar al máximo la investigación de estos ámbitos, de manera colaborativa entre instituciones. Esta es la idea principal de la interoperabilidad semántica en la que se concentran ambos proyectos, siendo clave para el correcto funcionamiento del software del que se componen. El intercambio de datos con un modelo de representación compartido, común y sin ambigüedades, en el que cada concepto, término o dato clínico tendrá una única forma de representación. Lo cual permite la inferencia de conocimiento, y encaja perfectamente en el contexto de la investigación médica. En concreto, la herramienta a desarrollar en este trabajo también está orientada a la idea de maximizar la interoperabilidad semántica, pues se ocupa de la carga de información clínica con un formato estandarizado en un modelo común de almacenamiento de datos, implementado en bases de datos relacionales. El trabajo ha sido desarrollado en el periodo comprendido entre el 3 de Febrero y el 6 de Junio de 2014. Se ha seguido un ciclo de vida en cascada para la organización del trabajo realizado en las tareas de las que se compone el proyecto, de modo que una fase no puede iniciarse sin que se haya terminado, revisado y aceptado la fase anterior. Exceptuando la tarea de documentación del trabajo (para la elaboración de esta memoria), que se ha desarrollado paralelamente a todas las demás. ----ABSTRACT--- The project has been developed during the second semester of the 2013/2014 academic year. This Project has been done inside EURECA and INTEGRATE European biomedical research projects, where the GIB (Biomedical Informatics Group) of the UPM works as a partner. Both projects aim is to develop platforms and services with the main goal of storing clinical information (e.g. information from hospital electronic health records (EHRs), clinical trials or research articles) in a common way and easy to access and query, in order to support medical research. The whole software environment of these projects is based on the idea of semantic interoperability, which means the ability of computer systems to exchange data with unambiguous and shared meaning. This idea allows knowledge inference, which fits perfectly in medical research context. The tool to develop in this project is also "semantic operability-oriented". Its purpose is to store standardized clinical information in a common data model, implemented in relational databases. The project has been performed during the period between February 3rd and June 6th, of 2014. It has followed a "Waterfall model" of software development, in which progress is seen as flowing steadily downwards through its phases. Each phase starts when its previous phase has been completed and reviewed. The task of documenting the project‟s work is an exception; it has been performed in a parallel way to the rest of the tasks.
Resumo:
Esta comunicación tiene como objetivo analizar la «publicidad activa» de los registros electrónicos de planteamiento urbanístico de las diecisiete comunidades autónomas españolas y del Estado (Sistema de Información Urbana - SIU). Se plantea un análisis exploratorio, con un enfoque cuantitativo, para la elaboración de un diagnóstico del grado de desarrollo de los tres principios del Gobierno abierto (transparencia, participación y colaboración) en estos sitios web. Los resultados muestran un grado de desarrollo desigual entre la información disponible en los diferentes registros. En general, las comunidades autónomas disponen de portales específicos dedicados sólo a información a posteriori (de los documentos vigentes una vez que han sido aprobados y publicados en los boletines oficiales), aunque con bases de datos muy completas de documentos digitalizados y con consultas a demanda elaboradas. No obstante, los niveles de transparencia estipulados para la documentación en elaboración o tramitación, desde su fase inicial, así como las herramientas de colaboración y participación son excepcionales.
Resumo:
El presente Proyecto Fin de Grado tiene como objetivo el estudio y caracterización del centelleo troposférico en ausencia de lluvia en la banda Ka de un enlace Tierra-satélite. Para ello se dispondrá de un equipo receptor situado en la Escuela Técnica Superior de Ingenieros de Telecomunicación. Los datos son emitidos desde el satélite EutelSat Hot Bird 13A a una frecuencia de 19,7 GHz. La primera parte del proyecto comienza con las bases teóricas de los distintos fenómenos que afectan a la propagación de un enlace satélite, mencionando los modelos de predicción más importantes. Se ha dado más importancia al apartado perteneciente al centelleo troposférico por ser el tema tratado en este proyecto. El estudio cuenta con datos del satélite durante 7 años comprendidos entre julio de 2006 a junio de 2013. Después del filtrado y el resto del tratamiento adecuado de los datos se han obtenido distintas distribuciones estadísticas que están relacionadas con el centelleo como la varianza. Más tarde se ha comparado la varianza experimental con parámetros meteorológicos obtenidos desde distintas bases de datos. El objetivo de esto ha sido discernir cuál de estos factores afecta en mayor medida a la intensidad de centelleo. Para ello se ha realizado la correlación entre la varianza y varios parámetros meteorológicos: temperatura, humedad relativa, humedad absoluta, índice de refracción húmedo, presión… Además se han realizado medidas de nubosidad en los que se ha clasificado las muestras dependiendo del tipo de nube presente en el cielo. A continuación se ha calculado la varianza mensual media y distribuciones acumuladas de ciertos modelos de predicción de centelleo, comparándolos gráficamente con las curvas experimentales. Estos modelos usan parámetros medidos en superficie por lo que se utilizarán algunos de los parámetros analizados en el capítulo anterior. Por último se expondrán las conclusiones sacadas a lo largo de la realización del proyecto y las posibles líneas de investigación futuras. ABSTRACT. The present Project has as the principal aim the study and characterization of tropospheric scintillation in lack of rain in the band Ka of an Earth-satellite link. It is provided for a receptor equipment located in the ETSIT. The data are broadcasted form the Eutelsat Hot Bird 13A satellite at the frecuency of 19,7 GHz. The beginning of the project starts with the theorical basis of the different phenomenons that affects to the propagation of a satellite link, naming the most important predictions models. The chapter referred to the scintillation has had more importance due to be the main topic in this project. The study deals with satellite data during 7 years between July 2006 to June 2013. After the filter and others treatments of the data, it has been getting different statistics distributions related to scintillation like variance. Later, the experimental variance has been compared with meteorological parameters obtained from different datasets. The purpose has been to decide which factor affects in a greater way to the scintillation intensity. For that it has been doing the correlation between variance and meteorological parameters: temperature, relative humidity, absolute humidity, air refractivity due to water vapour, pressure… Moreover, it has been doing cloudiness measurements in which the samples have been classified in order to the kind of cloud shown in the sky at that moment. Then it has been calculated the monthly averaged variance and the prediction model for cumulative distributions which has been compared with the experimental results. That models uses surface data that they will be uses some meteorological parameters analyzed in previous chapters. Finally it will be shown the conclusions obtained along the realization of the project and the possible ways of future research.
Resumo:
Hoy día, en la era post genómica, los ensayos clínicos de cáncer implican la colaboración de diversas instituciones. El análisis multicéntrico y retrospectivo requiere de métodos avanzados para garantizar la interoperabilidad semántica. En este escenario, el objetivo de los proyectos EURECA e INTEGRATE es proporcionar una infraestructura para compartir conocimientos y datos de los ensayos clínicos post genómicos de cáncer. Debido en gran parte a la gran complejidad de los procesos colaborativos de las instituciones, provoca que la gestión de una información tan heterogénea sea un desafío dentro del área médica. Las tecnologías semánticas y las investigaciones relacionadas están centradas en búsqueda de conocimiento de la información extraída, permitiendo una mayor flexibilidad y usabilidad de los datos extraidos. Debido a la falta de estándares adoptados por estas entidades y la complejidad de los datos procedentes de ensayos clínicos, una capacidad semántica es esencial para asegurar la integración homogénea de esta información. De otra manera, los usuarios finales necesitarán conocer cada modelo y cada formato de dato de las instituciones participantes en cada estudio. Para proveer de una capa de interoperabilidad semántica, el primer paso es proponer un\Common Data Model" (CDM) que represente la información a almacenar, y un \Core Dataset" que permita el uso de múltiples terminologías como vocabulario compartido. Una vez que el \Core Dataset" y el CDM han sido seleccionados, la manera en la que realizar el mapping para unir los conceptos de una terminología dada al CDM, requiere de una mecanismo especial para realizar dicha labor. Dicho mecanismo, debe definir que conceptos de diferentes vocabularios pueden ser almacenados en determinados campos del modelo de datos, con la finalidad de crear una representación común de la información. El presente proyecto fin de grado, presenta el desarrollo de un servicio que implementa dicho mecanismo para vincular elementos de las terminologías médicas SNOMED CT, LOINC y HGNC, con objetos del \Health Level 7 Reference Information Model" (HL7 RIM). El servicio propuesto, y nombrado como TermBinding, sigue las recomendaciones del proyecto TermInfo del grupo HL7, pero también se tienen en cuenta cuestiones importantes que surgen al enlazar entre las citadas terminologas y el modelo de datos planteado. En este proceso de desarrollo de la interoperabilidad semántica en ensayos clínicos de cáncer, los datos de fuentes heterogéneas tienen que ser integrados, y es requisito que se deba habilitar una interfaz de acceso homogéneo a toda esta información. Para poder hacer unificar los datos provenientes de diferentes aplicaciones y bases de datos, es esencial representar todos estos datos de una manera canónica o normalizada. La estandarización de un determinado concepto de SNOMED CT, simplifica las recomendaciones del proyecto TermInfo del grupo HL7, utilizadas para poder almacenar cada concepto en el modelo de datos. Siguiendo este enfoque, la interoperabilidad semántica es conseguida con éxito para conceptos SNOMED CT, sean o no post o pre coordinados, así como para las terminologías LOINC y HGNC. Los conceptos son estandarizados en una forma normal que puede ser usada para unir los datos al \Common Data Model" basado en el RIM de HL7. Aunque existen limitaciones debido a la gran heterogeneidad de los datos a integrar, un primer prototipo del servicio propuesto se está utilizando con éxito en el contexto de los proyectos EURECA e INTEGRATE. Una mejora en la interoperabilidad semántica de los datos de ensayos clínicos de cáncer tiene como objetivo mejorar las prácticas en oncología.
Resumo:
La Ciencia Ciudadana nace del resultado de involucrar en las investigaciones científicas a todo tipo de personas, las cuales pueden participar en un determinado experimento analizando o recopilando datos. No hace falta que tengan una formación científica para poder participar, es decir cualquiera puede contribuir con su granito de arena. La ciencia ciudadana se ha convertido en un elemento a tener en cuenta a la hora de realizar tareas científicas que requieren mucha dedicación, o que simplemente por el volumen de trabajo que estas implican, resulta casi imposible que puedan ser realizadas por una sola persona o un pequeño grupo de trabajo. El proyecto GLORIA (GLObal Robotic-telescopes Intelligent Array) es la primera red de telescopios robóticos del mundo de acceso libre que permite a los usuarios participar en la investigación astronómica mediante la observación con telescopios robóticos, y/o analizando los datos que otros usuarios han adquirido con GLORIA, o desde otras bases de datos de libre acceso. Con el objetivo de contribuir a esta iniciativa se ha propuesto crear una plataforma web que pasará a formar parte del Proyecto GLORIA, en la que se puedan realizar experimentos astronómicos. Con el objetivo de fomentar la ciencia y el aprendizaje colaborativo se propone construir una aplicación web que se ejecute en la plataforma Facebook. Los experimentos los proporciona la red de telescopios del proyecto GLORIA mediante servicios web y están definidos mediante XML. La aplicación web recibe el XML con la descripción del experimento, lo interpreta y lo representa en la plataforma Facebook para que los usuarios potenciales puedan realizar los experimentos. Los resultados de los experimentos realizados se envían a una base de datos de libre acceso que será gestionada por el proyecto GLORIA, para su posterior análisis por parte de expertos. ---ABSTRACT---The citizen’s science is born out of the result of involving all type of people in scientific investigations, in which, they can participate in a determined experiment analyzing or compiling data. There is no need to have a scientific training in order to participate, but, anyone could contribute doing one’s bit. The citizen’s science has become an element to take into account when carrying out scientific tasks that require a lot dedication, or that, for the volume of work that these involve, are nearly impossible to be carried out by one person or a small working group. The GLORIA Project (Global Robotic-Telescopes Intelligent Array) is the first network of free access robotic telescopes in the world that permits the users to participate in the astronomic investigation by means of observation with robotic telescopes, and/or analyzing data from other users that have obtained through GLORIA, or from other free-access databases. With the aim of contributing to this initiative, a web platform has been created and will be part of the GLORIA Project, in which astronomic experiments can be carried out. With the objective of promoting science and collaborative apprenticeship, a web application carried out in the FACEBOOK platform is to be built. The experiments are founded by the telescopes network of the GLORIA project by means of web services and are defined through XML. The web application receives the XML with the description of the experiment, interprets it and represents it in the FACEBOOK platform in order for potential users may perform the experiments. The results of the experiments carried out are sent to a free-access database that will be managed by the GLORIA Project for its analysis on the part of experts.
Resumo:
La agricultura es uno de los sectores más afectados por el cambio climático. A pesar de haber demostrado a lo largo de la historia una gran capacidad para adaptarse a nuevas situaciones, hoy en día la agricultura se enfrenta a nuevos retos tales como satisfacer un elevado crecimiento en la demanda de alimentos, desarrollar una agricultura sostenible con el medio ambiente y reducir las emisiones de gases de efecto invernadero. El potencial de adaptación debe ser definido en un contexto que incluya el comportamiento humano, ya que éste juega un papel decisivo en la implementación final de las medidas. Por este motivo, y para desarrollar correctamente políticas que busquen influir en el comportamiento de los agricultores para fomentar la adaptación a estas nuevas condiciones, es necesario entender previamente los procesos de toma de decisiones a nivel individual o de explotación, así como los efectos de los factores que determinan las barreras o motivaciones de la implementación de medidas. Esta Tesis doctoral trata de profundizar en el análisis de factores que influyen en la toma de decisiones de los agricultores para adoptar estrategias de adaptación al cambio climático. Este trabajo revisa la literatura actual y desarrolla un marco metodológico a nivel local y regional. Dos casos de estudio a nivel local (Doñana, España y Makueni, Kenia) han sido llevados a cabo con el fin de explorar el comportamiento de los agricultores hacia la adaptación. Estos casos de estudio representan regiones con notables diferencias en climatología, impactos del cambio climático, barreras para la adaptación y niveles de desarrollo e influencia de las instituciones públicas y privadas en la agricultura. Mientras el caso de estudio de Doñana representa un ejemplo de problemas asociados al uso y escasez del agua donde se espera que se agraven en el futuro, el caso de estudio de Makueni ejemplifica una zona fuertemente amenazada por las predicciones de cambio climático, donde adicionalmente la falta de infraestructura y la tecnología juegan un papel crucial para la implementación de la adaptación. El caso de estudio a nivel regional trata de generalizar en África el comportamiento de los agricultores sobre la implementación de medidas. El marco metodológico que se ha seguido en este trabajo abarca una amplia gama de enfoques y métodos para la recolección y análisis de datos. Los métodos utilizados para la toma de datos incluyen la implementación de encuestas, entrevistas, talleres con grupos de interés, grupos focales de discusión, revisión de estudios previos y bases de datos públicas. Los métodos analíticos incluyen métodos estadísticos, análisis multi‐criterio para la toma de decisiones, modelos de optimización de uso del suelo y un índice compuesto calculado a través de indicadores. Los métodos estadísticos se han utilizado con el fin de evaluar la influencia de los factores socio‐económicos y psicológicos sobre la adopción de medidas de adaptación. Dentro de estos métodos se incluyen regresiones logísticas, análisis de componentes principales y modelos de ecuaciones estructurales. Mientras que el análisis multi‐criterio se ha utilizado con el fin de evaluar las opciones de adaptación de acuerdo a las opiniones de las diferentes partes interesadas, el modelo de optimización ha tenido como fin analizar la combinación óptima de medidas de adaptación. El índice compuesto se ha utilizado para evaluar a nivel regional la implementación de medidas de adaptación en África. En general, los resultados del estudio ponen de relieve la gran importancia de considerar diferentes escalas espaciales a la hora de evaluar la implementación de medidas de adaptación al cambio climático. El comportamiento de los agricultores es diferente entre lugares considerados a una escala local relativamente pequeña, por lo que la generalización de los patrones del comportamiento a escalas regionales o globales resulta relativamente compleja. Los resultados obtenidos han permitido identificar factores determinantes tanto socioeconómicos como psicológicos y calcular su efecto sobre la adopción de medidas de adaptación. Además han proporcionado una mejor comprensión del distinto papel que desempeñan los cinco tipos de capital (natural, físico, financiero, social y humano) en la implementación de estrategias de adaptación. Con este trabajo se proporciona información de gran interés en los procesos de desarrollo de políticas destinadas a mejorar el apoyo de la sociedad a tomar medidas contra el cambio climático. Por último, en el análisis a nivel regional se desarrolla un índice compuesto que muestra la probabilidad de adoptar medidas de adaptación en las regiones de África y se analizan las causas que determinan dicha probabilidad de adopción de medidas. ABSTRACT Agriculture is and will continue to be one of the sectors most affected by climate change. Despite having demonstrated throughout history a great ability to adapt, agriculture today faces new challenges such as meeting growing food demands, developing sustainable agriculture and reducing greenhouse gas emissions. Adaptation policies planned on global, regional or local scales are ultimately implemented in decision‐making processes at the farm or individual level so adaptation potentials have to be set within the context of individual behaviour and regional institutions. Policy instruments can play a formative role in the adoption of such policies by addressing incentives/disincentives that influence farmer’s behaviour. Hence understanding farm‐level decision‐making processes and the influence of determinants of adoption is crucial when designing policies aimed at fostering adoption. This thesis seeks to analyse the factors that influence decision‐making by farmers in relation to the uptake of adaptation options. This work reviews the current knowledge and develops a methodological framework at local and regional level. Whilst the case studies at the local level are conducted with the purpose of exploring farmer’s behaviour towards adaptation the case study at the regional level attempts to up‐scale and generalise theory on adoption of farmlevel adaptation options. The two case studies at the local level (Doñana, Spain and Makueni, Kenya) encompass areas with different; climates, impacts of climate change, adaptation constraints and limits, levels of development, institutional support for agriculture and influence from public and private institutions. Whilst the Doñana Case Study represents an area plagued with water‐usage issues, set to be aggravated further by climate change, Makueni Case study exemplifies an area decidedly threatened by climate change where a lack of infrastructure and technology plays a crucial role in the uptake of adaptation options. The proposed framework is based on a wide range of approaches for collecting and analysing data. The approaches used for data collection include the implementation of surveys, interviews, stakeholder workshops, focus group discussions, a review of previous case studies, and public databases. The analytical methods include statistical approaches, multi criteria analysis for decision‐making, land use optimisation models, and a composite index based on public databases. Statistical approaches are used to assess the influence of socio‐economic and psychological factors on the adoption or support for adaptation measures. The statistical approaches used are logistic regressions, principal component analysis and structural equation modelling. Whilst a multi criteria analysis approach is used to evaluate adaptation options according to the different perspectives of stakeholders, the optimisation model analyses the optimal combination of adaptation options. The composite index is developed to assess adoption of adaptation measures in Africa. Overall, the results of the study highlight the importance of considering various scales when assessing adoption of adaptation measures to climate change. As farmer’s behaviour varies at a local scale there is elevated complexity when generalising behavioural patterns for farmers at regional or global scales. The results identify and estimate the effect of most relevant socioeconomic and psychological factors that influence adoption of adaptation measures to climate change. They also provide a better understanding of the role of the five types of capital (natural, physical, financial, social, and human) on the uptake of farm‐level adaptation options. These assessments of determinants help to explain adoption of climate change measures and provide helpful information in order to design polices aimed at enhancing societal support for adaptation policies. Finally the analysis at the regional level develops a composite index which suggests the likelihood of the regions in Africa to adopt farm‐level adaptation measures and analyses the main causes of this likelihood of adoption.
Resumo:
This document is the result of a process of web development to create a tool that will allow to Cracow University of Technology consult, create and manage timetables. The technologies chosen for this purpose are Apache Tomcat Server, My SQL Community Server, JDBC driver, Java Servlets and JSPs for the server side. The client part counts on Javascript, jQuery, AJAX and CSS technologies to perform the dynamism. The document will justify the choice of these technologies and will explain some development tools that help in the integration and development of all this elements: specifically, NetBeans IDE and MySQL workbench have been used as helpful tools. After explaining all the elements involved in the development of the web application, the architecture and the code developed are explained through UML diagrams. Some implementation details related to security are also deeper explained through sequence diagrams. As the source code of the application is provided, an installation manual has been developed to run the project. In addition, as the platform is intended to be a beta that will be grown, some unimplemented ideas for future development are also exposed. Finally, some annexes with important files and scripts related to the initiation of the platform are attached. This project started through an existing tool that needed to be expanded. The main purpose of the project along its development has focused on setting the roots for a whole new platform that will replace the existing one. For this goal, it has been needed to make a deep inspection on the existing web technologies: a web server and a SQL database had to be chosen. Although the alternatives were a lot, Java technology for the server was finally selected because of the big community backwards, the easiness of modelling the language through UML diagrams and the fact of being free license software. Apache Tomcat is the open source server that can use Java Servlet and JSP technology. Related to the SQL database, MySQL Community Server is the most popular open-source SQL Server, with a big community after and quite a lot of tools to manage the server. JDBC is the driver needed to put in contact Java and MySQL. Once we chose the technologies that would be part of the platform, the development process started. After a detailed explanation of the development environment installation, we used UML use case diagrams to set the main tasks of the platform; UML class diagrams served to establish the existing relations between the classes generated; the architecture of the platform was represented through UML deployment diagrams; and Enhanced entity–relationship (EER) model were used to define the tables of the database and their relationships. Apart from the previous diagrams, some implementation issues were explained to make a better understanding of the developed code - UML sequence diagrams helped to explain this. Once the whole platform was properly defined and developed, the performance of the application has been shown: it has been proved that with the current state of the code, the platform covers the use cases that were set as the main target. Nevertheless, some requisites needed for the proper working of the platform have been specified. As the project is aimed to be grown, some ideas that could not be added to this beta have been explained in order not to be missed for future development. Finally, some annexes containing important configuration issues for the platform have been added after proper explanation, as well as an installation guide that will let a new developer get the project ready. In addition to this document some other files related to the project are provided: - Javadoc. The Javadoc containing the information of every Java class created is necessary for a better understanding of the source code. - database_model.mwb. This file contains the model of the database for MySQL Workbench. This model allows, among other things, generate the MySQL script for the creation of the tables. - ScheduleManager.war. The WAR file that will allow loading the developed application into Tomcat Server without using NetBeans. - ScheduleManager.zip. The source code exported from NetBeans project containing all Java packages, JSPs, Javascript files and CSS files that are part of the platform. - config.properties. The configuration file to properly get the names and credentials to use the database, also explained in Annex II. Example of config.properties file. - db_init_script.sql. The SQL query to initiate the database explained in Annex III. SQL statements for MySQL initialization. RESUMEN. Este proyecto tiene como punto de partida la necesidad de evolución de una herramienta web existente. El propósito principal del proyecto durante su desarrollo se ha centrado en establecer las bases de una completamente nueva plataforma que reemplazará a la existente. Para lograr esto, ha sido necesario realizar una profunda inspección en las tecnologías web existentes: un servidor web y una base de datos SQL debían ser elegidos. Aunque existen muchas alternativas, la tecnología Java ha resultado ser elegida debido a la gran comunidad de desarrolladores que tiene detrás, además de la facilidad que proporciona este lenguaje a la hora de modelarlo usando diagramas UML. Tampoco hay que olvidar que es una tecnología de uso libre de licencia. Apache Tomcat es el servidor de código libre que permite emplear Java Servlets y JSPs para hacer uso de la tecnología de Java. Respecto a la base de datos SQL, el servidor más popular de código libre es MySQL, y cuenta también con una gran comunidad detrás y buenas herramientas de modelado, creación y gestión de la bases de datos. JDBC es el driver que va a permitir comunicar las aplicaciones Java con MySQL. Tras elegir las tecnologías que formarían parte de esta nueva plataforma, el proceso de desarrollo tiene comienzo. Tras una extensa explicación de la instalación del entorno de desarrollo, se han usado diagramas de caso de UML para establecer cuáles son los objetivos principales de la plataforma; los diagramas de clases nos permiten realizar una organización del código java desarrollado de modo que sean fácilmente entendibles las relaciones entre las diferentes clases. La arquitectura de la plataforma queda definida a través de diagramas de despliegue. Por último, diagramas EER van a definir las relaciones entre las tablas creadas en la base de datos. Aparte de estos diagramas, algunos detalles de implementación se van a justificar para tener una mejor comprensión del código desarrollado. Diagramas de secuencia ayudarán en estas explicaciones. Una vez que toda la plataforma haya quedad debidamente definida y desarrollada, se va a realizar una demostración de la misma: se demostrará cómo los objetivos generales han sido alcanzados con el desarrollo actual del proyecto. No obstante, algunos requisitos han sido aclarados para que la plataforma trabaje adecuadamente. Como la intención del proyecto es crecer (no es una versión final), algunas ideas que se han podido llevar acabo han quedado descritas de manera que no se pierdan. Por último, algunos anexos que contienen información importante acerca de la plataforma se han añadido tras la correspondiente explicación de su utilidad, así como una guía de instalación que va a permitir a un nuevo desarrollador tener el proyecto preparado. Junto a este documento, ficheros conteniendo el proyecto desarrollado quedan adjuntos. Estos ficheros son: - Documentación Javadoc. Contiene la información de las clases Java que han sido creadas. - database_model.mwb. Este fichero contiene el modelo de la base de datos para MySQL Workbench. Esto permite, entre otras cosas, generar el script de iniciación de la base de datos para la creación de las tablas. - ScheduleManager.war. El fichero WAR que permite desplegar la plataforma en un servidor Apache Tomcat. - ScheduleManager.zip. El código fuente exportado directamente del proyecto de Netbeans. Contiene todos los paquetes de Java generados, ficheros JSPs, Javascript y CSS que forman parte de la plataforma. - config.properties. Ejemplo del fichero de configuración que permite obtener los nombres de la base de datos - db_init_script.sql. Las consultas SQL necesarias para la creación de la base de datos.
Resumo:
Se ha realizado un estudio de la distribución de plantas vasculares en un territorio situado entre las provincias de Cuenca, Guadalajara, Madrid y Toledo (España). El territorio estudiado está en la Submeseta Sur de la península ibérica, al sur del Sistema Central, norte de los Montes de Toledo y oeste del Sistema Ibérico, en zonas sedimentarias con poco relieve y clima mediterráneo, con grandes contrastes de temperatura y precipitaciones muy irregulares. Coincide con las regiones naturales llamadas: “Alcarrias”, “Campiñas de Madrid y Guadalajara” y “Vegas de los ríos de la Cuenca del Tajo”. Es lo que he llamado Cuenca Media del Tajo. En una primera fase se ha estudiado la flora regional para adquirir conocimientos previos mediante las consultas bibliográficas y de herbarios, se ha contado con bases de datos disponibles para MA, MACB, MAF, JACA, AH, ABH, VAL, SALA y EMMA. Se han revisado las aportaciones propias que en los últimos años he realizado en el territorio en relación a los temas tratados en la tesis. El trabajo de campo ha consistido en la realización de inventarios de presencia de flora. Ha sido muy importante la tarea herborizadora para llegar a la correcta identificación de las especies colectadas en los inventarios. De esta forma el autor ha confeccionado un herbario propio JML que en el territorio muestreado ha reunido cerca de 15000 números en las cuatro provincias estudiadas. Se ha hecho un muestreo sistemático del territorio con unos 6000 listados de plantas. Se ha tomado como unidad de muestreo la cuadrícula de UTM de 1 km de lado incluida como una centésima parte de la cuadrícula de UTM de 10 km. Se han seguido criterios para uniformizar el muestreo. Se ha apuntado el tiempo empleado y la superficie muestreada estimada en cada toma de datos. El criterio mínimo que tienen que cumplir todas las cuadrículas en el área estudiada ha sido que para cada cuadrícula de UTM de 5 km se han realizado al menos 5 inventarios en 5 cuadrículas diferentes de UTM de 1 km y al menos en una hora de tiempo. La unidad de comparación ha sido la cuadrícula UTM de 5 km. Se han informatizado los inventarios de campo, para ello se ha creado la base de datos TESIS en Microsoft office –Access-. Las principales tablas son LOCALIDAD, en la que se anotan las características del lugar muestreado y ESPECIES, que lista las especies de flora consideradas en las cuatro provincias del estudio. Por medio de formularios se han rellenado las tablas; destaca la tabla ESPECIE INVENTARIO que relaciona las tablas ESPECIES y LOCALIDAD; esta tabla cuenta en este momento con unos 165.000 registros. En la tabla ESPECIES_FPVI se visualizan las especies recopiladas. Se ha creado un indicador llamado FPVI “Flora permanentemente visible identificable” que consiste en atribuir a cada especie unos índices que nos permiten saber si una determinada planta se puede detectar en cualquier época del año. Los resultados presentados son: Creación de la base de datos TESIS. El Catálogo Florístico de la Cuenca Media del Tajo, que es el catálogo de la flora de las cuatro provincias desde el principio de la sistemática hasta las Saxifragáceas. En total se han recopilado 1028 taxones distribuidos en 77 familias. Se ha calculado el índice FPVI, para las especies del catálogo. La finalidad para la que se ha diseñado este índice es para poder comparar territorios. Para el desarrollo de ambos resultados ha sido fundamental el desarrollo de la tabla ESPECIES_PVI de la base de datos TESIS. En la tabla ESPECIES_PVI se han apuntado las características ecológicas y se revisa la información bibliográfica disponible para cada especie; las principales fuentes de información consultadas han sido Flora iberica, el proyecto “Anthos” y las bases de datos de los herbarios. Se ha apuntado sí se ha visto, sí está protegida o sí en un endemismo. Otros resultados son: la localización de las cuadrículas de UTM de 10 km, con mayor número de endemismos o especies singulares, con mayor valor botánico. Se ha realizado un par de ejemplos de estudios de autoecología de especie, en concreto Teucrium pumilum y Clematis recta. Se han confeccionando salidas cartográficas de distribución de especies. Se ha elaborado el herbario JML. Se ha presentado una sencilla herramienta para incluir inventarios florísticos, citas corológicas, consultas de autoecología o etiquetado de pliegos de herbario. Como colofón, se ha colaborado para desarrollar una aplicación informática de visualización, análisis y estudio de la distribución de taxones vegetales, que ha utilizado como datos de partida un porcentaje importante de los obtenidos para esta tesis. ABSTRACT I have made a study of the distribution of vascular plants in a territory located between the provinces of Cuenca, Guadalajara, Madrid and Toledo (Spain). The studied area is in the “Submeseta” South of the Iberian Peninsula, south of the Central System, north of the Montes de Toledo and west of the Iberian System, in sedimentary areas with little relief and Mediterranean climate, with big temperature contrasts and irregular rainfall. Coincides with the natural regions called "Alcarrias", "countryside of Madrid and Guadalajara" and “Vegas River Tagus Basin”. This is what I have called Middle Tagus Basin. In a first step we have studied the regional flora to acquire prior knowledge through the literature and herbaria consultations, it has had available databases for MA, MACB, MAF, JACA, AH, ABH, VAL, SALA and EMMA herbaria. The contributions I have made in the last years in the territory in relation to the topics discussed in the thesis have been revised. The field work consisted of conducting inventories presence of flora. Botanize was a very important task to get to the correct identification of the species collected in inventories. In this way the author has made his own herbarium JML in the sampled area has met at least 15000 samples in the four studied provinces. There has been a systematic sampling of the territory with nearly 6,000 listings of plants. Was taken as the sampling unit grid UTM 1 km side included as a hundredth of the UTM grid of 10 km from side. Criteria have been taken to standardize the sampling. Data were taken of the time spent and the estimated sampled surface. The minimum criteria they have to meet all the grids in the study area has been that for each UTM grid of 5 km have been made at least 5 stocks in 5 different grids UTM 1 km and at least one hour of time. The unit of comparison was the UTM grid of 5 km. I have computerized inventories of field, for it was created a database in Access- Microsoft office -TESIS. The main tables are LOCALIDAD, with caracteristics of the sampled location and ESPECIES, which lists the plant species considered in the four provinces of the study, is. Through forms I filled in the tables; highlights ESPECIE INVENTARIO table that relates the tables ESPECIES and LOCALIDAD, this table is counted at the moment with about 165,000 records. The table ESPECIES FPVI visualizes all recollected species. We have created an indicator called FPVI "Flora permanently visible identifiable" that attributes to each species indices that allow us to know whether a given plant can be detected in any season. The results presented are: Creating data base TESIS. The Floristic Books Middle Tagus Basin, which is a catalog of the flora of the four provinces since the beginning of the systematic until Saxifragaceae. In total 1028 collected taxa in 77 families. We calculated FPVI index for species catalog. The purpose for which this index designed is, to compare territories. For the development of both results, it was essential to develop the table ESPECIES_PVI TESIS data base. Table ESPECIES_PVI has signed the ecological characteristics and bibliographic information available for each species is revised; the main sources of information has been Flora iberica, the Anthos project databases of herbaria. Targeted species has been recorded, when seen, protected or endemism. Have also been located UTM grids of 10 km, with the largest number of endemic or unique species and more botanical value. There have been a couple of species autecology studies, namely Teucrium pumilum and Clematis recta, as an example of this type of study. They have been putting together maps of species distribution. We made herbarium JML. I have presented a simple tool to include floristic inventories, chorological appointments, consultations or to tag autoecology herbarium specimens. To cap it has worked to develop a computer application for visualization, analysis and study of the distribution of plant taxa, which has used as input data a significant percentage of those obtained for this thesis.
Resumo:
La cuestión principal abordada en esta tesis doctoral es la mejora de los sistemas biométricos de reconocimiento de personas a partir de la voz, proponiendo el uso de una nueva parametrización, que hemos denominado parametrización biométrica extendida dependiente de género (GDEBP en sus siglas en inglés). No se propone una ruptura completa respecto a los parámetros clásicos sino una nueva forma de utilizarlos y complementarlos. En concreto, proponemos el uso de parámetros diferentes dependiendo del género del locutor, ya que como es bien sabido, la voz masculina y femenina presentan características diferentes que deberán modelarse, por tanto, de diferente manera. Además complementamos los parámetros clásicos utilizados (MFFC extraídos de la señal de voz), con un nuevo conjunto de parámetros extraídos a partir de la deconstrucción de la señal de voz en sus componentes de fuente glótica (más relacionada con el proceso y órganos de fonación y por tanto con características físicas del locutor) y de tracto vocal (más relacionada con la articulación acústica y por tanto con el mensaje emitido). Para verificar la validez de esta propuesta se plantean diversos escenarios, utilizando diferentes bases de datos, para validar que la GDEBP permite generar una descripción más precisa de los locutores que los parámetros MFCC clásicos independientes del género. En concreto se plantean diferentes escenarios de identificación sobre texto restringido y texto independiente utilizando las bases de datos de HESPERIA y ALBAYZIN. El trabajo también se completa con la participación en dos competiciones internacionales de reconocimiento de locutor, NIST SRE (2010 y 2012) y MOBIO 2013. En el primer caso debido a la naturaleza de las bases de datos utilizadas se obtuvieron resultados cercanos al estado del arte, mientras que en el segundo de los casos el sistema presentado obtuvo la mejor tasa de reconocimiento para locutores femeninos. A pesar de que el objetivo principal de esta tesis no es el estudio de sistemas de clasificación, sí ha sido necesario analizar el rendimiento de diferentes sistemas de clasificación, para ver el rendimiento de la parametrización propuesta. En concreto, se ha abordado el uso de sistemas de reconocimiento basados en el paradigma GMM-UBM, supervectores e i-vectors. Los resultados que se presentan confirman que la utilización de características que permitan describir los locutores de manera más precisa es en cierto modo más importante que la elección del sistema de clasificación utilizado por el sistema. En este sentido la parametrización propuesta supone un paso adelante en la mejora de los sistemas de reconocimiento biométrico de personas por la voz, ya que incluso con sistemas de clasificación relativamente simples se consiguen tasas de reconocimiento realmente competitivas. ABSTRACT The main question addressed in this thesis is the improvement of automatic speaker recognition systems, by the introduction of a new front-end module that we have called Gender Dependent Extended Biometric Parameterisation (GDEBP). This front-end do not constitute a complete break with respect to classical parameterisation techniques used in speaker recognition but a new way to obtain these parameters while introducing some complementary ones. Specifically, we propose a gender-dependent parameterisation, since as it is well known male and female voices have different characteristic, and therefore the use of different parameters to model these distinguishing characteristics should provide a better characterisation of speakers. Additionally, we propose the introduction of a new set of biometric parameters extracted from the components which result from the deconstruction of the voice into its glottal source estimate (close related to the phonation process and the involved organs, and therefore the physical characteristics of the speaker) and vocal tract estimate (close related to acoustic articulation and therefore to the spoken message). These biometric parameters constitute a complement to the classical MFCC extracted from the power spectral density of speech as a whole. In order to check the validity of this proposal we establish different practical scenarios, using different databases, so we can conclude that a GDEBP generates a more accurate description of speakers than classical approaches based on gender-independent MFCC. Specifically, we propose scenarios based on text-constrain and text-independent test using HESPERIA and ALBAYZIN databases. This work is also completed with the participation in two international speaker recognition evaluations: NIST SRE (2010 and 2012) and MOBIO 2013, with diverse results. In the first case, due to the nature of the NIST databases, we obtain results closed to state-of-the-art although confirming our hypothesis, whereas in the MOBIO SRE we obtain the best simple system performance for female speakers. Although the study of classification systems is beyond the scope of this thesis, we found it necessary to analise the performance of different classification systems, in order to verify the effect of them on the propose parameterisation. In particular, we have addressed the use of speaker recognition systems based on the GMM-UBM paradigm, supervectors and i-vectors. The presented results confirm that the selection of a set of parameters that allows for a more accurate description of the speakers is as important as the selection of the classification method used by the biometric system. In this sense, the proposed parameterisation constitutes a step forward in improving speaker recognition systems, since even when using relatively simple classification systems, really competitive recognition rates are achieved.
Resumo:
La presente investigación, tiene como objetivo analizar las influencias que ejercen los recursos intangibles (Gestión del Conocimiento, Marca, Reputación Organizacional y Responsabilidad Social) en la gestión estratégica de las instituciones de educación superior (IES) y el impacto de los mismos en los procesos de innovación a través del valor añadido que se transfiere al entorno. Se considera importante realizar un estudio sobre este tema dado que son las IES las encargadas de proporcionar los conocimientos y los nuevos hallazgos en innovaciones tecnológicas, que son transferidas al tejido productivo de las regiones, lo que proporciona crecimiento económico y mejoras en la calidad de vida. El estudio se enmarca dentro de los postulados de la teoría de los recursos y las capacidades (TRC) y de los intangibles, los cuales sirven de base a la investigación. Se planteó un sistema de hipótesis subdividido en dos vías de influencias. La primera, donde se analizan las influencias directas que ejercen los recursos intangibles sobre los resultados de las IES. La otra vía es la indirecta, que estudia las influencias que ejercen los recursos intangibles gestionados estratégicamente sobre los resultados de las IES. Esta investigación se ha concebido como no experimental, de tipo exploratorio, basada en el paradigma que busca explicar un fenómeno (variable dependiente) a través del comportamiento de las variables independientes. Es un estudio transversal, cuantitativo, que intenta describir las causas del fenómeno. Con el objeto de determinar las influencias o relaciones de causalidad que subyacen entre las variables, se utilizó la técnica del modelo de ecuaciones estructurales (SEM). La población objeto de estudio estuvo constituida por los 857 individuos pertenecientes a los consejos directivos de las IES, que forman parte de las base de datos que gestiona el Consorcio de Escuelas de Ingeniería de Latinoamérica y del Caribe y la Universidad Politécnica de Madrid, con un tamaño de muestra significativa de 250 directivos, lo que representa el 29,42% de la población. Como fuentes de recolección de información se utilizaron fuentes primarias y secundarias. Para recabar la información primaria se diseñó un cuestionario (ad hoc), el cual fue validado por expertos. La información de fuentes secundarias se extrajo de la bases de datos de la Red Iberoamericana de Ciencia y Tecnología (RICYT). Los resultados obtenidos indican que las influencias directas que pueden ejercer los recursos intangibles (Gestión del Conocimiento, Marca, Reputación Organizacional y Responsabilidad Social) no son significativas, por ello se rechazaron todas las hipótesis de la vía de influencia directa. Asimismo, de acuerdo con el contraste realizado al submodelo que representa la vía de influencia indirecta, resultaron significativas las influencias que ejercen los intangibles Gestión del Conocimiento y Reputación Organizacional, gestionadas estratégicamente sobre los resultados con valor añadido generado por las IES y transferidos al entorno. Sin embargo, no se apoyan todas las hipótesis del modelo, debido a que los constructos Marca y Responsabilidad Social resultaron no significativos. Las teorías sobre intangibles enmarcadas en la TRC no son del todo robustas y requieren de mayores esfuerzos por parte de los investigadores para lograr definir los constructos a utilizar. De igual forma, se sigue corroborando el desfase que existe entre las teorías que sustentan la investigación y las comprobaciones empíricas de las mismas. Además, se evidencia que las IES enfocan su actuación hacia la academia, por encima de las otras funciones, otorgando a la enseñanza e investigación y a la reputación organizacional una mayor importancia. Sin embargo, debido a su naturaleza no empresarial, las IES siguen manteniendo una filosofía de gestión enfocada a la generación y transmisión de conocimientos que crean reputación. Se excluyen los intangibles Marca y Responsabilidad Social, por considerar que no aportan valor a sus procesos internos o que están inmersos dentro de otros recursos intangibles. En conclusión, se corrobora el atraso de la gestión estratégica que presentan las IES en Latinoamérica. Se comprueba la no aplicación de postulados básicos de la gerencia moderna que contribuyan al manejo eficiente de todos sus recursos y al logro de sus objetivos. Esto deriva en la necesidad de modernizar la visión estratégica de las IES y en crear mejores mecanismos para lograr reconocer, mantener, proteger y desarrollar los Recursos Intangibles que poseen, realizando combinaciones de recursos óptimas, que maximicen la creación de valor para sí mismas y para la sociedad a la que pertenecen. ABSTRACT This research aims to analyze the influences exerted by intangible resources (Knowledge Management, Brand, Organizational Reputation and Social Responsibility) in the strategic management of higher education institutions (HEIs) and their impact in the innovation processes through the added value that is transferred to the environment. It is considered important to conduct a study on this issue since HEIs are responsible for providing knowledge and new findings on technological innovations, which are then, transferred to the productive fabric of these regions, providing economic growth and improvements in quality of life. The study is framed within the tenets of the Theory of Resources and Capabilities (TRC) and of intangibles which underlie this research. A system of hypotheses was raised which was subdivided into two pathways of influences. In the first system the direct influences exerted by intangible resources on the results of the IES are analyzed. The other system focuses on the indirect influences exerted by the strategically managed intangible resources on the HEIs results. This research is designed as experimental, exploratory and based on the paradigm that seeks to explain a phenomenon (the dependent variable) through the behavior of the independent variables. It is a crosssectional, quantitative study, which attempts to describe the causes of the phenomenon. In order to determine the influences or causal relationships among variables the structural equation modeling technique (SEM) was used. The population under study consisted of 857 individuals from the boards of HEIs, which are part of the database managed by the Consortium of Engineering Schools in Latin America and the Caribbean and the Technical University of Madrid, with a significant sample size of 250 managers which represents 29.42% of the population. As sources of information gathering primary and secondary sources were used. To collect primary information an ad-hoc questionnaire which was validated by experts was designed. The secondary information was extracted from the database of the Latin American Network of Science and Technology (RICYT). The results obtained indicate that the direct influences that intangible resources (Knowledge Management, Brand, Organizational Reputation and Social Responsibility) can exert are not significant. Therefore, all hypotheses related to direct influence were rejected. Also, according to the test made with the system which represents the indirect channel of influence, significant influences were exerted on the results with added value generated by the HEIs by the intangibles Knowledge Management and Organizational Reputation when they were managed strategically. However, all model hypotheses are not supported, because the constructs Brand and Social Responsibility were not significant. Theories of intangibles within the framework of the Theory of Resources and Capabilities are not entirely robust and require greater efforts by researchers to define the constructs to be used. Similarly the existing gap between the theories underpinning research and the empirical tests continues to be corroborated. In addition, there is evidence that HEIs focus their action on the academy neglecting the other functions, giving more importance to teaching, research and organizational reputation. However, due to their non-business nature, HEIs still maintain a management philosophy focused on the generation and transmission of knowledge which leads to reputation. The intangibles Brand and Social Responsibility are excluded, considering that they do not add value to their internal processes or are embedded within other intangible resources. In conclusion, the backwardness of HEIs’ strategic management in Latin America is confirmed. The lack of application of the basic principles of modern management that contribute to the efficient administration of all the resources and the achievement of objectives is proven. This leads to the need to modernize the strategic vision of HEIs and the need for better mechanisms to recognize, maintain, protect and develop the intangible resources they possess, achieving optimal combinations of resources in order to maximize the creation of value for them and for the society to which they belong.
Resumo:
Durante la actividad diaria, la sociedad actual interactúa constantemente por medio de dispositivos electrónicos y servicios de telecomunicaciones, tales como el teléfono, correo electrónico, transacciones bancarias o redes sociales de Internet. Sin saberlo, masivamente dejamos rastros de nuestra actividad en las bases de datos de empresas proveedoras de servicios. Estas nuevas fuentes de datos tienen las dimensiones necesarias para que se puedan observar patrones de comportamiento humano a grandes escalas. Como resultado, ha surgido una reciente explosión sin precedentes de estudios de sistemas sociales, dirigidos por el análisis de datos y procesos computacionales. En esta tesis desarrollamos métodos computacionales y matemáticos para analizar sistemas sociales por medio del estudio combinado de datos derivados de la actividad humana y la teoría de redes complejas. Nuestro objetivo es caracterizar y entender los sistemas emergentes de interacciones sociales en los nuevos espacios tecnológicos, tales como la red social Twitter y la telefonía móvil. Analizamos los sistemas por medio de la construcción de redes complejas y series temporales, estudiando su estructura, funcionamiento y evolución en el tiempo. También, investigamos la naturaleza de los patrones observados por medio de los mecanismos que rigen las interacciones entre individuos, así como medimos el impacto de eventos críticos en el comportamiento del sistema. Para ello, hemos propuesto modelos que explican las estructuras globales y la dinámica emergente con que fluye la información en el sistema. Para los estudios de la red social Twitter, hemos basado nuestros análisis en conversaciones puntuales, tales como protestas políticas, grandes acontecimientos o procesos electorales. A partir de los mensajes de las conversaciones, identificamos a los usuarios que participan y construimos redes de interacciones entre los mismos. Específicamente, construimos una red para representar quién recibe los mensajes de quién y otra red para representar quién propaga los mensajes de quién. En general, hemos encontrado que estas estructuras tienen propiedades complejas, tales como crecimiento explosivo y distribuciones de grado libres de escala. En base a la topología de estas redes, hemos indentificado tres tipos de usuarios que determinan el flujo de información según su actividad e influencia. Para medir la influencia de los usuarios en las conversaciones, hemos introducido una nueva medida llamada eficiencia de usuario. La eficiencia se define como el número de retransmisiones obtenidas por mensaje enviado, y mide los efectos que tienen los esfuerzos individuales sobre la reacción colectiva. Hemos observado que la distribución de esta propiedad es ubicua en varias conversaciones de Twitter, sin importar sus dimensiones ni contextos. Con lo cual, sugerimos que existe universalidad en la relación entre esfuerzos individuales y reacciones colectivas en Twitter. Para explicar los factores que determinan la emergencia de la distribución de eficiencia, hemos desarrollado un modelo computacional que simula la propagación de mensajes en la red social de Twitter, basado en el mecanismo de cascadas independientes. Este modelo nos permite medir el efecto que tienen sobre la distribución de eficiencia, tanto la topología de la red social subyacente, como la forma en que los usuarios envían mensajes. Los resultados indican que la emergencia de un grupo selecto de usuarios altamente eficientes depende de la heterogeneidad de la red subyacente y no del comportamiento individual. Por otro lado, hemos desarrollado técnicas para inferir el grado de polarización política en redes sociales. Proponemos una metodología para estimar opiniones en redes sociales y medir el grado de polarización en las opiniones obtenidas. Hemos diseñado un modelo donde estudiamos el efecto que tiene la opinión de un pequeño grupo de usuarios influyentes, llamado élite, sobre las opiniones de la mayoría de usuarios. El modelo da como resultado una distribución de opiniones sobre la cual medimos el grado de polarización. Aplicamos nuestra metodología para medir la polarización en redes de difusión de mensajes, durante una conversación en Twitter de una sociedad políticamente polarizada. Los resultados obtenidos presentan una alta correspondencia con los datos offline. Con este estudio, hemos demostrado que la metodología propuesta es capaz de determinar diferentes grados de polarización dependiendo de la estructura de la red. Finalmente, hemos estudiado el comportamiento humano a partir de datos de telefonía móvil. Por una parte, hemos caracterizado el impacto que tienen desastres naturales, como innundaciones, sobre el comportamiento colectivo. Encontramos que los patrones de comunicación se alteran de forma abrupta en las áreas afectadas por la catástofre. Con lo cual, demostramos que se podría medir el impacto en la región casi en tiempo real y sin necesidad de desplegar esfuerzos en el terreno. Por otra parte, hemos estudiado los patrones de actividad y movilidad humana para caracterizar las interacciones entre regiones de un país en desarrollo. Encontramos que las redes de llamadas y trayectorias humanas tienen estructuras de comunidades asociadas a regiones y centros urbanos. En resumen, hemos mostrado que es posible entender procesos sociales complejos por medio del análisis de datos de actividad humana y la teoría de redes complejas. A lo largo de la tesis, hemos comprobado que fenómenos sociales como la influencia, polarización política o reacción a eventos críticos quedan reflejados en los patrones estructurales y dinámicos que presentan la redes construidas a partir de datos de conversaciones en redes sociales de Internet o telefonía móvil. ABSTRACT During daily routines, we are constantly interacting with electronic devices and telecommunication services. Unconsciously, we are massively leaving traces of our activity in the service providers’ databases. These new data sources have the dimensions required to enable the observation of human behavioral patterns at large scales. As a result, there has been an unprecedented explosion of data-driven social research. In this thesis, we develop computational and mathematical methods to analyze social systems by means of the combined study of human activity data and the theory of complex networks. Our goal is to characterize and understand the emergent systems from human interactions on the new technological spaces, such as the online social network Twitter and mobile phones. We analyze systems by means of the construction of complex networks and temporal series, studying their structure, functioning and temporal evolution. We also investigate on the nature of the observed patterns, by means of the mechanisms that rule the interactions among individuals, as well as on the impact of critical events on the system’s behavior. For this purpose, we have proposed models that explain the global structures and the emergent dynamics of information flow in the system. In the studies of the online social network Twitter, we have based our analysis on specific conversations, such as political protests, important announcements and electoral processes. From the messages related to the conversations, we identify the participant users and build networks of interactions with them. We specifically build one network to represent whoreceives- whose-messages and another to represent who-propagates-whose-messages. In general, we have found that these structures have complex properties, such as explosive growth and scale-free degree distributions. Based on the topological properties of these networks, we have identified three types of user behavior that determine the information flow dynamics due to their influence. In order to measure the users’ influence on the conversations, we have introduced a new measure called user efficiency. It is defined as the number of retransmissions obtained by message posted, and it measures the effects of the individual activity on the collective reacixtions. We have observed that the probability distribution of this property is ubiquitous across several Twitter conversation, regardlessly of their dimension or social context. Therefore, we suggest that there is a universal behavior in the relationship between individual efforts and collective reactions on Twitter. In order to explain the different factors that determine the user efficiency distribution, we have developed a computational model to simulate the diffusion of messages on Twitter, based on the mechanism of independent cascades. This model, allows us to measure the impact on the emergent efficiency distribution of the underlying network topology, as well as the way that users post messages. The results indicate that the emergence of an exclusive group of highly efficient users depends upon the heterogeneity of the underlying network instead of the individual behavior. Moreover, we have also developed techniques to infer the degree of polarization in social networks. We propose a methodology to estimate opinions in social networks and to measure the degree of polarization in the obtained opinions. We have designed a model to study the effects of the opinions of a small group of influential users, called elite, on the opinions of the majority of users. The model results in an opinions distribution to which we measure the degree of polarization. We apply our methodology to measure the polarization on graphs from the messages diffusion process, during a conversation on Twitter from a polarized society. The results are in very good agreement with offline and contextual data. With this study, we have shown that our methodology is capable of detecting several degrees of polarization depending on the structure of the networks. Finally, we have also inferred the human behavior from mobile phones’ data. On the one hand, we have characterized the impact of natural disasters, like flooding, on the collective behavior. We found that the communication patterns are abruptly altered in the areas affected by the catastrophe. Therefore, we demonstrate that we could measure the impact of the disaster on the region, almost in real-time and without needing to deploy further efforts. On the other hand, we have studied human activity and mobility patterns in order to characterize regional interactions on a developing country. We found that the calls and trajectories networks present community structure associated to regional and urban areas. In summary, we have shown that it is possible to understand complex social processes by means of analyzing human activity data and the theory of complex networks. Along the thesis, we have demonstrated that social phenomena, like influence, polarization and reaction to critical events, are reflected in the structural and dynamical patterns of the networks constructed from data regarding conversations on online social networks and mobile phones.
Resumo:
La nanotecnología es un área de investigación de reciente creación que trata con la manipulación y el control de la materia con dimensiones comprendidas entre 1 y 100 nanómetros. A escala nanométrica, los materiales exhiben fenómenos físicos, químicos y biológicos singulares, muy distintos a los que manifiestan a escala convencional. En medicina, los compuestos miniaturizados a nanoescala y los materiales nanoestructurados ofrecen una mayor eficacia con respecto a las formulaciones químicas tradicionales, así como una mejora en la focalización del medicamento hacia la diana terapéutica, revelando así nuevas propiedades diagnósticas y terapéuticas. A su vez, la complejidad de la información a nivel nano es mucho mayor que en los niveles biológicos convencionales (desde el nivel de población hasta el nivel de célula) y, por tanto, cualquier flujo de trabajo en nanomedicina requiere, de forma inherente, estrategias de gestión de información avanzadas. Desafortunadamente, la informática biomédica todavía no ha proporcionado el marco de trabajo que permita lidiar con estos retos de la información a nivel nano, ni ha adaptado sus métodos y herramientas a este nuevo campo de investigación. En este contexto, la nueva área de la nanoinformática pretende detectar y establecer los vínculos existentes entre la medicina, la nanotecnología y la informática, fomentando así la aplicación de métodos computacionales para resolver las cuestiones y problemas que surgen con la información en la amplia intersección entre la biomedicina y la nanotecnología. Las observaciones expuestas previamente determinan el contexto de esta tesis doctoral, la cual se centra en analizar el dominio de la nanomedicina en profundidad, así como en el desarrollo de estrategias y herramientas para establecer correspondencias entre las distintas disciplinas, fuentes de datos, recursos computacionales y técnicas orientadas a la extracción de información y la minería de textos, con el objetivo final de hacer uso de los datos nanomédicos disponibles. El autor analiza, a través de casos reales, alguna de las tareas de investigación en nanomedicina que requieren o que pueden beneficiarse del uso de métodos y herramientas nanoinformáticas, ilustrando de esta forma los inconvenientes y limitaciones actuales de los enfoques de informática biomédica a la hora de tratar con datos pertenecientes al dominio nanomédico. Se discuten tres escenarios diferentes como ejemplos de actividades que los investigadores realizan mientras llevan a cabo su investigación, comparando los contextos biomédico y nanomédico: i) búsqueda en la Web de fuentes de datos y recursos computacionales que den soporte a su investigación; ii) búsqueda en la literatura científica de resultados experimentales y publicaciones relacionadas con su investigación; iii) búsqueda en registros de ensayos clínicos de resultados clínicos relacionados con su investigación. El desarrollo de estas actividades requiere el uso de herramientas y servicios informáticos, como exploradores Web, bases de datos de referencias bibliográficas indexando la literatura biomédica y registros online de ensayos clínicos, respectivamente. Para cada escenario, este documento proporciona un análisis detallado de los posibles obstáculos que pueden dificultar el desarrollo y el resultado de las diferentes tareas de investigación en cada uno de los dos campos citados (biomedicina y nanomedicina), poniendo especial énfasis en los retos existentes en la investigación nanomédica, campo en el que se han detectado las mayores dificultades. El autor ilustra cómo la aplicación de metodologías provenientes de la informática biomédica a estos escenarios resulta efectiva en el dominio biomédico, mientras que dichas metodologías presentan serias limitaciones cuando son aplicadas al contexto nanomédico. Para abordar dichas limitaciones, el autor propone un enfoque nanoinformático, original, diseñado específicamente para tratar con las características especiales que la información presenta a nivel nano. El enfoque consiste en un análisis en profundidad de la literatura científica y de los registros de ensayos clínicos disponibles para extraer información relevante sobre experimentos y resultados en nanomedicina —patrones textuales, vocabulario en común, descriptores de experimentos, parámetros de caracterización, etc.—, seguido del desarrollo de mecanismos para estructurar y analizar dicha información automáticamente. Este análisis concluye con la generación de un modelo de datos de referencia (gold standard) —un conjunto de datos de entrenamiento y de test anotados manualmente—, el cual ha sido aplicado a la clasificación de registros de ensayos clínicos, permitiendo distinguir automáticamente los estudios centrados en nanodrogas y nanodispositivos de aquellos enfocados a testear productos farmacéuticos tradicionales. El presente trabajo pretende proporcionar los métodos necesarios para organizar, depurar, filtrar y validar parte de los datos nanomédicos existentes en la actualidad a una escala adecuada para la toma de decisiones. Análisis similares para otras tareas de investigación en nanomedicina ayudarían a detectar qué recursos nanoinformáticos se requieren para cumplir los objetivos actuales en el área, así como a generar conjunto de datos de referencia, estructurados y densos en información, a partir de literatura y otros fuentes no estructuradas para poder aplicar nuevos algoritmos e inferir nueva información de valor para la investigación en nanomedicina. ABSTRACT Nanotechnology is a research area of recent development that deals with the manipulation and control of matter with dimensions ranging from 1 to 100 nanometers. At the nanoscale, materials exhibit singular physical, chemical and biological phenomena, very different from those manifested at the conventional scale. In medicine, nanosized compounds and nanostructured materials offer improved drug targeting and efficacy with respect to traditional formulations, and reveal novel diagnostic and therapeutic properties. Nevertheless, the complexity of information at the nano level is much higher than the complexity at the conventional biological levels (from populations to the cell). Thus, any nanomedical research workflow inherently demands advanced information management. Unfortunately, Biomedical Informatics (BMI) has not yet provided the necessary framework to deal with such information challenges, nor adapted its methods and tools to the new research field. In this context, the novel area of nanoinformatics aims to build new bridges between medicine, nanotechnology and informatics, allowing the application of computational methods to solve informational issues at the wide intersection between biomedicine and nanotechnology. The above observations determine the context of this doctoral dissertation, which is focused on analyzing the nanomedical domain in-depth, and developing nanoinformatics strategies and tools to map across disciplines, data sources, computational resources, and information extraction and text mining techniques, for leveraging available nanomedical data. The author analyzes, through real-life case studies, some research tasks in nanomedicine that would require or could benefit from the use of nanoinformatics methods and tools, illustrating present drawbacks and limitations of BMI approaches to deal with data belonging to the nanomedical domain. Three different scenarios, comparing both the biomedical and nanomedical contexts, are discussed as examples of activities that researchers would perform while conducting their research: i) searching over the Web for data sources and computational resources supporting their research; ii) searching the literature for experimental results and publications related to their research, and iii) searching clinical trial registries for clinical results related to their research. The development of these activities will depend on the use of informatics tools and services, such as web browsers, databases of citations and abstracts indexing the biomedical literature, and web-based clinical trial registries, respectively. For each scenario, this document provides a detailed analysis of the potential information barriers that could hamper the successful development of the different research tasks in both fields (biomedicine and nanomedicine), emphasizing the existing challenges for nanomedical research —where the major barriers have been found. The author illustrates how the application of BMI methodologies to these scenarios can be proven successful in the biomedical domain, whilst these methodologies present severe limitations when applied to the nanomedical context. To address such limitations, the author proposes an original nanoinformatics approach specifically designed to deal with the special characteristics of information at the nano level. This approach consists of an in-depth analysis of the scientific literature and available clinical trial registries to extract relevant information about experiments and results in nanomedicine —textual patterns, common vocabulary, experiment descriptors, characterization parameters, etc.—, followed by the development of mechanisms to automatically structure and analyze this information. This analysis resulted in the generation of a gold standard —a manually annotated training or reference set—, which was applied to the automatic classification of clinical trial summaries, distinguishing studies focused on nanodrugs and nanodevices from those aimed at testing traditional pharmaceuticals. The present work aims to provide the necessary methods for organizing, curating and validating existing nanomedical data on a scale suitable for decision-making. Similar analysis for different nanomedical research tasks would help to detect which nanoinformatics resources are required to meet current goals in the field, as well as to generate densely populated and machine-interpretable reference datasets from the literature and other unstructured sources for further testing novel algorithms and inferring new valuable information for nanomedicine.
Resumo:
El presente proyecto trata sobre uno de los campos más problemáticos de la inteligencia artificial, el reconocimiento facial. Algo tan sencillo para las personas como es reconocer una cara conocida se traduce en complejos algoritmos y miles de datos procesados en cuestión de segundos. El proyecto comienza con un estudio del estado del arte de las diversas técnicas de reconocimiento facial, desde las más utilizadas y probadas como el PCA y el LDA, hasta técnicas experimentales que utilizan imágenes térmicas en lugar de las clásicas con luz visible. A continuación, se ha implementado una aplicación en lenguaje C++ que sea capaz de reconocer a personas almacenadas en su base de datos leyendo directamente imágenes desde una webcam. Para realizar la aplicación, se ha utilizado una de las librerías más extendidas en cuanto a procesado de imágenes y visión artificial, OpenCV. Como IDE se ha escogido Visual Studio 2010, que cuenta con una versión gratuita para estudiantes. La técnica escogida para implementar la aplicación es la del PCA ya que es una técnica básica en el reconocimiento facial, y además sirve de base para soluciones mucho más complejas. Se han estudiado los fundamentos matemáticos de la técnica para entender cómo procesa la información y en qué se datos se basa para realizar el reconocimiento. Por último, se ha implementado un algoritmo de testeo para poder conocer la fiabilidad de la aplicación con varias bases de datos de imágenes faciales. De esta forma, se puede comprobar los puntos fuertes y débiles del PCA. ABSTRACT. This project deals with one of the most problematic areas of artificial intelligence, facial recognition. Something so simple for human as to recognize a familiar face becomes into complex algorithms and thousands of data processed in seconds. The project begins with a study of the state of the art of various face recognition techniques, from the most used and tested as PCA and LDA, to experimental techniques that use thermal images instead of the classic visible light images. Next, an application has been implemented in C + + language that is able to recognize people stored in a database reading images directly from a webcam. To make the application, it has used one of the most outstretched libraries in terms of image processing and computer vision, OpenCV. Visual Studio 2010 has been chosen as the IDE, which has a free student version. The technique chosen to implement the software is the PCA because it is a basic technique in face recognition, and also provides a basis for more complex solutions. The mathematical foundations of the technique have been studied to understand how it processes the information and which data are used to do the recognition. Finally, an algorithm for testing has been implemented to know the reliability of the application with multiple databases of facial images. In this way, the strengths and weaknesses of the PCA can be checked.
Resumo:
La minería de datos es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de datos. La minería de datos busca generar información similar a la que podría producir un experto humano. Además es el proceso de descubrir conocimientos interesantes, como patrones, asociaciones, cambios, anomalías y estructuras significativas a partir de grandes cantidades de datos almacenadas en bases de datos, data warehouses o cualquier otro medio de almacenamiento de información. El aprendizaje automático o aprendizaje de máquinas es una rama de la Inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. La minería de datos utiliza métodos de aprendizaje automático para descubrir y enumerar patrones presentes en los datos. En los últimos años se han aplicado las técnicas de clasificación y aprendizaje automático en un número elevado de ámbitos como el sanitario, comercial o de seguridad. Un ejemplo muy actual es la detección de comportamientos y transacciones fraudulentas en bancos. Una aplicación de interés es el uso de las técnicas desarrolladas para la detección de comportamientos fraudulentos en la identificación de usuarios existentes en el interior de entornos inteligentes sin necesidad de realizar un proceso de autenticación. Para comprobar que estas técnicas son efectivas durante la fase de análisis de una determinada solución, es necesario crear una plataforma que de soporte al desarrollo, validación y evaluación de algoritmos de aprendizaje y clasificación en los entornos de aplicación bajo estudio. El proyecto planteado está definido para la creación de una plataforma que permita evaluar algoritmos de aprendizaje automático como mecanismos de identificación en espacios inteligentes. Se estudiarán tanto los algoritmos propios de este tipo de técnicas como las plataformas actuales existentes para definir un conjunto de requisitos específicos de la plataforma a desarrollar. Tras el análisis se desarrollará parcialmente la plataforma. Tras el desarrollo se validará con pruebas de concepto y finalmente se verificará en un entorno de investigación a definir. ABSTRACT. The data mining is a field of the sciences of the computation referred to the process that it tries to discover patterns in big volumes of information. The data mining seeks to generate information similar to the one that a human expert might produce. In addition it is the process of discovering interesting knowledge, as patterns, associations, changes, abnormalities and significant structures from big quantities of information stored in databases, data warehouses or any other way of storage of information. The machine learning is a branch of the artificial Intelligence which aim is to develop technologies that they allow the computers to learn. More specifically, it is a question of creating programs capable of generalizing behaviors from not structured information supplied in the form of examples. The data mining uses methods of machine learning to discover and to enumerate present patterns in the information. In the last years there have been applied classification and machine learning techniques in a high number of areas such as healthcare, commercial or security. A very current example is the detection of behaviors and fraudulent transactions in banks. An application of interest is the use of the techniques developed for the detection of fraudulent behaviors in the identification of existing Users inside intelligent environments without need to realize a process of authentication. To verify these techniques are effective during the phase of analysis of a certain solution, it is necessary to create a platform that support the development, validation and evaluation of algorithms of learning and classification in the environments of application under study. The project proposed is defined for the creation of a platform that allows evaluating algorithms of machine learning as mechanisms of identification in intelligent spaces. There will be studied both the own algorithms of this type of technologies and the current existing platforms to define a set of specific requirements of the platform to develop. After the analysis the platform will develop partially. After the development it will be validated by prove of concept and finally verified in an environment of investigation that would be define.
Resumo:
Desde el inicio de los tiempos el ser humano ha tenido la necesidad de comprender y analizar todo lo que nos rodea, para ello se ha valido de diferentes herramientas como las pinturas rupestres, la biblioteca de Alejandría, bastas colecciones de libros y actualmente una enorme cantidad de información informatizada. Todo esto siempre se ha almacenado, según la tecnología de la época lo permitía, con la esperanza de que fuera útil mediante su consulta y análisis. En la actualidad continúa ocurriendo lo mismo. Hasta hace unos años se ha realizado el análisis de información manualmente o mediante bases de datos relacionales. Ahora ha llegado el momento de una nueva tecnología, Big Data, con la cual se puede realizar el análisis de extensas cantidades de datos de todo tipo en tiempos relativamente pequeños. A lo largo de este libro, se estudiarán las características y ventajas de Big Data, además de realizar un estudio de la plataforma Hadoop. Esta es una plataforma basada en Java y puede realizar el análisis de grandes cantidades de datos de diferentes formatos y procedencias. Durante la lectura de estas páginas se irá dotando al lector de los conocimientos previos necesarios para su mejor comprensión, así como de ubicarle temporalmente en el desarrollo de este concepto, de su uso, las previsiones y la evolución y desarrollo que se prevé tenga en los próximos años. ABSTRACT. Since the beginning of time, human being was in need of understanding and analyzing everything around him. In order to do that, he used different media as cave paintings, Alexandria library, big amount of book collections and nowadays massive amount of computerized information. All this information was stored, depending on the age and technology capability, with the expectation of being useful though it consulting and analysis. Nowadays they keep doing the same. In the last years, they have been processing the information manually or using relational databases. Now it is time for a new technology, Big Data, which is able to analyze huge amount of data in a, relatively, small time. Along this book, characteristics and advantages of Big Data will be detailed, so as an introduction to Hadoop platform. This platform is based on Java and can perform the analysis of massive amount of data in different formats and coming from different sources. During this reading, the reader will be provided with the prior knowledge needed to it understanding, so as the temporal location, uses, forecast, evolution and growth in the next years.