1000 resultados para DESNUTRICION - PROCESAMIENTO DE DATOS
Resumo:
[ES] Uno de los requisitos fundamentales en el almacenamiento y transmisión de información multimedia es el disponer de técnicas eficaces de compresión y descompresión de datos en el emisor y receptor del canal de comunicación. Para el caso particular de dispositivos móviles de última generación, los cuales transmiten a través de canales inalámbricos caracterizados por bajos anchos de banda y alta probabilidad de introducción de errores, resulta aún más evidente la necesidad de disponer de altas tasas de compresión así como de técnicas que proporcionen mayor inmunidad de la información ante el ruido. En este artículo se proponen algoritmos de post-procesamiento de bajo coste computacional que permiten, de manera eficaz, compaginar altas tasas de compresión de vídeo con la obtención de imágenes de gran calidad en el receptor. Estas técnicas están basadas en el análisis previo de las secuencias de vídeo a comprimir, mejorando, independientemente de las características de las mismas, los resultados obtenidos en trabajos realizados previamente.
Resumo:
Se presenta un proyecto de software que transforma registros bibliográficos de una base de datos estándar en entidades de los distintos grupos del modelo conceptual FRBR, obras, expresiones, manifestaciones, ítems, personas, instituciones y temas, así como muchas de las relaciones entre ellas. El software convierte dinámicamente los registros originales, que corresponden a las manifestaciones e ítems de FRBR, en un árbol que parte de la obra para luego ir desplegando las restantes entidades y relaciones. En la implementación presente se ha trabajado con la base de datos de la Biblioteca Central de la Facultad de Humanidades y Ciencias de la Educación de la UNLP, pero por la modularidad con que está planteado, el software puede implementarse partiendo de cualquier otra estructura. Para poder realizar este proceso, el software construye listas de autoridades para obras, expresiones, manifestaciones, personas, instituciones y temas. En la etapa actual los datos utilizados para construir las entidades y relaciones surgen exclusivamente de la información contenida en la base de datos original. Esto implica que muchos datos no podrán ser obtenidos pues no estaban contemplados en el diseño original, por lo que se plantea una segunda etapa en la cual se recolecte esa información en bases de datos remotas. Se muestra, además de las ventajas que tiene para el usuario una visualización "ferberizada", las implicancias que tiene una estructura tal para los estudios bibliométricos.
Resumo:
Se presenta un proyecto de software que transforma registros bibliográficos de una base de datos estándar en entidades de los distintos grupos del modelo conceptual FRBR, obras, expresiones, manifestaciones, ítems, personas, instituciones y temas, así como muchas de las relaciones entre ellas. El software convierte dinámicamente los registros originales, que corresponden a las manifestaciones e ítems de FRBR, en un árbol que parte de la obra para luego ir desplegando las restantes entidades y relaciones. En la implementación presente se ha trabajado con la base de datos de la Biblioteca Central de la Facultad de Humanidades y Ciencias de la Educación de la UNLP, pero por la modularidad con que está planteado, el software puede implementarse partiendo de cualquier otra estructura. Para poder realizar este proceso, el software construye listas de autoridades para obras, expresiones, manifestaciones, personas, instituciones y temas. En la etapa actual los datos utilizados para construir las entidades y relaciones surgen exclusivamente de la información contenida en la base de datos original. Esto implica que muchos datos no podrán ser obtenidos pues no estaban contemplados en el diseño original, por lo que se plantea una segunda etapa en la cual se recolecte esa información en bases de datos remotas. Se muestra, además de las ventajas que tiene para el usuario una visualización "ferberizada", las implicancias que tiene una estructura tal para los estudios bibliométricos.
Resumo:
Se presenta un proyecto de software que transforma registros bibliográficos de una base de datos estándar en entidades de los distintos grupos del modelo conceptual FRBR, obras, expresiones, manifestaciones, ítems, personas, instituciones y temas, así como muchas de las relaciones entre ellas. El software convierte dinámicamente los registros originales, que corresponden a las manifestaciones e ítems de FRBR, en un árbol que parte de la obra para luego ir desplegando las restantes entidades y relaciones. En la implementación presente se ha trabajado con la base de datos de la Biblioteca Central de la Facultad de Humanidades y Ciencias de la Educación de la UNLP, pero por la modularidad con que está planteado, el software puede implementarse partiendo de cualquier otra estructura. Para poder realizar este proceso, el software construye listas de autoridades para obras, expresiones, manifestaciones, personas, instituciones y temas. En la etapa actual los datos utilizados para construir las entidades y relaciones surgen exclusivamente de la información contenida en la base de datos original. Esto implica que muchos datos no podrán ser obtenidos pues no estaban contemplados en el diseño original, por lo que se plantea una segunda etapa en la cual se recolecte esa información en bases de datos remotas. Se muestra, además de las ventajas que tiene para el usuario una visualización "ferberizada", las implicancias que tiene una estructura tal para los estudios bibliométricos.
Resumo:
El almacenamiento y tratamiento de señales digitales es un campo muy importante de la informática. Dichas señales contienen información valiosa que ha de ser extrada y transformada para poder ser utilizada. En la presente tesis doctoral se han creado métodos para almacenar, procesar y recuperar información de las regiones contenidas en una imagen, en especial en imágenes de gran tamaño. Como base del trabajo se ha diseñado una estructura de datos de tipo grafo para poder almacenar todas las regiones contenidas en una imagen. En esta estructura de datos se pueden guardar tanto los descriptores de bajo nivel de las regiones como las relaciones estructurales entre las distintas regiones de la imagen. En los sistemas de almacenamiento de imágenes es una práctica habitual distribuir las imágenes para mejorar el rendimiento. Más allá de este tipo de distribución, una característica distintiva y novedosa de la estructura de datos creada en la presente investigación es que puede funcionar de forma distribuida de manera que una imagen grande puede ser dividida en varias subimagenes, y dichas sub-imágenes pueden ser almacenadas de forma separada en varios servidores. También se han adaptado algunos métodos y algoritmos pertenecientes a la Morfología Matemática para trabajar directamente sobre la estructura de datos distribuida. De esta manera, se pueden procesar todas las sub-imágenes de una misma imagen sin necesidad de reconstruir la imagen inicial. Finalmente, haciendo uso de la estructura de datos y de los métodos desarrollados se ha creado un prototipo de sistema multi-agente capaz de almacenar y procesar imágenes grandes. Este prototipo permite realizar consultas para recuperar información perteneciente a regiones de una imagen almacenada en el sistema sin necesidad de volver a ser procesada. En la experimentación realizada, resumida en los resultados presentados, se muestra que la división y distribución de una imagen en varias sub-imágenes reduce los tiempos de almacenamiento, procesamiento y recuperación de la información.
Resumo:
La falta de información es un escenario más que habitual en la utilización de conjuntos de datos. En las aplicaciones del mundo real existen múltiples causas – errores o fallos de los sensores cuando se trabaja con equipos automáticos, desconocimiento o falta de interés por parte de los responsables de introducir la información, negativas por parte de los informantes a responder a preguntas sobre temas comprometidos en encuestas … – que pueden originarlo. Como consecuencia de ello, el procesamiento de los valores ausentes es, en la práctica, uno de los trabajos que más tiempo consumen en los proyectos de minería de datos y aprendizaje automático [109] y se estima que alrededor del 60% de los esfuerzos se destinan al mismo [23]. Aunque la ausencia puede producirse en cualquier tipo de datos, sean éstos numéricos o categóricos, nos vamos a centrar en los últimos a causa de algunas peculiaridades que merece la pena estudiar. Y hablaremos indistintamente de ausencia de información, valores ausentes, falta de respuesta, datos parcialmente observados o falta de datos, pues en cualquiera de estas formas aparece citado el problema. Las técnicas para afrontarlo se vienen desarrollando ya desde hace tiempo [135], [6] y existen numerosas referencias en la literatura, sobre todo acerca de la falta de respuesta 6 en encuestas [32], [79]. Sin embargo, en el ámbito del aprendizaje automático es en los últimos años cuando se ha convertido en un área de investigación dinámica, con frecuentes aportaciones [94]. Los dos puntos de vista, el estadístico y el del aprendizaje automático, consideran el problema en formas bien diferentes y tienen distintos objetivos, lo que origina, a su vez, discrepancias en la clasificación de las técnicas y en los criterios para su evaluación. Por un lado, el enfoque estadístico paramétrico tradicional considera el conjunto de datos como una muestra, resultado de la extracción aleatoria de una población con una distribución probabilística. Bajo este supuesto, el objetivo es obtener algunos de los parámetros que caracterizan esa distribución – la media, la moda, la correlación entre variables, etc. – calculándose los correspondientes estimadores como funciones de los datos de la muestra. La ausencia de datos es, aquí, un problema de estimación que se afronta desde diferentes perspectivas. Por su parte, en el ámbito de los procedimientos de aprendizaje automático existen múltiples técnicas que pueden utilizarse para tratar los datos ausentes mediante su sustitución por valores obtenidos a partir de los datos observados: redes neuronales, árboles de decisión, etc. Cuando los datos que faltan son categóricos, se pueden utilizar técnicas específicas como los procedimientos de clasificación: las categorías a asignar coinciden con los distintos valores posibles del atributo que tiene falta de información. Pueden utilizarse métodos supervisados y no supervisados. En el primer caso, cuando existe más de un atributo con falta de datos, el aprendizaje se realiza sucesiva y separadamente para cada uno, lo que significa que la tarea ha de repetirse tantas veces como atributos con valores ausentes hay en el conjunto de datos [72]. El inicio de los trabajos de esta tesis ha estado principalmente motivado en la necesidad de mejorar los resultados obtenidos al tratar de resolver problemas de falta de 7 información de variables categóricas en sondeos de opinión utilizando los procedimientos que la literatura considera como el estado del arte en ese ámbito. Se ha encontrado, así, que muchos de los métodos que se proponen tienen hipótesis de funcionamiento que están muy lejos de las situaciones reales que se encuentran en la práctica y, además, las soluciones existentes han avanzado frecuentemente en direcciones no adecuadas, sin replantear los fundamentos básicos. Esto ha conducido de una forma natural a probar métodos propios de otro ámbito como es el aprendizaje automático, para lo que ha sido necesario, en ocasiones, proponer modificaciones de algunos procedimientos ya existentes de modo que pudieran aceptar como entradas el tipo de datos que estos sondeos de opinión manejan. Como resultado, y en el caso concreto de un tipo específico de redes neuronales, se ha diseñado una nueva arquitectura y un nuevo algoritmo de funcionamiento que se presentan aquí como aportación más novedosa de este estudio.
Resumo:
La mayoría de las aplicaciones forestales del escaneo laser aerotransportado (ALS, del inglés airborne laser scanning) requieren la integración y uso simultaneo de diversas fuentes de datos, con el propósito de conseguir diversos objetivos. Los proyectos basados en sensores remotos normalmente consisten en aumentar la escala de estudio progresivamente a lo largo de varias fases de fusión de datos: desde la información más detallada obtenida sobre un área limitada (la parcela de campo), hasta una respuesta general de la cubierta forestal detectada a distancia de forma más incierta pero cubriendo un área mucho más amplia (la extensión cubierta por el vuelo o el satélite). Todas las fuentes de datos necesitan en ultimo termino basarse en las tecnologías de sistemas de navegación global por satélite (GNSS, del inglés global navigation satellite systems), las cuales son especialmente erróneas al operar por debajo del dosel forestal. Otras etapas adicionales de procesamiento, como la ortorectificación, también pueden verse afectadas por la presencia de vegetación, deteriorando la exactitud de las coordenadas de referencia de las imágenes ópticas. Todos estos errores introducen ruido en los modelos, ya que los predictores se desplazan de la posición real donde se sitúa su variable respuesta. El grado por el que las estimaciones forestales se ven afectadas depende de la dispersión espacial de las variables involucradas, y también de la escala utilizada en cada caso. Esta tesis revisa las fuentes de error posicional que pueden afectar a los diversos datos de entrada involucrados en un proyecto de inventario forestal basado en teledetección ALS, y como las propiedades del dosel forestal en sí afecta a su magnitud, aconsejando en consecuencia métodos para su reducción. También se incluye una discusión sobre las formas más apropiadas de medir exactitud y precisión en cada caso, y como los errores de posicionamiento de hecho afectan a la calidad de las estimaciones, con vistas a una planificación eficiente de la adquisición de los datos. La optimización final en el posicionamiento GNSS y de la radiometría del sensor óptico permitió detectar la importancia de este ultimo en la predicción de la desidad relativa de un bosque monoespecífico de Pinus sylvestris L. ABSTRACT Most forestry applications of airborne laser scanning (ALS) require the integration and simultaneous use of various data sources, pursuing a variety of different objectives. Projects based on remotely-sensed data generally consist in upscaling data fusion stages: from the most detailed information obtained for a limited area (field plot) to a more uncertain forest response sensed over a larger extent (airborne and satellite swath). All data sources ultimately rely on global navigation satellite systems (GNSS), which are especially error-prone when operating under forest canopies. Other additional processing stages, such as orthorectification, may as well be affected by vegetation, hence deteriorating the accuracy of optical imagery’s reference coordinates. These errors introduce noise to the models, as predictors displace from their corresponding response. The degree to which forest estimations are affected depends on the spatial dispersion of the variables involved and the scale used. This thesis reviews the sources of positioning errors which may affect the different inputs involved in an ALS-assisted forest inventory project, and how the properties of the forest canopy itself affects their magnitude, advising on methods for diminishing them. It is also discussed how accuracy should be assessed, and how positioning errors actually affect forest estimation, toward a cost-efficient planning for data acquisition. The final optimization in positioning the GNSS and optical image allowed to detect the importance of the latter in predicting relative density in a monospecific Pinus sylvestris L. forest.
Resumo:
El objetivo del presente trabajo es el desarrollo de una infraestructura de enrutamiento distribuida para un sistema publish/subscribe (en adelante pub/sub) que se incluirá en WireCloud, una plataforma para la composición de aplicaciones. Actualmente existen numerosas implementaciones de protocolos pub/sub en el mercado [3-6], y en este trabajo se hará un recorrido por aquellas con mayor relevancia, explicando sus características, ventajas y desventajas. De esta forma se podrán seleccionar aquellas cuyas prestaciones se adapten de la mejor forma posible a las necesidades de la plataforma. De entre todas las implementaciones existentes, algunas han sido simuladas para comprender mejor su funcionamiento. Esto permitió analizar las diferentes estrategias de enrutamiento de mensajes y qué estructuras de datos son las más óptimas para que el procesamiento de mensajes entrantes sea lo más rápido posible. Una vez que se determinó cuales son las estrategias y las estructuras de almacenamiento que mejor se adaptan a nuestro sistema, se ha procedido a la implementación real del sistema pub/sub en Java. Para cada uno de los módulos desarrollados se ha generado una serie de pruebas que permitirán comprobar el correcto funcionamiento de los componentes cuando se produzcan cambios o ampliaciones. Además, este trabajo también incluye el análisis e implementación de un nuevo protocolo de comunicación entre los diferentes componentes debido a que el existente era lento y pesado al consumir gran cantidad de recursos. El protocolo de comunicación analizado está basado en RMI (Remote Method Invocation), y aunque no mejoró la eficiencia con que los mensajes eran enviados si que permitió reducir en gran medida el consumo de recursos (CPU y memoria RAM). ------------------------------------------------------------ The goal of the current project is the development of a distributed pub/sub system to include it on WireCloud which is a platform to build compositional applications. Several implementations of pub/sub systems [3-6] have been developed until now and this project explains some of them, their characteristic, advantages and disadvantages. Thus, the implementations which better adapt to the project needs have been selected. Some of these implementations have been simulated to get a better knowledge of their behavior. The aim of these simulations was to select the best strategies to route messages and the optimal structures to reduce the computation time of a received message. After defining the better strategies and structures, the real pub/sub system have been finally developed in Java. For each developed module, a set of tests have been built to check its correct behavior in case of changes or extensions. Besides, the project also includes the analysis and the implementation of a new communication protocol among the different components because the existing one was slow and consumed a lot of computer resources. The new communication protocol is based in RMI (Remote Method Invocation) and has improved the consumption of resources. However, the efficiency of this new protocol was worse than the one of the existing protocol.
Resumo:
La rápida evolución experimentada en los últimos años por las tecnologías de Internet ha estimulado la proliferación de recursos software en varias disciplinas científicas, especialmente en bioinformática. En la mayoría de los casos, la tendencia actual es publicar dichos recursos como servicios accesibles libremente a través de Internet, utilizando tecnologías y patrones de diseño definidos para la implementación de Arquitecturas Orientadas a Servicios (SOA). La combinación simultánea de múltiples servicios dentro de un mismo flujo de trabajo abre la posibilidad de crear aplicaciones potencialmente más útiles y complejas. La integración de dichos servicios plantea grandes desafíos, tanto desde un punto de vista teórico como práctico, como por ejemplo, la localización y acceso a los recursos disponibles o la coordinación entre ellos. En esta tesis doctoral se aborda el problema de la identificación, localización, clasificación y acceso a los recursos informáticos disponibles en Internet. Con este fin, se ha definido un modelo genérico para la construcción de índices de recursos software con información extraída automáticamente de artículos de la literatura científica especializada en un área. Este modelo consta de seis fases que abarcan desde la selección de las fuentes de datos hasta el acceso a los índices creados, pasando por la identificación, extracción, clasificación y “curación” de la información relativa a los recursos. Para verificar la viabilidad, idoneidad y eficiencia del modelo propuesto, éste ha sido evaluado en dos dominios científicos diferentes—la BioInformática y la Informática Médica—dando lugar a dos índices de recursos denominados BioInformatics Resource Inventory (BIRI) y electronic-Medical Informatics Repository of Resources(e-MIR2) respectivamente. Los resultados obtenidos de estas aplicaciones son presentados a lo largo de la presente tesis doctoral y han dado lugar a varias publicaciones científicas en diferentes revistas JCR y congresos internacionales. El impacto potencial y la utilidad de esta tesis doctoral podrían resultar muy importantes teniendo en cuenta que, gracias a la generalidad del modelo propuesto, éste podría ser aplicado en cualquier disciplina científica. Algunas de las líneas de investigación futuras más relevantes derivadas de este trabajo son esbozadas al final en el último capítulo de este libro. ABSTRACT The rapid evolution experimented in the last years by the Internet technologies has stimulated the proliferation of heterogeneous software resources in most scientific disciplines, especially in the bioinformatics area. In most cases, current trends aim to publish those resources as services freely available over the Internet, using technologies and design patterns defined for the implementation of Service-Oriented Architectures (SOA). Simultaneous combination of various services into the same workflow opens the opportunity of creating more complex and useful applications. Integration of services raises great challenges, both from a theoretical to a practical point of view such as, for instance, the location and access to the available resources or the orchestration among them. This PhD thesis deals with the problem of identification, location, classification and access to informatics resources available over the Internet. On this regard, a general model has been defined for building indexes of software resources, with information extracted automatically from scientific articles from the literature specialized in the area. Such model consists of six phases ranging from the selection of data sources to the access to the indexes created, covering the identification, extraction, classification and curation of the information related to the software resources. To verify the viability, feasibility and efficiency of the proposed model, it has been evaluated in two different scientific domains—Bioinformatics and Medical Informatics—producing two resources indexes named BioInformatics Resources Inventory (BIRI) and electronic-Medical Informatics Repository of Resources (e-MIR2) respectively. The results and evaluation of those systems are presented along this PhD thesis, and they have produced different scientific publications in several JCR journals and international conferences. The potential impact and utility of this PhD thesis could be of great relevance considering that, thanks to the generality of the proposed model, it could be successfully extended to any scientific discipline. Some of the most relevant future research lines derived from this work are outlined at the end of this book.
Resumo:
Los modelos de termomecánica glaciar están definidos mediante sistemas de ecuaciones en derivadas parciales que establecen los principios básicos de conservación de masa, momento lineal y energía, acompañados por una ley constitutiva que define la relación entre las tensiones a las que está sometido el hielo glaciar y las deformaciones resultantes de las mismas. La resolución de estas ecuaciones requiere la definición precisa del dominio (la geometría del glaciar, obtenido a partir de medidas topográficas y de georradar), así como contar con un conjunto de condiciones de contorno, que se obtienen a partir de medidas de campo de las variables implicadas y que constituyen un conjunto de datos geoespaciales. El objetivo fundamental de esta tesis es desarrollar una serie de herramientas que nos permitan definir con precisión la geometría del glaciar y disponer de un conjunto adecuado de valores de las variables a utilizar como condiciones de contorno del problema. Para ello, en esta tesis se aborda la recopilación, la integración y el estudio de los datos geoespaciales existentes para la Península Hurd, en la Isla Livingston (Antártida), generados desde el año 1957 hasta la actualidad, en un sistema de información geográfica. Del correcto tratamiento y procesamiento de estos datos se obtienen otra serie de elementos que nos permiten realizar la simulación numérica del régimen termomecánico presente de los glaciares de Península Hurd, así como su evolución futura. Con este objetivo se desarrolla en primer lugar un inventario completo de datos geoespaciales y se realiza un procesado de los datos capturados en campo, para establecer un sistema de referencia común a todos ellos. Se unifican además todos los datos bajo un mismo formato estándar de almacenamiento e intercambio de información, generándose los metadatos correspondientes. Se desarrollan asimismo técnicas para la mejora de los procedimientos de captura y procesado de los datos, de forma que se minimicen los errores y se disponga de estimaciones fiables de los mismos. El hecho de que toda la información se integre en un sistema de información geográfica (una vez producida la normalización e inventariado de la misma) permite su consulta rápida y ágil por terceros. Además, hace posible efectuar sobre ella una serie de operaciones conducentes a la obtención de nuevas capas de información. El análisis de estos nuevos datos permite explicar el comportamiento pasado de los glaciares objeto de estudio y proporciona elementos esenciales para la simulación de su comportamiento futuro. ABSTRACT Glacier thermo-mechanical models are defined by systems of partial differential equations stating the basic principles of conservation of mass, momentum and energy, accompanied by a constitutive principle that defines the relationship between the stresses acting on the ice and the resulting deformations. The solution of these equations requires an accurate definition of the model domain (the geometry of the glacier, obtained from topographical and ground penetrating radar measurements), as well as a set of boundary conditions, which are obtained from measurements of the variables involved and define a set of geospatial data. The main objective of this thesis is to develop tools able to provide an accurate definition of the glacier geometry and getting a proper set of values for the variables to be used as boundary conditions of our problem. With the above aim, this thesis focuses on the collection, compilation and study of the geospatial data existing for the Hurd Peninsula on Livingston Island, Antarctica, generated since 1957 to present, into a geographic information system. The correct handling and processing of these data results on a new collection of elements that allow us to numerically model the present state and the future evolution of Hurd Peninsula glaciers. First, a complete inventory of geospatial data is developed and the captured data are processed, with the aim of establishing a reference system common to all collections of data. All data are stored under a common standard format, and the corresponding metadata are generated to facilitate the information exchange. We also develop techniques for the improvement of the procedures used for capturing and processing the data, such that the errors are minimized and better estimated. All information is integrated into a geographic information system (once produced the standardization and inventory of it). This allows easy and fast viewing and consulting of the data by third parties. Also, it is possible to carry out a series of operations leading to the production of new layers of information. The analysis of these new data allows to explain past glacier behavior, and provides essential elements for explaining its future evolution.
Resumo:
El primer procesamiento estricto realizado con el software científico Bernese y contemplando las más estrictas normas de cálculo recomendadas internacionalmente, permitió obtener un campo puntual de alta exactitud, basado en la integración y estandarización de los datos de una red GPS ubicada en Costa Rica. Este procesamiento contempló un total de 119 semanas de datos diarios, es decir unos 2,3 años, desde enero del año 2009 hasta abril del año 2011, para un total de 30 estaciones GPS, de las cuales 22 están ubicadas en el territorio nacional de Costa Rica y 8 internaciones pertenecientes a la red del Sistema Geocéntrico para las Américas (SIRGAS). Las denominadas soluciones semilibres generaron, semana a semana, una red GPS con una alta exactitud interna definida por medio de los vectores entre las estaciones y las coordenadas finales de la constelación satelital. La evaluación semanal dada por la repetibilidad de las soluciones brindó en promedio errores de 1,7 mm, 1,4 mm y 5,1 mm en las componentes [n e u], confirmando una alta consistencia en estas soluciones. Aunque las soluciones semilibres poseen una alta exactitud interna, las mismas no son utilizables para fines de análisis cinemático, pues carecen de un marco de referencia. En Latinoamérica, la densificación del Marco Internacional Terrestre de Referencia (ITRF), está representado por la red de estaciones de operación continua GNSS de SIRGAS, denominada como SIRGAS-CON. Por medio de las denominadas coordenadas semanales finales de las 8 estaciones consideradas como vínculo, se refirió cada una de las 119 soluciones al marco SIRGAS. La introducción del marco de referencia SIRGAS a las soluciones semilibres produce deformaciones en estas soluciones. Las deformaciones de las soluciones semilibres son producto de las cinemática de cada una de las placas en las que se ubican las estaciones de vínculo. Luego de efectuado el amarre semanal a las coordenadas SIRGAS, se hizo una estimación de los vectores de velocidad de cada una de las estaciones, incluyendo las de amarre, cuyos valores de velocidad se conocen con una alta exactitud. Para la determinación de las velocidades de las estaciones costarricenses, se programó una rutina en ambiente MatLab, basada en una ajuste por mínimos cuadrados. Los valores obtenidos en el marco de este proyecto en comparación con los valores oficiales, brindaron diferencias promedio del orden de los 0,06 cm/a, -0,08 cm/a y -0,10 cm/a respectivamente para las coordenadas [X Y Z]. De esta manera se logró determinar las coordenadas geocéntricas [X Y Z]T y sus variaciones temporales [vX vY vZ]T para el conjunto de 22 estaciones GPS de Costa Rica, dentro del datum IGS05, época de referencia 2010,5. Aunque se logró una alta exactitud en los vectores de coordenadas geocéntricas de las 22 estaciones, para algunas de las estaciones el cálculo de las velocidades no fue representativo debido al relativo corto tiempo (menos de un año) de archivos de datos. Bajo esta premisa, se excluyeron las ocho estaciones ubicadas al sur de país. Esto implicó hacer una estimación del campo local de velocidades con solamente veinte estaciones nacionales más tres estaciones en Panamá y una en Nicaragua. El algoritmo usado fue el denominado Colocación por Mínimos Cuadrados, el cual permite la estimación o interpolación de datos a partir de datos efectivamente conocidos, el cual fue programado mediante una rutina en ambiente MatLab. El campo resultante se estimó con una resolución de 30' X 30' y es altamente constante, con una velocidad resultante promedio de 2,58 cm/a en una dirección de 40,8° en dirección noreste. Este campo fue validado con base en los datos del modelo VEMOS2009, recomendado por SIRGAS. Las diferencias de velocidad promedio para las estaciones usadas como insumo para el cálculo del campo fueron del orden los +0,63 cm/a y +0,22 cm/a para los valores de velocidad en latitud y longitud, lo que supone una buena determinación de los valores de velocidad y de la estimación de la función de covarianza empírica, necesaria para la aplicación del método de colocación. Además, la grilla usada como base para la interpolación brindó diferencias del orden de -0,62 cm/a y -0,12 cm/a para latitud y longitud. Adicionalmente los resultados de este trabajo fueron usados como insumo para hacer una aproximación en la definición del límite del llamado Bloque de Panamá dentro del territorio nacional de Costa Rica. El cálculo de las componentes del Polo de Euler por medio de una rutina programa en ambiente MatLab y aplicado a diferentes combinaciones de puntos no brindó mayores aportes a la definición física de este límite. La estrategia lo que confirmó fue simplemente la diferencia en la dirección de todos los vectores velocidad y no permitió reveló revelar con mayor detalle una ubicación de esta zona dentro del territorio nacional de Costa Rica. ABSTRACT The first strict processing performed with the Bernese scientific software and contemplating the highest standards internationally recommended calculation, yielded a precise field of high accuracy, based on the integration and standardization of data from a GPS network located in Costa Rica. This processing watched a total of 119 weeks of daily data, is about 2.3 years from January 2009 to April 2011, for a total of 30 GPS stations, of which 22 are located in the country of Costa Rica and 8 hospitalizations within the network of Geocentric System for the Americas (SIRGAS). The semi-free solutions generated, every week a GPS network with high internal accuracy defined by vectors between stations and the final coordinates of the satellite constellation. The weekly evaluation given by repeatability of the solutions provided in average errors of 1.7 mm 1.4 mm and 5.1 mm in the components [n e u], confirming a high consistency in these solutions. Although semi-free solutions have a high internal accuracy, they are not used for purposes of kinematic analysis, because they lack a reference frame. In Latin America, the densification of the International Terrestrial Reference Frame (ITRF), is represented by a network of continuously operating GNSS stations SIRGAS, known as SIRGAS-CON. Through weekly final coordinates of the 8 stations considered as a link, described each of the solutions to the frame 119 SIRGAS. The introduction of the frame SIRGAS to semi-free solutions generates deformations. The deformations of the semi-free solutions are products of the kinematics of each of the plates in which link stations are located. After SIRGAS weekly link to SIRGAS frame, an estimate of the velocity vectors of each of the stations was done. The velocity vectors for each SIRGAS stations are known with high accuracy. For this calculation routine in MatLab environment, based on a least squares fit was scheduled. The values obtained compared to the official values, gave average differences of the order of 0.06 cm/yr, -0.08 cm/yr and -0.10 cm/yr respectively for the coordinates [XYZ]. Thus was possible to determine the geocentric coordinates [XYZ]T and its temporal variations [vX vY vZ]T for the set of 22 GPS stations of Costa Rica, within IGS05 datum, reference epoch 2010.5. The high accuracy vector for geocentric coordinates was obtained, however for some stations the velocity vectors was not representative because of the relatively short time (less than one year) of data files. Under this premise, the eight stations located in the south of the country were excluded. This involved an estimate of the local velocity field with only twenty national stations plus three stations in Panama and Nicaragua. The algorithm used was Least Squares Collocation, which allows the estimation and interpolation of data from known data effectively. The algorithm was programmed with MatLab. The resulting field was estimated with a resolution of 30' X 30' and is highly consistent with a resulting average speed of 2.58 cm/y in a direction of 40.8° to the northeast. This field was validated based on the model data VEMOS2009 recommended by SIRGAS. The differences in average velocity for the stations used as input for the calculation of the field were of the order of +0.63 cm/yr, +0.22 cm/yr for the velocity values in latitude and longitude, which is a good determination velocity values and estimating the empirical covariance function necessary for implementing the method of application. Furthermore, the grid used as the basis for interpolation provided differences of about -0.62 cm/yr, -0.12 cm/yr to latitude and longitude. Additionally, the results of this investigation were used as input to an approach in defining the boundary of Panama called block within the country of Costa Rica. The calculation of the components of the Euler pole through a routine program in MatLab and applied to different combinations of points gave no further contributions to the physical definition of this limit. The strategy was simply confirming the difference in the direction of all the velocity vectors and not allowed to reveal more detail revealed a location of this area within the country of Costa Rica.
Resumo:
En los últimos años ha habido un gran aumento de fuentes de datos biomédicos. La aparición de nuevas técnicas de extracción de datos genómicos y generación de bases de datos que contienen esta información ha creado la necesidad de guardarla para poder acceder a ella y trabajar con los datos que esta contiene. La información contenida en las investigaciones del campo biomédico se guarda en bases de datos. Esto se debe a que las bases de datos permiten almacenar y manejar datos de una manera simple y rápida. Dentro de las bases de datos existen una gran variedad de formatos, como pueden ser bases de datos en Excel, CSV o RDF entre otros. Actualmente, estas investigaciones se basan en el análisis de datos, para a partir de ellos, buscar correlaciones que permitan inferir, por ejemplo, tratamientos nuevos o terapias más efectivas para una determinada enfermedad o dolencia. El volumen de datos que se maneja en ellas es muy grande y dispar, lo que hace que sea necesario el desarrollo de métodos automáticos de integración y homogeneización de los datos heterogéneos. El proyecto europeo p-medicine (FP7-ICT-2009-270089) tiene como objetivo asistir a los investigadores médicos, en este caso de investigaciones relacionadas con el cáncer, proveyéndoles con nuevas herramientas para el manejo de datos y generación de nuevo conocimiento a partir del análisis de los datos gestionados. La ingestión de datos en la plataforma de p-medicine, y el procesamiento de los mismos con los métodos proporcionados, buscan generar nuevos modelos para la toma de decisiones clínicas. Dentro de este proyecto existen diversas herramientas para integración de datos heterogéneos, diseño y gestión de ensayos clínicos, simulación y visualización de tumores y análisis estadístico de datos. Precisamente en el ámbito de la integración de datos heterogéneos surge la necesidad de añadir información externa al sistema proveniente de bases de datos públicas, así como relacionarla con la ya existente mediante técnicas de integración semántica. Para resolver esta necesidad se ha creado una herramienta, llamada Term Searcher, que permite hacer este proceso de una manera semiautomática. En el trabajo aquí expuesto se describe el desarrollo y los algoritmos creados para su correcto funcionamiento. Esta herramienta ofrece nuevas funcionalidades que no existían dentro del proyecto para la adición de nuevos datos provenientes de fuentes públicas y su integración semántica con datos privados.---ABSTRACT---Over the last few years, there has been a huge growth of biomedical data sources. The emergence of new techniques of genomic data generation and data base generation that contain this information, has created the need of storing it in order to access and work with its data. The information employed in the biomedical research field is stored in databases. This is due to the capability of databases to allow storing and managing data in a quick and simple way. Within databases there is a variety of formats, such as Excel, CSV or RDF. Currently, these biomedical investigations are based on data analysis, which lead to the discovery of correlations that allow inferring, for example, new treatments or more effective therapies for a specific disease or ailment. The volume of data handled in them is very large and dissimilar, which leads to the need of developing new methods for automatically integrating and homogenizing the heterogeneous data. The p-medicine (FP7-ICT-2009-270089) European project aims to assist medical researchers, in this case related to cancer research, providing them with new tools for managing and creating new knowledge from the analysis of the managed data. The ingestion of data into the platform and its subsequent processing with the provided tools aims to enable the generation of new models to assist in clinical decision support processes. Inside this project, there exist different tools related to areas such as the integration of heterogeneous data, the design and management of clinical trials, simulation and visualization of tumors and statistical data analysis. Particularly in the field of heterogeneous data integration, there is a need to add external information from public databases, and relate it to the existing ones through semantic integration methods. To solve this need a tool has been created: the term Searcher. This tool aims to make this process in a semiautomatic way. This work describes the development of this tool and the algorithms employed in its operation. This new tool provides new functionalities that did not exist inside the p-medicine project for adding new data from public databases and semantically integrate them with private data.
Resumo:
El paradigma de procesamiento de eventos CEP plantea la solución al reto del análisis de grandes cantidades de datos en tiempo real, como por ejemplo, monitorización de los valores de bolsa o el estado del tráfico de carreteras. En este paradigma los eventos recibidos deben procesarse sin almacenarse debido a que el volumen de datos es demasiado elevado y a las necesidades de baja latencia. Para ello se utilizan sistemas distribuidos con una alta escalabilidad, elevado throughput y baja latencia. Este tipo de sistemas son usualmente complejos y el tiempo de aprendizaje requerido para su uso es elevado. Sin embargo, muchos de estos sistemas carecen de un lenguaje declarativo de consultas en el que expresar la computación que se desea realizar sobre los eventos recibidos. En este trabajo se ha desarrollado un lenguaje declarativo de consultas similar a SQL y un compilador que realiza la traducción de este lenguaje al lenguaje nativo del sistema de procesamiento masivo de eventos. El lenguaje desarrollado en este trabajo es similar a SQL, con el que se encuentran familiarizados un gran número de desarrolladores y por tanto aprender este lenguaje no supondría un gran esfuerzo. Así el uso de este lenguaje logra reducir los errores en ejecución de la consulta desplegada sobre el sistema distribuido al tiempo que se abstrae al programador de los detalles de este sistema.---ABSTRACT---The complex event processing paradigm CEP has become the solution for high volume data analytics which demand scalability, high throughput, and low latency. Examples of applications which use this paradigm are financial processing or traffic monitoring. A distributed system is used to achieve the performance requisites. These same requisites force the distributed system not to store the events but to process them on the fly as they are received. These distributed systems are complex systems which require a considerably long time to learn and use. The majority of such distributed systems lack a declarative language in which to express the computation to perform over incoming events. In this work, a new SQL-like declarative language and a compiler have been developed. This compiler translates this new language to the distributed system native language. Due to its similarity with SQL a vast amount of developers who are already familiar with SQL will need little time to learn this language. Thus, this language reduces the execution failures at the time the programmer no longer needs to know every single detail of the underlying distributed system to submit a query.