13 resultados para ANÁLISIS DE DATOS DE TIEMPO DE FALLA
em Universidade Complutense de Madrid
Resumo:
En este trabajo, se realiza una presentación unificada de la Programación Multiobjetivo, describiendo y relacionando los distintos conceptos de solución y exponiendo las distintas técnicas de solución. Se formula el problema multiobjetivo mediante una séxtupla, (O, V, X, f, Y, EP), que permite unificar los muy diversos problemas multiobjetivo que surgen en distintos ámbitos. O representa el conjunto de objetos inicial, V representa el conjunto de las características relevantes que se miden sobre los objetos, X es el espacio de alternativas, f representa la familia de objetivos, Y es el espacio de resultados y EP es la estructura de preferencias del decisor. A partir de esta formulación, se realiza un amplio estudio de los distintos problemas multiobjetivo. Además, se aplica la metodología multiobjetivo a dos problemas concretos de gran interés práctico. En primer lugar, se aborda el problema de seleccionar el mejor tratamiento, cuando sobre las unidades experimentales, elegidas de forma aleatoria, se observan varias variables respuesta. Se consideran Modelos Discretos, Modelos Continuos Paramétricos y Modelos No Paramétricos. El último capítulo del trabajo, se dedica al estudio del problema multiobjetivo que se presenta cuando se desea representar, un conjunto finito de objetos, sobre la recta real, de forma que se refleje, lo más fielmente posible, la desemejanza de cada par de objetos. En el caso de que la desemejanza cumpla la propiedad de ser naturalmente ordenable, se ha diseñado y programado, un algoritmo, en tiempo polinomial, que obtiene la solución óptima del problema...
Resumo:
En este proyecto se ha desarrollado una aplicación Web cuya finalidad es ofrecer al usuario datos provenientes del análisis de texto de las noticias que se encuentran en periódicos online. La aplicación permite al usuario realizar búsquedas personalizadas sobre temáticas específicas y configurar algunos tipos de análisis sobre la información recuperada. Entre los análisis que son llevados a cabo destaca el análisis del sentimiento. Para ello se ofrece la posibilidad de que el usuario utilice sus propios diccionarios de pares palabra-valor, utilizados para realizar este tipo de análisis. Para la codificación de la herramienta, se ha utilizado el lenguaje de programación Python y la framework web Django. El almacenamiento de la información de la aplicación se ha realizado sobre una base de datos NoSQL de tipo MongoDB.
Resumo:
En la actualidad, muchos gobiernos están publicando (o tienen la intención de publicar en breve) miles de conjuntos de datos para que personas y organizaciones los puedan utilizar. Como consecuencia, la cantidad de aplicaciones basadas en Open Data está incrementándose. Sin embargo cada gobierno tiene sus propios procedimientos para publicar sus datos, y esto causa una variedad de formatos dado que no existe un estándar internacional para especificar los formatos de estos datos. El objetivo principal de este trabajo es un análisis comparativo de datos ambientales en bases de datos abiertas (Open Data) pertenecientes a distintos gobiernos. Debido a esta variedad de formatos, debemos construir un proceso de integración de datos que sea capaz de unir todos los tipos de formatos. El trabajo implica un pre-procesado, limpieza e integración de las diferentes fuentes de datos. Existen muchas aplicaciones desarrolladas para dar soporte en el proceso de integración por ejemplo Data Tamer, Data Wrangler como se explica en este documento. El problema con estas aplicaciones es que necesitan la interacción del usuario como parte fundamental del proceso de integración. En este trabajo tratamos de evitar la supervisión humana aprovechando las similitudes de los datasets procedentes de igual área que en nuestro caso se aplica al área de medioambiente. De esta forma los procesos pueden ser automatizados con una programación adecuada. Para conseguirlo, la idea principal de este trabajo es construir procesos ad hoc adaptados a las fuentes de cada gobierno para conseguir una integración automática. Concretamente este trabajo se enfoca en datos ambientales como lo son la temperatura, consumo de energía, calidad de aire, radiación solar, velocidad del viento, etc. Desde hace dos años el gobierno de Madrid está publicando sus datos relativos a indicadores ambientales en tiempo real. Del mismo modo, otros gobiernos han publicado conjuntos de datos Open Data relativos al medio ambiente (como Andalucía o Bilbao), pero todos estos datos tienen diferentes formatos. En este trabajo se presenta una solución capaz de integrar todas ellos que además permite al usuario visualizar y hacer análisis sobre los datos en tiempo real. Una vez que el proceso de integración está realizado, todos los datos de cada gobierno poseen el mismo formato y se pueden lanzar procesos de análisis de una manera más computacional. Este trabajo tiene tres partes fundamentales: 1. Estudio de los entornos Open Data y la literatura al respecto; 2. Desarrollo de un proceso de integración y 3. Desarrollo de una Interface Gráfica y Analítica. Aunque en una primera fase se implementaron los procesos de integración mediante Java y Oracle y la Interface Gráfica con Java (jsp), en una fase posterior se realizó toda la implementación con lenguaje R y la interface gráfica mediante sus librerías, principalmente con Shiny. El resultado es una aplicación que provee de un conjunto de Datos Ambientales Integrados en Tiempo Real respecto a dos gobiernos muy diferentes en España, disponible para cualquier desarrollador que desee construir sus propias aplicaciones.
Resumo:
El análisis de datos actual se enfrenta a problemas derivados de la combinación de datos procedentes de diversas fuentes de información. El valor de la información puede enriquecerse enormemente facilitando la integración de nuevas fuentes de datos y la industria es muy consciente de ello en la actualidad. Sin embargo, no solo el volumen sino también la gran diversidad de los datos constituye un problema previo al análisis. Una buena integración de los datos garantiza unos resultados fiables y por ello merece la pena detenerse en la mejora de procesos de especificación, recolección, limpieza e integración de los datos. Este trabajo está dedicado a la fase de limpieza e integración de datos analizando los procedimientos existentes y proponiendo una solución que se aplica a datos médicos, centrándose así en los proyectos de predicción (con finalidad de prevención) en ciencias de la salud. Además de la implementación de los procesos de limpieza, se desarrollan algoritmos de detección de outliers que permiten mejorar la calidad del conjunto de datos tras su eliminación. El trabajo también incluye la implementación de un proceso de predicción que sirva de ayuda a la toma de decisiones. Concretamente este trabajo realiza un análisis predictivo de los datos de pacientes drogodependientes de la Clínica Nuestra Señora de la Paz, con la finalidad de poder brindar un apoyo en la toma de decisiones del médico a cargo de admitir el internamiento de pacientes en dicha clínica. En la mayoría de los casos el estudio de los datos facilitados requiere un pre-procesado adecuado para que los resultados de los análisis estadísticos tradicionales sean fiables. En tal sentido en este trabajo se implementan varias formas de detectar los outliers: un algoritmo propio (Detección de Outliers con Cadenas No Monótonas), que utiliza las ventajas del algoritmo Knuth-Morris-Pratt para reconocimiento de patrones, y las librerías outliers y Rcmdr de R. La aplicación de procedimientos de cleaning e integración de datos, así como de eliminación de datos atípicos proporciona una base de datos limpia y fiable sobre la que se implementarán procedimientos de predicción de los datos con el algoritmo de clasificación Naive Bayes en R.
Resumo:
En este Trabajo de Fin de Máster se desarrollará un sistema de detección de fraude en pagos con tarjeta de crédito en tiempo real utilizando tecnologías de procesamiento distribuido. Concretamente se considerarán dos tecnologías: TIBCO, un conjunto de herramientas comerciales diseñadas para el procesamiento de eventos complejos, y Apache Spark, un sistema abierto para el procesamiento de datos en tiempo real. Además de implementar el sistema utilizando las dos tecnologías propuestas, un objetivo, otro objetivo de este Trabajo de Fin de Máster consiste en analizar y comparar estos dos sistemas implementados usados para procesamiento en tiempo real. Para la detección de fraude en pagos con tarjeta de crédito se aplicarán técnicas de aprendizaje máquina, concretamente del campo de anomaly/outlier detection. Como fuentes de datos que alimenten los sistemas, haremos uso de tecnologías de colas de mensajes como TIBCO EMS y Kafka. Los datos generados son enviados a estas colas para que los respectivos sistemas puedan procesarlos y aplicar el algoritmo de aprendizaje máquina, determinando si una nueva instancia es fraude o no. Ambos sistemas hacen uso de una base de datos MongoDB para almacenar los datos generados de forma pseudoaleatoria por los generadores de mensajes, correspondientes a movimientos de tarjetas de crédito. Estos movimientos posteriormente serán usados como conjunto de entrenamiento para el algoritmo de aprendizaje máquina.
Resumo:
Hemos adoptado una definición sociológica de pobreza, que nos ha permitido elaborar una imagen del pobre como individuo ante la sociedad. El estado de la cuestión del que partimos está formado por las definiciones sintéticas de pobreza que ofrecen autores actuales (por ejemplo, pobreza absoluta-relativa, pobreza-desviación social, dualización social-pobreza de Tezanos; nueva pobreza-pobreza tradicional de Tortosa) a partir de las cuales comprendemos y contextualizamos a los autores canónicos de la pobreza en su época (Vives-Robles-Soto, Giginta-Herrera, Weber, Tocqueville, Bentham o Marx por poner algunos ejemplos clásicos). Objetivos de la tesis: Esta tesis pretende establecer una tipología que razone los significados de los iconos de pobreza en el diseño y arte madrileños del inicio del siglo XXI, entroncando esas imágenes de pobreza con la tradición iconográfica occidental del pauperismo. La caracterización del pobre, su posición social, sus atributos y escenarios mantienen una afinidad visual y conceptual con el presente (hemos situado imágenes separadas en el tiempo pero unidas por los ejes semánticos que planteamos y se comprueba sus puntos visuales). Hipótesis: Nuestra hipótesis de partida, que confirmamos al concluir la tesis es que existe una relación entre esas imágenes míseras y un concepto de riqueza y pobreza de honda raíz cultural. La descomposición iconográfica de las imágenes se combina con un análisis de campo semántico de los discursos que en cada época y autor acompaña los iconos de pobres. Metodología: Para analizar el corpus de más de 600 imágenes y 1000 discursos sobre la pobreza hemos empleado un protocolo común para poder establecer posteriores comparaciones. Nuestro método combina el análisis de discurso (Muñoz, Álvarez-Uría), con especial atención al empleo de metáforas (Lakoff, Lizcano), y el análisis iconográfico (Panofsky). Los epígrafes de este modelo de análisis son: datos de la época, teóricos que definen la pobreza, antecedentes de concepto de pobreza, metáfora sobre la pobreza, movilidad social: ser o estar pobre, legitimación social, políticas de la pobreza, número de pobres, tipos de pobres, pobreza y clase social, relación ricos pobres, aspecto y ejemplos del pobre, denominación del pobre, lugares de la pobreza, ceremonias de la pobreza y las imágenes artísticas y de diseño. Conclusiones: Hemos conseguido describir el significado de las imágenes artísticas y de diseño sobre la pobreza madrileñas en el principio del s. XXI elaborando una tipología semántica con seis definiciones de pobreza: pobreza ironizada, recreada, bella, fea, de lucha social y exótica. Damos cuenta de ejemplos paradigmáticos del presente para ilustrar cada tipo y relacionamos cada una de esas clases de pobreza con visiones de la pobreza tradicional.
Resumo:
El presente estudio comprende una síntesis general de los conocimientos adquiridos en el desarrollo del Máster en Minería de Datos e Inteligencia de Negocios. Se ha intentado pasar por la mayoría de las áreas que en el mismo se tratan, prestando especial atención a la parte de análisis de datos propiamente dicha. La temática se ha centrado en el sector hotelero de la ciudad de Madrid. Se pretende hacer un ejercicio en profundidad de análisis de datos, seguido de un análisis de predicción del precio de los hoteles situados en esta ciudad, tomando como referencias distintas características de estos establecimientos, además de momentos temporales y otros matices. Otro punto a tratar en este estudio está basado en un análisis de la competencia hotelera, que tomará como base los resultados obtenidos en los primeros pasos de este proyecto. Así, se llega a la selección de un modelo óptimo de predicción, obtenido tras un proceso de ensayo-error de distintas técnicas predictivas, seguido de un proceso de elección. Así mismo, se consigue entender cómo se agrupan los distintos hoteles y cómo se sitúan en su mercado, atendiendo al comportamiento de los centros que forman su competencia.
Resumo:
Cada vez más evidencia demuestra la importancia de la función sistólica y diastólica del ventrículo derecho en el ámbito clínico. Sin embargo, múltiples aspectos de las bases mecánicas de la diástole ventricular derecha siguen siendo desconocidos. La mayor parte del llenado ventricular derecho tiene lugar en las fases iniciales de la diástole y, al igual que en el ventrículo izquierdo, la relajación y el comportamiento pasivo de la cámara deben determinar la despresurización y el llenado rápido durante esta fase. Sin embargo, el papel de dichas propiedades nunca ha sido cuantificado en el ventrículo derecho. Recientemente se ha demostrado que la aplicación de métodos numéricos de optimización multidimensional al análisis de datos de presión y volumen permite caracterizar las propiedades diastólicas del ventrículo izquierdo de forma más completa, exacta, y reproducible que con los métodos convencionales. Dicha metodología permite medir no sólo la rigidez sino también la contribución de las fuerzas de retroceso elástico a la despresurización ventricular. El presente trabajo se diseñó con el fin de aplicar esta misma metodología al estudio de la diástole del ventrículo derecho. Por su disposición anatómica, la fisiología del ventrículo derecho está en parte condicionada por el fenómeno de interdependencia con el ventrículo izquierdo. Así, la geometría de la cámara puede modificar en parte las propiedades diastólicas. Por ello, otro objetivo de este estudio fue establecer el impacto de los cambios de la geometría septal sobre las propiedades pasivas del ventrículo derecho...
Resumo:
En los últimos años se ha incrementado el interés de la comunidad científica en la Factorización de matrices no negativas (Non-negative Matrix Factorization, NMF). Este método permite transformar un conjunto de datos de grandes dimensiones en una pequeña colección de elementos que poseen semántica propia en el contexto del análisis. En el caso de Bioinformática, NMF suele emplearse como base de algunos métodos de agrupamiento de datos, que emplean un modelo estadístico para determinar el número de clases más favorable. Este modelo requiere de una gran cantidad de ejecuciones de NMF con distintos parámetros de entrada, lo que representa una enorme carga de trabajo a nivel computacional. La mayoría de las implementaciones de NMF han ido quedando obsoletas ante el constante crecimiento de los datos que la comunidad científica busca analizar, bien sea porque los tiempos de cómputo llegan a alargarse hasta convertirse en inviables, o porque el tamaño de esos datos desborda los recursos del sistema. Por ello, esta tesis doctoral se centra en la optimización y paralelización de la factorización NMF, pero no solo a nivel teórico, sino con el objetivo de proporcionarle a la comunidad científica una nueva herramienta para el análisis de datos de origen biológico. NMF expone un alto grado de paralelismo a nivel de datos, de granularidad variable; mientras que los métodos de agrupamiento mencionados anteriormente presentan un paralelismo a nivel de cómputo, ya que las diversas instancias de NMF que se ejecutan son independientes. Por tanto, desde un punto de vista global, se plantea un modelo de optimización por capas donde se emplean diferentes tecnologías de alto rendimiento...
Resumo:
El objetivo principal de esta tesis es el estudio de los mecanismos generales y específicos de la adquisición del español como segunda lengua, en particular en relación con la adquisición del Sintagma Determinante (SD). Prestaremos especial atención a las diferencias y similitudes en la adquisición de esta categoría gramatical como lengua materna y como lengua segunda por niños y adultos, así como al papel de la experiencia lingüística previa y al de la edad de la primera exposición a la segunda lengua, tanto en el estadio inicial, como en el proceso y el logro final. La existencia de la facultad humana del lenguaje, como capacidad diferenciada de las otras capacidades cognitivas, es una de las asunciones de la visión chomskiana del lenguaje. Según esa visión, esta capacidad se encuentra localizada en un dominio mental prefijado, innato y específico. La adquisición del lenguaje no es una combinación de refuerzos, como propone el conductismo, sino que los niños están expuestos a un amplio rango de opciones combinatorias, de tal forma que el aprendizaje de una lengua natural consiste en la selección de parámetros y rasgos y en la adquisición del léxico (Piatelli-Palmarini, 1989). La investigación sobre la adquisición de segundas lenguas constituye un elemento principal de todos los desarrollos de la teoría chomskiana, desde la gramática transformacional al Programa Minimista (Chomsky, 1957, 1959, 1965, 1974, 1981, 1986, 1994a, 1994b, 1994c, 1994d, 1995, 1998a, 1998b, 2001; Chomsky, Beletti y Rizzi, 2000). Sin embargo, los progresos en la adecuación descriptiva, es decir, la descripción del funcionamiento lingüístico, no han contribuido siempre al desarrollo de la adecuación explicativa, la explicación de la adquisición del lenguaje. De hecho, el limitado interés mostrado por algunos de los lingüistas más renombrados que desarrollan sus investigaciones en el marco chomskiano ha podido ahondar la división metodológica establecida entre los lingüistas centrados principalmente en la teoría y los más dedicados al análisis de datos (Liceras, 2003). Las aproximaciones conexionistas o constructivistas a la adquisición del lenguaje (Elman et al., 1996; Pérez-Pereira, 2003; Ezeizaberrena, 2003) reprochan precisamente a la teoría chomskiana su escaso interés por los datos, a la vez que las ideas del innatismo y la existencia de una facultad humana específica del lenguaje...
Resumo:
Las tecnologías relacionadas con el análisis de datos masivos están empezando a revolucionar nuestra forma de vivir, nos demos cuenta de ello o no. Desde las grandes compañías, que utilizan big data para la mejora de sus resultados, hasta nuestros teléfonos, que lo usan para medir nuestra actividad física. La medicina no es ajena a esta tecnología, que puede utilizarla para mejorar los diagnósticos y establecer planes de seguimiento personalizados a los pacientes. En particular, el trastorno bipolar requiere de atención constante por parte de los profesionales médicos. Con el objetivo de contribuir a esta labor, se presenta una plataforma, denominada bip4cast, que pretende predecir con antelación las crisis de estos enfermos. Uno de sus componentes es una aplicación web creada para realizar el seguimiento a los pacientes y representar gráficamente los datos de que se dispone con el objetivo de que el médico sea capaz de evaluar el estado del paciente, analizando el riesgo de recaída. Además, se estudian las diferentes visualizaciones implementadas en la aplicación con el objetivo de comprobar si se adaptan correctamente a los objetivos que se pretenden alcanzar con ellas. Para ello, generaremos datos aleatorios y representaremos estos gráficamente, examinando las posibles conclusiones que de ellos pudieran extraerse.
Resumo:
En la actualidad el espacio europeo se ha convertido, según algunos autores (Grande y Beck, 2006; Delibašiˇc, 2013, Kun, 2015) en un importante referente de identificación. Por otra parte, con una historia más prolongada, el transnacionalismo se posiciona como un fenómeno propio de la era global, que no para de crecer a nivel internacional (Castro Neira, 2005; Guarnizo, 2004; Faist, 2013). Estos dos fenómenos están muy interrelacionados, e incluso se superponen en el espacio territorial y en el simbólico. Tanto, que ambos se confunden como uno solo, e incluso se platean como un mismo mecanismo en expansión, que en el caso de Europa puede ayudar a la construcción de un espacio europeo de sentido identitario o proto identitario, que estaría dando paso a una entidad política con una comunidad de sentido que le corresponde. Especialmente se relacionan y se confunden cuando los dos países principales de la identificación transnacional de una persona o un colectivo, coincide con dos países de la Europa de la 27. Esta situación afecta a la juventud emigrante y móvil, tanto por sus acciones transnacionales autónomas, como por las políticas públicas que les permiten dicha movilidad. La hipótesis de este texto es que la identificación transnacional y la identificación europea son dos procesos diferenciados y con consecuencias también diferenciadas, tanto en lo referente al fortalecimiento o debilitamiento de un espacio europeo, como en sus efectos sobre el sentido de pertenencia y de lo común que está en construcción. Este planteamiento se somete a prueba mediante el análisis de datos primarios y secundarios, generados por investigaciones recientes. Para ello se utilizan tanto información cualitativa (entrevistas), como análisis de datos (encuestas) sobre movilidad, identificación y pertenencia.
Resumo:
Las Redes Definidas por Software (Software Defined Networking) permiten la monitorización y el control centralizado de la red, de forma que los administradores pueden tener una visión real y completa de la misma. El análisis y visualización de los diferentes parámetros obtenidos representan la forma más viable y práctica de programar la red en función de las necesidades del usuario. Por este motivo, en este proyecto se desarrolla una arquitectura modular cuyo objetivo es presentar en tiempo real la información que se monitoriza en una red SDN. En primera instancia, las diferentes métricas monitorizadas (error, retardo y tasa de datos) son almacenadas en una base de datos, para que en una etapa posterior se realice el análisis de dichas métricas. Finalmente, los resultados obtenidos, tanto de métricas en tiempo real como de los datos estadísticos, son presentados en una aplicación web. La información es obtenida a través de la interfaz REST que expone el controlador Floodlight y para el análisis de la información se plantea una comparación entre los valores medios y máximos del conjunto de datos. Los resultados obtenidos muestran gráficamente de forma clara y precisa las diferentes métricas de monitorización. Además, debido al carácter modular de la arquitectura, se ofrece un valor añadido a los sistemas actuales de monitorización SDN.