10 resultados para big data
em Universidade Complutense de Madrid
Resumo:
En esta memoria se presenta el diseño y desarrollo de una aplicación en la nube destinada a la compartición de objetos y servicios. El desarrollo de esta aplicación surge dentro del proyecto de I+D+i, SITAC: Social Internet of Things – Apps by and for the Crowd ITEA 2 11020, que trata de crear una arquitectura integradora y un “ecosistema” que incluya plataformas, herramientas y metodologías para facilitar la conexión y cooperación de entidades de distinto tipo conectadas a la red bien sean sistemas, máquinas, dispositivos o personas con dispositivos móviles personales como tabletas o teléfonos móviles. El proyecto innovará mediante la utilización de un modelo inspirado en las redes sociales para facilitar y unificar las interacciones tanto entre personas como entre personas y dispositivos. En este contexto surge la necesidad de desarrollar una aplicación destinada a la compartición de recursos en la nube que pueden ser tanto lógicos como físicos, y que esté orientada al big data. Ésta será la aplicación presentada en este trabajo, el “Resource Sharing Center”, que ofrece un servicio web para el intercambio y compartición de contenido, y un motor de recomendaciones basado en las preferencias de los usuarios. Con este objetivo, se han usado tecnologías de despliegue en la nube, como Elastic Beanstalk (el PaaS de Amazon Web Services), S3 (el sistema de almacenamiento de Amazon Web Services), SimpleDB (base de datos NoSQL) y HTML5 con JavaScript y Twitter Bootstrap para el desarrollo del front-end, siendo Python y Node.js las tecnologías usadas en el back end, y habiendo contribuido a la mejora de herramientas de clustering sobre big data. Por último, y de cara a realizar el estudio sobre las pruebas de carga de la aplicación se ha usado la herramienta ApacheJMeter.
Resumo:
A pesar de la existencia de una multitud de investigaciones sobre el análisis de sentimiento, existen pocos trabajos que traten el tema de su implantación práctica y real y su integración con la inteligencia de negocio y big data de tal forma que dichos análisis de sentimiento estén incorporados en una arquitectura (que soporte todo el proceso desde la obtención de datos hasta su explotación con las herramientas de BI) aplicada a la gestión de la crisis. Se busca, por medio de este trabajo, investigar cómo se pueden unir los mundos de análisis (de sentimiento y crisis) y de la tecnología (todo lo relacionado con la inteligencia de negocios, minería de datos y Big Data), y crear una solución de Inteligencia de Negocios que comprenda la minería de datos y el análisis de sentimiento (basados en grandes volúmenes de datos), y que ayude a empresas y/o gobiernos con la gestión de crisis. El autor se ha puesto a estudiar formas de trabajar con grandes volúmenes de datos, lo que se conoce actualmente como Big Data Science, o la ciencia de los datos aplicada a grandes volúmenes de datos (Big Data), y unir esta tecnología con el análisis de sentimiento relacionado a una situación real (en este trabajo la situación elegida fue la del proceso de impechment de la presidenta de Brasil, Dilma Rousseff). En esta unión se han utilizado técnicas de inteligencia de negocios para la creación de cuadros de mandos, rutinas de ETC (Extracción, Transformación y Carga) de los datos así como también técnicas de minería de textos y análisis de sentimiento. El trabajo ha sido desarrollado en distintas partes y con distintas fuentes de datos (datasets) debido a las distintas pruebas de tecnología a lo largo del proyecto. Uno de los datasets más importantes del proyecto son los tweets recogidos entre los meses de diciembre de 2015 y enero de 2016. Los mensajes recogidos contenían la palabra "Dilma" en el mensaje. Todos los twittees fueron recogidos con la API de Streaming del Twitter. Es muy importante entender que lo que se publica en la red social Twitter no se puede manipular y representa la opinión de la persona o entidad que publica el mensaje. Por esto se puede decir que hacer el proceso de minería de datos con los datos del Twitter puede ser muy eficiente y verídico. En 3 de diciembre de 2015 se aceptó la petición de apertura del proceso del impechment del presidente de Brasil, Dilma Rousseff. La petición fue aceptada por el presidente de la Cámara de los Diputados, el diputado Sr. Eduardo Cunha (PMDBRJ), y de este modo se creó una expectativa sobre el sentimiento de la población y el futuro de Brasil. También se ha recogido datos de las búsquedas en Google referentes a la palabra Dilma; basado en estos datos, el objetivo es llegar a un análisis global de sentimiento (no solo basado en los twittees recogidos). Utilizando apenas dos fuentes (Twitter y búsquedas de Google) han sido extraídos muchísimos datos, pero hay muchas otras fuentes donde es posible obtener informaciones con respecto de las opiniones de las personas acerca de un tema en particular. Así, una herramienta que pueda recoger, extraer y almacenar tantos datos e ilustrar las informaciones de una manera eficaz que ayude y soporte una toma de decisión, contribuye para la gestión de crisis.
Resumo:
Durante el desarrollo del proyecto he aprendido sobre Big Data, Android y MongoDB mientras que ayudaba a desarrollar un sistema para la predicción de las crisis del trastorno bipolar mediante el análisis masivo de información de diversas fuentes. En concreto hice una parte teórica sobre bases de datos NoSQL, Streaming Spark y Redes Neuronales y después diseñé y configuré una base de datos MongoDB para el proyecto del trastorno bipolar. También aprendí sobre Android y diseñé y desarrollé una aplicación de móvil en Android para recoger datos para usarlos como entrada en el sistema de predicción de crisis. Una vez terminado el desarrollo de la aplicación también llevé a cabo una evaluación con usuarios.
Resumo:
Esta Tesis tiene dos partes. La Primera Parte es Teórica y Metodológica y trata de la actual crisis de paradigma en las Ciencias Sociales, y de cómo se puede remontar con la Teoría del Pensamiento Complejo, siempre que sus propuestas se centren en modelos empíricos de Análisis de Redes Sociales debidamente matematizados y estadísticamente refrendados. La propuesta del tesista propone enriquecer el actual homo economicus, incorporando la importancia de las relaciones con el grupo (coactivas, coercitivas o motivacionales), a través de un nuevo objeto de estudio: los Proyectos. Es mediante los Proyectos, donde los individuos y los grupos en los que interactúan, transan y organizan sus esfuerzos. El problema reside en que, no existe hasta la fecha, una sistematización y modelización de los Proyectos como objeto de estudio en las Ciencias Sociales. Sin embargo, hay una amplia experiencia de análisis y sistematización de Proyectos tanto en la Economía de la Empresa (Management, Business Administration), como en la Economía Pública. En esta Tesis se estudia todo lo publicado recientemente sobre los Proyectos de Inversión Pública (PIPs) y su eficiencia en Latinoamérica. En la Segunda Parte, centrada en un Trabajo Empírico y su modelización, el tesista crea una Base de Datos (BdD) primaria, a partir del Banco de Proyectos (BdP) del Ministerio de Economía y Finanzas (MEF) del Perú (2001-2014), que recoge todos los Proyectos de Inversión Pública (PIP), cerca de 400.000 PIPs Iniciales, los tabula en 48 categorías y posteriormente, “deja hablar a los datos” jugando a relacionar, correlacionar, inducir hipótesis y verificarlas mediante un sistema que se centra en la operativa tipo “Big Data”. A esto le denomina “triangular” porque mezcla en el esfuerzo, herramientas de Estadística Descriptiva, Estadística Inferencial y Econometría para poder refrendar el conocimiento inducido, que siempre en ciencia, es una mera certeza probabilística. El tesista concluye que en el caso del Sistema Nacional de Inversión Pública del Perú (SNIP) y más específicamente, de los procesos administrativos que emplea -denominados “Ciclo PIP”-, queda claro que se está trabajando con “fenómenos emergentes” cuyo comportamiento no se adapta a una Distribución Normal. Y que dicho comportamiento errático se debe a que la Inversión Pública es cíclica (Ecuación Evolutiva de Price) y a que el “Ciclo PIP” opera a todo nivel (GN, GR, GL) en función de las relaciones entre los miembros que componen su red. Ergo, es un tema a Analizar con Social Network Analysis (Análisis Social de Redes, ARS). El tesista concluye que las redes de “Ciclo PIP” en el Perú fallan principalmente por problemas de escasez de personal técnico multisectorial debidamente cualificado. A manera de conclusión, propone la creación de una Plataforma Web 3.0 (metadatos), que utilice un Sistema de Razonamiento Basado en Casos (SRBC) para aprovechar el conocimiento que dimana de los éxitos y fracasos de los propios PIPs, con el fin de facilitar las gestiones de los miembros de la red que formulan, evalúan y ejecutan los PIPs en el Perú, tanto a nivel Municipal (GP) como Regional (GR) y Nacional (GN).
Resumo:
En la actualidad, estudiar comunicación y, específicamente, periodismo es una necesidad, aunque, al mismo tiempo, es un desafío. Esto se justifica por el dinamismo del ecosistema mediático contemporáneo, que corresponde a los medios, a las tecnologías emergentes y a la sociedad, cada vez más participante de los procesos comunicacionales. De hecho, estas transformaciones han cambiado no sólo los procesos, sino, también, las componentes de los grupos profesionales que trabajan en la construcción de la noticia contemporánea, ahora convertida en multilenguaje y pensada para dispositivos antes no pensados, como los teléfonos móviles y las tabletas. Entre los cambios, se destaca el periodismo de datos que tiene en cuenta el fenómeno big data y los contenidos de información disponibles en la nube, informaciones muchas veces disfrazadas o desapercibidas entre contenidos no tan importantes. Para trabajar con estos contenidos y en escenarios emergentes binarios, se justifica la creciente participación de profesionales de las ciencias exactas y de las ingenierías en las salas de redacción de los medios, pues ahora es necesario pensar en la selección, limpieza y comprensión, además de construir el espacio de publicación bajo conceptos digitales para lo multiplataforma. Complementariamente, encontramos una sociedad cada vez más constructora de espacios y caminos para la circulación y retroalimentación de contenidos a través de los medios sociales, posicionándose estos como productores de contenido, es decir, en fuentes activas. Esta investigación de tesis doctoral se ha desarrollado con el objetivo de crear un medio social para el desarrollo del periodismo de datos que tiene como base conceptual la narrativa transmedia, los contenidos multiplataforma y el conectivismo, elementos clave para comprender las posibilidades y aprovechar el conocimiento colectivo disponible en la nube. Por tanto, se han compartido conocimientos y metodologías apropiadas para la investigación en los campos del periodismo y de la ingeniería, tornándose necesaria la inmersión en conceptos relacionados del periodismo, el periodismo de datos, lenguajes y la sociedad mediática para, al final, desarrollar un algoritmo bajo formato de diagrama de flujo, y sus respectivas interfaces, del medio social thirdnews, que sirviera como modelo de ejecución de programación del producto. Entre las metodologías adoptadas, se destacan la investigación bibliográfica y la investigación cuasi-experimental, que empieza a ser común en tesis sobre comunicación aplicada, además del concepto de modelaje de producto y el método Roadmap, utilizados con frecuencia en tesis de ingeniería de producción. Con las conclusiones de la tesis, se espera no sólo poner en práctica el desarrollo del medio social, sino, también, presentar reflexiones teóricas y prácticas sobre el periodismo de datos en las redacciones de los medios actuales.
Resumo:
La cantidad de datos biológicos y médicos que se produce hoy en día es enorme, y se podría decir que el campo de las ciencias de la vida forma parte ya del club del Big Data. Estos datos contienen información crucial que pueden ayudar a comprender mejor los mecanismos moleculares en los sistemas biológicos. Este conocimiento es fundamental para el progreso en el diagnóstico y en el tratamiento de las enfermedades. La Bioinformática, junto con la Biología Computacional, son disciplinas que se encargan de organizar, analizar e interpretar los datos procedentes de la Biología Molecular. De hecho, la complejidad y la heterogeneidad de los problemas biológicos requieren de un continuo diseño, implementación y aplicación de nuevos métodos y algoritmos. La minería de datos biológicos es una tarea complicada debido a la naturaleza heterogénea y compleja de dichos datos, siendo éstos muy dependientes de detalles específicos experimentales. Esta tesis se basa en el estudio de un problema biomédico complejo: la menor probabilidad de desarrollar algunos tipos de cáncer en pacientes con ciertos trastornos del sistema nervioso central (SNC) u otros trastornos neurológicos, y viceversa. Denominamos a esta condición como comorbilidad inversa. Desde el punto de vista médico, entender mejor las conexiones e interacciones entre cáncer y trastornos neurológicos podría mejorar la calidad de vida y el efecto de la asistencia médica de millones de personas en todo el mundo. Aunque la comorbilidad inversa ha sido estudiada a nivel médico, a través de estudios epidemiológicos, no se ha investigado en profundidad a nivel molecular...
Resumo:
En los últimos años hemos sido testigos de la expansión del paradigma big data a una velocidad vertiginosa. Los cambios en este campo, nos permiten ampliar las áreas a tratar; lo que a su vez implica una mayor complejidad de los sistemas software asociados a estas tareas, como sucede en sistemas de monitorización o en el Internet de las Cosas (Internet of Things). Asimismo, la necesidad de implementar programas cada vez robustos y eficientes, es decir, que permitan el cómputo de datos a mayor velocidad y de los se obtengan información relevante, ahorrando costes y tiempo, ha propiciado la necesidad cada vez mayor de herramientas que permitan evaluar estos programas. En este contexto, el presente proyecto se centra en extender la herramienta sscheck. Sscheck permite la generación de casos de prueba basados en propiedades de programas escritos en Spark y Spark Streaming. Estos lenguajes forman parte de un mismo marco de código abierto para la computación distribuida en clúster. Dado que las pruebas basadas en propiedades generan datos aleatorios, es difícil reproducir los problemas encontrados en una cierta sesion; por ello, la extensión se centrará en cargar y guardar casos de test en disco mediante el muestreo de datos desde colecciones mayores.
Resumo:
Las comunidades colaborativas, donde grandes cantidades de personas colaboran para la producción de recursos compartidos (e.g. Github, Wikipedia, OpenStreetMap, Arduino, StackOverflow) están extendiéndose progresivamente a multitud de campos. No obstante, es complicado comprender cómo funcionan y evolucionan. ¿Qué tipos de usuarios son más activos en Wikia? ¿Cómo ha evolucionado el número de wikis activas en los últimos años? ¿Qué perfil de actividad presentan la mayor parte de colaboradores de Wikia? ¿Son más activos los hombres o las mujeres en la Wikipedia? En los proyectos de Github, ¿el esfuerzo de programación (y frecuencia de commits) se distribuye de forma homogénea a lo largo del tiempo o suele estar concentrado? Estas comunidades, típicamente online, dejan registrada su actividad en grandes bases de datos, muchas de ellas disponibles públicamente. Sin embargo, el ciudadano de a pie no tiene ni las herramientas ni el conocimiento necesario para sacar conclusiones de esos datos. En este TFG desarrollamos una herramienta de análisis exploratorio y visualización de datos de la plataforma Wikia, sitio web colaborativo que permite la creación, edición y modificación del contenido y estructura de miles de páginas web de tipo enciclopedia basadas en la tecnología wiki. Nuestro objetivo es que esta aplicación web sea usable por cualquiera y que no requiera que el usuario sea un experto en Big Data para poder visualizar las gráficas de evolución o distribuciones del comportamiento interno de la comunidad, pudiendo modificar algunos de sus parámetros y visualizando cómo cambian. Como resultado de este trabajo se ha desarrollado una primera versión de la aplicación disponible en GitHub1 y en http://chartsup.esy.es/
Resumo:
La información sobre conceptos de innovación educomunicativa en la web, sobre todo los relacionados con las TIC, suele ser confusa y presentarse de una forma divulgativa inexacta o de una manera científica compleja en artículos largos. Además, suelen utilizarse términos en inglés o en extrañas hibridaciones. Las y los estudiantes –y cualquier persona- que buscan estos términos suelen recurrir a la divulgación inexacta, lo que hace que no comprendan el término en toda su extensión y, por tanto, que los desarrollos que se realizan, tanto teóricos como prácticos, se alejen de la excelencia ya desde su inicio. Conceptos como Branding, Big Data, Force Touch, Gamificación, Geocaching, InRead video, Inroll Video, Interfaz Social, Mobile First, Mooc, Neurocomunicación, Responsive Web Design, Transmedia, Walking Cinema, Walking Documentary, Wayfinding… o no se comprenden o se comprenden sin los matices imprescindibles para un buen desarrollo académico y profesional. Los investigadores del grupo “Museum I+D+C. Laboratorio de cultura digital y museografía hipermedia” de la Universidad Complutense de Madrid, pertenecientes a distintas universidades de Argentina, Brasil, España, México, Colombia, Chile, Ecuador y Reino Unido, coinciden en la necesidad de intentar clarificar esos términos. Queremos animar a cualquier persona que lea estas líneas a participar en el proyecto, bien proponiendo mejoras o aportando nuevos términos.
Resumo:
Las tecnologías relacionadas con el análisis de datos masivos están empezando a revolucionar nuestra forma de vivir, nos demos cuenta de ello o no. Desde las grandes compañías, que utilizan big data para la mejora de sus resultados, hasta nuestros teléfonos, que lo usan para medir nuestra actividad física. La medicina no es ajena a esta tecnología, que puede utilizarla para mejorar los diagnósticos y establecer planes de seguimiento personalizados a los pacientes. En particular, el trastorno bipolar requiere de atención constante por parte de los profesionales médicos. Con el objetivo de contribuir a esta labor, se presenta una plataforma, denominada bip4cast, que pretende predecir con antelación las crisis de estos enfermos. Uno de sus componentes es una aplicación web creada para realizar el seguimiento a los pacientes y representar gráficamente los datos de que se dispone con el objetivo de que el médico sea capaz de evaluar el estado del paciente, analizando el riesgo de recaída. Además, se estudian las diferentes visualizaciones implementadas en la aplicación con el objetivo de comprobar si se adaptan correctamente a los objetivos que se pretenden alcanzar con ellas. Para ello, generaremos datos aleatorios y representaremos estos gráficamente, examinando las posibles conclusiones que de ellos pudieran extraerse.