917 resultados para LHC,CMS,Big Data
Resumo:
Debido al gran incremento de datos digitales que ha tenido lugar en los últimos años, ha surgido un nuevo paradigma de computación paralela para el procesamiento eficiente de grandes volúmenes de datos. Muchos de los sistemas basados en este paradigma, también llamados sistemas de computación intensiva de datos, siguen el modelo de programación de Google MapReduce. La principal ventaja de los sistemas MapReduce es que se basan en la idea de enviar la computación donde residen los datos, tratando de proporcionar escalabilidad y eficiencia. En escenarios libres de fallo, estos sistemas generalmente logran buenos resultados. Sin embargo, la mayoría de escenarios donde se utilizan, se caracterizan por la existencia de fallos. Por tanto, estas plataformas suelen incorporar características de tolerancia a fallos y fiabilidad. Por otro lado, es reconocido que las mejoras en confiabilidad vienen asociadas a costes adicionales en recursos. Esto es razonable y los proveedores que ofrecen este tipo de infraestructuras son conscientes de ello. No obstante, no todos los enfoques proporcionan la misma solución de compromiso entre las capacidades de tolerancia a fallo (o de manera general, las capacidades de fiabilidad) y su coste. Esta tesis ha tratado la problemática de la coexistencia entre fiabilidad y eficiencia de los recursos en los sistemas basados en el paradigma MapReduce, a través de metodologías que introducen el mínimo coste, garantizando un nivel adecuado de fiabilidad. Para lograr esto, se ha propuesto: (i) la formalización de una abstracción de detección de fallos; (ii) una solución alternativa a los puntos únicos de fallo de estas plataformas, y, finalmente, (iii) un nuevo sistema de asignación de recursos basado en retroalimentación a nivel de contenedores. Estas contribuciones genéricas han sido evaluadas tomando como referencia la arquitectura Hadoop YARN, que, hoy en día, es la plataforma de referencia en la comunidad de los sistemas de computación intensiva de datos. En la tesis se demuestra cómo todas las contribuciones de la misma superan a Hadoop YARN tanto en fiabilidad como en eficiencia de los recursos utilizados. ABSTRACT Due to the increase of huge data volumes, a new parallel computing paradigm to process big data in an efficient way has arisen. Many of these systems, called dataintensive computing systems, follow the Google MapReduce programming model. The main advantage of these systems is based on the idea of sending the computation where the data resides, trying to provide scalability and efficiency. In failure-free scenarios, these frameworks usually achieve good results. However, these ones are not realistic scenarios. Consequently, these frameworks exhibit some fault tolerance and dependability techniques as built-in features. On the other hand, dependability improvements are known to imply additional resource costs. This is reasonable and providers offering these infrastructures are aware of this. Nevertheless, not all the approaches provide the same tradeoff between fault tolerant capabilities (or more generally, reliability capabilities) and cost. In this thesis, we have addressed the coexistence between reliability and resource efficiency in MapReduce-based systems, looking for methodologies that introduce the minimal cost and guarantee an appropriate level of reliability. In order to achieve this, we have proposed: (i) a formalization of a failure detector abstraction; (ii) an alternative solution to single points of failure of these frameworks, and finally (iii) a novel feedback-based resource allocation system at the container level. Finally, our generic contributions have been instantiated for the Hadoop YARN architecture, which is the state-of-the-art framework in the data-intensive computing systems community nowadays. The thesis demonstrates how all our approaches outperform Hadoop YARN in terms of reliability and resource efficiency.
Resumo:
One of the most demanding needs in cloud computing and big data is that of having scalable and highly available databases. One of the ways to attend these needs is to leverage the scalable replication techniques developed in the last decade. These techniques allow increasing both the availability and scalability of databases. Many replication protocols have been proposed during the last decade. The main research challenge was how to scale under the eager replication model, the one that provides consistency across replicas. This thesis provides an in depth study of three eager database replication systems based on relational systems: Middle-R, C-JDBC and MySQL Cluster and three systems based on In-Memory Data Grids: JBoss Data Grid, Oracle Coherence and Terracotta Ehcache. Thesis explore these systems based on their architecture, replication protocols, fault tolerance and various other functionalities. It also provides experimental analysis of these systems using state-of-the art benchmarks: TPC-C and TPC-W (for relational systems) and Yahoo! Cloud Serving Benchmark (In- Memory Data Grids). Thesis also discusses three Graph Databases, Neo4j, Titan and Sparksee based on their architecture and transactional capabilities and highlights the weaker transactional consistencies provided by these systems. It discusses an implementation of snapshot isolation in Neo4j graph database to provide stronger isolation guarantees for transactions.
Resumo:
Abstract: Context aware applications, which can adapt their behaviors to changing environments, are attracting more and more attention. To simplify the complexity of developing applications, context aware middleware, which introduces context awareness into the traditional middleware, is highlighted to provide a homogeneous interface involving generic context management solutions. This paper provides a survey of state-of-the-art context aware middleware architectures proposed during the period from 2009 through 2015. First, a preliminary background, such as the principles of context, context awareness, context modelling, and context reasoning, is provided for a comprehensive understanding of context aware middleware. On this basis, an overview of eleven carefully selected middleware architectures is presented and their main features explained. Then, thorough comparisons and analysis of the presented middleware architectures are performed based on technical parameters including architectural style, context abstraction, context reasoning, scalability, fault tolerance, interoperability, service discovery, storage, security & privacy, context awareness level, and cloud-based big data analytics. The analysis shows that there is actually no context aware middleware architecture that complies with all requirements. Finally, challenges are pointed out as open issues for future work.
Resumo:
Uno de los principales objetivos de los sistemas informáticos es ser capaces de detectar y controlar aquellos accesos no autorizados, o incluso prevenirlos antes de que se produzca una pérdida de valor en el sistema. Se busca encontrar un modelo general que englobe todos los posibles casos de entradas no deseadas al sistema y que sea capaz de aprender para detectar intrusiones futuras. En primer lugar se estudiará la relevancia de las técnicas utilizadas para el almacenamiento de la información. Big Data ilustra los elementos esenciales necesarios para el almacenamiento de los datos con un formato único identificable y unos atributos característicos que los definan, para su posterior análisis. El método de almacenamiento elegido influirá en las técnicas de análisis y captura de valor utilizadas, dado que existe una dependencia directa entre el formato en el que se almacena la información y el valor específico que se pretende obtener de ella. En segundo lugar se examinarán las distintas técnicas de análisis y captura de datos actuales, y los diferentes resultados que se pueden obtener. En este punto aparece el concepto de machine learning y su posible aplicación para detección de anomalías. La finalidad es lograr generalizar diferentes comportamientos a partir de una información no estructurada y generar un modelo aplicable a nuevas entradas al sistema que no son conocidas con anterioridad. En último lugar, se analizarán diferentes entornos de ciberseguridad y se propondrá un conjunto de recomendaciones de diseño o ajustes respecto a las técnicas mencionadas anteriormente, realizando una breve clasificación según las variables de entrada que se tienen y el resultado que se desea obtener. El propósito de este Trabajo de Fin de Grado es, por tanto, la comparación general de las diferentes técnicas actuales de detección de comportamientos anómalos en un sistema informático, tales como el aprendizaje de máquinas o minería de datos, así como de un planteamiento de cuáles son las mejores opciones según el tipo de valor que se desea extraer de la información almacenada.
Resumo:
Esta Tesis tiene dos partes. La Primera Parte es Teórica y Metodológica y trata de la actual crisis de paradigma en las Ciencias Sociales, y de cómo se puede remontar con la Teoría del Pensamiento Complejo, siempre que sus propuestas se centren en modelos empíricos de Análisis de Redes Sociales debidamente matematizados y estadísticamente refrendados. La propuesta del tesista propone enriquecer el actual homo economicus, incorporando la importancia de las relaciones con el grupo (coactivas, coercitivas o motivacionales), a través de un nuevo objeto de estudio: los Proyectos. Es mediante los Proyectos, donde los individuos y los grupos en los que interactúan, transan y organizan sus esfuerzos. El problema reside en que, no existe hasta la fecha, una sistematización y modelización de los Proyectos como objeto de estudio en las Ciencias Sociales. Sin embargo, hay una amplia experiencia de análisis y sistematización de Proyectos tanto en la Economía de la Empresa (Management, Business Administration), como en la Economía Pública. En esta Tesis se estudia todo lo publicado recientemente sobre los Proyectos de Inversión Pública (PIPs) y su eficiencia en Latinoamérica. En la Segunda Parte, centrada en un Trabajo Empírico y su modelización, el tesista crea una Base de Datos (BdD) primaria, a partir del Banco de Proyectos (BdP) del Ministerio de Economía y Finanzas (MEF) del Perú (2001-2014), que recoge todos los Proyectos de Inversión Pública (PIP), cerca de 400.000 PIPs Iniciales, los tabula en 48 categorías y posteriormente, “deja hablar a los datos” jugando a relacionar, correlacionar, inducir hipótesis y verificarlas mediante un sistema que se centra en la operativa tipo “Big Data”. A esto le denomina “triangular” porque mezcla en el esfuerzo, herramientas de Estadística Descriptiva, Estadística Inferencial y Econometría para poder refrendar el conocimiento inducido, que siempre en ciencia, es una mera certeza probabilística. El tesista concluye que en el caso del Sistema Nacional de Inversión Pública del Perú (SNIP) y más específicamente, de los procesos administrativos que emplea -denominados “Ciclo PIP”-, queda claro que se está trabajando con “fenómenos emergentes” cuyo comportamiento no se adapta a una Distribución Normal. Y que dicho comportamiento errático se debe a que la Inversión Pública es cíclica (Ecuación Evolutiva de Price) y a que el “Ciclo PIP” opera a todo nivel (GN, GR, GL) en función de las relaciones entre los miembros que componen su red. Ergo, es un tema a Analizar con Social Network Analysis (Análisis Social de Redes, ARS). El tesista concluye que las redes de “Ciclo PIP” en el Perú fallan principalmente por problemas de escasez de personal técnico multisectorial debidamente cualificado. A manera de conclusión, propone la creación de una Plataforma Web 3.0 (metadatos), que utilice un Sistema de Razonamiento Basado en Casos (SRBC) para aprovechar el conocimiento que dimana de los éxitos y fracasos de los propios PIPs, con el fin de facilitar las gestiones de los miembros de la red que formulan, evalúan y ejecutan los PIPs en el Perú, tanto a nivel Municipal (GP) como Regional (GR) y Nacional (GN).
Resumo:
En la actualidad, estudiar comunicación y, específicamente, periodismo es una necesidad, aunque, al mismo tiempo, es un desafío. Esto se justifica por el dinamismo del ecosistema mediático contemporáneo, que corresponde a los medios, a las tecnologías emergentes y a la sociedad, cada vez más participante de los procesos comunicacionales. De hecho, estas transformaciones han cambiado no sólo los procesos, sino, también, las componentes de los grupos profesionales que trabajan en la construcción de la noticia contemporánea, ahora convertida en multilenguaje y pensada para dispositivos antes no pensados, como los teléfonos móviles y las tabletas. Entre los cambios, se destaca el periodismo de datos que tiene en cuenta el fenómeno big data y los contenidos de información disponibles en la nube, informaciones muchas veces disfrazadas o desapercibidas entre contenidos no tan importantes. Para trabajar con estos contenidos y en escenarios emergentes binarios, se justifica la creciente participación de profesionales de las ciencias exactas y de las ingenierías en las salas de redacción de los medios, pues ahora es necesario pensar en la selección, limpieza y comprensión, además de construir el espacio de publicación bajo conceptos digitales para lo multiplataforma. Complementariamente, encontramos una sociedad cada vez más constructora de espacios y caminos para la circulación y retroalimentación de contenidos a través de los medios sociales, posicionándose estos como productores de contenido, es decir, en fuentes activas. Esta investigación de tesis doctoral se ha desarrollado con el objetivo de crear un medio social para el desarrollo del periodismo de datos que tiene como base conceptual la narrativa transmedia, los contenidos multiplataforma y el conectivismo, elementos clave para comprender las posibilidades y aprovechar el conocimiento colectivo disponible en la nube. Por tanto, se han compartido conocimientos y metodologías apropiadas para la investigación en los campos del periodismo y de la ingeniería, tornándose necesaria la inmersión en conceptos relacionados del periodismo, el periodismo de datos, lenguajes y la sociedad mediática para, al final, desarrollar un algoritmo bajo formato de diagrama de flujo, y sus respectivas interfaces, del medio social thirdnews, que sirviera como modelo de ejecución de programación del producto. Entre las metodologías adoptadas, se destacan la investigación bibliográfica y la investigación cuasi-experimental, que empieza a ser común en tesis sobre comunicación aplicada, además del concepto de modelaje de producto y el método Roadmap, utilizados con frecuencia en tesis de ingeniería de producción. Con las conclusiones de la tesis, se espera no sólo poner en práctica el desarrollo del medio social, sino, también, presentar reflexiones teóricas y prácticas sobre el periodismo de datos en las redacciones de los medios actuales.
Resumo:
La cantidad de datos biológicos y médicos que se produce hoy en día es enorme, y se podría decir que el campo de las ciencias de la vida forma parte ya del club del Big Data. Estos datos contienen información crucial que pueden ayudar a comprender mejor los mecanismos moleculares en los sistemas biológicos. Este conocimiento es fundamental para el progreso en el diagnóstico y en el tratamiento de las enfermedades. La Bioinformática, junto con la Biología Computacional, son disciplinas que se encargan de organizar, analizar e interpretar los datos procedentes de la Biología Molecular. De hecho, la complejidad y la heterogeneidad de los problemas biológicos requieren de un continuo diseño, implementación y aplicación de nuevos métodos y algoritmos. La minería de datos biológicos es una tarea complicada debido a la naturaleza heterogénea y compleja de dichos datos, siendo éstos muy dependientes de detalles específicos experimentales. Esta tesis se basa en el estudio de un problema biomédico complejo: la menor probabilidad de desarrollar algunos tipos de cáncer en pacientes con ciertos trastornos del sistema nervioso central (SNC) u otros trastornos neurológicos, y viceversa. Denominamos a esta condición como comorbilidad inversa. Desde el punto de vista médico, entender mejor las conexiones e interacciones entre cáncer y trastornos neurológicos podría mejorar la calidad de vida y el efecto de la asistencia médica de millones de personas en todo el mundo. Aunque la comorbilidad inversa ha sido estudiada a nivel médico, a través de estudios epidemiológicos, no se ha investigado en profundidad a nivel molecular...
Resumo:
En los últimos años hemos sido testigos de la expansión del paradigma big data a una velocidad vertiginosa. Los cambios en este campo, nos permiten ampliar las áreas a tratar; lo que a su vez implica una mayor complejidad de los sistemas software asociados a estas tareas, como sucede en sistemas de monitorización o en el Internet de las Cosas (Internet of Things). Asimismo, la necesidad de implementar programas cada vez robustos y eficientes, es decir, que permitan el cómputo de datos a mayor velocidad y de los se obtengan información relevante, ahorrando costes y tiempo, ha propiciado la necesidad cada vez mayor de herramientas que permitan evaluar estos programas. En este contexto, el presente proyecto se centra en extender la herramienta sscheck. Sscheck permite la generación de casos de prueba basados en propiedades de programas escritos en Spark y Spark Streaming. Estos lenguajes forman parte de un mismo marco de código abierto para la computación distribuida en clúster. Dado que las pruebas basadas en propiedades generan datos aleatorios, es difícil reproducir los problemas encontrados en una cierta sesion; por ello, la extensión se centrará en cargar y guardar casos de test en disco mediante el muestreo de datos desde colecciones mayores.
Resumo:
Los medios online representan actualmente una gran apuesta para la publicidad. Desde la planificación de medios publicitarios, los nuevos medios ofrecen otros caminos para llegar al público, pero añaden mayor complejidad. La capacidad comunicativa de los medios online y el mayor consumo de esos medios por parte de la población abre el debate de la necesidad de replantear el enfoque de la planificación de medios, digamos, tradicional, cuya estructura y procesos de trabajo se desarrollaron cuando los medios eran offline. Así, este artículo proporciona una panorámica general de la influencia de los nuevos medios en la planificación. Para ello, en primer lugar, describe el escenario actual, analizando la penetración y las inversiones publicitarias en Internet. Además, expone los principales soportes online según su proximidad a la concepción de la planificación de medios offline. En segundo lugar, aborda los retos actuales en la medición de los nuevos medios como síntoma del impulso del cambio de modelo. Finalmente, el artículo termina exponiendo algunas tendencias que se presentan como motores de cambio. Sin embargo, tras este análisis se advierte que tales aspectos no modificarían la esencia de la planificación de medios, por lo que cabe cuestionarse si se puede hablar de crisis, o si los nuevos medios están mostrando la necesidad de que la investigación y planificación se comprometa con este nuevo escenario.
imaxin|software: PLN aplicada a la mejora de la comunicación multilingüe de empresas e instituciones
Resumo:
imaxin|software es una empresa creada en 1997 por cuatro titulados en ingeniería informática cuyo objetivo ha sido el de desarrollar videojuegos multimedia educativos y procesamiento del lenguaje natural multilingüe. 17 años más tarde, hemos desarrollado recursos, herramientas y aplicaciones multilingües de referencia para diferentes lenguas: Portugués (Galicia, Portugal, Brasil, etc.), Español (España, Argentina, México, etc.), Inglés, Catalán y Francés. En este artículo haremos una descripción de aquellos principales hitos en relación a la incorporación de estas tecnologías PLN al sector industrial e institucional.
Resumo:
La investigación sobre el consumidor ha sido el eje central del trabajo del planificador estratégico desde el nacimiento de la profesión en 1968. En concreto, en el origen de la disciplina de la Planificación Estratégica está la relevancia de la investigación cualitativa como fuente fiable para conocer en profundidad al consumidor y poder desarrollar campañas de comunicación eficaces, relevantes y distintivas. Por ello, y por la repercusión que tiene el conocimiento profundo del consumidor hoy en día, se va a hacer un repaso bibliográfico por las funciones que tradicionalmente ha adquirido el planificador en relación a la investigación para después aplicarlo a la realidad española actual a partir de un estudio empírico a los planificadores estratégicos españoles. El artículo termina con una reflexión sobre el papel relevante que el planner tendrá en un futuro muy próximo en el panorama de Big Data.
Resumo:
Este libro nace con la pretensión de ser un manual online dirigido a profesionales que se estén iniciando en la planificación de esta publicidad y, sobre todo, a estudiantes. Se concibe un libro que se adapte a diferentes tipos de lectores y a las diferentes necesidades de conocimiento. Se hace uso de su naturaleza online para facilitarte la lectura. Se compone de 12 capítulos. 1. La publicidad online. 2. El plan de medios publicitario. 3. El target group de la campaña: definición, medición y tipología de selección de medios online según público. 4. Los soportes publicitarios online y la publicidad en los medios sociales. 5. Los dispositivos móviles como medio publicitario. 6. Los modelos de pricing o contratación de espacios. 7. La eficacia publicitaria. 8. Herramientas para la planificación de la publicidad online. 9. Agencias de medios y perfiles profesionales. 10. Retos y oportunidades. 11. Fuentes de información. 12. Microtemas.
Resumo:
Nowadays, online media represent a great choice for advertising. From de advertising media planning, new media give new ways to reach the consumers, but they also add more complexity. The communication capacity of online media and the greater use of that media by part of the users open up the debate about the necessity of rethinking the approach of the ‘traditional’ advertising media planning, which structure and work processes were developed when media were offline. So, this article gives a panoramic view about the influence of new media in advertising media planning. To do this, in first place, describes the current scenario, analyzing the penetration and advertising expenditure in Internet. Also, it shows the main online media according to their proximity to the offline advertising media planning conception. In second place, this article addresses the current challenges at measuring new media as a symptom of the impulse at the change of model. Finally, the article ends up showing some trends that are presented as drivers of change. However, after this analysis, comes up the point that those aspects would not change the essence of advertising media planning, so it is questionable if we can speak of a crisis or, instead, if new media are showing the necessity that media planning have to be involved with this new scenario.
Resumo:
De entre los principales retos que plantea la docencia universitaria actual, destaca el de avanzar hacia modelos docentes centrados en el estudiante, capaces de desarrollar y conducir su aprendizaje de forma autónoma (tutorizada) tanto en las actividades presenciales como en las no presenciales. En este sentido, la posibilidad de operar con grandes bases de datos georeferenciadas de libre acceso supone un magnífico potencial para la investigación y la docencia del Urbanismo. Por ello, intervenir como guías en el proceso de comprensión y empleo de los datos a gran escala, es uno de los principales desafíos actuales de los docentes de las asignaturas de Urbanismo. Este artículo tiene por objeto explicar la experiencia desarrollada en la Universidad de Alicante (UA), con el propósito de iniciar al alumnado en el consumo inteligente de la información, para llevar a cabo sus propios análisis y obtener sus propias interpretaciones. El trabajo muestra los métodos y herramientas empleadas para tal fin, que permiten acercarse a nuevas formas dinámicas de relación con el conocimiento, a nuevas prácticas educativas activas y, sobre todo, a la creación de una nueva conciencia social más consciente y acorde con el mundo que habitamos.
Resumo:
El Cuadro de Mando SmartUA es una aplicación software que permite localizar y visualizar con facilidad, en cualquier momento y desde cualquier lugar, toda la información recopilada desde diversas fuentes de datos y redes de sensores generadas por el proyecto Smart University de la Universidad de Alicante; representarla en forma de mapas y gráficas; realizar búsquedas y filtros sobre dicha información; y mostrar a la comunidad universitaria en particular y a la ciudadanía en general, de una forma objetiva e inteligible, los fenómenos que ocurren en el campus, interconectado sistemas y personas para un mejor aprovechamiento de los recursos, una gestión eficiente y una innovación continua.