747 resultados para Healthcare Big Data Analytics
Resumo:
This paper describes seagrass species and percentage cover point-based field data sets derived from georeferenced photo transects. Annually or biannually over a ten year period (2004-2015) data sets were collected using 30-50 transects, 500-800 m in length distributed across a 142 km**2 shallow, clear water seagrass habitat, the Eastern Banks, Moreton Bay, Australia. Each of the eight data sets include seagrass property information derived from approximately 3000 georeferenced, downward looking photographs captured at 2-4 m intervals along the transects. Photographs were manually interpreted to estimate seagrass species composition and percentage cover (Coral Point Count excel; CPCe). Understanding seagrass biology, ecology and dynamics for scientific and management purposes requires point-based data on species composition and cover. This data set, and the methods used to derive it are a globally unique example for seagrass ecological applications. It provides the basis for multiple further studies at this site, regional to global comparative studies, and, for the design of similar monitoring programs elsewhere.
Resumo:
The Web has witnessed an enormous growth in the amount of semantic information published in recent years. This growth has been stimulated to a large extent by the emergence of Linked Data. Although this brings us a big step closer to the vision of a Semantic Web, it also raises new issues such as the need for dealing with information expressed in different natural languages. Indeed, although the Web of Data can contain any kind of information in any language, it still lacks explicit mechanisms to automatically reconcile such information when it is expressed in different languages. This leads to situations in which data expressed in a certain language is not easily accessible to speakers of other languages. The Web of Data shows the potential for being extended to a truly multilingual web as vocabularies and data can be published in a language-independent fashion, while associated language-dependent (linguistic) information supporting the access across languages can be stored separately. In this sense, the multilingual Web of Data can be realized in our view as a layer of services and resources on top of the existing Linked Data infrastructure adding i) linguistic information for data and vocabularies in different languages, ii) mappings between data with labels in different languages, and iii) services to dynamically access and traverse Linked Data across different languages. In this article we present this vision of a multilingual Web of Data. We discuss challenges that need to be addressed to make this vision come true and discuss the role that techniques such as ontology localization, ontology mapping, and cross-lingual ontology-based information access and presentation will play in achieving this. Further, we propose an initial architecture and describe a roadmap that can provide a basis for the implementation of this vision.
Resumo:
Analysis of learning data (learning analytics) is a new research field with high growth potential. The main objective of Learning analytics is the analysis of data (interactions being the basic data unit) generated in virtual learning environments, in order to maximize the outcomes of the learning process; however, a consensus has not been reached yet on which interactions must be measured and what is their influence on learning outcomes. This research is grounded on the study of e-learning interaction typologies and their relationship with students? academic performance, by means of a comparative study between different interaction typologies (based on the agents involved, frequency of use and participation mode). The main conclusions are a) that classifications based on agents offer a better explanation of academic performance; and b) that each of the three typologies are able to explain academic performance in terms of some of their components (student-teacher and student-student interactions, evaluating students interactions and active interactions, respectively), with the other components being nonrelevant.
Resumo:
Learning analytics is the analysis of static and dynamic data extracted from virtual learning environments, in order to understand and optimize the learning process. Generally, this dynamic data is generated by the interactions which take place in the virtual learning environment. At the present time, many implementations for grouping of data have been proposed, but there is no consensus yet on which interactions and groups must be measured and analyzed. There is also no agreement on what is the influence of these interactions, if any, on learning outcomes, academic performance or student success. This study presents three different extant interaction typologies in e-learning and analyzes the relation of their components with students? academic performance. The three different classifications are based on the agents involved in the learning process, the frequency of use and the participation mode, respectively. The main findings from the research are: a) that agent-based classifications offer a better explanation of student academic performance; b) that at least one component in each typology predicts academic performance; and c) that student-teacher and student-student, evaluating students, and active interactions, respectively, have a significant impact on academic performance, while the other interaction types are not significantly related to academic performance.
Resumo:
INFOBIOMED is an European Network of Excellence (NoE) funded by the Information Society Directorate-General of the European Commission (EC). A consortium of European organizations from ten different countries is involved within the network. Four pilots, all related to linking clinical and genomic information, are being carried out. From an informatics perspective, various challenges, related to data integration and mining, are included.
Resumo:
Una investigación sobre la mejora de la contaminación del aire (CA) por medio de arbolado urbano se realizó en Madrid, una ciudad con casi 4 M de habitantes, 2,8 M de vehículos y casi 3 M de árboles de mantenimiento público. La mayoría de los árboles estaban en dos bosques periurbanos. Los 650.000 restantes era pies de alineación y parques. Los taxones estudiados fueron Platanus orientalis (97.205 árboles), Ulmus sp. (70.557), Pinus pinea (49.038), Aesculus hippocastanum (22.266), Cedrus sp. (13.678) y Quercus ilex (1.650), de calles y parques. Muestras foliares se analizaron en diferentes épocas del año, así como datos de contaminación por PM10 de 28 estaciones de medición de la contaminación durante 30 años, y también la intensidad del tráfico (IMD) en 2.660 calles. La acumulación de metales pesados (MP) sobre hojas y dentro de estas se estimó en relación con la CA y del suelo y la IMD del tráfico. La concentración media de Ba, Cd, Cr, Cu, Mn, Ni, Pb y Zn en suelo (materia seca) alcanzó: 489,5, 0,7, 49,4, 60,9, 460,9, 12,8, 155,9 y 190,3 mg kg-1 respectivamente. Los árboles urbanos, particularmente coníferas (debido a la mayor CA en invierno) contribuyen significativamente a mejorar la CA sobre todo en calles con alta IMD. La capacidad de las seis sp. para capturar partículas de polvo en su superficies foliares está relacionada con la IMD del tráfico y se estimó en 16,8 kg/año de MP tóxicos. Pb y Zn resultaron ser buenos marcadores antrópicos en la ciudad en relación con el tráfico, que fue la principal fuente de contaminación en los árboles y suelos de Madrid. Las especies de árboles variaron en función de su capacidad para capturar partículas (dependiendo de las propiedades de sus superficies foliares) y acumular los MP absorbidos de los suelos. Las concentraciones foliares de Pb y Zn estuvieron por encima de los límites establecidos en diferentes sitios de la ciudad. La microlocalización de Zn mediante microscópico mostró la translocación al xilema y floema. Se detectaron puntos de contaminación puntual de Cu and Cr en antiguos polígonos industriales y la distribución espacial de los MP en los suelos de Madrid mostró que en incluso en zonas interiores del El Retiro había ciertos niveles elevados de [Pb] en suelo, tal vez por el emplazamiento la Real Fábrica de Porcelana en la misma zona hace 200 años. Distintas áreas del centro de la ciudad también alcanzaron niveles altos de [Pb] en suelo. Según los resultados, el empleo de una combinación de Pinus pinea con un estrato intermedio de Ulmus sp. y Cedrus sp. puede ser la mejor recomendación como filtro verde eficiente. El efecto del ozono (O3) sobre el arbolado en Madrid fue también objeto de este estudio. A pesar de la reducción de precursores aplicada en muchos países industrializados, O3 sigue siendo la principal causa de CA en el hemisferio norte, con el aumento de [O3] de fondo. Las mayores [O3] se alcanzaron en regiones mediterráneas, donde el efecto sobre la vegetación natural es compensado por el xeromorfismo y la baja conductancia estomática en respuesta los episodios de sequía estival característicos de este clima. Durante una campaña de monitoreo, se identificaron daños abióticos en hojas de encina parecidos a los de O3 que estaban plantadas en una franja de césped con riego del centro de Madrid. Dada la poca evidencia disponible de los síntomas de O3 en frondosas perennifolias, se hizo un estudio que trató de 1) confirman el diagnóstico de daño de O3, 2) investigar el grado de los síntomas en encinas y 3) analizar los factores ambientales que contribuyeron a los daños por O3, en particular en lo relacionado con el riego. Se analizaron los marcadores macro y micromorfológicos de estrés por O3, utilizando las mencionadas encinas a modo de parcela experimental. Los síntomas consistieron en punteado intercostal del haz, que aumentó con la edad. Además de un punteado subyacente, donde las células superiores del mesófilo mostraron reacciones características de daños por O3. Las células próximas a las zonas dañadas, presentaron marcadores adicionales de estrés oxidativo. Estos marcadores morfológicos y micromorfológicos de estrés por O3 fueron similares a otras frondosas caducifolias con daños por O3. Sin embargo, en nuestro caso el punteado fue evidente con AOT40 de 21 ppm•h, asociada a riego. Análisis posteriores mostraron que los árboles con riego aumentaron su conductancia estomática, con aumento de senescencia, manteniéndose sin cambios sus características xeromórficas foliares. Estos hallazgos ponen de relieve el papel primordial de la disponibilidad de agua frente a las características xeromórficas a la hora de manifestarse los síntomas en las células por daños de O3 en encina. ABSTRACT Research about air pollution mitigation by urban trees was conducted in Madrid (Spain), a southern European city with almost 4 M inhabitants, 2.8 M daily vehicles and 3 M trees under public maintenance. Most trees were located in two urban forests, while 650'000 trees along urban streets and in parks. The urban taxa included Platanus orientalis (97'205 trees), Ulmus sp. (70’557), Pinus pinea (49'038), Aesculus hippocastanum (22’266), Cedrus sp. (13'678 and Quercus ilex (1'650) along streets and parks. Leave samples were analysed sequentially in different seasons, PM10 data from 28 air monitoring stations during 30 years and traffic density estimated from 2’660 streets. Heavy metal (HM) accumulation on the leaf surface and within leaves was estimated per tree related to air and soil pollution, and traffic intensity. Mean concentration of Ba, Cd, Cr, Cu, Mn, Ni, Pb and Zn in topsoil samples (dry mass) amounted in Madrid: 489.5, 0.7, 49.4, 60.9, 460.9, 12.8, 155.9 and 190.3 mg kg-1 respectively. Urban trees, particularly conifers (due to higher pollution in winter) contributed significantly to alleviate air pollution especially near to high ADT roads. The capacity of the six urban street trees species to capture air-born dust on the foliage surface as related to traffic intensity was estimated to 16.8 kg of noxious metals from exhausts per year. Pb and Zn pointed to be tracers of anthropic activity in the city with vehicle traffic as the main source of diffuse pollution on trees and soils. Tree species differed by their capacity to capture air-borne dust (by different leaf surface properties) and to allocate HM from soils. Pb and Zn concentrations in the foliage were above limits in different urban sites and microscopic Zn revelation showed translocation in xylem and phloem tissue. Punctual contamination in soils by Cu and Cr was identified in former industrial areas and spatial trace element mapping showed for central Retiro Park certain high values of [Pb] in soils even related to a Royal pottery 200 years ago. Different areas in the city centre also reached high levels [Pb] in soils. According to the results, a combination of Pinus pinea with understorey Ulmus sp. and Cedrus sp. layers can be recommended for the best air filter efficiency. The effects of ozone (O3) on trees in different areas of Madrid were also part of this study. Despite abatement programs of precursors implemented in many industrialized countries, ozone remained the main air pollutant throughout the northern hemisphere with background [O3] increasing. Some of the highest ozone concentrations were measured in regions with a Mediterranean climate but the effect on the natural vegetation is alleviated by low stomatal uptake and frequent leaf xeromorphy in response to summer drought episodes characteristic of this climate. During a bioindication survey, abiotic O3-like injury was identified in foliage. Trees were growing on an irrigated lawn strip in the centre of Madrid. Given the little structural evidence available for O3 symptoms in broadleaved evergreen species, a study was undertaken in 2007 with the following objectives 1) confirm the diagnosis, 2) investigate the extent of symptoms in holm oaks growing in Madrid and 3) analyse the environmental factors contributing to O3 injury, particularly, the site water supply. Therefore, macro- and micromorphological markers of O3 stress were analysed, using the aforementioned lawn strip as an intensive study site. Symptoms consisted of adaxial and intercostal stippling increasing with leaf age. Underlying stippling, cells in the upper mesophyll showed HR-like reactions typical of ozone stress. The surrounding cells showed further oxidative stress markers. These morphological and micromorphological markers of ozone stress were similar to those recorded in deciduous broadleaved species. However, stippling became obvious already at an AOT40 of 21 ppm•h and was primarily found at irrigated sites. Subsequent analyses showed that irrigated trees had their stomatal conductance increased and leaf life-span reduced whereas their leaf xeromorphy remained unchanged. These findings suggest a central role of water availability versus leaf xeromorphy for ozone symptom expression by cell injury in holm oak.
Resumo:
La minería de datos es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de datos. La minería de datos busca generar información similar a la que podría producir un experto humano. Además es el proceso de descubrir conocimientos interesantes, como patrones, asociaciones, cambios, anomalías y estructuras significativas a partir de grandes cantidades de datos almacenadas en bases de datos, data warehouses o cualquier otro medio de almacenamiento de información. El aprendizaje automático o aprendizaje de máquinas es una rama de la Inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. La minería de datos utiliza métodos de aprendizaje automático para descubrir y enumerar patrones presentes en los datos. En los últimos años se han aplicado las técnicas de clasificación y aprendizaje automático en un número elevado de ámbitos como el sanitario, comercial o de seguridad. Un ejemplo muy actual es la detección de comportamientos y transacciones fraudulentas en bancos. Una aplicación de interés es el uso de las técnicas desarrolladas para la detección de comportamientos fraudulentos en la identificación de usuarios existentes en el interior de entornos inteligentes sin necesidad de realizar un proceso de autenticación. Para comprobar que estas técnicas son efectivas durante la fase de análisis de una determinada solución, es necesario crear una plataforma que de soporte al desarrollo, validación y evaluación de algoritmos de aprendizaje y clasificación en los entornos de aplicación bajo estudio. El proyecto planteado está definido para la creación de una plataforma que permita evaluar algoritmos de aprendizaje automático como mecanismos de identificación en espacios inteligentes. Se estudiarán tanto los algoritmos propios de este tipo de técnicas como las plataformas actuales existentes para definir un conjunto de requisitos específicos de la plataforma a desarrollar. Tras el análisis se desarrollará parcialmente la plataforma. Tras el desarrollo se validará con pruebas de concepto y finalmente se verificará en un entorno de investigación a definir. ABSTRACT. The data mining is a field of the sciences of the computation referred to the process that it tries to discover patterns in big volumes of information. The data mining seeks to generate information similar to the one that a human expert might produce. In addition it is the process of discovering interesting knowledge, as patterns, associations, changes, abnormalities and significant structures from big quantities of information stored in databases, data warehouses or any other way of storage of information. The machine learning is a branch of the artificial Intelligence which aim is to develop technologies that they allow the computers to learn. More specifically, it is a question of creating programs capable of generalizing behaviors from not structured information supplied in the form of examples. The data mining uses methods of machine learning to discover and to enumerate present patterns in the information. In the last years there have been applied classification and machine learning techniques in a high number of areas such as healthcare, commercial or security. A very current example is the detection of behaviors and fraudulent transactions in banks. An application of interest is the use of the techniques developed for the detection of fraudulent behaviors in the identification of existing Users inside intelligent environments without need to realize a process of authentication. To verify these techniques are effective during the phase of analysis of a certain solution, it is necessary to create a platform that support the development, validation and evaluation of algorithms of learning and classification in the environments of application under study. The project proposed is defined for the creation of a platform that allows evaluating algorithms of machine learning as mechanisms of identification in intelligent spaces. There will be studied both the own algorithms of this type of technologies and the current existing platforms to define a set of specific requirements of the platform to develop. After the analysis the platform will develop partially. After the development it will be validated by prove of concept and finally verified in an environment of investigation that would be define.
Resumo:
The availability of electronic health data favors scientific advance through the creation of repositories for secondary use. Data anonymization is a mandatory step to comply with current legislation. A service for the pseudonymization of electronic healthcare record (EHR) extracts aimed at facilitating the exchange of clinical information for secondary use in compliance with legislation on data protection is presented. According to ISO/TS 25237, pseudonymization is a particular type of anonymization. This tool performs the anonymizations by maintaining three quasi-identifiers (gender, date of birth and place of residence) with a degree of specification selected by the user. The developed system is based on the ISO/EN 13606 norm using its characteristics specifically favorable for anonymization. The service is made up of two independent modules: the demographic server and the pseudonymizing module. The demographic server supports the permanent storage of the demographic entities and the management of the identifiers. The pseudonymizing module anonymizes the ISO/EN 13606 extracts. The pseudonymizing process consists of four phases: the storage of the demographic information included in the extract, the substitution of the identifiers, the elimination of the demographic information of the extract and the elimination of key data in free-text fields. The described pseudonymizing system was used in three Telemedicine research projects with satisfactory results. A problem was detected with the type of data in a demographic data field and a proposal for modification was prepared for the group in charge of the drawing up and revision of the ISO/EN 13606 norm.
Resumo:
La última década ha sido testigo de importantes avances en el campo de la tecnología de reconocimiento de voz. Los sistemas comerciales existentes actualmente poseen la capacidad de reconocer habla continua de múltiples locutores, consiguiendo valores aceptables de error, y sin la necesidad de realizar procedimientos explícitos de adaptación. A pesar del buen momento que vive esta tecnología, el reconocimiento de voz dista de ser un problema resuelto. La mayoría de estos sistemas de reconocimiento se ajustan a dominios particulares y su eficacia depende de manera significativa, entre otros muchos aspectos, de la similitud que exista entre el modelo de lenguaje utilizado y la tarea específica para la cual se está empleando. Esta dependencia cobra aún más importancia en aquellos escenarios en los cuales las propiedades estadísticas del lenguaje varían a lo largo del tiempo, como por ejemplo, en dominios de aplicación que involucren habla espontánea y múltiples temáticas. En los últimos años se ha evidenciado un constante esfuerzo por mejorar los sistemas de reconocimiento para tales dominios. Esto se ha hecho, entre otros muchos enfoques, a través de técnicas automáticas de adaptación. Estas técnicas son aplicadas a sistemas ya existentes, dado que exportar el sistema a una nueva tarea o dominio puede requerir tiempo a la vez que resultar costoso. Las técnicas de adaptación requieren fuentes adicionales de información, y en este sentido, el lenguaje hablado puede aportar algunas de ellas. El habla no sólo transmite un mensaje, también transmite información acerca del contexto en el cual se desarrolla la comunicación hablada (e.g. acerca del tema sobre el cual se está hablando). Por tanto, cuando nos comunicamos a través del habla, es posible identificar los elementos del lenguaje que caracterizan el contexto, y al mismo tiempo, rastrear los cambios que ocurren en estos elementos a lo largo del tiempo. Esta información podría ser capturada y aprovechada por medio de técnicas de recuperación de información (information retrieval) y de aprendizaje de máquina (machine learning). Esto podría permitirnos, dentro del desarrollo de mejores sistemas automáticos de reconocimiento de voz, mejorar la adaptación de modelos del lenguaje a las condiciones del contexto, y por tanto, robustecer al sistema de reconocimiento en dominios con condiciones variables (tales como variaciones potenciales en el vocabulario, el estilo y la temática). En este sentido, la principal contribución de esta Tesis es la propuesta y evaluación de un marco de contextualización motivado por el análisis temático y basado en la adaptación dinámica y no supervisada de modelos de lenguaje para el robustecimiento de un sistema automático de reconocimiento de voz. Esta adaptación toma como base distintos enfoque de los sistemas mencionados (de recuperación de información y aprendizaje de máquina) mediante los cuales buscamos identificar las temáticas sobre las cuales se está hablando en una grabación de audio. Dicha identificación, por lo tanto, permite realizar una adaptación del modelo de lenguaje de acuerdo a las condiciones del contexto. El marco de contextualización propuesto se puede dividir en dos sistemas principales: un sistema de identificación de temática y un sistema de adaptación dinámica de modelos de lenguaje. Esta Tesis puede describirse en detalle desde la perspectiva de las contribuciones particulares realizadas en cada uno de los campos que componen el marco propuesto: _ En lo referente al sistema de identificación de temática, nos hemos enfocado en aportar mejoras a las técnicas de pre-procesamiento de documentos, asimismo en contribuir a la definición de criterios más robustos para la selección de index-terms. – La eficiencia de los sistemas basados tanto en técnicas de recuperación de información como en técnicas de aprendizaje de máquina, y específicamente de aquellos sistemas que particularizan en la tarea de identificación de temática, depende, en gran medida, de los mecanismos de preprocesamiento que se aplican a los documentos. Entre las múltiples operaciones que hacen parte de un esquema de preprocesamiento, la selección adecuada de los términos de indexado (index-terms) es crucial para establecer relaciones semánticas y conceptuales entre los términos y los documentos. Este proceso también puede verse afectado, o bien por una mala elección de stopwords, o bien por la falta de precisión en la definición de reglas de lematización. En este sentido, en este trabajo comparamos y evaluamos diferentes criterios para el preprocesamiento de los documentos, así como también distintas estrategias para la selección de los index-terms. Esto nos permite no sólo reducir el tamaño de la estructura de indexación, sino también mejorar el proceso de identificación de temática. – Uno de los aspectos más importantes en cuanto al rendimiento de los sistemas de identificación de temática es la asignación de diferentes pesos a los términos de acuerdo a su contribución al contenido del documento. En este trabajo evaluamos y proponemos enfoques alternativos a los esquemas tradicionales de ponderado de términos (tales como tf-idf ) que nos permitan mejorar la especificidad de los términos, así como también discriminar mejor las temáticas de los documentos. _ Respecto a la adaptación dinámica de modelos de lenguaje, hemos dividimos el proceso de contextualización en varios pasos. – Para la generación de modelos de lenguaje basados en temática, proponemos dos tipos de enfoques: un enfoque supervisado y un enfoque no supervisado. En el primero de ellos nos basamos en las etiquetas de temática que originalmente acompañan a los documentos del corpus que empleamos. A partir de estas, agrupamos los documentos que forman parte de la misma temática y generamos modelos de lenguaje a partir de dichos grupos. Sin embargo, uno de los objetivos que se persigue en esta Tesis es evaluar si el uso de estas etiquetas para la generación de modelos es óptimo en términos del rendimiento del reconocedor. Por esta razón, nosotros proponemos un segundo enfoque, un enfoque no supervisado, en el cual el objetivo es agrupar, automáticamente, los documentos en clusters temáticos, basándonos en la similaridad semántica existente entre los documentos. Por medio de enfoques de agrupamiento conseguimos mejorar la cohesión conceptual y semántica en cada uno de los clusters, lo que a su vez nos permitió refinar los modelos de lenguaje basados en temática y mejorar el rendimiento del sistema de reconocimiento. – Desarrollamos diversas estrategias para generar un modelo de lenguaje dependiente del contexto. Nuestro objetivo es que este modelo refleje el contexto semántico del habla, i.e. las temáticas más relevantes que se están discutiendo. Este modelo es generado por medio de la interpolación lineal entre aquellos modelos de lenguaje basados en temática que estén relacionados con las temáticas más relevantes. La estimación de los pesos de interpolación está basada principalmente en el resultado del proceso de identificación de temática. – Finalmente, proponemos una metodología para la adaptación dinámica de un modelo de lenguaje general. El proceso de adaptación tiene en cuenta no sólo al modelo dependiente del contexto sino también a la información entregada por el proceso de identificación de temática. El esquema usado para la adaptación es una interpolación lineal entre el modelo general y el modelo dependiente de contexto. Estudiamos también diferentes enfoques para determinar los pesos de interpolación entre ambos modelos. Una vez definida la base teórica de nuestro marco de contextualización, proponemos su aplicación dentro de un sistema automático de reconocimiento de voz. Para esto, nos enfocamos en dos aspectos: la contextualización de los modelos de lenguaje empleados por el sistema y la incorporación de información semántica en el proceso de adaptación basado en temática. En esta Tesis proponemos un marco experimental basado en una arquitectura de reconocimiento en ‘dos etapas’. En la primera etapa, empleamos sistemas basados en técnicas de recuperación de información y aprendizaje de máquina para identificar las temáticas sobre las cuales se habla en una transcripción de un segmento de audio. Esta transcripción es generada por el sistema de reconocimiento empleando un modelo de lenguaje general. De acuerdo con la relevancia de las temáticas que han sido identificadas, se lleva a cabo la adaptación dinámica del modelo de lenguaje. En la segunda etapa de la arquitectura de reconocimiento, usamos este modelo adaptado para realizar de nuevo el reconocimiento del segmento de audio. Para determinar los beneficios del marco de trabajo propuesto, llevamos a cabo la evaluación de cada uno de los sistemas principales previamente mencionados. Esta evaluación es realizada sobre discursos en el dominio de la política usando la base de datos EPPS (European Parliamentary Plenary Sessions - Sesiones Plenarias del Parlamento Europeo) del proyecto europeo TC-STAR. Analizamos distintas métricas acerca del rendimiento de los sistemas y evaluamos las mejoras propuestas con respecto a los sistemas de referencia. ABSTRACT The last decade has witnessed major advances in speech recognition technology. Today’s commercial systems are able to recognize continuous speech from numerous speakers, with acceptable levels of error and without the need for an explicit adaptation procedure. Despite this progress, speech recognition is far from being a solved problem. Most of these systems are adjusted to a particular domain and their efficacy depends significantly, among many other aspects, on the similarity between the language model used and the task that is being addressed. This dependence is even more important in scenarios where the statistical properties of the language fluctuates throughout the time, for example, in application domains involving spontaneous and multitopic speech. Over the last years there has been an increasing effort in enhancing the speech recognition systems for such domains. This has been done, among other approaches, by means of techniques of automatic adaptation. These techniques are applied to the existing systems, specially since exporting the system to a new task or domain may be both time-consuming and expensive. Adaptation techniques require additional sources of information, and the spoken language could provide some of them. It must be considered that speech not only conveys a message, it also provides information on the context in which the spoken communication takes place (e.g. on the subject on which it is being talked about). Therefore, when we communicate through speech, it could be feasible to identify the elements of the language that characterize the context, and at the same time, to track the changes that occur in those elements over time. This information can be extracted and exploited through techniques of information retrieval and machine learning. This allows us, within the development of more robust speech recognition systems, to enhance the adaptation of language models to the conditions of the context, thus strengthening the recognition system for domains under changing conditions (such as potential variations in vocabulary, style and topic). In this sense, the main contribution of this Thesis is the proposal and evaluation of a framework of topic-motivated contextualization based on the dynamic and non-supervised adaptation of language models for the enhancement of an automatic speech recognition system. This adaptation is based on an combined approach (from the perspective of both information retrieval and machine learning fields) whereby we identify the topics that are being discussed in an audio recording. The topic identification, therefore, enables the system to perform an adaptation of the language model according to the contextual conditions. The proposed framework can be divided in two major systems: a topic identification system and a dynamic language model adaptation system. This Thesis can be outlined from the perspective of the particular contributions made in each of the fields that composes the proposed framework: _ Regarding the topic identification system, we have focused on the enhancement of the document preprocessing techniques in addition to contributing in the definition of more robust criteria for the selection of index-terms. – Within both information retrieval and machine learning based approaches, the efficiency of topic identification systems, depends, to a large extent, on the mechanisms of preprocessing applied to the documents. Among the many operations that encloses the preprocessing procedures, an adequate selection of index-terms is critical to establish conceptual and semantic relationships between terms and documents. This process might also be weakened by a poor choice of stopwords or lack of precision in defining stemming rules. In this regard we compare and evaluate different criteria for preprocessing the documents, as well as for improving the selection of the index-terms. This allows us to not only reduce the size of the indexing structure but also to strengthen the topic identification process. – One of the most crucial aspects, in relation to the performance of topic identification systems, is to assign different weights to different terms depending on their contribution to the content of the document. In this sense we evaluate and propose alternative approaches to traditional weighting schemes (such as tf-idf ) that allow us to improve the specificity of terms, and to better identify the topics that are related to documents. _ Regarding the dynamic language model adaptation, we divide the contextualization process into different steps. – We propose supervised and unsupervised approaches for the generation of topic-based language models. The first of them is intended to generate topic-based language models by grouping the documents, in the training set, according to the original topic labels of the corpus. Nevertheless, a goal of this Thesis is to evaluate whether or not the use of these labels to generate language models is optimal in terms of recognition accuracy. For this reason, we propose a second approach, an unsupervised one, in which the objective is to group the data in the training set into automatic topic clusters based on the semantic similarity between the documents. By means of clustering approaches we expect to obtain a more cohesive association of the documents that are related by similar concepts, thus improving the coverage of the topic-based language models and enhancing the performance of the recognition system. – We develop various strategies in order to create a context-dependent language model. Our aim is that this model reflects the semantic context of the current utterance, i.e. the most relevant topics that are being discussed. This model is generated by means of a linear interpolation between the topic-based language models related to the most relevant topics. The estimation of the interpolation weights is based mainly on the outcome of the topic identification process. – Finally, we propose a methodology for the dynamic adaptation of a background language model. The adaptation process takes into account the context-dependent model as well as the information provided by the topic identification process. The scheme used for the adaptation is a linear interpolation between the background model and the context-dependent one. We also study different approaches to determine the interpolation weights used in this adaptation scheme. Once we defined the basis of our topic-motivated contextualization framework, we propose its application into an automatic speech recognition system. We focus on two aspects: the contextualization of the language models used by the system, and the incorporation of semantic-related information into a topic-based adaptation process. To achieve this, we propose an experimental framework based in ‘a two stages’ recognition architecture. In the first stage of the architecture, Information Retrieval and Machine Learning techniques are used to identify the topics in a transcription of an audio segment. This transcription is generated by the recognition system using a background language model. According to the confidence on the topics that have been identified, the dynamic language model adaptation is carried out. In the second stage of the recognition architecture, an adapted language model is used to re-decode the utterance. To test the benefits of the proposed framework, we carry out the evaluation of each of the major systems aforementioned. The evaluation is conducted on speeches of political domain using the EPPS (European Parliamentary Plenary Sessions) database from the European TC-STAR project. We analyse several performance metrics that allow us to compare the improvements of the proposed systems against the baseline ones.
Resumo:
Los ataques a redes de información son cada vez más sofisticados y exigen una constante evolución y mejora de las técnicas de detección. Para ello, en este proyecto se ha diseñado e implementado una plataforma cooperativa para la detección de intrusiones basada en red. En primer lugar, se ha realizado un estudio teórico previo del marco tecnológico relacionado con este ámbito, en el que se describe y caracteriza el software que se utiliza para realizar ataques a sistemas (malware) así como los métodos que se utilizan para llegar a transmitir ese software (vectores de ataque). En el documento también se describen los llamados APT, que son ataques dirigidos con una gran inversión económica y temporal. Estos pueden englobar todos los malware y vectores de ataque existentes. Para poder evitar estos ataques, se estudiarán los sistemas de detección y prevención de intrusiones, describiendo brevemente los algoritmos que se tienden a utilizar en la actualidad. En segundo lugar, se ha planteado y desarrollado una plataforma en red dedicada al análisis de paquetes y conexiones para detectar posibles intrusiones. Este sistema está orientado a sistemas SCADA (Supervisory Control And Data Adquisition) aunque funciona sobre cualquier red IPv4/IPv6, para ello se definirá previamente lo que es un sistema SCADA, así como sus partes principales. Para implementar el sistema se han utilizado dispositivos de bajo consumo llamados Raspberry PI, estos se ubican entre la red y el equipo final que se quiera analizar. En ellos se ejecutan 2 aplicaciones desarrolladas de tipo cliente-servidor (la Raspberry central ejecutará la aplicación servidora y las esclavas la aplicación cliente) que funcionan de forma cooperativa utilizando la tecnología distribuida de Hadoop, la cual se explica previamente. Mediante esta tecnología se consigue desarrollar un sistema completamente escalable. La aplicación servidora muestra una interfaz gráfica que permite administrar la plataforma de análisis de forma centralizada, pudiendo ver así las alarmas de cada dispositivo y calificando cada paquete según su peligrosidad. El algoritmo desarrollado en la aplicación calcula el ratio de paquetes/tiempo que entran/salen del equipo final, procesando los paquetes y analizándolos teniendo en cuenta la información de señalización, creando diferentes bases de datos que irán mejorando la robustez del sistema, reduciendo así la posibilidad de ataques externos. Para concluir, el proyecto inicial incluía el procesamiento en la nube de la aplicación principal, pudiendo administrar así varias infraestructuras concurrentemente, aunque debido al trabajo extra necesario se ha dejado preparado el sistema para poder implementar esta funcionalidad. En el caso experimental actual el procesamiento de la aplicación servidora se realiza en la Raspberry principal, creando un sistema escalable, rápido y tolerante a fallos. ABSTRACT. The attacks to networks of information are increasingly sophisticated and demand a constant evolution and improvement of the technologies of detection. For this project it is developed and implemented a cooperative platform for detect intrusions based on networking. First, there has been a previous theoretical study of technological framework related to this area, which describes the software used for attacks on systems (malware) as well as the methods used in order to transmit this software (attack vectors). In this document it is described the APT, which are attacks directed with a big economic and time inversion. These can contain all existing malware and attack vectors. To prevent these attacks, intrusion detection systems and prevention intrusion systems will be discussed, describing previously the algorithms tend to use today. Secondly, a platform for analyzing network packets has been proposed and developed to detect possible intrusions in SCADA (Supervisory Control And Data Adquisition) systems. This platform is designed for SCADA systems (Supervisory Control And Data Acquisition) but works on any IPv4 / IPv6 network. Previously, it is defined what a SCADA system is and the main parts of it. To implement it, we used low-power devices called Raspberry PI, these are located between the network and the final device to analyze it. In these Raspberry run two applications client-server developed (the central Raspberry runs the server application and the slaves the client application) that work cooperatively using Hadoop distributed technology, which is previously explained. Using this technology is achieved develop a fully scalable system. The server application displays a graphical interface to manage analytics platform centrally, thereby we can see each device alarms and qualifying each packet by dangerousness. The algorithm developed in the application calculates the ratio of packets/time entering/leaving the terminal device, processing the packets and analyzing the signaling information of each packet, reating different databases that will improve the system, thereby reducing the possibility of external attacks. In conclusion, the initial project included cloud computing of the main application, being able to manage multiple concurrent infrastructure, but due to the extra work required has been made ready the system to implement this funcionality. In the current test case the server application processing is made on the main Raspberry, creating a scalable, fast and fault-tolerant system.
Resumo:
In the past decades, online learning has transformed the educational landscape with the emergence of new ways to learn. This fact, together with recent changes in educational policy in Europe aiming to facilitate the incorporation of graduate students to the labor market, has provoked a shift on the delivery of instruction and on the role played by teachers and students, stressing the need for development of both basic and cross-curricular competencies. In parallel, the last years have witnessed the emergence of new educational disciplines that can take advantage of the information retrieved by technology-based online education in order to improve instruction, such as learning analytics. This study explores the applicability of learning analytics for prediction of development of two cross-curricular competencies – teamwork and commitment – based on the analysis of Moodle interaction data logs in a Master’s Degree program at Universidad a Distancia de Madrid (UDIMA) where the students were education professionals. The results from the study question the suitability of a general interaction-based approach and show no relation between online activity indicators and teamwork and commitment acquisition. The discussion of results includes multiple recommendations for further research on this topic.
Resumo:
As condições inadequadas vivenciadas nas organizações afligem não só os trabalhadores da iniciativa privada, pois são igualmente encontradas no segmento estatal, contrariando a expectativa de que o aparato governamental eliminaria as condições insalubres e criaria outras melhores nas quais prevalecesse à promoção de saúde. Diante desse panorama questionou-se porque, uma vez que, pelo menos do ponto de vista da sociedade leiga, esses servidores estão submetidos a condições privilegiadas de trabalho. O presente estudo objetivou identificar e descrever possíveis relações entre o clima organizacional e o burnout em servidores públicos de uma instituição federal de ensino. Objetivou-se ainda descrever o clima organizacional predominante. A pesquisa realizada teve cunho quantitativo, tipo estudo de caso e exploratória. A coleta de dados deu-se por meio das escalas ECO (escala de clima organizacional), ECB (escala de caracterização do burnout) e um questionário sociodemográfico, todos os instrumentos autoaplicáveis eletronicamente disponíveis à instituição. Participaram do estudo 201 servidores públicos federais, com idade média de 37 anos, majoritariamente de nível superior e casados. Os resultados revelaram que cerca de um quarto dos participantes raramente experimentaram burnout, no entanto outra quarta parte deles frequentemente experimentaram altos níveis de burnout, resultado bastante expressivo. Os servidores perceberam clima organizacional mediano, destacando-se a boa coesão entre os colegas de trabalho e a percepção de baixa recompensa. Merece destaque a grande dispersão entre as percepções de clima, o que permite inferir haver subclimas não identificados nesta investigação, possivelmente ocasionados por uma força de clima fraca e pela participação dos servidores de unidades de ensino geograficamente distintas, geridas por gestores locais com relativa autonomia. Os resultados dos cálculos de correlação revelaram que, quanto menos os participantes percebem apoio da chefia e da organização, coesão entre colegas, e mais controle/pressão, mais exaustos se sentem, mais desumanizam as pessoas com quem tratam e mais se decepcionam no trabalho e vice-versa. Conforto físico menor está associado a maior desumanização e a mais decepção no trabalho e vice-versa; e que controle/pressão, relaciona-se positiva e fracamente com desumanização e vice-versa. Desta forma, a hipótese de que existe associação entre burnout e clima organizacional foi confirmada. Os resultados também revelaram que os servidores com burnout, perceberam pior clima organizacional que os seus pares sem burnout, confirmando a segunda hipótese. Esses servidores também se mostraram neutros quanto à percepção de apoio da chefia e conforto físico; não percebem controle pressão, nem recompensa; todavia percebem coesão entre os colegas. Esses resultados sugerem que os participantes têm se apoiado nessas relações para suportar a indiferença e ausência de estímulos experimentados no trabalho. Os resultados obtidos nesse estudo permitiram concluir que o clima organizacional é fraco, provavelmente influenciado por uma cultura organizacional fraca, explicando a heterogeneidade da percepção do clima organizacional pelos servidores. Além disso, embora haja burnout entre poucos participantes, há que se atentar que cerca de um quarto deles, encontra-se acometido desta síndrome e isto poderá contagiar os demais.