773 resultados para Data Mining, Rough Sets, Multi-Dimension, Association Rules, Constraint
Resumo:
Peer reviewed
Resumo:
Peer reviewed
Resumo:
Peer reviewed
Resumo:
Estudiosos de todo el mundo se están centrando en el estudio del fenómeno de las ciudades inteligentes. La producción bibliográfica española sobre este tema ha crecido exponencialmente en los últimos años. Las nuevas ciudades inteligentes se fundamentan en nuevas visiones de desarrollo urbano que integran múltiples soluciones tecnológicas ligadas al mundo de la información y de la comunicación, todas ellas actuales y al servicio de las necesidades de la ciudad. La literatura en español sobre este tema proviene de campos tan diferentes como la Arquitectura, la Ingeniería, las Ciencias Políticas y el Derecho o las Ciencias Empresariales. La finalidad de las ciudades inteligentes es la mejora de la vida de sus ciudadanos a través de la implementación de tecnologías de la información y de la comunicación que resuelvan las necesidades de sus habitantes, por lo que los investigadores del campo de las Ciencias de la Comunicación y de la Información tienen mucho que decir. Este trabajo analiza un total de 120 textos y concluye que el fenómeno de las ciudades inteligentes será uno de los ejes centrales de la investigación multidisciplinar en los próximos años en nuestro país.
Resumo:
In this talk, I will describe various computational modelling and data mining solutions that form the basis of how the office of Deputy Head of Department (Resources) works to serve you. These include lessons I learn about, and from, optimisation issues in resource allocation, uncertainty analysis on league tables, modelling the process of winning external grants, and lessons we learn from student satisfaction surveys, some of which I have attempted to inject into our planning processes.
Resumo:
Le glaucome est un groupe hétérogène de maladies qui sont caractérisées par l’apoptose des cellules ganglionnaires de la rétine et la dégénérescence progressive du nerf optique. Il s’agit de la première cause de cécité irréversible, qui touche environ 60 millions de personnes dans le monde. Sa forme la plus commune est le glaucome à angle ouvert (GAO), un trouble polygénique causé principalement par une prédisposition génétique, en interaction avec d’autres facteurs de risque tels que l’âge et la pression intraoculaire élevée (PIO). Le GAO est une maladie génétique complexe, bien que certaines formes sévères sont autosomiques dominantes. Dix-sept loci ont été liés à la maladie et acceptés par la « Human Genome Organisation » (HUGO) et cinq gènes ont été identifiés à ces loci (MYOC, OPTN, WDR36, NTF4, ASB10). Récemment, des études d’association sur l’ensemble du génome ont identifié plus de 20 facteurs de risque fréquents, avec des effets relativement faibles. Depuis plus de 50 ans, notre équipe étudie 749 membres de la grande famille canadienne-française CA où la mutation MYOCK423E cause une forme autosomale dominante de GAO dont l’âge de début est fortement variable. Premièrement, il a été montré que cette variabilité de l’âge de début de l’hypertension intraoculaire possède une importante composante génétique causée par au moins un gène modificateur. Ce modificateur interagit avec la mutation primaire et altère la sévérité du glaucome chez les porteurs de MYOCK423E. Un gène modificateur candidat WDR36 a été génotypé dans 2 grandes familles CA et BV. Les porteurs de variations non-synonymes de WDR36 ainsi que de MYOCK423E de la famille CA ont montré une tendance à développer la maladie plus jeune. Un outil de forage de données a été développé pour représenter des informations connues relatives à la maladie et faciliter la priorisation des gènes candidats. Cet outil a été appliqué avec succès à la dépression bipolaire et au glaucome. La suite du projet consiste à finaliser un balayage de génome sur la famille CA et à séquencer les loci afin d’identifier les variations modificatrices du glaucome. Éventuellement, ces variations permettront d’identifier les individus dont le glaucome risque d’être plus agressif.
Resumo:
Discovery Driven Analysis (DDA) is a common feature of OLAP technology to analyze structured data. In essence, DDA helps analysts to discover anomalous data by highlighting 'unexpected' values in the OLAP cube. By giving indications to the analyst on what dimensions to explore, DDA speeds up the process of discovering anomalies and their causes. However, Discovery Driven Analysis (and OLAP in general) is only applicable on structured data, such as records in databases. We propose a system to extend DDA technology to semi-structured text documents, that is, text documents with a few structured data. Our system pipeline consists of two stages: first, the text part of each document is structured around user specified dimensions, using semi-PLSA algorithm; then, we adapt DDA to these fully structured documents, thus enabling DDA on text documents. We present some applications of this system in OLAP analysis and show how scalability issues are solved. Results show that our system can handle reasonable datasets of documents, in real time, without any need for pre-computation.
Resumo:
C3S2E '16 Proceedings of the Ninth International C* Conference on Computer Science & Software Engineering
Resumo:
Worldwide air traffic tends to increase and for many airports it is no longer an op-tion to expand terminals and runways, so airports are trying to maximize their op-erational efficiency. Many airports already operate near their maximal capacity. Peak hours imply operational bottlenecks and cause chained delays across flights impacting passengers, airlines and airports. Therefore there is a need for the opti-mization of the ground movements at the airports. The ground movement prob-lem consists of routing the departing planes from the gate to the runway for take-off, and the arriving planes from the runway to the gate, and to schedule their movements. The main goal is to minimize the time spent by the planes during their ground movements while respecting all the rules established by the Ad-vanced Surface Movement, Guidance and Control Systems of the International Civil Aviation. Each aircraft event (arrival or departing authorization) generates a new environment and therefore a new instance of the Ground Movement Prob-lem. The optimization approach proposed is based on an Iterated Local Search and provides a fast heuristic solution for each real-time event generated instance granting all safety regulations. Preliminary computational results are reported for real data comparing the heuristic solutions with the solutions obtained using a mixed-integer programming approach.
Resumo:
La intención del proyecto es mostrar las diferentes características que ofrece Oracle en el campo de la minería de datos, con la finalidad de saber si puede ser una plataforma apta para la investigación y la educación en la universidad. En la primera parte del proyecto se estudia la aplicación “Oracle Data Miner” y como, mediante un flujo de trabajo visual e intuitivo, pueden aplicarse las distintas técnicas de minería (clasificación, regresión, clustering y asociación). Para mostrar la ejecución de estas técnicas se han usado dataset procedentes de la universidad de Irvine. Con ello se ha conseguido observar el comportamiento de los distintos algoritmos en situaciones reales. Para cada técnica se expone como evaluar su fiabilidad y como interpretar los resultados que se obtienen a partir de su aplicación. También se muestra la aplicación de las técnicas mediante el uso del lenguaje PL/SQL. Gracias a ello podemos integrar la minería de datos en nuestras aplicaciones de manera sencilla. En la segunda parte del proyecto, se ha elaborado un prototipo de una aplicación que utiliza la minería de datos, en concreto la clasificación para obtener el diagnóstico y la probabilidad de que un tumor de mama sea maligno o benigno, a partir de los resultados de una citología.
Resumo:
Sequences of timestamped events are currently being generated across nearly every domain of data analytics, from e-commerce web logging to electronic health records used by doctors and medical researchers. Every day, this data type is reviewed by humans who apply statistical tests, hoping to learn everything they can about how these processes work, why they break, and how they can be improved upon. To further uncover how these processes work the way they do, researchers often compare two groups, or cohorts, of event sequences to find the differences and similarities between outcomes and processes. With temporal event sequence data, this task is complex because of the variety of ways single events and sequences of events can differ between the two cohorts of records: the structure of the event sequences (e.g., event order, co-occurring events, or frequencies of events), the attributes about the events and records (e.g., gender of a patient), or metrics about the timestamps themselves (e.g., duration of an event). Running statistical tests to cover all these cases and determining which results are significant becomes cumbersome. Current visual analytics tools for comparing groups of event sequences emphasize a purely statistical or purely visual approach for comparison. Visual analytics tools leverage humans' ability to easily see patterns and anomalies that they were not expecting, but is limited by uncertainty in findings. Statistical tools emphasize finding significant differences in the data, but often requires researchers have a concrete question and doesn't facilitate more general exploration of the data. Combining visual analytics tools with statistical methods leverages the benefits of both approaches for quicker and easier insight discovery. Integrating statistics into a visualization tool presents many challenges on the frontend (e.g., displaying the results of many different metrics concisely) and in the backend (e.g., scalability challenges with running various metrics on multi-dimensional data at once). I begin by exploring the problem of comparing cohorts of event sequences and understanding the questions that analysts commonly ask in this task. From there, I demonstrate that combining automated statistics with an interactive user interface amplifies the benefits of both types of tools, thereby enabling analysts to conduct quicker and easier data exploration, hypothesis generation, and insight discovery. The direct contributions of this dissertation are: (1) a taxonomy of metrics for comparing cohorts of temporal event sequences, (2) a statistical framework for exploratory data analysis with a method I refer to as high-volume hypothesis testing (HVHT), (3) a family of visualizations and guidelines for interaction techniques that are useful for understanding and parsing the results, and (4) a user study, five long-term case studies, and five short-term case studies which demonstrate the utility and impact of these methods in various domains: four in the medical domain, one in web log analysis, two in education, and one each in social networks, sports analytics, and security. My dissertation contributes an understanding of how cohorts of temporal event sequences are commonly compared and the difficulties associated with applying and parsing the results of these metrics. It also contributes a set of visualizations, algorithms, and design guidelines for balancing automated statistics with user-driven analysis to guide users to significant, distinguishing features between cohorts. This work opens avenues for future research in comparing two or more groups of temporal event sequences, opening traditional machine learning and data mining techniques to user interaction, and extending the principles found in this dissertation to data types beyond temporal event sequences.
MINING AND VERIFICATION OF TEMPORAL EVENTS WITH APPLICATIONS IN COMPUTER MICRO-ARCHITECTURE RESEARCH
Resumo:
Computer simulation programs are essential tools for scientists and engineers to understand a particular system of interest. As expected, the complexity of the software increases with the depth of the model used. In addition to the exigent demands of software engineering, verification of simulation programs is especially challenging because the models represented are complex and ridden with unknowns that will be discovered by developers in an iterative process. To manage such complexity, advanced verification techniques for continually matching the intended model to the implemented model are necessary. Therefore, the main goal of this research work is to design a useful verification and validation framework that is able to identify model representation errors and is applicable to generic simulators. The framework that was developed and implemented consists of two parts. The first part is First-Order Logic Constraint Specification Language (FOLCSL) that enables users to specify the invariants of a model under consideration. From the first-order logic specification, the FOLCSL translator automatically synthesizes a verification program that reads the event trace generated by a simulator and signals whether all invariants are respected. The second part consists of mining the temporal flow of events using a newly developed representation called State Flow Temporal Analysis Graph (SFTAG). While the first part seeks an assurance of implementation correctness by checking that the model invariants hold, the second part derives an extended model of the implementation and hence enables a deeper understanding of what was implemented. The main application studied in this work is the validation of the timing behavior of micro-architecture simulators. The study includes SFTAGs generated for a wide set of benchmark programs and their analysis using several artificial intelligence algorithms. This work improves the computer architecture research and verification processes as shown by the case studies and experiments that have been conducted.
Resumo:
Thanks to the advanced technologies and social networks that allow the data to be widely shared among the Internet, there is an explosion of pervasive multimedia data, generating high demands of multimedia services and applications in various areas for people to easily access and manage multimedia data. Towards such demands, multimedia big data analysis has become an emerging hot topic in both industry and academia, which ranges from basic infrastructure, management, search, and mining to security, privacy, and applications. Within the scope of this dissertation, a multimedia big data analysis framework is proposed for semantic information management and retrieval with a focus on rare event detection in videos. The proposed framework is able to explore hidden semantic feature groups in multimedia data and incorporate temporal semantics, especially for video event detection. First, a hierarchical semantic data representation is presented to alleviate the semantic gap issue, and the Hidden Coherent Feature Group (HCFG) analysis method is proposed to capture the correlation between features and separate the original feature set into semantic groups, seamlessly integrating multimedia data in multiple modalities. Next, an Importance Factor based Temporal Multiple Correspondence Analysis (i.e., IF-TMCA) approach is presented for effective event detection. Specifically, the HCFG algorithm is integrated with the Hierarchical Information Gain Analysis (HIGA) method to generate the Importance Factor (IF) for producing the initial detection results. Then, the TMCA algorithm is proposed to efficiently incorporate temporal semantics for re-ranking and improving the final performance. At last, a sampling-based ensemble learning mechanism is applied to further accommodate the imbalanced datasets. In addition to the multimedia semantic representation and class imbalance problems, lack of organization is another critical issue for multimedia big data analysis. In this framework, an affinity propagation-based summarization method is also proposed to transform the unorganized data into a better structure with clean and well-organized information. The whole framework has been thoroughly evaluated across multiple domains, such as soccer goal event detection and disaster information management.
Resumo:
Introducción: El dolor lumbar y los desórdenes músculo esqueléticos comprometen la salud y la calidad de vida de los trabajadores, pueden poner en riesgo el futuro laboral de las personas. bjetivo: Estimar la prevalencia de dolor lumbar y los posibles factores biomecánicos asociados en el personal operativo y administrativo en una empresa manufacturera de jabón en Bogotá, en el año 2016 Metodología: Estudio de corte transversal donde se evaluó el riesgo biomecánico y la prevalencia del dolor lumbar en personal administrativo (138) y operativo (165); se utilizó como instrumento el ERGOPAR validado en España. Se revisó la asociación utilizando la prueba Chi Cuadrado de Pearson, con un nivel de significación α 0.05 Resultados: 303 trabajadores de una empresa manufacturera de jabón en Bogotá, donde predominó el género masculino (51,82%) y la población adulta media entre 30-39 años (57,42%). La prevalencia del dolor lumbar en la población fue de 61,39% (186). La edad no se asoció estadísticamente al dolor lumbar. Se encontró asociación estadística entre el síntoma dolor lumbar y extensión de cuello (p=0,05 OR1.95 IC 1.33-2.88), así como con agarrar o sujetar objetos (p= 0,036. OR 2.3 IC 1.59-3.51) y con las exigencias físicas laborales (p= 0.001 OR 1.99 IC 1.31-3.02). Conclusiones: La población estudiada presentó una alta prevalencia de dolor lumbar, con predominio en personal que realiza labores operativas, y del género femenino. La adopción de posturas de extensión del cuello y la sujeción o agarre de objetos son factores asociados directamente con la aparición de lumbalgia.
Resumo:
Las enfermedades huérfanas en Colombia, se definen como aquellas crónicamente debilitantes, que amenazan la vida, de baja prevalencia (menor 1/5000) y alta complejidad. Se estima que a nivel mundial existen entre 6000 a 8000 enfermedades raras diferentes(1). Varios países a nivel mundial individual o colectivamente, en los últimos años han creado políticas e incentivos para la investigación y protección de los pacientes con enfermedades raras. Sin embargo, a pesar del creciente número de publicaciones; la información sobre su etiología, fisiología, historia natural y datos epidemiológicos persiste escasa o ausente. Los registros de pacientes, son una valiosa herramienta para la caracterización de las enfermedades, su manejo y desenlaces con o sin tratamiento. Permiten mejorar políticas de salud pública y cuidado del paciente, contribuyendo a mejorar desenlaces sociales, económicos y de calidad de vida. En Colombia, bajo el decreto 1954 de 2012 y las resoluciones 3681 de 2013 y 0430 de 2013 se creó el fundamento legal para la creación de un registro nacional de enfermedades huérfanas. El presente estudio busca determinar la caracterización socio-demográfica y la prevalencia de las enfermedades huérfanas en Colombia en el periodo 2013. Métodos: Se realizó un estudio observacional de corte transversal de fuente secundaria sobre pacientes con enfermedades huérfanas en el territorio nacional; basándose en el registro nacional de enfermedades huérfanas obtenido por el Ministerio de Salud y Protección Social en el periodo 2013 bajo la normativa del decreto 1954 de 2012 y las resoluciones 3681 de 2013 y 0430 de 2013. Las bases de datos obtenidas fueron re-categorizadas en Excel versión 15.17 para la extracción de datos y su análisis estadístico posterior, fue realizado en el paquete estadístico para las ciencias sociales (SPSS v.20, Chicago, IL). Resultados: Se encontraron un total de 13173 pacientes con enfermedades huérfanas para el 2013. De estos, el 53.96% (7132) eran de género femenino y el 46.03% (6083) masculino; la mediana de la edad fue de 28 años con un rango inter-cuartil de 39 años, el 9% de los pacientes presentaron discapacidad. El registro contenía un total de 653 enfermedades huérfanas; el 34% del total de las enfermedades listadas en nuestro país (2). Las patologías más frecuentes fueron el Déficit Congénito del Factor VIII, Miastenia Grave, Enfermedad de Von Willebrand, Estatura Baja por Anomalía de Hormona de Crecimiento y Displasia Broncopulmonar. Discusión: Se estimó que aproximadamente 3.3 millones de colombianos debían tener una enfermedad huérfana para el 2013. El registro nacional logró recolectar datos de 13173 (0.4%). Este bajo número de pacientes, marca un importante sub-registro que se debe al uso de los códigos CIE-10, desconocimiento del personal de salud frente a las enfermedades huérfanas y clasificación errónea de los pacientes. Se encontraron un total de 653 enfermedades, un 34% de las enfermedades reportadas en el listado nacional de enfermedades huérfanas (2) y un 7% del total de enfermedades reportadas en ORPHANET para el periodo 2013 (3). Conclusiones: La recolección de datos y la sensibilización sobre las enfermedades huérfanas al personal de salud, es una estrategia de vital importancia para el diagnóstico temprano, medidas específicas de control e intervenciones de los pacientes. El identificar apropiadamente a los pacientes con este tipo de patologías, permite su ingreso en el registro y por ende mejora el sub-registro de datos. Sin embargo, cabe aclarar que el panorama ideal sería, el uso de un sistema de recolección diferente al CIE-10 y que abarque en mayor medida la totalidad de las enfermedades huérfanas.