820 resultados para Data-Mining Techniques
Resumo:
Résumé de la thèse L'évolution des systèmes policiers donne une place prépondérante à l'information et au renseignement. Cette transformation implique de développer et de maintenir un ensemble de processus permanent d'analyse de la criminalité, en particulier pour traiter des événements répétitifs ou graves. Dans une organisation aux ressources limitées, le temps consacré au recueil des données, à leur codification et intégration, diminue le temps disponible pour l'analyse et la diffusion de renseignements. Les phases de collecte et d'intégration restent néanmoins indispensables, l'analyse n'étant pas possible sur des données volumineuses n'ayant aucune structure. Jusqu'à présent, ces problématiques d'analyse ont été abordées par des approches essentiellement spécialisées (calculs de hot-sports, data mining, ...) ou dirigées par un seul axe (par exemple, les sciences comportementales). Cette recherche s'inscrit sous un angle différent, une démarche interdisciplinaire a été adoptée. L'augmentation continuelle de la quantité de données à analyser tend à diminuer la capacité d'analyse des informations à disposition. Un bon découpage (classification) des problèmes rencontrés permet de délimiter les analyses sur des données pertinentes. Ces classes sont essentielles pour structurer la mémoire du système d'analyse. Les statistiques policières de la criminalité devraient déjà avoir répondu à ces questions de découpage de la délinquance (classification juridique). Cette décomposition a été comparée aux besoins d'un système de suivi permanent dans la criminalité. La recherche confirme que nos efforts pour comprendre la nature et la répartition du crime se butent à un obstacle, à savoir que la définition juridique des formes de criminalité n'est pas adaptée à son analyse, à son étude. Depuis près de vingt ans, les corps de police de Suisse romande utilisent et développent un système de classification basé sur l'expérience policière (découpage par phénomène). Cette recherche propose d'interpréter ce système dans le cadre des approches situationnelles (approche théorique) et de le confronter aux données « statistiques » disponibles pour vérifier sa capacité à distinguer les formes de criminalité. La recherche se limite aux cambriolages d'habitations, un délit répétitif fréquent. La théorie des opportunités soutien qu'il faut réunir dans le temps et dans l'espace au minimum les trois facteurs suivants : un délinquant potentiel, une cible intéressante et l'absence de gardien capable de prévenir ou d'empêcher le passage à l'acte. Ainsi, le délit n'est possible que dans certaines circonstances, c'est-à-dire dans un contexte bien précis. Identifier ces contextes permet catégoriser la criminalité. Chaque cas est unique, mais un groupe de cas montre des similitudes. Par exemple, certaines conditions avec certains environnements attirent certains types de cambrioleurs. Deux hypothèses ont été testées. La première est que les cambriolages d'habitations ne se répartissent pas uniformément dans les classes formées par des « paramètres situationnels » ; la deuxième que des niches apparaissent en recoupant les différents paramètres et qu'elles correspondent à la classification mise en place par la coordination judiciaire vaudoise et le CICOP. La base de données vaudoise des cambriolages enregistrés entre 1997 et 2006 par la police a été utilisée (25'369 cas). Des situations spécifiques ont été mises en évidence, elles correspondent aux classes définies empiriquement. Dans une deuxième phase, le lien entre une situation spécifique et d'activité d'un auteur au sein d'une même situation a été vérifié. Les observations réalisées dans cette recherche indiquent que les auteurs de cambriolages sont actifs dans des niches. Plusieurs auteurs sériels ont commis des délits qui ne sont pas dans leur niche, mais le nombre de ces infractions est faible par rapport au nombre de cas commis dans la niche. Un système de classification qui correspond à des réalités criminelles permet de décomposer les événements et de mettre en place un système d'alerte et de suivi « intelligent ». Une nouvelle série dans un phénomène sera détectée par une augmentation du nombre de cas de ce phénomène, en particulier dans une région et à une période donnée. Cette nouvelle série, mélangée parmi l'ensemble des délits, ne serait pas forcément détectable, en particulier si elle se déplace. Finalement, la coopération entre les structures de renseignement criminel opérationnel en Suisse romande a été améliorée par le développement d'une plateforme d'information commune et le système de classification y a été entièrement intégré.
Resumo:
Somatic copy number aberrations (CNA) represent a mutation type encountered in the majority of cancer genomes. Here, we present the 2014 edition of arrayMap (http://www.arraymap.org), a publicly accessible collection of pre-processed oncogenomic array data sets and CNA profiles, representing a vast range of human malignancies. Since the initial release, we have enhanced this resource both in content and especially with regard to data mining support. The 2014 release of arrayMap contains more than 64,000 genomic array data sets, representing about 250 tumor diagnoses. Data sets included in arrayMap have been assembled from public repositories as well as additional resources, and integrated by applying custom processing pipelines. Online tools have been upgraded for a more flexible array data visualization, including options for processing user provided, non-public data sets. Data integration has been improved by mapping to multiple editions of the human reference genome, with the majority of the data now being available for the UCSC hg18 as well as GRCh37 versions. The large amount of tumor CNA data in arrayMap can be freely downloaded by users to promote data mining projects, and to explore special events such as chromothripsis-like genome patterns.
Resumo:
Tractography is a class of algorithms aiming at in vivo mapping the major neuronal pathways in the white matter from diffusion magnetic resonance imaging (MRI) data. These techniques offer a powerful tool to noninvasively investigate at the macroscopic scale the architecture of the neuronal connections of the brain. However, unfortunately, the reconstructions recovered with existing tractography algorithms are not really quantitative even though diffusion MRI is a quantitative modality by nature. As a matter of fact, several techniques have been proposed in recent years to estimate, at the voxel level, intrinsic microstructural features of the tissue, such as axonal density and diameter, by using multicompartment models. In this paper, we present a novel framework to reestablish the link between tractography and tissue microstructure. Starting from an input set of candidate fiber-tracts, which are estimated from the data using standard fiber-tracking techniques, we model the diffusion MRI signal in each voxel of the image as a linear combination of the restricted and hindered contributions generated in every location of the brain by these candidate tracts. Then, we seek for the global weight of each of them, i.e., the effective contribution or volume, such that they globally fit the measured signal at best. We demonstrate that these weights can be easily recovered by solving a global convex optimization problem and using efficient algorithms. The effectiveness of our approach has been evaluated both on a realistic phantom with known ground-truth and in vivo brain data. Results clearly demonstrate the benefits of the proposed formulation, opening new perspectives for a more quantitative and biologically plausible assessment of the structural connectivity of the brain.
Resumo:
Treball de final de carrera de l'àrea de mineria de dades que té com a objectiu la implantació d'un projecte de
Resumo:
Aquest treball vol implementar un projecte de mineria de dades en l'àrea de la petrologia ígnia, especialitat englobada dins la geologia clàssica.
Resumo:
La progressiva reducció de dimensió i cost en els dispositius electrònics, la dràstica retallada de consum elèctric i la independència de què això els dota han fet créixer en els últims temps l'interès de les comunitats científiques i tecnològiques per les xarxes sense fils de petits dispositius. Per altra banda, l'XML (eXtensible Markup Language) és un metallenguatge extensible que ha esdevingut un estàndard per a l'intercanvi d'informació estructurada entre diferents plataformes. L'objectiu d'aquest treball és explorar les possibilitats que pot oferir la introducció de l'XML en les xarxes de sensors amb l'elaboració d'un protocol de comunicació basat en aquest llenguatge i demostrar la transparència en el canvi de plataforma. Per fer-ho, es disposa de dos dispositius amb capacitat de comunicació sense fils equipats amb detectors de temperatura, lluminositat, efecte Hall i nivell de càrrega de la bateria. El projecte constarà de dues parts: una, més extensa, dedicada al desenvolupament del programari per a aquests dispositius, encarregat de obtenir les lectures dels diferents sensors i emetre-les per la xarxa utilitzant el llenguatge XML, i una altra, per recollir aquesta informació present a la xarxa, interpretar-la, salvar-la en una base de dades i exposar-la al món en una plana web. El programari dels dispositius sensors s'escriurà en llenguatge nesC dins el sistema tinyOS que és el sistema operatiu que equipen. La part d'explotació de les dades es desenvoluparà sota la plataforma .NET de Microsoft.
Resumo:
Aquest TFC consisteix en la creació d'un magatzem de dades que automatitzi la recollida de dades de l'estat dels embassaments de la Confederació Hidrogràfica Nord-Est mitjançant processos ETL, per posteriorment tractar aquestes dades amb processos PL/SQL amb l'objectiu de poder explotar aquestes dades mitjançant eines de Business Intelligence.
Resumo:
Construcción y explotación de un almacén de datos de planificación hidrológica para la Confederación Hidrográfica del Norte y Este.
Resumo:
Memòria del treball de fi de carrera on s'ha construït i explotat un magatzem de dades, partint d'unes dades en un sistema OLTP a un sistema multidimensional OLAP, tot això sobre amb les eines Oracle Express Edition 10v i Oracle Discoverer.
Resumo:
Consumer reviews, opinions and shared experiences in the use of a product is a powerful source of information about consumer preferences that can be used in recommender systems. Despite the importance and value of such information, there is no comprehensive mechanism that formalizes the opinions selection and retrieval process and the utilization of retrieved opinions due to the difficulty of extracting information from text data. In this paper, a new recommender system that is built on consumer product reviews is proposed. A prioritizing mechanism is developed for the system. The proposed approach is illustrated using the case study of a recommender system for digital cameras
Resumo:
Extracción de conocimiento de los log generados por un servidor web aplicando técnicas de minería de datos.
Resumo:
La recent revolució en les tècniques de generació de dades genòmiques ha portat a una situació de creixement exponencial de la quantitat de dades generades i fa més necessari que mai el treball en la optimització de la gestió i maneig d'aquesta informació. En aquest treball s'han atacat tres vessants del problema: la disseminació de la informació, la integració de dades de diverses fonts i finalment la seva visualització. Basant-nos en el Sistema d'Anotacions Distribuides, DAS, hem creat un aplicatiu per a la creació automatitzada de noves fonts de dades en format estandaritzat i accessible programàticament a partir de fitxers de dades simples. Aquest progrtamari, easyDAS, està en funcionament a l'Institut Europeu de Bioinformàtica. Aquest sistema facilita i encoratja la compartició i disseminació de dades genòmiques en formats usables. jsDAS és una llibreria client de DAS que permet incorporar dades DAS en qualsevol aplicatiu web de manera senzilla i ràpida. Aprofitant els avantatges que ofereix DAS és capaç d'integrar dades de múltiples fonts de manera coherent i robusta. GenExp és el prototip de navegador genòmic basat en web altament interactiu i que facilita l'exploració dels genomes en temps real. És capaç d'integrar dades de quansevol font DAS i crear-ne una representació en client usant els últims avenços en tecnologies web.
Resumo:
Construcción y explotación de un almacén de datos de planificación hidrológica.
Resumo:
Monitor a distribution network implies working with a huge amount of data coining from the different elements that interact in the network. This paper presents a visualization tool that simplifies the task of searching the database for useful information applicable to fault management or preventive maintenance of the network
Resumo:
Model predictiu basat en xarxes bayesianes que permet identificar els pacients amb major risc d'ingrés a un hospital segons una sèrie d'atributs de dades demogràfiques i clíniques.