955 resultados para Cluster Ensemble Learning


Relevância:

30.00% 30.00%

Publicador:

Resumo:

Botnets are a group of computers infected with a specific sub-set of a malware family and controlled by one individual, called botmaster. This kind of networks are used not only, but also for virtual extorsion, spam campaigns and identity theft. They implement different types of evasion techniques that make it harder for one to group and detect botnet traffic. This thesis introduces one methodology, called CONDENSER, that outputs clusters through a self-organizing map and that identify domain names generated by an unknown pseudo-random seed that is known by the botnet herder(s). Aditionally DNS Crawler is proposed, this system saves historic DNS data for fast-flux and double fastflux detection, and is used to identify live C&Cs IPs used by real botnets. A program, called CHEWER, was developed to automate the calculation of the SVM parameters and features that better perform against the available domain names associated with DGAs. CONDENSER and DNS Crawler were developed with scalability in mind so the detection of fast-flux and double fast-flux networks become faster. We used a SVM for the DGA classififer, selecting a total of 11 attributes and achieving a Precision of 77,9% and a F-Measure of 83,2%. The feature selection method identified the 3 most significant attributes of the total set of attributes. For clustering, a Self-Organizing Map was used on a total of 81 attributes. The conclusions of this thesis were accepted in Botconf through a submited article. Botconf is known conferênce for research, mitigation and discovery of botnets tailled for the industry, where is presented current work and research. This conference is known for having security and anti-virus companies, law enforcement agencies and researchers.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Forming suitable learning groups is one of the factors that determine the efficiency of collaborative learning activities. However, only a few studies were carried out to address this problem in the mobile learning environments. In this paper, we propose a new approach for an automatic, customized, and dynamic group formation in Mobile Computer Supported Collaborative Learning (MCSCL) contexts. The proposed solution is based on the combination of three types of grouping criteria: learner’s personal characteristics, learner’s behaviours, and context information. The instructors can freely select the type, the number, and the weight of grouping criteria, together with other settings such as the number, the size, and the type of learning groups (homogeneous or heterogeneous). Apart from a grouping mechanism, the proposed approach represents a flexible tool to control each learner, and to manage the learning processes from the beginning to the end of collaborative learning activities. In order to evaluate the quality of the implemented group formation algorithm, we compare its Average Intra-cluster Distance (AID) with the one of a random group formation method. The results show a higher effectiveness of the proposed algorithm in forming homogenous and heterogeneous groups compared to the random method.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

In fear conditioning, an animal learns to associate an unconditioned stimulus (US), such as a shock, and a conditioned stimulus (CS), such as a tone, so that the presentation of the CS alone can trigger conditioned responses. Recent research on the lateral amygdala has shown that following cued fear conditioning, only a subset of higher-excitable neurons are recruited in the memory trace. Their selective deletion after fear conditioning results in a selective erasure of the fearful memory. I hypothesize that the recruitment of highly excitable neurons depends on responsiveness to stimuli, intrinsic excitability and local connectivity. In addition, I hypothesize that neurons recruited for an initial memory also participate in subsequent memories, and that changes in neuronal excitability affect secondary fear learning. To address these hypotheses, I will show that A) a rat can learn to associate two successive short-term fearful memories; B) neuronal populations in the LA are competitively recruited in the memory traces depending on individual neuronal advantages, as well as advantages granted by the local network. By performing two successive cued fear conditioning experiments, I found that rats were able to learn and extinguish the two successive short-term memories, when tested 1 hour after learning for each memory. These rats were equipped with a system of stable extracellular recordings that I developed, which allowed to monitor neuronal activity during fear learning. 233 individual putative pyramidal neurons could modulate their firing rate in response to the conditioned tone (conditioned neurons) and/or non- conditioned tones (generalizing neurons). Out of these recorded putative pyramidal neurons 86 (37%) neurons were conditioned to one or both tones. More precisely, one population of neurons encoded for a shared memory while another group of neurons likely encoded the memories' new features. Notably, in spite of a successful behavioral extinction, the firing rate of those conditioned neurons in response to the conditioned tone remained unchanged throughout memory testing. Furthermore, by analyzing the pre-conditioning characteristics of the conditioned neurons, I determined that it was possible to predict neuronal recruitment based on three factors: 1) initial sensitivity to auditory inputs, with tone-sensitive neurons being more easily recruited than tone- insensitive neurons; 2) baseline excitability levels, with more highly excitable neurons being more likely to become conditioned; and 3) the number of afferent connections received from local neurons, with neurons destined to become conditioned receiving more connections than non-conditioned neurons. - En conditionnement de la peur, un animal apprend à associer un stimulus inconditionnel (SI), tel un choc électrique, et un stimulus conditionné (SC), comme un son, de sorte que la présentation du SC seul suffit pour déclencher des réflexes conditionnés. Des recherches récentes sur l'amygdale latérale (AL) ont montré que, suite au conditionnement à la peur, seul un sous-ensemble de neurones plus excitables sont recrutés pour constituer la trace mnésique. Pour apprendre à associer deux sons au même SI, je fais l'hypothèse que les neurones entrent en compétition afin d'être sélectionnés lors du recrutement pour coder la trace mnésique. Ce recrutement dépendrait d'un part à une activation facilité des neurones ainsi qu'une activation facilité de réseaux de neurones locaux. En outre, je fais l'hypothèse que l'activation de ces réseaux de l'AL, en soi, est suffisante pour induire une mémoire effrayante. Pour répondre à ces hypothèses, je vais montrer que A) selon un processus de mémoire à court terme, un rat peut apprendre à associer deux mémoires effrayantes apprises successivement; B) des populations neuronales dans l'AL sont compétitivement recrutées dans les traces mnésiques en fonction des avantages neuronaux individuels, ainsi que les avantages consentis par le réseau local. En effectuant deux expériences successives de conditionnement à la peur, des rats étaient capables d'apprendre, ainsi que de subir un processus d'extinction, pour les deux souvenirs effrayants. La mesure de l'efficacité du conditionnement à la peur a été effectuée 1 heure après l'apprentissage pour chaque souvenir. Ces rats ont été équipés d'un système d'enregistrements extracellulaires stables que j'ai développé, ce qui a permis de suivre l'activité neuronale pendant l'apprentissage de la peur. 233 neurones pyramidaux individuels pouvaient moduler leur taux d'activité en réponse au son conditionné (neurones conditionnés) et/ou au son non conditionné (neurones généralisant). Sur les 233 neurones pyramidaux putatifs enregistrés 86 (37%) d'entre eux ont été conditionnés à un ou deux tons. Plus précisément, une population de neurones code conjointement pour un souvenir partagé, alors qu'un groupe de neurones différent code pour de nouvelles caractéristiques de nouveaux souvenirs. En particulier, en dépit d'une extinction du comportement réussie, le taux de décharge de ces neurones conditionné en réponse à la tonalité conditionnée est resté inchangée tout au long de la mesure d'apprentissage. En outre, en analysant les caractéristiques de pré-conditionnement des neurones conditionnés, j'ai déterminé qu'il était possible de prévoir le recrutement neuronal basé sur trois facteurs : 1) la sensibilité initiale aux entrées auditives, avec les neurones sensibles aux sons étant plus facilement recrutés que les neurones ne répondant pas aux stimuli auditifs; 2) les niveaux d'excitabilité des neurones, avec les neurones plus facilement excitables étant plus susceptibles d'être conditionnés au son ; et 3) le nombre de connexions reçues, puisque les neurones conditionné reçoivent plus de connexions que les neurones non-conditionnés. Enfin, nous avons constaté qu'il était possible de remplacer de façon satisfaisante le SI lors d'un conditionnement à la peur par des injections bilatérales de bicuculline, un antagoniste des récepteurs de l'acide y-Aminobutirique.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

An active learning method is proposed for the semi-automatic selection of training sets in remote sensing image classification. The method adds iteratively to the current training set the unlabeled pixels for which the prediction of an ensemble of classifiers based on bagged training sets show maximum entropy. This way, the algorithm selects the pixels that are the most uncertain and that will improve the model if added in the training set. The user is asked to label such pixels at each iteration. Experiments using support vector machines (SVM) on an 8 classes QuickBird image show the excellent performances of the methods, that equals accuracies of both a model trained with ten times more pixels and a model whose training set has been built using a state-of-the-art SVM specific active learning method

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Background: Event-related potentials (ERPs) may be used as a highly sensitive way of detecting subtle degrees of cognitive dysfunction. On the other hand, impairment of cognitive skills is increasingly recognised as a hallmark of patients suffering from multiple sclerosis (MS). We sought to determine the psychophysiological pattern of information processing among MS patients with the relapsing-remitting form of the disease and low physical disability considered as two subtypes: 'typical relapsing-remitting' (RRMS) and 'benign MS' (BMS). Furthermore, we subjected our data to a cluster analysis to determine whether MS patients and healthy controls could be differentiated in terms of their psychophysiological profile.Methods: We investigated MS patients with RRMS and BMS subtypes using event-related potentials (ERPs) acquired in the context of a Posner visual-spatial cueing paradigm. Specifically, our study aimed to assess ERP brain activity in response preparation (contingent negative variation -CNV) and stimuli processing in MS patients. Latency and amplitude of different ERP components (P1, eN1, N1, P2, N2, P3 and late negativity -LN) as well as behavioural responses (reaction time -RT; correct responses -CRs; and number of errors) were analyzed and then subjected to cluster analysis. Results: Both MS groups showed delayed behavioural responses and enhanced latency for long-latency ERP components (P2, N2, P3) as well as relatively preserved ERP amplitude, but BMS patients obtained more important performance deficits (lower CRs and higher RTs) and abnormalities related to the latency (N1, P3) and amplitude of ERPs (eCNV, eN1, LN). However, RRMS patients also demonstrated abnormally high amplitudes related to the preparation performance period of CNV (cCNV) and post-processing phase (LN). Cluster analyses revealed that RRMS patients appear to make up a relatively homogeneous group with moderate deficits mainly related to ERP latencies, whereas BMS patients appear to make up a rather more heterogeneous group with more severe information processing and attentional deficits. Conclusions: Our findings are suggestive of a slowing of information processing for MS patients that may be a consequence of demyelination and axonal degeneration, which also seems to occur in MS patients that show little or no progression in the physical severity of the disease over time.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

This paper investigates the use of ensemble of predictors in order to improve the performance of spatial prediction methods. Support vector regression (SVR), a popular method from the field of statistical machine learning, is used. Several instances of SVR are combined using different data sampling schemes (bagging and boosting). Bagging shows good performance, and proves to be more computationally efficient than training a single SVR model while reducing error. Boosting, however, does not improve results on this specific problem.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Recognition of environmental sounds is believed to proceed through discrimination steps from broad to more narrow categories. Very little is known about the neural processes that underlie fine-grained discrimination within narrow categories or about their plasticity in relation to newly acquired expertise. We investigated how the cortical representation of birdsongs is modulated by brief training to recognize individual species. During a 60-minute session, participants learned to recognize a set of birdsongs; they improved significantly their performance for trained (T) but not control species (C), which were counterbalanced across participants. Auditory evoked potentials (AEPs) were recorded during pre- and post-training sessions. Pre vs. post changes in AEPs were significantly different between T and C i) at 206-232ms post stimulus onset within a cluster on the anterior part of the left superior temporal gyrus; ii) at 246-291ms in the left middle frontal gyrus; and iii) 512-545ms in the left middle temporal gyrus as well as bilaterally in the cingulate cortex. All effects were driven by weaker activity for T than C species. Thus, expertise in discriminating T species modulated early stages of semantic processing, during and immediately after the time window that sustains the discrimination between human vs. animal vocalizations. Moreover, the training-induced plasticity is reflected by the sharpening of a left lateralized semantic network, including the anterior part of the temporal convexity and the frontal cortex. Training to identify birdsongs influenced, however, also the processing of C species, but at a much later stage. Correct discrimination of untrained sounds seems to require an additional step which results from lower-level features analysis such as apperception. We therefore suggest that the access to objects within an auditory semantic category is different and depends on subject's level of expertise. More specifically, correct intra-categorical auditory discrimination for untrained items follows the temporal hierarchy and transpires in a late stage of semantic processing. On the other hand, correct categorization of individually trained stimuli occurs earlier, during a period contemporaneous with human vs. animal vocalization discrimination, and involves a parallel semantic pathway requiring expertise.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

PURPOSE: According to estimations around 230 people die as a result of radon exposure in Switzerland. This public health concern makes reliable indoor radon prediction and mapping methods necessary in order to improve risk communication to the public. The aim of this study was to develop an automated method to classify lithological units according to their radon characteristics and to develop mapping and predictive tools in order to improve local radon prediction. METHOD: About 240 000 indoor radon concentration (IRC) measurements in about 150 000 buildings were available for our analysis. The automated classification of lithological units was based on k-medoids clustering via pair-wise Kolmogorov distances between IRC distributions of lithological units. For IRC mapping and prediction we used random forests and Bayesian additive regression trees (BART). RESULTS: The automated classification groups lithological units well in terms of their IRC characteristics. Especially the IRC differences in metamorphic rocks like gneiss are well revealed by this method. The maps produced by random forests soundly represent the regional difference of IRCs in Switzerland and improve the spatial detail compared to existing approaches. We could explain 33% of the variations in IRC data with random forests. Additionally, the influence of a variable evaluated by random forests shows that building characteristics are less important predictors for IRCs than spatial/geological influences. BART could explain 29% of IRC variability and produced maps that indicate the prediction uncertainty. CONCLUSION: Ensemble regression trees are a powerful tool to model and understand the multidimensional influences on IRCs. Automatic clustering of lithological units complements this method by facilitating the interpretation of radon properties of rock types. This study provides an important element for radon risk communication. Future approaches should consider taking into account further variables like soil gas radon measurements as well as more detailed geological information.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

OBJECTIVE: To evaluate the effectiveness of a complex intervention implementing best practice guidelines recommending clinicians screen and counsel young people across multiple psychosocial risk factors, on clinicians' detection of health risks and patients' risk taking behaviour, compared to a didactic seminar on young people's health. DESIGN: Pragmatic cluster randomised trial where volunteer general practices were stratified by postcode advantage or disadvantage score and billing type (private, free national health, community health centre), then randomised into either intervention or comparison arms using a computer generated random sequence. Three months post-intervention, patients were recruited from all practices post-consultation for a Computer Assisted Telephone Interview and followed up three and 12 months later. Researchers recruiting, consenting and interviewing patients and patients themselves were masked to allocation status; clinicians were not. SETTING: General practices in metropolitan and rural Victoria, Australia. PARTICIPANTS: General practices with at least one interested clinician (general practitioner or nurse) and their 14-24 year old patients. INTERVENTION: This complex intervention was designed using evidence based practice in learning and change in clinician behaviour and general practice systems, and included best practice approaches to motivating change in adolescent risk taking behaviours. The intervention involved training clinicians (nine hours) in health risk screening, use of a screening tool and motivational interviewing; training all practice staff (receptionists and clinicians) in engaging youth; provision of feedback to clinicians of patients' risk data; and two practice visits to support new screening and referral resources. Comparison clinicians received one didactic educational seminar (three hours) on engaging youth and health risk screening. OUTCOME MEASURES: Primary outcomes were patient report of (1) clinician detection of at least one of six health risk behaviours (tobacco, alcohol and illicit drug use, risks for sexually transmitted infection, STI, unplanned pregnancy, and road risks); and (2) change in one or more of the six health risk behaviours, at three months or at 12 months. Secondary outcomes were likelihood of future visits, trust in the clinician after exit interview, clinician detection of emotional distress and fear and abuse in relationships, and emotional distress at three and 12 months. Patient acceptability of the screening tool was also described for the intervention arm. Analyses were adjusted for practice location and billing type, patients' sex, age, and recruitment method, and past health risks, where appropriate. An intention to treat analysis approach was used, which included multilevel multiple imputation for missing outcome data. RESULTS: 42 practices were randomly allocated to intervention or comparison arms. Two intervention practices withdrew post allocation, prior to training, leaving 19 intervention (53 clinicians, 377 patients) and 21 comparison (79 clinicians, 524 patients) practices. 69% of patients in both intervention (260) and comparison (360) arms completed the 12 month follow-up. Intervention clinicians discussed more health risks per patient (59.7%) than comparison clinicians (52.7%) and thus were more likely to detect a higher proportion of young people with at least one of the six health risk behaviours (38.4% vs 26.7%, risk difference [RD] 11.6%, Confidence Interval [CI] 2.93% to 20.3%; adjusted odds ratio [OR] 1.7, CI 1.1 to 2.5). Patients reported less illicit drug use (RD -6.0, CI -11 to -1.2; OR 0·52, CI 0·28 to 0·96), and less risk for STI (RD -5.4, CI -11 to 0.2; OR 0·66, CI 0·46 to 0·96) at three months in the intervention relative to the comparison arm, and for unplanned pregnancy at 12 months (RD -4.4; CI -8.7 to -0.1; OR 0·40, CI 0·20 to 0·80). No differences were detected between arms on other health risks. There were no differences on secondary outcomes, apart from a greater detection of abuse (OR 13.8, CI 1.71 to 111). There were no reports of harmful events and intervention arm youth had high acceptance of the screening tool. CONCLUSIONS: A complex intervention, compared to a simple educational seminar for practices, improved detection of health risk behaviours in young people. Impact on health outcomes was inconclusive. Technology enabling more efficient, systematic health-risk screening may allow providers to target counselling toward higher risk individuals. Further trials require more power to confirm health benefits. TRIAL REGISTRATION: ISRCTN.com ISRCTN16059206.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Cette thèse envisage un ensemble de méthodes permettant aux algorithmes d'apprentissage statistique de mieux traiter la nature séquentielle des problèmes de gestion de portefeuilles financiers. Nous débutons par une considération du problème général de la composition d'algorithmes d'apprentissage devant gérer des tâches séquentielles, en particulier celui de la mise-à-jour efficace des ensembles d'apprentissage dans un cadre de validation séquentielle. Nous énumérons les desiderata que des primitives de composition doivent satisfaire, et faisons ressortir la difficulté de les atteindre de façon rigoureuse et efficace. Nous poursuivons en présentant un ensemble d'algorithmes qui atteignent ces objectifs et présentons une étude de cas d'un système complexe de prise de décision financière utilisant ces techniques. Nous décrivons ensuite une méthode générale permettant de transformer un problème de décision séquentielle non-Markovien en un problème d'apprentissage supervisé en employant un algorithme de recherche basé sur les K meilleurs chemins. Nous traitons d'une application en gestion de portefeuille où nous entraînons un algorithme d'apprentissage à optimiser directement un ratio de Sharpe (ou autre critère non-additif incorporant une aversion au risque). Nous illustrons l'approche par une étude expérimentale approfondie, proposant une architecture de réseaux de neurones spécialisée à la gestion de portefeuille et la comparant à plusieurs alternatives. Finalement, nous introduisons une représentation fonctionnelle de séries chronologiques permettant à des prévisions d'être effectuées sur un horizon variable, tout en utilisant un ensemble informationnel révélé de manière progressive. L'approche est basée sur l'utilisation des processus Gaussiens, lesquels fournissent une matrice de covariance complète entre tous les points pour lesquels une prévision est demandée. Cette information est utilisée à bon escient par un algorithme qui transige activement des écarts de cours (price spreads) entre des contrats à terme sur commodités. L'approche proposée produit, hors échantillon, un rendement ajusté pour le risque significatif, après frais de transactions, sur un portefeuille de 30 actifs.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Quand le E-learning a émergé il ya 20 ans, cela consistait simplement en un texte affiché sur un écran d'ordinateur, comme un livre. Avec les changements et les progrès dans la technologie, le E-learning a parcouru un long chemin, maintenant offrant un matériel éducatif personnalisé, interactif et riche en contenu. Aujourd'hui, le E-learning se transforme de nouveau. En effet, avec la prolifération des systèmes d'apprentissage électronique et des outils d'édition de contenu éducatif, ainsi que les normes établies, c’est devenu plus facile de partager et de réutiliser le contenu d'apprentissage. En outre, avec le passage à des méthodes d'enseignement centrées sur l'apprenant, en plus de l'effet des techniques et technologies Web2.0, les apprenants ne sont plus seulement les récipiendaires du contenu d'apprentissage, mais peuvent jouer un rôle plus actif dans l'enrichissement de ce contenu. Par ailleurs, avec la quantité d'informations que les systèmes E-learning peuvent accumuler sur les apprenants, et l'impact que cela peut avoir sur leur vie privée, des préoccupations sont soulevées afin de protéger la vie privée des apprenants. Au meilleur de nos connaissances, il n'existe pas de solutions existantes qui prennent en charge les différents problèmes soulevés par ces changements. Dans ce travail, nous abordons ces questions en présentant Cadmus, SHAREK, et le E-learning préservant la vie privée. Plus précisément, Cadmus est une plateforme web, conforme au standard IMS QTI, offrant un cadre et des outils adéquats pour permettre à des tuteurs de créer et partager des questions de tests et des examens. Plus précisément, Cadmus fournit des modules telles que EQRS (Exam Question Recommender System) pour aider les tuteurs à localiser des questions appropriées pour leur examens, ICE (Identification of Conflits in Exams) pour aider à résoudre les conflits entre les questions contenu dans un même examen, et le Topic Tree, conçu pour aider les tuteurs à mieux organiser leurs questions d'examen et à assurer facilement la couverture des différent sujets contenus dans les examens. D'autre part, SHAREK (Sharing REsources and Knowledge) fournit un cadre pour pouvoir profiter du meilleur des deux mondes : la solidité des systèmes E-learning et la flexibilité de PLE (Personal Learning Environment) tout en permettant aux apprenants d'enrichir le contenu d'apprentissage, et les aider à localiser nouvelles ressources d'apprentissage. Plus précisément, SHAREK combine un système recommandation multicritères, ainsi que des techniques et des technologies Web2.0, tels que le RSS et le web social, pour promouvoir de nouvelles ressources d'apprentissage et aider les apprenants à localiser du contenu adapté. Finalement, afin de répondre aux divers besoins de la vie privée dans le E-learning, nous proposons un cadre avec quatre niveaux de vie privée, ainsi que quatre niveaux de traçabilité. De plus, nous présentons ACES (Anonymous Credentials for E-learning Systems), un ensemble de protocoles, basés sur des techniques cryptographiques bien établies, afin d'aider les apprenants à atteindre leur niveau de vie privée désiré.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

L’implantation répandue de nouveaux quartiers résidentiels sur le territoire de la périphérie urbaine est en partie responsable de la baisse du couvert végétal et de l’augmentation des surfaces imperméables à grande échelle. Les villes sont maintenant aux prises avec une augmentation constante de la production de ruissellement qu'elles doivent gérer au moyen d’un vaste réseau d’égouts et de canalisations. Des données sur les impacts de ces modèles de quartier résidentiel nous révèlent que cette forme d’habitat provoque la dégradation des milieux naturels et aquatiques. La présente étude vise à mettre à l’épreuve la stratégie d’aménagement de l’Open space design en comparant l’effet de trois situations d’aménagement d’ensembles résidentiels sur le coefficient de ruissellement pondéré (Cp). Les trois situations étudiées sont 1 : le développement actuel tel que conçu par le promoteur, 2 : un scénario de quartier visant la préservation des cours d’eau existants ainsi qu’une réduction des lots et des surfaces imperméables et 3 : un quartier avec des types d’habitation plus denses. Les coefficients pondérés obtenus sont respectivement de 0,50 pour le quartier actuel, de 0,40 pour le scénario 1 et de 0,34 pour le scénario 2. Au terme de cet exercice, il apparaît, d’une part, que la densification du bâti, la nature des surfaces et l’organisation spatiale peuvent concourir à diminuer la production de ruissellement d’un quartier. Cette étude permet de situer l’importance de la gestion du ruissellement dans la planification et l’aménagement du territoire.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Die zunehmende Vernetzung der Informations- und Kommunikationssysteme führt zu einer weiteren Erhöhung der Komplexität und damit auch zu einer weiteren Zunahme von Sicherheitslücken. Klassische Schutzmechanismen wie Firewall-Systeme und Anti-Malware-Lösungen bieten schon lange keinen Schutz mehr vor Eindringversuchen in IT-Infrastrukturen. Als ein sehr wirkungsvolles Instrument zum Schutz gegenüber Cyber-Attacken haben sich hierbei die Intrusion Detection Systeme (IDS) etabliert. Solche Systeme sammeln und analysieren Informationen von Netzwerkkomponenten und Rechnern, um ungewöhnliches Verhalten und Sicherheitsverletzungen automatisiert festzustellen. Während signatur-basierte Ansätze nur bereits bekannte Angriffsmuster detektieren können, sind anomalie-basierte IDS auch in der Lage, neue bisher unbekannte Angriffe (Zero-Day-Attacks) frühzeitig zu erkennen. Das Kernproblem von Intrusion Detection Systeme besteht jedoch in der optimalen Verarbeitung der gewaltigen Netzdaten und der Entwicklung eines in Echtzeit arbeitenden adaptiven Erkennungsmodells. Um diese Herausforderungen lösen zu können, stellt diese Dissertation ein Framework bereit, das aus zwei Hauptteilen besteht. Der erste Teil, OptiFilter genannt, verwendet ein dynamisches "Queuing Concept", um die zahlreich anfallenden Netzdaten weiter zu verarbeiten, baut fortlaufend Netzverbindungen auf, und exportiert strukturierte Input-Daten für das IDS. Den zweiten Teil stellt ein adaptiver Klassifikator dar, der ein Klassifikator-Modell basierend auf "Enhanced Growing Hierarchical Self Organizing Map" (EGHSOM), ein Modell für Netzwerk Normalzustand (NNB) und ein "Update Model" umfasst. In dem OptiFilter werden Tcpdump und SNMP traps benutzt, um die Netzwerkpakete und Hostereignisse fortlaufend zu aggregieren. Diese aggregierten Netzwerkpackete und Hostereignisse werden weiter analysiert und in Verbindungsvektoren umgewandelt. Zur Verbesserung der Erkennungsrate des adaptiven Klassifikators wird das künstliche neuronale Netz GHSOM intensiv untersucht und wesentlich weiterentwickelt. In dieser Dissertation werden unterschiedliche Ansätze vorgeschlagen und diskutiert. So wird eine classification-confidence margin threshold definiert, um die unbekannten bösartigen Verbindungen aufzudecken, die Stabilität der Wachstumstopologie durch neuartige Ansätze für die Initialisierung der Gewichtvektoren und durch die Stärkung der Winner Neuronen erhöht, und ein selbst-adaptives Verfahren eingeführt, um das Modell ständig aktualisieren zu können. Darüber hinaus besteht die Hauptaufgabe des NNB-Modells in der weiteren Untersuchung der erkannten unbekannten Verbindungen von der EGHSOM und der Überprüfung, ob sie normal sind. Jedoch, ändern sich die Netzverkehrsdaten wegen des Concept drif Phänomens ständig, was in Echtzeit zur Erzeugung nicht stationärer Netzdaten führt. Dieses Phänomen wird von dem Update-Modell besser kontrolliert. Das EGHSOM-Modell kann die neuen Anomalien effektiv erkennen und das NNB-Model passt die Änderungen in Netzdaten optimal an. Bei den experimentellen Untersuchungen hat das Framework erfolgversprechende Ergebnisse gezeigt. Im ersten Experiment wurde das Framework in Offline-Betriebsmodus evaluiert. Der OptiFilter wurde mit offline-, synthetischen- und realistischen Daten ausgewertet. Der adaptive Klassifikator wurde mit dem 10-Fold Cross Validation Verfahren evaluiert, um dessen Genauigkeit abzuschätzen. Im zweiten Experiment wurde das Framework auf einer 1 bis 10 GB Netzwerkstrecke installiert und im Online-Betriebsmodus in Echtzeit ausgewertet. Der OptiFilter hat erfolgreich die gewaltige Menge von Netzdaten in die strukturierten Verbindungsvektoren umgewandelt und der adaptive Klassifikator hat sie präzise klassifiziert. Die Vergleichsstudie zwischen dem entwickelten Framework und anderen bekannten IDS-Ansätzen zeigt, dass der vorgeschlagene IDSFramework alle anderen Ansätze übertrifft. Dies lässt sich auf folgende Kernpunkte zurückführen: Bearbeitung der gesammelten Netzdaten, Erreichung der besten Performanz (wie die Gesamtgenauigkeit), Detektieren unbekannter Verbindungen und Entwicklung des in Echtzeit arbeitenden Erkennungsmodells von Eindringversuchen.