807 resultados para Machine Learning,hepatocellular malignancies,HCC,MVI


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Machine learning provides tools for automated construction of predictive models in data intensive areas of engineering and science. The family of regularized kernel methods have in the recent years become one of the mainstream approaches to machine learning, due to a number of advantages the methods share. The approach provides theoretically well-founded solutions to the problems of under- and overfitting, allows learning from structured data, and has been empirically demonstrated to yield high predictive performance on a wide range of application domains. Historically, the problems of classification and regression have gained the majority of attention in the field. In this thesis we focus on another type of learning problem, that of learning to rank. In learning to rank, the aim is from a set of past observations to learn a ranking function that can order new objects according to how well they match some underlying criterion of goodness. As an important special case of the setting, we can recover the bipartite ranking problem, corresponding to maximizing the area under the ROC curve (AUC) in binary classification. Ranking applications appear in a large variety of settings, examples encountered in this thesis include document retrieval in web search, recommender systems, information extraction and automated parsing of natural language. We consider the pairwise approach to learning to rank, where ranking models are learned by minimizing the expected probability of ranking any two randomly drawn test examples incorrectly. The development of computationally efficient kernel methods, based on this approach, has in the past proven to be challenging. Moreover, it is not clear what techniques for estimating the predictive performance of learned models are the most reliable in the ranking setting, and how the techniques can be implemented efficiently. The contributions of this thesis are as follows. First, we develop RankRLS, a computationally efficient kernel method for learning to rank, that is based on minimizing a regularized pairwise least-squares loss. In addition to training methods, we introduce a variety of algorithms for tasks such as model selection, multi-output learning, and cross-validation, based on computational shortcuts from matrix algebra. Second, we improve the fastest known training method for the linear version of the RankSVM algorithm, which is one of the most well established methods for learning to rank. Third, we study the combination of the empirical kernel map and reduced set approximation, which allows the large-scale training of kernel machines using linear solvers, and propose computationally efficient solutions to cross-validation when using the approach. Next, we explore the problem of reliable cross-validation when using AUC as a performance criterion, through an extensive simulation study. We demonstrate that the proposed leave-pair-out cross-validation approach leads to more reliable performance estimation than commonly used alternative approaches. Finally, we present a case study on applying machine learning to information extraction from biomedical literature, which combines several of the approaches considered in the thesis. The thesis is divided into two parts. Part I provides the background for the research work and summarizes the most central results, Part II consists of the five original research articles that are the main contribution of this thesis.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Monimutkaisissa ja muuttuvissa ympäristöissä työskentelevät robotit tarvitsevat kykyä manipuloida ja tarttua esineisiin. Tämä työ tutkii robottitarttumisen ja robottitartuntapis-teiden koneoppimisen aiempaa tutkimusta ja nykytilaa. Nykyaikaiset menetelmät käydään läpi, ja Le:n koneoppimiseen pohjautuva luokitin toteutetaan, koska se tarjoaa parhaan onnistumisprosentin tutkituista menetelmistä ja on muokattavissa sopivaksi käytettävissä olevalle robotille. Toteutettu menetelmä käyttää intensititeettikuvaan ja syvyyskuvaan po-hjautuvia ominaisuuksi luokitellakseen potentiaaliset tartuntapisteet. Tämän toteutuksen tulokset esitellään.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Occult hepatitis B virus (HBV) infection has been reported among patients with hepatitis C virus (HCV) infection and hepatocellular carcinoma (HCC). Our aim was to evaluate the presence of occult HBV infection in patients with HCV-related liver cirrhosis (LC) with or without HCC in São Paulo, Brazil. Serum and liver tissue samples from 50 hepatitis B surface antigen-negative patients with HCV-related LC who underwent liver transplantation at the University of São Paulo School of Medicine Hospital from 1993 to 2004 were divided into groups with LC only (N = 33) and with LC plus HCC (N = 17). HBV DNA was assayed for serum and paraffin-embedded liver tissue (tumoral and non-tumoral) using real time PCR and only 1 case with HCC had HBV DNA-positive serum. All liver samples were negative. HCV genotype 3 was detected in 17/39 (43.7%) cases. In conclusion, using a sensitive real time PCR directed to detect HBV variants circulating in Brazil, occult hepatitis B infection was not found among HCV-positive cirrhotic patients and was rarely found among HCV-positive HCC patients. These results are probably related to the low prevalence of HBV infection in our population. Furthermore, we have also shown that HCV genotype 3 is frequently found in Brazilian cirrhotic patients, particularly when they also have HCC. More studies involving a large number of cases should be carried out to confirm these data and to further characterize Brazilian HCV genotype isolates to elucidate genetic features that might be related to its carcinogenic potential.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Non-alcoholic steatohepatitis (NASH) has been associated with hepatocellular carcinoma (HCC) often arising in histologically advanced disease when steatohepatitis is not active (cryptogenic cirrhosis). Our objective was to characterize patients with HCC and active, histologically defined steatohepatitis. Among 394 patients with HCC detected by ultrasound imaging over 8 years and staged by the Barcelona Clinic Liver Cancer (BCLC) criteria, we identified 7 cases (1.7%) with HCC occurring in the setting of active biopsy-proven NASH. All were negative for other liver diseases such as hepatitis C, hepatitis B, autoimmune hepatitis, Wilson disease, and hemochromatosis. The patients (4 males and 3 females, age 63 ± 13 years) were either overweight (4) or obese (3); 57% were diabetic and 28.5% had dyslipidemia. Cirrhosis was present in 6 of 7 patients, but 1 patient had well-differentiated HCC in the setting of NASH without cirrhosis (fibrosis stage 1) based on repeated liver biopsies, the absence of portal hypertension by clinical and radiographic evaluations and by direct surgical inspection. Among the cirrhotic patients, 71.4% were clinically staged as Child A and 14.2% as Child B. Tumor size ranged from 1.0 to 5.2 cm and 5 of 7 patients were classified as early stage; 46% of all nodules were hyper-echoic and 57% were <3 cm. HCC was well differentiated in 1/6 and moderately differentiated in 5/6. Alpha-fetoprotein was <100 ng/mL in all patients. HCC in patients with active steatohepatitis is often multifocal, may precede clinically advanced disease and occurs without diagnostic levels of alpha-fetoprotein. Importantly, HCC may occur in NASH in the absence of cirrhosis. More aggressive screening of NASH patients may be warranted.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Chronic hepatitis B (HBV) and C (HCV) virus infections are the most important factors associated with hepatocellular carcinoma (HCC), but tumor prognosis remains poor due to the lack of diagnostic biomarkers. In order to identify novel diagnostic markers and therapeutic targets, the gene expression profile associated with viral and non-viral HCC was assessed in 9 tumor samples by oligo-microarrays. The differentially expressed genes were examined using a z-score and KEGG pathway for the search of ontological biological processes. We selected a non-redundant set of 15 genes with the lowest P value for clustering samples into three groups using the non-supervised algorithm k-means. Fisher’s linear discriminant analysis was then applied in an exhaustive search of trios of genes that could be used to build classifiers for class distinction. Different transcriptional levels of genes were identified in HCC of different etiologies and from different HCC samples. When comparing HBV-HCC vs HCV-HCC, HBV-HCC/HCV-HCC vs non-viral (NV)-HCC, HBC-HCC vs NV-HCC, and HCV-HCC vs NV-HCC of the 58 non-redundant differentially expressed genes, only 6 genes (IKBKβ, CREBBP, WNT10B, PRDX6, ITGAV, and IFNAR1) were found to be associated with hepatic carcinogenesis. By combining trios, classifiers could be generated, which correctly classified 100% of the samples. This expression profiling may provide a useful tool for research into the pathophysiology of HCC. A detailed understanding of how these distinct genes are involved in molecular pathways is of fundamental importance to the development of effective HCC chemoprevention and treatment.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Hepatocellular carcinoma (HCC) is the third highest cause of cancer death worldwide. In general, the disease is diagnosed at an advanced stage when potentially curative therapies are no longer feasible. For this reason, it is very important to develop new therapeutic approaches. Retinoic acid (RA) is a natural derivative of vitamin A that regulates important biological processes including cell proliferation and differentiation. In vitro studies have shown that RA is effective in inhibiting growth of HCC cells; however, responsiveness to treatment varies among different HCC cell lines. The objective of the present study was to determine if the combined use of RA (0.1 µM) and cAMP (1 mM), an important second messenger, improves the responsiveness of HCC cells to RA treatment. We evaluated the proliferative behavior of an HCC cell line (HTC) and the expression profile of genes related to cancer signaling pathway (ERK and GSK-3β) and liver differentiation (E-cadherin, connexin 26 (Cx26), and Cx32). RA and cAMP were effective in inhibiting the proliferation of HTC cells independently of combined use. However, when a mixture of RA and cAMP was used, the signals concerning the degree of cell differentiation were increased. As demonstrated by Western blot, the treatment increased E-cadherin, Cx26, Cx32 and Ser9-GSK-3β (inactive form) expression while the expression of Cx43, Tyr216-GSK-3β (active form) and phosphorylated ERK decreased. Furthermore, telomerase activity was inhibited along treatment. Taken together, the results showed that the combined use of RA and cAMP is more effective in inducing differentiation of HTC cells.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The multidrug resistance 1 gene (MDR1) is an important candidate gene for influencing susceptibility to hepatocellular carcinoma (HCC). The objective of the present study was to evaluate the association ofMDR1 polymorphisms with the risk of HCC in the Chinese Han population. A total of 353 HCC patients and 335 healthy subjects were enrolled in the study. Polymerase chain reaction-restriction fragment length polymorphism (PCR-RFLP), created restriction site-PCR (CRS-PCR) and DNA sequencing methods were used to identify MDR1 gene polymorphisms. Two allelic variants (c.335T>C and c.3073A>C) were detected. The CC genotype of the c.335T>C polymorphism was associated with an increased risk of developing HCC compared to the TT genotype (OR = 2.161, 95%CI = 1.350-3.459, χ2 = 10.55, P = 0.0011). The risk of HCC was significantly higher for the CC genotype in the c.3073A>C polymorphism compared to the AA genotype in the studied populations (CCvs AA: OR = 2.575, 95%CI = 1.646-4.028, χ2 = 17.64, P < 0.0001). The C allele of the c.335T>C and c.3073A>C variants may contribute to the risk of HCC (Cvs T of c.335T>C: OR = 1.512, 95%CI = 1.208-1.893, χ2 = 13.07, P = 0.0003, and Cvs A of c.3073A>C: OR = 1.646, 95%CI = 1.322-2.049, χ2 = 20.03, P < 0.0001). The c.335T>C and c.3073A>C polymorphisms of the MDR1 gene were associated with the risk of occurrence of HCC in the Chinese Han population. Further investigations are needed to confirm these results in larger different populations.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The objective of this study was to examine hepatitis B virus (HBV) subgenotypes and mutations in enhancer II, basal core promoter, and precore regions of HBV in relation to risks of liver cirrhosis (LC) and hepatocellular carcinoma (HCC) in Southeast China. A case-control study was performed, including chronic hepatitis B (CHB; n=125), LC (n=120), and HCC (n=136). HBV was genotyped by multiplex polymerase chain reaction and subgenotyped by restriction fragment length polymorphism. HBV mutations were measured by DNA sequencing. HBV genotype C (68.2%) predominated and genotype B (30.2%) was the second most common. Of these, C2 (67.5%) was the most prevalent subgenotype, and B2 (30.2%) ranked second. Thirteen mutations with a frequency >5% were detected. Seven mutation patterns (C1653T, G1719T, G1730C, T1753C, A1762T, G1764A, and G1799C) were associated with C2, and four patterns (C1810T, A1846T, G1862T, and G1896A) were associated with B2. Six patterns (C1653T, G1730C, T1753C, A1762T, G1764A, and G1799C) were obviously associated with LC, and 10 patterns (C1653T, G1730C, T1753C, A1762T, G1764A, G1799C, C1810T, A1846T, G1862T, and G1896A) were significantly associated with HCC compared with CHB. Four patterns (C1810T, A1846T, G1862T, and G1896A) were significantly associated with HCC compared with LC. Multivariate regression analyses showed that HBV subgenotype C2 and C2-associated mutation patterns (C1653T, T1753C, A1762T, and G1764A) were independent risk factors for LC when CHB was the control, and that B2-associated mutation patterns (C1810T, A1846T, G1862T, and G1896A) were independent risk factors for HCC when LC was the control.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Hepatocellular Carcinoma (HCC) is a major healthcare problem, representing the third most common cause of cancer-related mortality worldwide. Chronic infections with Hepatitis B virus (HBV) and/or Hepatitis C virus (HCV) are the major risk factors for the development of HCC. The incidence of HBV -associated HCC is in decline as a result of an effective HBV vaccine; however, since an equally effective HCV vaccine has not yet been developed, there are 130 million HCV infected patients worldwide who are at a high-risk for developing HCC. Because reliable parameters and/or tools for the early detection of HCC among high-risk individuals are severely lacking, HCC patients are always diagnosed at a late stage where surgical solutions or effective treatment are not possible. Using urine as a non-invasive sample source, two different approaches (proteomic-based and genomic-based approaches) were pursued with the common goal of discovering potential biomarker candidates for the early detection of HCC among high-risk chronic HCV infected patients. Urine was collected from 106 HCV infected Egyptian patients, 32 of whom had already developed HCC and 74 patients who were diagnosed as HCC-free at the time of initial sample collection. In addition to these patients, urine samples were also collected from 12 healthy control individuals. Total urinary proteins, Trans-renal nucleic acid (Tr-NA) and microRNA (miRNA) were isolated from urine using novel methodologies and silicon carbide-loaded spin columns. In the first, "proteomic-based", approach, liquid chromatography coupled with tandem mass spectrometry (LC-MS/MS) was used to identify potential candidates from pooled urine samples. This was followed by validating relative expression levels of proteins present in urine among all the patients using quantitative real time-PCR (qRT-PCR). This approach revealed that significant over-expression of three proteins: DJ-1, Chromatin Assembly Factor-1 (CAF-1) and 11 Moemen Abdalla HCC Biomarkers Heat Shock Protein 60 (HSP60), were characteristic events among HCC-post HCV infected patients. As a single-based HCC biomarker, CAF-1 over-expression identified HCC among HCV infected patients with a specificity of 90%, sensitivity of 66% and with an overall diagnostic accuracy of 78%. Moreover, the CAF-lIHSP60 tandem identified HCC among HCV infected patients with a specificity of 92%, sensitivity of 61 % and with an overall diagnostic accuracy of 77%. In the second genomic-based approach, two different approaches were processed. The first approach was the miRNA-based approach. The expression levels of miRNAs isolated from urine were studied using the Illumina MicroRNA Expression Profiling Assay. This was followed by qRT-PCR-based validation of deregulated expression of identified miRNA candidates among all the patients. This approach shed the light on the deregulated expression of a number of miRNAs, which may have a role in either the development of HCC among HCV infected patients (i.e. miR-640, miR-765, miR-200a, miR-521 and miR-520) or may allow for a better understanding of the viral-host interaction (miR-152, miR-486, miR-219, miR452, miR-425, miR-154 and miR-31). Moreover, the deregulated expression of both miR-618 and miR-650 appeared to be a common event among HCC-post HCV infected patients. The results of the search for putative targets of these two miRNA suggested that miR-618 may be a potent oncogene, as it targets the tumor-suppressor gene Low density lipoprotein-related protein 12 (LPR12), while miR-650 may be a potent tumor-suppressor gene, as it is supposed to downregulate the TNF receptor-associated factor-4 (TRAF4) oncogene. The specificity of miR-618 and miR-650 deregulated expression patterns for the early detection of HCC among HCV infected patients was 68% and 58%, respectively, whereas the sensitivity was 64% and 72%, respectively. When the deregulated expression of both miRNAs was combined as a tandem biomarker, the specificity and the sensitivity were 75% and 58% respectively. 111 Moemen Abdalla HCC Biomarkers In the second, "Trans-renal nucleic acid-based", approach, the urinary apoptotic nucleic acid (uaNA) levels of 70ng/mL or more were found to be a good predictor of HCC among chronic HCV infected patients. The specificity and the sensitivity of this diagnostic approach were 76% and 86%, respectively, with an overall diagnostic value of 81 %. The uaNA levels positively correlated to HCC disease progression as monitored by epigenetic changes of a panel of eight tumor-suppressor genes (TSGs) using methylation-sensitive PCR. Moreover, the pairing of high uaNA levels (:::: 70 ng/mL) and CAF-1 over-expreSSIOn produced a highly specific (l 00%) multiple-based HCC biomarker with an acceptable sensitivity of 64%, and with a diagnostic accuracy of 82%. In comparison to the previous pairing, the uaNA levels (:::: 70 ng/mL) in tandem with HSP60 over-expression was less specific (89%) but highly sensitive (72%), resulting in a diagnostic accuracy of 64%. The specificities of miR-650 deregulated expression in combination with either high uaNA content or HSP 60 over-expression were 82% and 79%, respectively, whereas, the sensitivities of these combinations were 64% and 58%, respectively. The potential biomarkers identified in this study compare favorably with the diagnostic accuracy of the a-fetoprotein levels test, which has a specificity of 75%, sensitivity of 68% and an overall diagnostic accuracy of 70%. Here we present an intriguing study which shows the significance of using urine as a noninvasive sample source for the identification of promising HCC biomarkers. We have also introduced new techniques for the isolation of different urinary macromolecules, especially miRNA, from urine. Furthermore, we strongly recommend the potential biomarkers indentified in this study as focal points of any future research on HCC diagnosis. A larger testing pool will determine if their use is practical for mass population screening. This explorative study identified potential targets that merit further investigation for the development of diagnostically accurate biomarkers isolated from 1-2 mL urine samples that were acquired in a non-invasive manner.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mobile augmented reality applications are increasingly utilized as a medium for enhancing learning and engagement in history education. Although these digital devices facilitate learning through immersive and appealing experiences, their design should be driven by theories of learning and instruction. We provide an overview of an evidence-based approach to optimize the development of mobile augmented reality applications that teaches students about history. Our research aims to evaluate and model the impacts of design parameters towards learning and engagement. The research program is interdisciplinary in that we apply techniques derived from design-based experiments and educational data mining. We outline the methodological and analytical techniques as well as discuss the implications of the anticipated findings.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dans ce travail, nous explorons la faisabilité de doter les machines de la capacité de prédire, dans un contexte d'interaction homme-machine (IHM), l'émotion d'un utilisateur, ainsi que son intensité, de manière instantanée pour une grande variété de situations. Plus spécifiquement, une application a été développée, appelée machine émotionnelle, capable de «comprendre» la signification d'une situation en se basant sur le modèle théorique d'évaluation de l'émotion Ortony, Clore et Collins (OCC). Cette machine est apte, également, à prédire les réactions émotionnelles des utilisateurs, en combinant des versions améliorées des k plus proches voisins et des réseaux de neurones. Une procédure empirique a été réalisée pour l'acquisition des données. Ces dernières ont fourni une connaissance consistante aux algorithmes d'apprentissage choisis et ont permis de tester la performance de la machine. Les résultats obtenus montrent que la machine émotionnelle proposée est capable de produire de bonnes prédictions. Une telle réalisation pourrait encourager son utilisation future dans des domaines exploitant la reconnaissance automatique de l'émotion.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée). Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre. Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

De plus en plus de recherches sur les Interactions Humain-Machine (IHM) tentent d’effectuer des analyses fines de l’interaction afin de faire ressortir ce qui influence les comportements des utilisateurs. Tant au niveau de l’évaluation de la performance que de l’expérience des utilisateurs, on note qu’une attention particulière est maintenant portée aux réactions émotionnelles et cognitives lors de l’interaction. Les approches qualitatives standards sont limitées, car elles se fondent sur l’observation et des entrevues après l’interaction, limitant ainsi la précision du diagnostic. L’expérience utilisateur et les réactions émotionnelles étant de nature hautement dynamique et contextualisée, les approches d’évaluation doivent l’être de même afin de permettre un diagnostic précis de l’interaction. Cette thèse présente une approche d’évaluation quantitative et dynamique qui permet de contextualiser les réactions des utilisateurs afin d’en identifier les antécédents dans l’interaction avec un système. Pour ce faire, ce travail s’articule autour de trois axes. 1) La reconnaissance automatique des buts et de la structure de tâches de l’utilisateur, à l’aide de mesures oculométriques et d’activité dans l’environnement par apprentissage machine. 2) L’inférence de construits psychologiques (activation, valence émotionnelle et charge cognitive) via l’analyse des signaux physiologiques. 3) Le diagnostic de l‘interaction reposant sur le couplage dynamique des deux précédentes opérations. Les idées et le développement de notre approche sont illustrés par leur application dans deux contextes expérimentaux : le commerce électronique et l’apprentissage par simulation. Nous présentons aussi l’outil informatique complet qui a été implémenté afin de permettre à des professionnels en évaluation (ex. : ergonomes, concepteurs de jeux, formateurs) d’utiliser l’approche proposée pour l’évaluation d’IHM. Celui-ci est conçu de manière à faciliter la triangulation des appareils de mesure impliqués dans ce travail et à s’intégrer aux méthodes classiques d’évaluation de l’interaction (ex. : questionnaires et codage des observations).

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.