893 resultados para SPARSE
Resumo:
Un facteur d’incertitude de 10 est utilisé par défaut lors de l’élaboration des valeurs toxicologiques de référence en santé environnementale, afin de tenir compte de la variabilité interindividuelle dans la population. La composante toxicocinétique de cette variabilité correspond à racine de 10, soit 3,16. Sa validité a auparavant été étudiée sur la base de données pharmaceutiques colligées auprès de diverses populations (adultes, enfants, aînés). Ainsi, il est possible de comparer la valeur de 3,16 au Facteur d’ajustement pour la cinétique humaine (FACH), qui constitue le rapport entre un centile élevé (ex. : 95e) de la distribution de la dose interne dans des sous-groupes présumés sensibles et sa médiane chez l’adulte, ou encore à l’intérieur d’une population générale. Toutefois, les données expérimentales humaines sur les polluants environnementaux sont rares. De plus, ces substances ont généralement des propriétés sensiblement différentes de celles des médicaments. Il est donc difficile de valider, pour les polluants, les estimations faites à partir des données sur les médicaments. Pour résoudre ce problème, la modélisation toxicocinétique à base physiologique (TCBP) a été utilisée pour simuler la variabilité interindividuelle des doses internes lors de l’exposition aux polluants. Cependant, les études réalisées à ce jour n’ont que peu permis d’évaluer l’impact des conditions d’exposition (c.-à-d. voie, durée, intensité), des propriétés physico/biochimiques des polluants, et des caractéristiques de la population exposée sur la valeur du FACH et donc la validité de la valeur par défaut de 3,16. Les travaux de la présente thèse visent à combler ces lacunes. À l’aide de simulations de Monte-Carlo, un modèle TCBP a d’abord été utilisé pour simuler la variabilité interindividuelle des doses internes (c.-à-d. chez les adultes, ainés, enfants, femmes enceintes) de contaminants de l’eau lors d’une exposition par voie orale, respiratoire, ou cutanée. Dans un deuxième temps, un tel modèle a été utilisé pour simuler cette variabilité lors de l’inhalation de contaminants à intensité et durée variables. Ensuite, un algorithme toxicocinétique à l’équilibre probabiliste a été utilisé pour estimer la variabilité interindividuelle des doses internes lors d’expositions chroniques à des contaminants hypothétiques aux propriétés physico/biochimiques variables. Ainsi, les propriétés de volatilité, de fraction métabolisée, de voie métabolique empruntée ainsi que de biodisponibilité orale ont fait l’objet d’analyses spécifiques. Finalement, l’impact du référent considéré et des caractéristiques démographiques sur la valeur du FACH lors de l’inhalation chronique a été évalué, en ayant recours également à un algorithme toxicocinétique à l’équilibre. Les distributions de doses internes générées dans les divers scénarios élaborés ont permis de calculer dans chaque cas le FACH selon l’approche décrite plus haut. Cette étude a mis en lumière les divers déterminants de la sensibilité toxicocinétique selon le sous-groupe et la mesure de dose interne considérée. Elle a permis de caractériser les déterminants du FACH et donc les cas où ce dernier dépasse la valeur par défaut de 3,16 (jusqu’à 28,3), observés presqu’uniquement chez les nouveau-nés et en fonction de la substance mère. Cette thèse contribue à améliorer les connaissances dans le domaine de l’analyse du risque toxicologique en caractérisant le FACH selon diverses considérations.
Resumo:
Le but du présent travail est d’apporter la preuve paléontologique mettant en évidence que le clade Raninoida était bien établi dans le Néotropique durant la période Crétacée, où il était représenté par les plus anciennes familles ou par quelques–uns des plus anciens membres des plus anciennes familles. Je décris des taxa raninoïdiens ou similaires, incluant Archaeochimaeridae n. fam. et Archaeochimaera macrophthalma n. gen. n. sp., du Cénomanien supérieur (~95 Ma.) de Colombie (Chapitre 3), Planocarcinus n. gen., Planocarcinus olssoni (Rathbun, 1937) n. comb. et Notopocorystes kerri n. sp., de l’Aptien supérieur (~115 Ma.) de Colombie (Luque et al., accepté) (Chapitre 2). Ces taxa nouveaux, plus la présence de Cenomanocarcinus vanstraeleni Stenzel, 1945, dans l’Albien supérieur de Colombie (Vega et al., 2010), et d’Araripecarcinus ferreirai Martins–Neto, 1987, dans l’Albien du Brésil (Luque et al., en cours) (Chapitre 4), représentent certains des plus anciens signalements de quatre des sept familles raninoïdiennes, au moins, connues à ce jour. La nouvelle famile Archaeochimaeridae se présente comme le groupe frère du clade Raninidae + clade Symethidae. Cependant, la combinaison unique de caractères primitifs, dérivés et homoplasiques est inégalable chez les Raninoida, et, en fait, chez les autres sections de crabes podotrèmes. Alors que les taxa raninoïdiens du Crétacé sont bien connus aux latitudes élevées, les signalements en Amérique du Sud tropicale sont rares et épars, avec pour résultat de considérables distorsions pour traiter des importantes questions biogéographiques et phylogénétiques. Sur la base de données taxonomiques, paléobiogéographiques et cladistiques, une ré–appréciation des toute premières distributions spatio–temporelle des “crabes grenouilles” est proposée, avec pour objet de contribuer à une plus large compréhension de la diversité, phylogénie et évolution des premiers brachyoures au cours des âges.
Resumo:
L'analyse en composantes indépendantes (ACI) est une méthode d'analyse statistique qui consiste à exprimer les données observées (mélanges de sources) en une transformation linéaire de variables latentes (sources) supposées non gaussiennes et mutuellement indépendantes. Dans certaines applications, on suppose que les mélanges de sources peuvent être groupés de façon à ce que ceux appartenant au même groupe soient fonction des mêmes sources. Ceci implique que les coefficients de chacune des colonnes de la matrice de mélange peuvent être regroupés selon ces mêmes groupes et que tous les coefficients de certains de ces groupes soient nuls. En d'autres mots, on suppose que la matrice de mélange est éparse par groupe. Cette hypothèse facilite l'interprétation et améliore la précision du modèle d'ACI. Dans cette optique, nous proposons de résoudre le problème d'ACI avec une matrice de mélange éparse par groupe à l'aide d'une méthode basée sur le LASSO par groupe adaptatif, lequel pénalise la norme 1 des groupes de coefficients avec des poids adaptatifs. Dans ce mémoire, nous soulignons l'utilité de notre méthode lors d'applications en imagerie cérébrale, plus précisément en imagerie par résonance magnétique. Lors de simulations, nous illustrons par un exemple l'efficacité de notre méthode à réduire vers zéro les groupes de coefficients non-significatifs au sein de la matrice de mélange. Nous montrons aussi que la précision de la méthode proposée est supérieure à celle de l'estimateur du maximum de la vraisemblance pénalisée par le LASSO adaptatif dans le cas où la matrice de mélange est éparse par groupe.
Resumo:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Resumo:
Les alcaloïdes Daphniphyllum constituent une vaste famille de produits naturels isolés à partir de plantes à feuillage persistant couramment utilisés dans la médecine chinoise traditionnelle. Ils affichent une gamme impressionnante d'activités biologiques; antipyrétique, anti-inflammatoire, antioxydant et même anticancéreux. La calyciphylline B appartient à cette famille et possède un motif original comprenant sept stéréocentres adjacents, dont un stéréocentre quaternaire tout carbone, avec un échafaudage hexacyclique. Sa structure a été déterminée par données spectroscopiques, plus précisément par des techniques de RMN 2D. Malgré le peu d'information sur son activité biologique, sa synthèse représente sans le moindre doute un grand défi pour les chimistes organiciens. Le groupe de recherche du Prof. Hanessian a entrepris la synthèse totale de la calyciphylline B en 2010, laquelle est toujours en cours. Une nouvelle approche a été développée pour la préparation d'un intermédiaire azabicyclo[3.3.0]octane avancé. Ce mémoire résume les travaux de recherche de l'auteur sur les progrès réalisés pour la voie alternative élaborée par le groupe du prof. Hanessian. Le travail effectué comprend la formation d'un stéréocentre quaternaire, l'alkylation d'un énolate sur un triflate d'alkyle secondaire, une réduction diastéréosélective, une cyclisation réductrice ainsi qu'une oxydation de Wacker régiosélective.
Resumo:
Si au cours des dernières décennies les connaissances relatives aux délinquantes sexuelles se sont accrues, celles relatives aux co-délinquantes sont encore rares, alors que ces femmes représentent une part importante du total des délinquantes sexuelles. Le but de la présente étude était de mettre en lumière les trajectoires de vie des femmes qui agressent en compagnie de leur conjoint et de dresser un modèle descriptif du processus de leur passage à l’acte. Sur la base de 17 entretiens non directifs avec des femmes incarcérées en France pour des faits de co-délinquance sexuelle, notre recherche suggère que les co-délinquantes présentent majoritairement un historique de vie abusif et des difficultés émotionnelles, relationnelles, économiques et éducatives importantes. Ces facteurs de vulnérabilité ont été acquis au cours de leur enfance et par leurs expériences sentimentales négatives et abusives. Un modèle descriptif de leur passage à l’acte en trois phases a été établi. Il est apparu que la délinquance sexuelle des co-délinquantes se modifiait au fil des agressions, tant dans leur implication dans les abus qu’au niveau de leur coercition. Les données ont aussi révélé un nombre non négligeable de femmes qui agressent ensuite par elles-mêmes. Ces constatations nous ont amenés à une classification en trois catégories des femmes qui agressent sexuellement : les femmes asservies, les femmes impliquées et les femmes diversifiées.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Au cours des 30 dernières années, l’embonpoint et l’obésité infantile sont devenus de véritables défis pour la santé publique. Bien que l’obésité soit, à la base, un problème physiologique (i.e. balance calorique positive) une série de facteurs psychosociaux sont reliés à son développement. Dans cette thèse, nous avons étudié le rôle des facteurs périnataux et de la petite enfance dans le développement du surpoids, ainsi que la relation entre le surpoids et les troubles internalisés au cours de l’enfance et au début de l’adolescence. Nous avions trois objectifs généraux: 1) Modéliser le développement de l’indice de masse corporelle (IMC) ou du statut pondéral (le fait d’être en surpoids ou non) durant l’enfance, ainsi qu’estimer l’hétérogénéité dans la population au cours du temps (i.e. identification de trajectoires développementales de l’IMC). 2) Identifier les facteurs périnataux et de la petite enfance pouvant accroitre le risque qu’un enfant suive une trajectoire menant au surpoids adolescente. 3) Tester la possibilité que le surpoids durant l’enfance soit associé avec des problèmes de santé mentale internalisés à l’adolescence, et vérifier la possibilité qu’une telle association soit médiatisée par l’expérience de victimisation par les pairs et l’insatisfaction corporelle. Ce travail est mené dans une perspective de développement au cours de la vie (life span perspective), considérant l’accumulation des facteurs de risques au cours du temps ainsi que les facteurs qui se manifestent durant certaines périodes critiques de développement.1,2 Nous avons utilisé les données provenant de l’Étude Longitudinale du Développement des Enfants du Québec (ELDEQ), une cohorte de naissances de la province de Québec, Canada. L’échantillon initial était composé de 2120 familles avec un bébé de 5 mois nés au Québec en 1997. Ces familles ont été suivies annuellement ou à tous les deux ans jusqu’à ce que les enfants atteignent l’âge de 13 ans. En ce qui concerne le premier objectif de recherche, nous avons utilisé la méthode des trajectoires développementales fondée sur des groupes pour modéliser l’IMC en continu et en catégories (surpoids vs poids normal). Pour notre deuxième objectif, nous avons effectué des modèles de régression multinomiale afin d’identifier les facteurs périnataux et de la petite enfance associés aux différents groupes développementaux du statut pondéral. Les facteurs de risques putatifs ont été choisis parmi les facteurs identifiés dans la littérature et représentent l’environnement périnatal, les caractéristiques de l’enfant, ainsi que l’environnement familial. Ces facteurs ont été analysés longitudinalement dans la mesure du possible, et les facteurs pouvant servir de levier potentiel d’intervention, tels que l’usage de tabac chez la mère durant la grossesse, le sommeil de l’enfant ou le temps d’écoute de télévision, ont été sélectionnés pour l’analyse. Pour notre troisième objectif, nous avons examiné les associations longitudinales (de 6 à 12 ans) entre les scores-z d’IMC (selon la référence CDC 2000) et les problèmes internalisés avec les modèles d’équations structurales de type « cross-lagged ». Nous avons ensuite examiné comment la victimisation par les pairs et l’insatisfaction corporelle durant l’enfance peuvent médiatiser un lien potentiel entre le surpoids et les troubles internalisés au début de l’adolescence. Les contributions scientifiques de la présente thèse incluent l’identification de trajectoires distinctes du statut pondérale durant l’enfance (précoce, tardive, jamais en surpoids), ainsi que les facteurs de risques précoces et les profils de santé mentale pouvant différer selon la trajectoire d’un enfant. De plus, nous avons identifié des mécanismes importants qui expliquent une partie de l’association entre les trajectoires de surpoids et les troubles internalisés: la victimisation par les pairs et l’insatisfaction corporelle.
Resumo:
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.
Resumo:
Le sanctuaire Agoa est une aire marine protégée dans la zone économique exclusive (ZEE) des Antilles françaises qui fut créée en 2010 pour la conservation des mammifères marins et de leurs habitats. Il est connu que le rorqual à bosse fréquente les eaux des Antilles de décembre à mai pour la reproduction et la mise bas. Par contre, peu d’information existe sur l’abondance, le comportement, la distribution et les pressions anthropiques sur cette espèce aux Antilles et encore moins dans le sanctuaire. Cette maîtrise s’intéresse principalement à connaître cette espèce dans un secteur précis de cette aire marine et les liens qu’elle entretient avec certains utilisateurs humains de son habitat. Le tout vise à informer les intervenants en place, autant institutionnels qu’utilisateurs, vers une mise en place de mesures de conservation adaptées. Un suivi terrestre hivernal de plus de 300 heures, en 2012 et 2013, a permis de déterminer l’utilisation de l’habitat et les pressions anthropiques sur une population de rorquals à bosse fréquentant le sud de la péninsule de la Pointe-des-Châteaux en Guadeloupe. Il s’agit du premier suivi terrestre de cette espèce aux Antilles françaises et un des premiers dans l'arc caribéen. La zone d’étude couvre environ 264 km2 et serait une des zones les plus fréquentées de l’archipel guadeloupéen par l’espèce. À l’aide d’un théodolite, la trajectoire de 107 groupes différents (137,8 heures, 699 remontées) a été décrite. Les résultats montrent que la zone d’étude est principalement fréquentée en mars et avril, avec une abondance maximale au début du mois d’avril. La forte présence de baleineaux, particulièrement au mois de mars, pousse à croire que cette zone est utilisée comme pouponnière. Le comportement n’est pas aléatoire dans la zone d’étude et les trajectoires convergent vers certaines zones ayant possiblement un lien avec la bathymétrie. De plus, la zone marine à proximité de la Pointe-des-Châteaux pourrait potentiellement être un lieu de convergence des groupes. Ceux-ci se déplacent à vitesse réduite en direction ENE en général, à l’exception des femelles accompagnées de baleineaux qui prennent une orientation tout autre, c’est-à-dire vers le ONO, et ce à plus grande vitesse. Bien que la pression d’observation soit considérée comme modérée, une forte proportion des remontées se trouve dans les corridors de navigation présents dans la zone d’étude. De plus, le corridor de navigation des navettes entre Saint-François et La Désirade comporte le plus grand risque relatif de collision mortelle. Une réduction de vitesse des embarcations fréquentant le corridor des navettes diminuerait significativement le risque de collision mortelle. Ces pistes de réflexion mèneront sans doute à d’autres études plus poussées afin de continuer à en apprendre sur l’écologie de cette espèce fascinante.
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.
Resumo:
The Arabian Sea is an area of complex air-sea interaction processes with seasonal reversing monsoons. The associated thermohaline variability in the upper layers appears to control the large scale monsoon flow which is not yet completely understood. The variability in the thermohaline fields is known to occur in temporal domain ranging from intra-diurnal to inter-annual time scales and on spatial domains of few tens of kilometers to few thousands of kilometers. In the Arabian Sea though the surface temperature was routinely measured by both conventional measurements and satellites, the corresponding information on the subsurface thermohaline field is very sparse due to the lack cw adequate measurements. In such cases the numerical models offer promise in providing information on the subsurface features given an initial thermohaline field and surface heat flux boundary conditions. This thesis is an outcome of investigations carried out on the various aspects of the thermohaline variability on different time scales. In addition to the description of the mean annual cycle. the one dimensional numerical models of Miller (1976) and Price et a1 (1986) are utilised to simulate the observed mixed layer characteristics at selected locations in the Arabian Sea on time scales ranging from intra-diurnal to synoptic scales under variable atmospheric forcing.
Resumo:
The standard separable two dimensional wavelet transform has achieved a great success in image denoising applications due to its sparse representation of images. However it fails to capture efficiently the anisotropic geometric structures like edges and contours in images as they intersect too many wavelet basis functions and lead to a non-sparse representation. In this paper a novel de-noising scheme based on multi directional and anisotropic wavelet transform called directionlet is presented. The image denoising in wavelet domain has been extended to the directionlet domain to make the image features to concentrate on fewer coefficients so that more effective thresholding is possible. The image is first segmented and the dominant direction of each segment is identified to make a directional map. Then according to the directional map, the directionlet transform is taken along the dominant direction of the selected segment. The decomposed images with directional energy are used for scale dependent subband adaptive optimal threshold computation based on SURE risk. This threshold is then applied to the sub-bands except the LLL subband. The threshold corrected sub-bands with the unprocessed first sub-band (LLL) are given as input to the inverse directionlet algorithm for getting the de-noised image. Experimental results show that the proposed method outperforms the standard wavelet-based denoising methods in terms of numeric and visual quality
Resumo:
The chemical composition and evaluation of Indian squid (Loligo duvauceli) mantle, epidermal connective tissue and tentacle is investigated in this current study. It is observed that squid mantle contains 22.2% total protein; 63.5% of the total protein is myofibrillar protein. The unique property of squid myofibrillar protein is its water solubility. Squid mantle contains 12.0% total collagen. Epidermal connective tissue has highest amounts of total collagen (17.8%). SDS-PAGE of total collagen identified high molecular weight α-, β- and γ- sub-chains. Amino acid profile analysis indicates that mantle and tentacle contain essential amino acids. Arginine forms a major portion of mantle collagen (272.5 g/100 g N). Isoleucine, glutamic acid and lysine are other amino acids that are found in significantly high amounts in the mantle. Sulphur containing cystine is deficit in mantle collagen. Papain digest of mantle and epidermal connective tissue is rich in uronic acid, while papain digest, collagenase digest and urea digest of epidermal connective tissue has significant amounts of sialic acid (25.2, 33.2 and 99.8 μmol /100 g, respectively). PAS staining of papain digest, collagenase digest and urea digest also identify the association of hexoses with low molecular weight collagen fragments. Histochemical sectioning also emphasized the localized distribution of collagen in epidermal and dermal region and very sparse fibres traverse the myotome bundles
Resumo:
Study on variable stars is an important topic of modern astrophysics. After the invention of powerful telescopes and high resolving powered CCD’s, the variable star data is accumulating in the order of peta-bytes. The huge amount of data need lot of automated methods as well as human experts. This thesis is devoted to the data analysis on variable star’s astronomical time series data and hence belong to the inter-disciplinary topic, Astrostatistics. For an observer on earth, stars that have a change in apparent brightness over time are called variable stars. The variation in brightness may be regular (periodic), quasi periodic (semi-periodic) or irregular manner (aperiodic) and are caused by various reasons. In some cases, the variation is due to some internal thermo-nuclear processes, which are generally known as intrinsic vari- ables and in some other cases, it is due to some external processes, like eclipse or rotation, which are known as extrinsic variables. Intrinsic variables can be further grouped into pulsating variables, eruptive variables and flare stars. Extrinsic variables are grouped into eclipsing binary stars and chromospheri- cal stars. Pulsating variables can again classified into Cepheid, RR Lyrae, RV Tauri, Delta Scuti, Mira etc. The eruptive or cataclysmic variables are novae, supernovae, etc., which rarely occurs and are not periodic phenomena. Most of the other variations are periodic in nature. Variable stars can be observed through many ways such as photometry, spectrophotometry and spectroscopy. The sequence of photometric observa- xiv tions on variable stars produces time series data, which contains time, magni- tude and error. The plot between variable star’s apparent magnitude and time are known as light curve. If the time series data is folded on a period, the plot between apparent magnitude and phase is known as phased light curve. The unique shape of phased light curve is a characteristic of each type of variable star. One way to identify the type of variable star and to classify them is by visually looking at the phased light curve by an expert. For last several years, automated algorithms are used to classify a group of variable stars, with the help of computers. Research on variable stars can be divided into different stages like observa- tion, data reduction, data analysis, modeling and classification. The modeling on variable stars helps to determine the short-term and long-term behaviour and to construct theoretical models (for eg:- Wilson-Devinney model for eclips- ing binaries) and to derive stellar properties like mass, radius, luminosity, tem- perature, internal and external structure, chemical composition and evolution. The classification requires the determination of the basic parameters like pe- riod, amplitude and phase and also some other derived parameters. Out of these, period is the most important parameter since the wrong periods can lead to sparse light curves and misleading information. Time series analysis is a method of applying mathematical and statistical tests to data, to quantify the variation, understand the nature of time-varying phenomena, to gain physical understanding of the system and to predict future behavior of the system. Astronomical time series usually suffer from unevenly spaced time instants, varying error conditions and possibility of big gaps. This is due to daily varying daylight and the weather conditions for ground based observations and observations from space may suffer from the impact of cosmic ray particles. Many large scale astronomical surveys such as MACHO, OGLE, EROS, xv ROTSE, PLANET, Hipparcos, MISAO, NSVS, ASAS, Pan-STARRS, Ke- pler,ESA, Gaia, LSST, CRTS provide variable star’s time series data, even though their primary intention is not variable star observation. Center for Astrostatistics, Pennsylvania State University is established to help the astro- nomical community with the aid of statistical tools for harvesting and analysing archival data. Most of these surveys releases the data to the public for further analysis. There exist many period search algorithms through astronomical time se- ries analysis, which can be classified into parametric (assume some underlying distribution for data) and non-parametric (do not assume any statistical model like Gaussian etc.,) methods. Many of the parametric methods are based on variations of discrete Fourier transforms like Generalised Lomb-Scargle peri- odogram (GLSP) by Zechmeister(2009), Significant Spectrum (SigSpec) by Reegen(2007) etc. Non-parametric methods include Phase Dispersion Minimi- sation (PDM) by Stellingwerf(1978) and Cubic spline method by Akerlof(1994) etc. Even though most of the methods can be brought under automation, any of the method stated above could not fully recover the true periods. The wrong detection of period can be due to several reasons such as power leakage to other frequencies which is due to finite total interval, finite sampling interval and finite amount of data. Another problem is aliasing, which is due to the influence of regular sampling. Also spurious periods appear due to long gaps and power flow to harmonic frequencies is an inherent problem of Fourier methods. Hence obtaining the exact period of variable star from it’s time series data is still a difficult problem, in case of huge databases, when subjected to automation. As Matthew Templeton, AAVSO, states “Variable star data analysis is not always straightforward; large-scale, automated analysis design is non-trivial”. Derekas et al. 2007, Deb et.al. 2010 states “The processing of xvi huge amount of data in these databases is quite challenging, even when looking at seemingly small issues such as period determination and classification”. It will be beneficial for the variable star astronomical community, if basic parameters, such as period, amplitude and phase are obtained more accurately, when huge time series databases are subjected to automation. In the present thesis work, the theories of four popular period search methods are studied, the strength and weakness of these methods are evaluated by applying it on two survey databases and finally a modified form of cubic spline method is intro- duced to confirm the exact period of variable star. For the classification of new variable stars discovered and entering them in the “General Catalogue of Vari- able Stars” or other databases like “Variable Star Index“, the characteristics of the variability has to be quantified in term of variable star parameters.