21 resultados para maximum de vraisemblance

em Université de Lausanne, Switzerland


Relevância:

70.00% 70.00%

Publicador:

Resumo:

SummaryDiscrete data arise in various research fields, typically when the observations are count data.I propose a robust and efficient parametric procedure for estimation of discrete distributions. The estimation is done in two phases. First, a very robust, but possibly inefficient, estimate of the model parameters is computed and used to indentify outliers. Then the outliers are either removed from the sample or given low weights, and a weighted maximum likelihood estimate (WML) is computed.The weights are determined via an adaptive process such that if the data follow the model, then asymptotically no observation is downweighted.I prove that the final estimator inherits the breakdown point of the initial one, and that its influence function at the model is the same as the influence function of the maximum likelihood estimator, which strongly suggests that it is asymptotically fully efficient.The initial estimator is a minimum disparity estimator (MDE). MDEs can be shown to have full asymptotic efficiency, and some MDEs have very high breakdown points and very low bias under contamination. Several initial estimators are considered, and the performances of the WMLs based on each of them are studied.It results that in a great variety of situations the WML substantially improves the initial estimator, both in terms of finite sample mean square error and in terms of bias under contamination. Besides, the performances of the WML are rather stable under a change of the MDE even if the MDEs have very different behaviors.Two examples of application of the WML to real data are considered. In both of them, the necessity for a robust estimator is clear: the maximum likelihood estimator is badly corrupted by the presence of a few outliers.This procedure is particularly natural in the discrete distribution setting, but could be extended to the continuous case, for which a possible procedure is sketched.RésuméLes données discrètes sont présentes dans différents domaines de recherche, en particulier lorsque les observations sont des comptages.Je propose une méthode paramétrique robuste et efficace pour l'estimation de distributions discrètes. L'estimation est faite en deux phases. Tout d'abord, un estimateur très robuste des paramètres du modèle est calculé, et utilisé pour la détection des données aberrantes (outliers). Cet estimateur n'est pas nécessairement efficace. Ensuite, soit les outliers sont retirés de l'échantillon, soit des faibles poids leur sont attribués, et un estimateur du maximum de vraisemblance pondéré (WML) est calculé.Les poids sont déterminés via un processus adaptif, tel qu'asymptotiquement, si les données suivent le modèle, aucune observation n'est dépondérée.Je prouve que le point de rupture de l'estimateur final est au moins aussi élevé que celui de l'estimateur initial, et que sa fonction d'influence au modèle est la même que celle du maximum de vraisemblance, ce qui suggère que cet estimateur est pleinement efficace asymptotiquement.L'estimateur initial est un estimateur de disparité minimale (MDE). Les MDE sont asymptotiquement pleinement efficaces, et certains d'entre eux ont un point de rupture très élevé et un très faible biais sous contamination. J'étudie les performances du WML basé sur différents MDEs.Le résultat est que dans une grande variété de situations le WML améliore largement les performances de l'estimateur initial, autant en terme du carré moyen de l'erreur que du biais sous contamination. De plus, les performances du WML restent assez stables lorsqu'on change l'estimateur initial, même si les différents MDEs ont des comportements très différents.Je considère deux exemples d'application du WML à des données réelles, où la nécessité d'un estimateur robuste est manifeste : l'estimateur du maximum de vraisemblance est fortement corrompu par la présence de quelques outliers.La méthode proposée est particulièrement naturelle dans le cadre des distributions discrètes, mais pourrait être étendue au cas continu.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Summary : During the evolutionary diversification of organisms, similar ecological constraints led to the recurrent appearances of the same traits (phenotypes) in distant lineages, a phenomenon called convergence. In most cases, the genetic origins of the convergent traits remain unknown, but recent studies traced the convergent phenotypes to recurrent alterations of the same gene or, in a few cases, to identical genetic changes. However, these cases remain anecdotal and there is a need for a study system that evolved several times independently and whose genetic determinism is well resolved and straightforward, such as C4 photosynthesis. This adaptation to warm environments, possibly driven by past atmospheric CO2 decreases, consists in a CO2-concentrating pump, created by numerous morphological and biochemical novelties. All genes encoding C4 enzymes already existed in C3 ancestors, and are supposed to have been recruited through gene duplication followed by neo-functionalization, to acquire the cell specific expression pattern and altered kinetic properties that characterize Ca-specific enzymes. These predictions have so far been tested only in species-poor and ecologically marginal C4 dicots. The monocots, and especially the grass family (Poaceae), the most important C4 family in terms of species number, ecological dominance and economical importance, have been largely under-considered as suitable study systems. This thesis aimed at understanding the evolution of the C4 trait in grasses at a molecular level and to use the genetics of C4 photosynthesis to infer the evolutionary history of the C4 phenotype and its driving selective pressures. A molecular phylogeny of grasses and affiliated monocots identified 17 to 18 independent acquisitions of the C4 pathway in the grass family. A relaxed molecular clock was used to date these events and the first C4 evolution was estimated in the Chloridoideae subfamily, between 32-25 million years ago, at a period when atmospheric CO2 abruptly declined. Likelihood models showed that after the COZ decline the probability of evolving the C4 pathway strongly increased, confirming low CO2 as a likely driver of C4 photosynthesis evolution. In order to depict the genetic changes linked to the numerous C4 origins, genes encoding phopshoenolpyruvate carboxylase (PEPC), the key-enzyme responsible for the initial fixation of atmospheric CO2 in the C4 pathway, were isolated from a large sample of C3 and C4 grasses. Phylogenetic analyses were used to reconstruct the evolutionary history of the PEPC multigene family and showed that the evolution of C4-specific PEPC had been driven by positive selection on 21 codons simultaneously in up to eight C4 lineages. These selective pressures led to numerous convergent genetic changes in many different C4 clades, highlighting the repeatability of some evolutionary processes, even at the molecular level. PEPC C4-adaptive changes were traced and used to show multiple appearances of the C, pathway in clades where species tree inferences were unable to differentiate multiple C4 appearances and a single appearance followed by C4 to C3 reversion. Further investigations of genes involved in some of the C4 subtypes only (genes encoding decarboxylating enzymes NADP-malic enzyme and phosphoenolpyruvate carboxykinase) showed that these C4-enzymes also evolved through strong positive selection and underwent parallel genetic changes during the different Ca origins. The adaptive changes on these subtype-specific C4 genes were used to retrace the history of the C4-subtypes phenotypes, which revealed that the evolution of C4-PEPC and C4-decarboxylating enzymes was in several cases disconnected, emphasizing the multiplicity of the C4 trait and the gradual acquisition of the features that create the CO2-pump. Finally, phylogenetic analyses of a gene encoding the Rubisco (the enzyme responsible for the fixation of CO2 into organic compounds in all photosynthetic organisms) showed that C4 evolution switched the selective pressures on this gene. Five codons were recurrently mutated to adapt the enzyme kinetics to the high CO2 concentrations of C4 photosynthetic cells. This knowledge could be used to introgress C4-like Rubisco in C3 crops, which could lead to an increased yield under predicted future high CO2 atmosphere. Globally, the phylogenetic framework adopted during this thesis demonstrated the widespread occurrence of genetic convergence on C4-related enzymes. The genetic traces of C4 photosynthesis evolution allowed reconstructing events that happened during the last 30 million years and proved the usefulness of studying genes directly responsible for phenotype variations when inferring evolutionary history of a given trait. Résumé Durant la diversification évolutive des organismes, des pressions écologiques similaires ont amené à l'apparition récurrente de certains traits (phénotypes) dans des lignées distantes, un phénomène appelé évolution convergente. Dans la plupart des cas, l'origine génétique des traits convergents reste inconnue mais des études récentes ont montré qu'ils étaient dus dans certains cas à des changements répétés du même gène ou, dans de rares cas, à des changements génétiques identiques. Malgré tout, ces cas restent anecdotiques et il y a un réel besoin d'un système d'étude qui ait évolué indépendamment de nombreuses fois et dont le déterminisme génétique soit clairement identifié. La photosynthèse dite en Ça répond à ces critères. Cette adaptation aux environnements chauds, dont l'évolution a pu être encouragé par des baisses passées de la concentration atmosphérique en CO2, est constituée de nombreuses nouveautés morphologiques et biochimiques qui créent une pompe à CO2. La totalité des gènes codant les enzymes Ç4 étaient déjà présents dans les ancêtres C3. Leur recrutement pour la photosynthèse Ç4 est supposé s'être fait par le biais de duplications géniques suivies par une néo-fonctionnalisation pour leur conférer l'expression cellule-spécifique et les propriétés cinétiques qui caractérisent les enzymes C4. Ces prédictions n'ont jusqu'à présent été testées que dans des familles C4 contenant peu d'espèces et ayant un rôle écologique marginal. Les graminées (Poaceae), qui sont la famille C4 la plus importante, tant en termes de nombre d'espèces que de dominance écologique et d'importance économique, ont toujours été considérés comme un système d'étude peu adapté et ont fait le sujet de peu d'investigations évolutives. Le but de cette thèse était de comprendre l'évolution de la photosynthèse en C4 chez les graminées au niveau génétique et d'utiliser les gènes pour inférer l'évolution du phénotype C4 ainsi que les pressions de sélection responsables de son évolution. Une phylogénie moléculaire de la famille des graminées et des monocotylédones apparentés a identifié 17 à 18 acquisitions indépendantes de la photosynthèse chez les graminées. Grâce à une méthode d'horloge moléculaire relâchée, ces évènements ont été datés et la première apparition C4 a été estimée dans la sous-famille des Chloridoideae, il y a 32 à 25 millions d'années, à une période où les concentrations atmosphériques de CO2 ont décliné abruptement. Des modèles de maximum de vraisemblance ont montré qu'à la suite du déclin de CO2, la probabilité d'évoluer la photosynthèse C4 a fortement augmenté, confirmant ainsi qu'une faible concentration de CO2 est une cause potentielle de l'évolution de la photosynthèse C4. Afin d'identifier les mécanismes génétiques responsables des évolutions répétées de la photosynthèse C4, un segment des gènes codant pour la phosphoénolpyruvate carboxylase (PEPC), l'enzyme responsable de la fixation initiale du CO2 atmosphérique chez les plantes C4, ont été séquencés dans une centaine de graminées C3 et C4. Des analyses phylogénétiques ont permis de reconstituer l'histoire évolutive de la famille multigénique des PEPC et ont montré que l'évolution de PEPC spécifiques à la photosynthèse Ça a été causée par de la sélection positive agissant sur 21 codons, et ce simultanément dans huit lignées C4 différentes. Cette sélection positive a conduit à un grand nombre de changements génétiques convergents dans de nombreux clades différents, ce qui illustre la répétabilité de certains phénomènes évolutifs, et ce même au niveau génétique. Les changements sur la PEPC liés au C4 ont été utilisés pour confirmer des évolutions indépendantes du phénotype C4 dans des clades où l'arbre des espèces était incapable de différencier des apparitions indépendantes d'une seule apparition suivie par une réversion de C4 en C3. En considérant des gènes codant des protéines impliquées uniquement dans certains sous-types C4 (deux décarboxylases, l'enzyme malique à NADP et la phosphoénolpyruvate carboxykinase), des études ultérieures ont montré que ces enzymes C4 avaient elles-aussi évolué sous forte sélection positive et subi des changements génétiques parallèles lors des différentes origines de la photosynthèse C4. Les changements adaptatifs sur ces gènes liés seulement à certains sous-types C4 ont été utilisés pour retracer l'histoire des phénotypes de sous-types C4, ce qui a révélé que les caractères formant le trait C4 ont, dans certains cas, évolué de manière déconnectée. Ceci souligne la multiplicité du trait C4 et l'acquisition graduelle de composants participant à la pompe à CO2 qu'est la photosynthèse C4. Finalement, des analyses phylogénétiques des gènes codant pour la Rubisco (l'enzyme responsable de la fixation du CO2 en carbones organiques dans tous les organismes photosynthétiques) ont montré que l'évolution de la photosynthèse Ça a changé les pressions de sélection sur ce gène. Cinq codons ont été mutés de façon répétée afin d'adapter les propriétés cinétiques de la Rubisco aux fortes concentrations de CO2 présentes dans les cellules photosynthétiques des plantes C4. Globalement, l'approche phylogénétique adoptée durant cette thèse de doctorat a permis de démontré des phénomène fréquents de convergence génétique sur les enzymes liées à la photosynthèse C4. Les traces génétiques de l'évolution de la photosynthèse C4 ont permis de reconstituer des évènements qui se sont produits durant les derniers 30 millions d'années et ont prouvé l'utilité d'étudier des gènes directement responsables des variations phénotypiques pour inférer l'histoire évolutive d'un trait donné.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Etude des modèles de Whittle markoviens probabilisés Résumé Le modèle de Whittle markovien probabilisé est un modèle de champ spatial autorégressif simultané d'ordre 1 qui exprime simultanément chaque variable du champ comme une moyenne pondérée aléatoire des variables adjacentes du champ, amortie d'un coefficient multiplicatif ρ, et additionnée d'un terme d'erreur (qui est une variable gaussienne homoscédastique spatialement indépendante, non mesurable directement). Dans notre cas, la moyenne pondérée est une moyenne arithmétique qui est aléatoire du fait de deux conditions : (a) deux variables sont adjacentes (au sens d'un graphe) avec une probabilité 1 − p si la distance qui les sépare est inférieure à un certain seuil, (b) il n'y a pas d'adjacence pour des distances au-dessus de ce seuil. Ces conditions déterminent un modèle d'adjacence (ou modèle de connexité) du champ spatial. Un modèle de Whittle markovien probabilisé aux conditions où p = 0 donne un modèle de Whittle classique qui est plus familier en géographie, économétrie spatiale, écologie, sociologie, etc. et dont ρ est le coefficient d'autorégression. Notre modèle est donc une forme probabilisée au niveau de la connexité du champ de la forme des modèles de Whittle classiques, amenant une description innovante de l'autocorrélation spatiale. Nous commençons par décrire notre modèle spatial en montrant les effets de la complexité introduite par le modèle de connexité sur le pattern de variances et la corrélation spatiale du champ. Nous étudions ensuite la problématique de l'estimation du coefficent d'autorégression ρ pour lequel au préalable nous effectuons une analyse approfondie de son information au sens de Fisher et de Kullback-Leibler. Nous montrons qu'un estimateur non biaisé efficace de ρ possède une efficacité qui varie en fonction du paramètre p, généralement de manière non monotone, et de la structure du réseau d'adjacences. Dans le cas où la connexité du champ est non observée, nous montrons qu'une mauvaise spécification de l'estimateur de maximum de vraisemblance de ρ peut biaiser celui-ci en fonction de p. Nous proposons dans ce contexte d'autres voies pour estimer ρ. Pour finir, nous étudions la puissance des tests de significativité de ρ pour lesquels les statistiques de test sont des variantes classiques du I de Moran (test de Cliff-Ord) et du I de Moran maximal (en s'inspirant de la méthode de Kooijman). Nous observons la variation de puissance en fonction du paramètre p et du coefficient ρ, montrant par cette voie la dualité de l'autocorrélation spatiale entre intensité et connectivité dans le contexte des modèles autorégressifs

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This book combines geostatistics and global mapping systems to present an up-to-the-minute study of environmental data. Featuring numerous case studies, the reference covers model dependent (geostatistics) and data driven (machine learning algorithms) analysis techniques such as risk mapping, conditional stochastic simulations, descriptions of spatial uncertainty and variability, artificial neural networks (ANN) for spatial data, Bayesian maximum entropy (BME), and more.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A gradual increase in Earth's surface temperatures marking the transition from the late Paleocene to early Eocene (55.8±0.2Ma), represents an extraordinary warming event known as Paleocene-Eocene Thermal Maximum (PETM). Both marine and continental sedimentary records during this period reveal evidences for the massive injection of isotopically light carbon. The carbon dioxide injection from multiple potential sources may have triggered the global warming. The importance of the PETM studies is due to the fact that the PETM bears some striking resemblances to the human-caused climate change unfolding today. Most notably, the culprit behind it was a massive injection of heat-trapping greenhouse gases into the atmosphere and oceans, comparable in volume to what our persistent burning of fossil fuels could deliver in coming centuries. The exact knowledge of what went on during the PETM could help us to foresee the future climate change. The response of the oceanic and continental environments to the PETM is different. Many factors might control the response of the environments to the PETM such as paleogeography, paleotopography, paleoenvironment, and paleodepth. To better understand the mechanisms triggering PETM events, two different environments were studied: 1) shallow marine to inner shelf environment (Wadi Nukhul, Sinai; and the Dababiya GSSP, Luxor, Egypt), and 2) terrestrial environments (northwestern India lignite mines) representing wetland, and fluvial environments (Esplugafreda, Spain) both highlighting the climatic changes observed in continental conditions. In the marine realm, the PETM is characterized by negative ö13Ccar and ô13Corg excursions and shifts in Ô15N to ~0%o values above the P/E boundary and persisting along the interval suggesting a bloom and high production of atmospheric N2-fixers. Decrease in carbonate contents could be due to dissolution and/or dilution by increasing detrital input. High Ti, K and Zr and decreased Si contents at the P/E boundary indicate high weathering index (CIA), which coincides with significant kaolinite input and suggests intense chemical weathering under humid conditions at the beginning of the PETM. Two anoxic intervals are observed along the PETM. The lower one may be linked to methane released from the continental shelf with no change in the redox proxies, where the upper anoxic to euxinic conditions are revealed by increasing U, Mo, V, Fe and the presence of small size pyrite framboids (2-5fim). Productivity sensitive elements (Cu, Ni, and Cd) show their maximum concentrated within the upper anoxic interval suggesting high productivity in surface water. The obtained data highlight that intense weathering and subsequent nutrient inputs are crucial parameters in the chain of the PETM events, triggering productivity during the recovery phase. In the terrestrial environments, the establishment of wetland conditions and consequence continental climatic shift towards more humid conditions led to migration of modern mammals northward following the extension of the tropical belts. Relative ages of this mammal event based on bio-chemo- and paleomagnetic stratigraphy support a migration path originating from Asia into Europe and North America, followed by later migration from Asia into India and suggests a barrier to migration that is likely linked to the timing of the India-Asia collision. In contrast, at Esplugafereda, northeastern Spain, the terrestrial environment reacted differently. Two significant S13C shifts with the lower one linked to the PETM and the upper corresponding to the Early Eocene Thermal Maximum (ETM2); 180/160 paleothermometry performed on two different soil carbonate nodule reveal a temperature increase of around 8°C during the PETM. The prominent increase in kaolinite content within the PETM is linked to increased runoff and/or weathering of adjacent and coeval soils. These results demonstrate that the PETM coincides globally with extreme climatic fluctuations and that terrestrial environments are very likely to record such climatic changes. - La transition Paléocène-Eocène (55,8±0,2 Ma) est marquée par un réchauffement extraordinaire communément appelé « Paleocene-Eocene Thermal Maximum » (PETM). Les données géochimiques caractérisant les sédiments marins et continentaux de cette période indiquent que ce réchauffement a été déclenché par une augmentation massive de CO2 lié à la déstabilisation des hydrates de méthane stockés le long des marges océaniques. L'étude des événements PETM constitue donc un bon analogue avec le réchauffement actuel. Le volume de CO2 émis durant le PETM est comparable avec le CO2 lié à l'activité actuelle humaine. La compréhension des causes du réchauffement du PETM peut être cruciale pour prévoir et évaluer les conséquences du réchauffement anthropogénique, en particulier les répercussions d'un tel réchauffement sur les domaines continentaux et océaniques. De nombreux facteurs entrent en ligne de compte dans le cas du PETM, tels que la paléogéographie, la paléotopographie et les paléoenvironnement. Pour mieux comprendre les réponses environnementales aux événements du PETM, 2 types d'environnements ont été choisis : (1) le domaine marin ouvert mais relativement peu profond (Wadi Nukhul. Sinai, Dababiya, Luxor, Egypte), (2) le milieu continental marécageux humide (mines de lignite, Inde) et fluviatile, semi-aride (Esplugafreda, Pyrénées espagnoles). Dans le domaine marin, le PETM est caractérisé par des excursions négatives du ô13Ccar et ô13Corg et un shift persistant des valeurs de 815N à ~ 0 %o indiquant une forte activité des organismes (bactéries) fixant l'azote. La diminution des carbonates observée durant le PETM peut-être due à des phénomènes de dissolution ou une augmentation des apports terrigènes. Des taux élevés en Ti, K et Zr et une diminution des montants de Si, reflétés par des valeurs des indices d'altération (CIA) qui coïncident avec une augmentation significative des apports de kaolinite impliquent une altération chimique accrue, du fait de conditions plus humides au début du PETM. Deux événements anoxiques globaux ont été mis en évidence durant le PETM. Le premier, situé dans la partie inférieur du PETM, serait lié à la libération des hydrates de méthane stockés le long des talus continentaux et ne correspond pas à des variations significatives des éléments sensibles aux changements de conditions redox. Le second est caractérisé par une augmentation des éléments U, Mo, V et Fe et la présence de petit framboids de pyrite dont la taille varie entre 2 et 5pm. Le second épisode anoxique est caractérisé par une forte augmentation des éléments sensibles aux changements de la productivité (Cu, Ni et Co), indiquant une augmentation de la productivité dans les eaux de surface. Les données obtenues mettent en évidence le rôle crucial joué par l'altération et les apports en nutriments qui en découlent. Ces paramètres sont cruciaux pour la succession des événements qui ont conduit au PETM, et plus particulièrement l'augmentation de la productivité dans la phase de récupération. Durant le PETM, le milieu continental est caractérisé par l'établissement de conditions humides qui ont facilité voir provoqué la migration des mammifères modernes qui ont suivi le déplacement de ces ceintures climatiques. L'âge de cette migration est basé sur des arguments chimiostratigraphiques (isotopes stables), biostratigraphiques et paléomagnétiques. Les données bibliographiques ainsi que celles que nous avons récoltées en Inde, montrent que les mammifères modernes ont d'abord migré depuis l'Asie vers l'Europe, puis dans le continent Nord américain. Ces derniers ne sont arrivés en Inde que plus tardivement, suggérant que le temps de leur migration est lié à la collision Inde-Asie. Dans le Nord-Est de l'Espagne (Esplugafreda), la réponse du milieu continental aux événements PETM est assez différente. Comme en Inde, deux excursions signicatives en ô13C ont été observées. La première correspond au PETM et la seconde est corrélée avec l'optimum thermique de l'Eocène précoce (ETM2). Les isotopes stables de l'oxygène mesurés 2 différents types de nodules calcaires provenant de paléosols suggère une augmentation de 10°C pendant le PETM. Une augmentation simultanée des taux de kaolinite indique une intensification de l'altération chimique et/ou de l'érosion de sols adjacents. Ces résultats démontrent que le PETM coïncide globalement avec des variations climatiques extrêmes qui sont très aisément reconnaissables dans les dépôts continentaux.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Abstract : In the subject of fingerprints, the rise of computers tools made it possible to create powerful automated search algorithms. These algorithms allow, inter alia, to compare a fingermark to a fingerprint database and therefore to establish a link between the mark and a known source. With the growth of the capacities of these systems and of data storage, as well as increasing collaboration between police services on the international level, the size of these databases increases. The current challenge for the field of fingerprint identification consists of the growth of these databases, which makes it possible to find impressions that are very similar but coming from distinct fingers. However and simultaneously, this data and these systems allow a description of the variability between different impressions from a same finger and between impressions from different fingers. This statistical description of the withinand between-finger variabilities computed on the basis of minutiae and their relative positions can then be utilized in a statistical approach to interpretation. The computation of a likelihood ratio, employing simultaneously the comparison between the mark and the print of the case, the within-variability of the suspects' finger and the between-variability of the mark with respect to a database, can then be based on representative data. Thus, these data allow an evaluation which may be more detailed than that obtained by the application of rules established long before the advent of these large databases or by the specialists experience. The goal of the present thesis is to evaluate likelihood ratios, computed based on the scores of an automated fingerprint identification system when the source of the tested and compared marks is known. These ratios must support the hypothesis which it is known to be true. Moreover, they should support this hypothesis more and more strongly with the addition of information in the form of additional minutiae. For the modeling of within- and between-variability, the necessary data were defined, and acquired for one finger of a first donor, and two fingers of a second donor. The database used for between-variability includes approximately 600000 inked prints. The minimal number of observations necessary for a robust estimation was determined for the two distributions used. Factors which influence these distributions were also analyzed: the number of minutiae included in the configuration and the configuration as such for both distributions, as well as the finger number and the general pattern for between-variability, and the orientation of the minutiae for within-variability. In the present study, the only factor for which no influence has been shown is the orientation of minutiae The results show that the likelihood ratios resulting from the use of the scores of an AFIS can be used for evaluation. Relatively low rates of likelihood ratios supporting the hypothesis known to be false have been obtained. The maximum rate of likelihood ratios supporting the hypothesis that the two impressions were left by the same finger when the impressions came from different fingers obtained is of 5.2 %, for a configuration of 6 minutiae. When a 7th then an 8th minutia are added, this rate lowers to 3.2 %, then to 0.8 %. In parallel, for these same configurations, the likelihood ratios obtained are on average of the order of 100,1000, and 10000 for 6,7 and 8 minutiae when the two impressions come from the same finger. These likelihood ratios can therefore be an important aid for decision making. Both positive evolutions linked to the addition of minutiae (a drop in the rates of likelihood ratios which can lead to an erroneous decision and an increase in the value of the likelihood ratio) were observed in a systematic way within the framework of the study. Approximations based on 3 scores for within-variability and on 10 scores for between-variability were found, and showed satisfactory results. Résumé : Dans le domaine des empreintes digitales, l'essor des outils informatisés a permis de créer de puissants algorithmes de recherche automatique. Ces algorithmes permettent, entre autres, de comparer une trace à une banque de données d'empreintes digitales de source connue. Ainsi, le lien entre la trace et l'une de ces sources peut être établi. Avec la croissance des capacités de ces systèmes, des potentiels de stockage de données, ainsi qu'avec une collaboration accrue au niveau international entre les services de police, la taille des banques de données augmente. Le défi actuel pour le domaine de l'identification par empreintes digitales consiste en la croissance de ces banques de données, qui peut permettre de trouver des impressions très similaires mais provenant de doigts distincts. Toutefois et simultanément, ces données et ces systèmes permettent une description des variabilités entre différentes appositions d'un même doigt, et entre les appositions de différents doigts, basées sur des larges quantités de données. Cette description statistique de l'intra- et de l'intervariabilité calculée à partir des minuties et de leurs positions relatives va s'insérer dans une approche d'interprétation probabiliste. Le calcul d'un rapport de vraisemblance, qui fait intervenir simultanément la comparaison entre la trace et l'empreinte du cas, ainsi que l'intravariabilité du doigt du suspect et l'intervariabilité de la trace par rapport à une banque de données, peut alors se baser sur des jeux de données représentatifs. Ainsi, ces données permettent d'aboutir à une évaluation beaucoup plus fine que celle obtenue par l'application de règles établies bien avant l'avènement de ces grandes banques ou par la seule expérience du spécialiste. L'objectif de la présente thèse est d'évaluer des rapports de vraisemblance calcul és à partir des scores d'un système automatique lorsqu'on connaît la source des traces testées et comparées. Ces rapports doivent soutenir l'hypothèse dont il est connu qu'elle est vraie. De plus, ils devraient soutenir de plus en plus fortement cette hypothèse avec l'ajout d'information sous la forme de minuties additionnelles. Pour la modélisation de l'intra- et l'intervariabilité, les données nécessaires ont été définies, et acquises pour un doigt d'un premier donneur, et deux doigts d'un second donneur. La banque de données utilisée pour l'intervariabilité inclut environ 600000 empreintes encrées. Le nombre minimal d'observations nécessaire pour une estimation robuste a été déterminé pour les deux distributions utilisées. Des facteurs qui influencent ces distributions ont, par la suite, été analysés: le nombre de minuties inclus dans la configuration et la configuration en tant que telle pour les deux distributions, ainsi que le numéro du doigt et le dessin général pour l'intervariabilité, et la orientation des minuties pour l'intravariabilité. Parmi tous ces facteurs, l'orientation des minuties est le seul dont une influence n'a pas été démontrée dans la présente étude. Les résultats montrent que les rapports de vraisemblance issus de l'utilisation des scores de l'AFIS peuvent être utilisés à des fins évaluatifs. Des taux de rapports de vraisemblance relativement bas soutiennent l'hypothèse que l'on sait fausse. Le taux maximal de rapports de vraisemblance soutenant l'hypothèse que les deux impressions aient été laissées par le même doigt alors qu'en réalité les impressions viennent de doigts différents obtenu est de 5.2%, pour une configuration de 6 minuties. Lorsqu'une 7ème puis une 8ème minutie sont ajoutées, ce taux baisse d'abord à 3.2%, puis à 0.8%. Parallèlement, pour ces mêmes configurations, les rapports de vraisemblance sont en moyenne de l'ordre de 100, 1000, et 10000 pour 6, 7 et 8 minuties lorsque les deux impressions proviennent du même doigt. Ces rapports de vraisemblance peuvent donc apporter un soutien important à la prise de décision. Les deux évolutions positives liées à l'ajout de minuties (baisse des taux qui peuvent amener à une décision erronée et augmentation de la valeur du rapport de vraisemblance) ont été observées de façon systématique dans le cadre de l'étude. Des approximations basées sur 3 scores pour l'intravariabilité et sur 10 scores pour l'intervariabilité ont été trouvées, et ont montré des résultats satisfaisants.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

We extend PML theory to account for information on the conditional moments up to order four, but without assuming a parametric model, to avoid a risk of misspecification of the conditional distribution. The key statistical tool is the quartic exponential family, which allows us to generalize the PML2 and QGPML1 methods proposed in Gourieroux et al. (1984) to PML4 and QGPML2 methods, respectively. An asymptotic theory is developed. The key numerical tool that we use is the Gauss-Freud integration scheme that solves a computational problem that has previously been raised in several fields. Simulation exercises demonstrate the feasibility and robustness of the methods [Authors]

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In the forensic examination of DNA mixtures, the question of how to set the total number of contributors (N) presents a topic of ongoing interest. Part of the discussion gravitates around issues of bias, in particular when assessments of the number of contributors are not made prior to considering the genotypic configuration of potential donors. Further complication may stem from the observation that, in some cases, there may be numbers of contributors that are incompatible with the set of alleles seen in the profile of a mixed crime stain, given the genotype of a potential contributor. In such situations, procedures that take a single and fixed number contributors as their output can lead to inferential impasses. Assessing the number of contributors within a probabilistic framework can help avoiding such complication. Using elements of decision theory, this paper analyses two strategies for inference on the number of contributors. One procedure is deterministic and focuses on the minimum number of contributors required to 'explain' an observed set of alleles. The other procedure is probabilistic using Bayes' theorem and provides a probability distribution for a set of numbers of contributors, based on the set of observed alleles as well as their respective rates of occurrence. The discussion concentrates on mixed stains of varying quality (i.e., different numbers of loci for which genotyping information is available). A so-called qualitative interpretation is pursued since quantitative information such as peak area and height data are not taken into account. The competing procedures are compared using a standard scoring rule that penalizes the degree of divergence between a given agreed value for N, that is the number of contributors, and the actual value taken by N. Using only modest assumptions and a discussion with reference to a casework example, this paper reports on analyses using simulation techniques and graphical models (i.e., Bayesian networks) to point out that setting the number of contributors to a mixed crime stain in probabilistic terms is, for the conditions assumed in this study, preferable to a decision policy that uses categoric assumptions about N.