978 resultados para Blog datasets


Relevância:

10.00% 10.00%

Publicador:

Resumo:

Lexical processing among bilinguals is often affected by complex patterns of individual experience. In this paper we discuss the psychocentric perspective on language representation and processing, which highlights the centrality of individual experience in psycholinguistic experimentation. We discuss applications to the investigation of lexical processing among multilinguals and explore the advantages of using high-density experiments with multilinguals. High density experiments are designed to co-index measures of lexical perception and production, as well as participant profiles. We discuss the challenges associated with the characterization of participant profiles and present a new data visualization technique, that we term Facial Profiles. This technique is based on Chernoff faces developed over 40 years ago. The Facial Profile technique seeks to overcome some of the challenges associated with the use of Chernoff faces, while maintaining the core insight that recoding multivariate data as facial features can engage the human face recognition system and thus enhance our ability to detect and interpret patterns within multivariate datasets. We demonstrate that Facial Profiles can code participant characteristics in lexical processing studies by recoding variables such as reading ability, speaking ability, and listening ability into iconically-related relative sizes of eye, mouth, and ear, respectively. The balance of ability in bilinguals can be captured by creating composite facial profiles or Janus Facial Profiles. We demonstrate the use of Facial Profiles and Janus Facial Profiles in the characterization of participant effects in the study of lexical perception and production.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

As a result of mutation in genes, which is a simple change in our DNA, we will have undesirable phenotypes which are known as genetic diseases or disorders. These small changes, which happen frequently, can have extreme results. Understanding and identifying these changes and associating these mutated genes with genetic diseases can play an important role in our health, by making us able to find better diagnosis and therapeutic strategies for these genetic diseases. As a result of years of experiments, there is a vast amount of data regarding human genome and different genetic diseases that they still need to be processed properly to extract useful information. This work is an effort to analyze some useful datasets and to apply different techniques to associate genes with genetic diseases. Two genetic diseases were studied here: Parkinson’s disease and breast cancer. Using genetic programming, we analyzed the complex network around known disease genes of the aforementioned diseases, and based on that we generated a ranking for genes, based on their relevance to these diseases. In order to generate these rankings, centrality measures of all nodes in the complex network surrounding the known disease genes of the given genetic disease were calculated. Using genetic programming, all the nodes were assigned scores based on the similarity of their centrality measures to those of the known disease genes. Obtained results showed that this method is successful at finding these patterns in centrality measures and the highly ranked genes are worthy as good candidate disease genes for being studied. Using standard benchmark tests, we tested our approach against ENDEAVOUR and CIPHER - two well known disease gene ranking frameworks - and we obtained comparable results.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The curse of dimensionality is a major problem in the fields of machine learning, data mining and knowledge discovery. Exhaustive search for the most optimal subset of relevant features from a high dimensional dataset is NP hard. Sub–optimal population based stochastic algorithms such as GP and GA are good choices for searching through large search spaces, and are usually more feasible than exhaustive and deterministic search algorithms. On the other hand, population based stochastic algorithms often suffer from premature convergence on mediocre sub–optimal solutions. The Age Layered Population Structure (ALPS) is a novel metaheuristic for overcoming the problem of premature convergence in evolutionary algorithms, and for improving search in the fitness landscape. The ALPS paradigm uses an age–measure to control breeding and competition between individuals in the population. This thesis uses a modification of the ALPS GP strategy called Feature Selection ALPS (FSALPS) for feature subset selection and classification of varied supervised learning tasks. FSALPS uses a novel frequency count system to rank features in the GP population based on evolved feature frequencies. The ranked features are translated into probabilities, which are used to control evolutionary processes such as terminal–symbol selection for the construction of GP trees/sub-trees. The FSALPS metaheuristic continuously refines the feature subset selection process whiles simultaneously evolving efficient classifiers through a non–converging evolutionary process that favors selection of features with high discrimination of class labels. We investigated and compared the performance of canonical GP, ALPS and FSALPS on high–dimensional benchmark classification datasets, including a hyperspectral image. Using Tukey’s HSD ANOVA test at a 95% confidence interval, ALPS and FSALPS dominated canonical GP in evolving smaller but efficient trees with less bloat expressions. FSALPS significantly outperformed canonical GP and ALPS and some reported feature selection strategies in related literature on dimensionality reduction.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The curse of dimensionality is a major problem in the fields of machine learning, data mining and knowledge discovery. Exhaustive search for the most optimal subset of relevant features from a high dimensional dataset is NP hard. Sub–optimal population based stochastic algorithms such as GP and GA are good choices for searching through large search spaces, and are usually more feasible than exhaustive and determinis- tic search algorithms. On the other hand, population based stochastic algorithms often suffer from premature convergence on mediocre sub–optimal solutions. The Age Layered Population Structure (ALPS) is a novel meta–heuristic for overcoming the problem of premature convergence in evolutionary algorithms, and for improving search in the fitness landscape. The ALPS paradigm uses an age–measure to control breeding and competition between individuals in the population. This thesis uses a modification of the ALPS GP strategy called Feature Selection ALPS (FSALPS) for feature subset selection and classification of varied supervised learning tasks. FSALPS uses a novel frequency count system to rank features in the GP population based on evolved feature frequencies. The ranked features are translated into probabilities, which are used to control evolutionary processes such as terminal–symbol selection for the construction of GP trees/sub-trees. The FSALPS meta–heuristic continuously refines the feature subset selection process whiles simultaneously evolving efficient classifiers through a non–converging evolutionary process that favors selection of features with high discrimination of class labels. We investigated and compared the performance of canonical GP, ALPS and FSALPS on high–dimensional benchmark classification datasets, including a hyperspectral image. Using Tukey’s HSD ANOVA test at a 95% confidence interval, ALPS and FSALPS dominated canonical GP in evolving smaller but efficient trees with less bloat expressions. FSALPS significantly outperformed canonical GP and ALPS and some reported feature selection strategies in related literature on dimensionality reduction.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Feature selection plays an important role in knowledge discovery and data mining nowadays. In traditional rough set theory, feature selection using reduct - the minimal discerning set of attributes - is an important area. Nevertheless, the original definition of a reduct is restrictive, so in one of the previous research it was proposed to take into account not only the horizontal reduction of information by feature selection, but also a vertical reduction considering suitable subsets of the original set of objects. Following the work mentioned above, a new approach to generate bireducts using a multi--objective genetic algorithm was proposed. Although the genetic algorithms were used to calculate reduct in some previous works, we did not find any work where genetic algorithms were adopted to calculate bireducts. Compared to the works done before in this area, the proposed method has less randomness in generating bireducts. The genetic algorithm system estimated a quality of each bireduct by values of two objective functions as evolution progresses, so consequently a set of bireducts with optimized values of these objectives was obtained. Different fitness evaluation methods and genetic operators, such as crossover and mutation, were applied and the prediction accuracies were compared. Five datasets were used to test the proposed method and two datasets were used to perform a comparison study. Statistical analysis using the one-way ANOVA test was performed to determine the significant difference between the results. The experiment showed that the proposed method was able to reduce the number of bireducts necessary in order to receive a good prediction accuracy. Also, the influence of different genetic operators and fitness evaluation strategies on the prediction accuracy was analyzed. It was shown that the prediction accuracies of the proposed method are comparable with the best results in machine learning literature, and some of them outperformed it.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Digital Terrain Models (DTMs) are important in geology and geomorphology, since elevation data contains a lot of information pertaining to geomorphological processes that influence the topography. The first derivative of topography is attitude; the second is curvature. GIS tools were developed for derivation of strike, dip, curvature and curvature orientation from Digital Elevation Models (DEMs). A method for displaying both strike and dip simultaneously as colour-coded visualization (AVA) was implemented. A plug-in for calculating strike and dip via Least Squares Regression was created first using VB.NET. Further research produced a more computationally efficient solution, convolution filtering, which was implemented as Python scripts. These scripts were also used for calculation of curvature and curvature orientation. The application of these tools was demonstrated by performing morphometric studies on datasets from Earth and Mars. The tools show promise, however more work is needed to explore their full potential and possible uses.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Affiliation: Henner Brinkmann : Département de biochimie, Faculté de médecine, Université de Montreal

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Affiliation: Département de Biochimie, Faculté de médecine, Université de Montréal

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Affiliation: Département de Biochimie, Faculté de médecine, Université de Montréal

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Affiliation: Centre Robert-Cedergren de l'Université de Montréal en bio-informatique et génomique & Département de biochimie, Université de Montréal

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Affiliation: Département de Biochimie, Université de Montréal

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L‘obésité constitue un problème de santé publique au Canada, particulièrement chez les populations autochtones où les prévalences les plus élevées ont été rapportées. D’après les écrits recensés, plusieurs méthodes ont été essayées pour étudier la relation entre l’alimentation et l’obésité, mais les résultats sont inconstants. Le but de cette thèse est d’identifier, en termes quantitatif et qualitatif, les différences dans l’alimentation des obèses et non-obèses. Pour y parvenir, nous avons développé une nouvelle méthode à l’aide d’une banque de données portant sur les enfants Mohawk de Kahnawake afin d’identifier les différences dans les choix alimentaires. Cette même méthode a été ensuite appliquée à deux autres banques de données (celle des adultes cris de la Baie James et celle des autochtones de l’enquête ESCC 2.2). Globalement, les résultats n’ont pas montré de différences significatives dans l’alimentation des participants selon les catégories d’IMC en considérant les indicateurs reliés à la quantité et à la qualité de l’alimentation comme l’apport énergétique total, l’apport énergétique en provenance des lipides, les fibres alimentaires, la densité énergétique et la diversité alimentaire. Par contre, les résultats de la nouvelle méthode fondée sur la sélection des items alimentaires fréquemment consommés par au moins 10 % des participants ont révélé que les enfants de Kahnawake à risque d’excès de poids consommaient plus fréquemment de croustilles (p=0.001) et moins fréquemment de craquelins que les enfants avec excès de poids ou ceux ayant un poids normal (p=0.015). Ensuite, en prenant la catégorie de poids normal comme référence, le rapport de côte (Odds ratio : OR) d’être à risque d’excès de poids était de 2.16 (95 % IC : 1.14 - 4.09) fois plus élevé chez les enfants de Kahnawake qui consommaient plus fréquemment de croustilles comparativement aux non-consommateurs de croustilles, et ce, après ajustement pour l’âge. Par contre, le rapport de côte d’être à risque d’excès de poids diminuait de 79 % (OR = 0.21; 95 % IC : 0.06 – 0.72) chez les enfants consommateurs de craquelins comparativement à leurs homologues non-consommateurs. Après avoir corrigé les quantités pour l’âge, on note que les enfants avec excès de poids consommaient plus de frites que les enfants à risque d’excès de poids ou ceux ayant un poids normal (p = 0.027). Chez les femmes cries, les résultats de la nouvelle méthode ont montré que le colorant à café était associé à un risque élevé d’obésité (OR = 4.64, 95 % IC : 1.04 - 0.54); alors que le lait faible en matières grasses était associé à un moindre risque d’embonpoint (OR = 0.38, 95 % IC : 0.17 - 0.82), après ajustement pour l’âge. Quant aux hommes cris, le lait entier était associé à un moindre risque d’avoir de l’embonpoint (OR ajusté pour l’âge = 0.38, 95 % IC : 0.20 - 0.71) et, en termes de quantité corrigée pour l’âge, les hommes obèses buvaient plus de boissons sucrées aux fruits comparativement aux hommes de poids normal ou ceux ayant de l’embonpoint (p=0.015). Selon les résultats de cette méthode appliquée aux données de l’enquête ESCC 2.2, les garçons à risque d’excès de poids ou avec excès de poids consommaient moins fréquemment de pain blanc que ceux de poids normal (p=0.048). En termes de quantité toutefois, ils consommaient plus de pain blanc (p=0.040), utilisaient plus de farine de blé (p=0.006) et de levure (p=0.002). Après avoir ajusté les quantités consommées pour l’âge et l’indice d’activité physique, les femmes avec embonpoint ou obèses utilisaient plus de farine de blé (p< 0.001) que leurs homologues de poids normal. Chez les hommes, il n'y avait pas de différences ni dans les fréquences de consommation ni dans les quantités consommées. Concernant les filles, leurs apports alimentaires n'étaient pas valides (facteur d'activité de Goldberg < 1.2 dans la catégorie embonpoint / obèse). Les résultats de cette méthode innovatrice pourraient d’une part, permettre d’axer la sensibilisation sur des aliments particuliers en plus des recommandations générales du Guide Alimentaire Canadien. D’autre part, ils nous renvoient aux données biologiques de laboratoire afin d’identifier les composantes des items susceptibles de contribuer au développement de l’obésité.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Il a été démontré que l’hétérotachie, variation du taux de substitutions au cours du temps et entre les sites, est un phénomène fréquent au sein de données réelles. Échouer à modéliser l’hétérotachie peut potentiellement causer des artéfacts phylogénétiques. Actuellement, plusieurs modèles traitent l’hétérotachie : le modèle à mélange des longueurs de branche (MLB) ainsi que diverses formes du modèle covarion. Dans ce projet, notre but est de trouver un modèle qui prenne efficacement en compte les signaux hétérotaches présents dans les données, et ainsi améliorer l’inférence phylogénétique. Pour parvenir à nos fins, deux études ont été réalisées. Dans la première, nous comparons le modèle MLB avec le modèle covarion et le modèle homogène grâce aux test AIC et BIC, ainsi que par validation croisée. A partir de nos résultats, nous pouvons conclure que le modèle MLB n’est pas nécessaire pour les sites dont les longueurs de branche diffèrent sur l’ensemble de l’arbre, car, dans les données réelles, le signaux hétérotaches qui interfèrent avec l’inférence phylogénétique sont généralement concentrés dans une zone limitée de l’arbre. Dans la seconde étude, nous relaxons l’hypothèse que le modèle covarion est homogène entre les sites, et développons un modèle à mélanges basé sur un processus de Dirichlet. Afin d’évaluer différents modèles hétérogènes, nous définissons plusieurs tests de non-conformité par échantillonnage postérieur prédictif pour étudier divers aspects de l’évolution moléculaire à partir de cartographies stochastiques. Ces tests montrent que le modèle à mélanges covarion utilisé avec une loi gamma est capable de refléter adéquatement les variations de substitutions tant à l’intérieur d’un site qu’entre les sites. Notre recherche permet de décrire de façon détaillée l’hétérotachie dans des données réelles et donne des pistes à suivre pour de futurs modèles hétérotaches. Les tests de non conformité par échantillonnage postérieur prédictif fournissent des outils de diagnostic pour évaluer les modèles en détails. De plus, nos deux études révèlent la non spécificité des modèles hétérogènes et, en conséquence, la présence d’interactions entre différents modèles hétérogènes. Nos études suggèrent fortement que les données contiennent différents caractères hétérogènes qui devraient être pris en compte simultanément dans les analyses phylogénétiques.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Eurybia et ses proches parents Oreostemma, Herrickia et Triniteurybia sont appelés le grade des eurybioïdes. Comprenant 31 espèces vivaces, ce grade appartient au clade Nord-américain de la tribu des Astereae. Les analyses moléculaires antérieures ont montré que ce groupe est à la fois paraphylétique aux Machaerantherinae et un groupe frère aux Symphyotrichinae. Les relations infragénériques partiellement résolues et faiblement supportées empêchent d’approfondir l'histoire évolutive des groupes et ce, particulièrement dans le genre principal Eurybia. Le but de cette étude est de reconstruire les relations phylogénétiques au sein des eurybioïdes autant par l'inclusion de toutes les espèces du grade que par l’utilisation de différents types de régions et de méthodes d'inférence phylogénétique. Cette étude présente des phylogénies basées sur l'ADN ribosomal nucléaire (ITS, ETS), de l'ADN chloroplastique (trnL-F, trnS-G, trnC-ycf6) et d’un locus du génome nucléaire à faible nombre de copie (CNGC4). Les données sont analysées séparément et combinées à l’aide des approches de parcimonie, bayesienne et de maximum de vraisemblance. Les données ADNnr n’ont pas permis de résoudre les relations entre les espèces polyploïdes des Eurybia. Les analyses combinées avec des loci d’ADNnr et d’ADNnr+cp ont donc été limitées à des diploïdes. Les analyses combinées ont montré une meilleure résolution et un meilleur support que les analyses séparées. La topologie de l’ADNnr+cp était la mieux résolue et supportée. La relation phylogénétique de genres appartenant au grade des eurybioïdes est comme suit : Oreostemma (Herrickia s.str. (Herrickia kingii (Eurybia (Triniteurybia - Machaerantherinae)))). Basé sur la topologie combinée de l’ADNnr+cp, nous avons effectué des analyses de biogéographie à l’aide des logiciels DIVA et LaGrange. Ces analyses ont révélé une première radiation des eurybioïdes dans l’Ouest de l’Amérique du Nord, suivi de deux migrations indépendantes dans l’Est de l’Amérique du Nord chez les Eurybia. Due au relatif manque de variabilité de l’ADNnr, l’ADNcp et CNGC4, où le triage de lignés incomplet était dominant, l'origine du grade est interprétée comme récente, possiblement du Pliocène. La diversification du groupe a été probablement favorisée par les glaciations Pléistocènes.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Internet change notre manière de traiter l’information. Il change aussi les discours de tous les jours. De plus, des gens ont commencé à écrire, sur le web, des textes qui se sont imposés par la suite au milieu éditorial. Quel impact Internet a-t-il sur la littérature ? Je me sers de mon corpus (Les chroniques d’une mère indigne de Caroline Allard, Un taxi la nuit de Pierre-Léon Lalonde et Lucie le chien de Sophie Bienvenu) pour répondre à cette question : je cherche à démontrer que le blogue constitue un nouveau genre littéraire. Internet, d’abord, marque matériellement ce nouveau genre. Ensuite, que le blogue soit présenté sur le web ou dans un livre, il fonctionne essentiellement à partir d’anecdotes qui tournent autour d’un thème central, défini par un blogueur qui se met en scène en tant que personnage. Ces caractéristiques du blogue permettent de le comparer à deux genres qui lui ressemblent : le journal intime et l’essai. Le blogue est différent du journal intime à plusieurs points de vue, les plus importants étant le thème développé dans le blogue et le personnage que le blogueur construit. Par ailleurs, il ne peut être considéré comme un type d’essai : son caractère fortement anecdotique lui confère une visée plus narrative et un blogueur ne réfléchit pas sur le monde de la même manière qu’un essayiste. Bref, le blogue est un genre à part entière, tout jeune, qui se distingue suffisamment du journal intime et de l’essai pour être étudié avec des outils spécifiques.