967 resultados para Natural language techniques, Semantic spaces, Random projection, Documents
Resumo:
En contra del que molts pares i mestres pensen, i en contra del que s'ha trobat en contextos d'adquisició natural de segones llengües i d'immersió, començar al més aviat possible l'aprenentatge d'idiomes, sobretot pel que fa a les tasques cognitivament més exigents, com l'escriptura, no sembla l'opció més eficaç. Els resultats del Grup de Recerca en Adquisició de Llengües (GRAL) estudià aprenents d'anglès que començaren als vuit i onze anys i trobaren, sistemàticament, que a llarg termini, després de les mateixes hores d'instrucció, eren els més grans, que havien començat als onze anys, els que obtenien millors resultats en totes les proves orals i escrites d'anglès excepte en alguna de prova de reconeixement fonètic. La maduresa cognitiva dels alumnes més grans i els diferents mecanismes d¿aprenentatge implícit i explícit entre els nens més petits i els adults ajuden a explicar per què només començar abans l'aprenentatge d'idiomes no sembla suficient per obtenir millors resultats.
Resumo:
Resum: En estas páginas se recogen y analizan los fragmentos más interesantes del doblaje al castellano de Alicia en el País de las Maravillas desde una perspectiva teórica y descriptiva. Se descubren así la domesticación y adaptación como principales técnicas de traducción y la ausencia de un único método de traducción.
Resumo:
We propose a deep study on tissue modelization andclassification Techniques on T1-weighted MR images. Threeapproaches have been taken into account to perform thisvalidation study. Two of them are based on FiniteGaussian Mixture (FGM) model. The first one consists onlyin pure gaussian distributions (FGM-EM). The second oneuses a different model for partial volume (PV) (FGM-GA).The third one is based on a Hidden Markov Random Field(HMRF) model. All methods have been tested on a DigitalBrain Phantom image considered as the ground truth. Noiseand intensity non-uniformities have been added tosimulate real image conditions. Also the effect of ananisotropic filter is considered. Results demonstratethat methods relying in both intensity and spatialinformation are in general more robust to noise andinhomogeneities. However, in some cases there is nosignificant differences between all presented methods.
Resumo:
Recently, several anonymization algorithms have appeared for privacy preservation on graphs. Some of them are based on random-ization techniques and on k-anonymity concepts. We can use both of them to obtain an anonymized graph with a given k-anonymity value. In this paper we compare algorithms based on both techniques in orderto obtain an anonymized graph with a desired k-anonymity value. We want to analyze the complexity of these methods to generate anonymized graphs and the quality of the resulting graphs.
Resumo:
Résumé Cette thèse est consacrée à l'analyse, la modélisation et la visualisation de données environnementales à référence spatiale à l'aide d'algorithmes d'apprentissage automatique (Machine Learning). L'apprentissage automatique peut être considéré au sens large comme une sous-catégorie de l'intelligence artificielle qui concerne particulièrement le développement de techniques et d'algorithmes permettant à une machine d'apprendre à partir de données. Dans cette thèse, les algorithmes d'apprentissage automatique sont adaptés pour être appliqués à des données environnementales et à la prédiction spatiale. Pourquoi l'apprentissage automatique ? Parce que la majorité des algorithmes d'apprentissage automatiques sont universels, adaptatifs, non-linéaires, robustes et efficaces pour la modélisation. Ils peuvent résoudre des problèmes de classification, de régression et de modélisation de densité de probabilités dans des espaces à haute dimension, composés de variables informatives spatialisées (« géo-features ») en plus des coordonnées géographiques. De plus, ils sont idéaux pour être implémentés en tant qu'outils d'aide à la décision pour des questions environnementales allant de la reconnaissance de pattern à la modélisation et la prédiction en passant par la cartographie automatique. Leur efficacité est comparable au modèles géostatistiques dans l'espace des coordonnées géographiques, mais ils sont indispensables pour des données à hautes dimensions incluant des géo-features. Les algorithmes d'apprentissage automatique les plus importants et les plus populaires sont présentés théoriquement et implémentés sous forme de logiciels pour les sciences environnementales. Les principaux algorithmes décrits sont le Perceptron multicouches (MultiLayer Perceptron, MLP) - l'algorithme le plus connu dans l'intelligence artificielle, le réseau de neurones de régression généralisée (General Regression Neural Networks, GRNN), le réseau de neurones probabiliste (Probabilistic Neural Networks, PNN), les cartes auto-organisées (SelfOrganized Maps, SOM), les modèles à mixture Gaussiennes (Gaussian Mixture Models, GMM), les réseaux à fonctions de base radiales (Radial Basis Functions Networks, RBF) et les réseaux à mixture de densité (Mixture Density Networks, MDN). Cette gamme d'algorithmes permet de couvrir des tâches variées telle que la classification, la régression ou l'estimation de densité de probabilité. L'analyse exploratoire des données (Exploratory Data Analysis, EDA) est le premier pas de toute analyse de données. Dans cette thèse les concepts d'analyse exploratoire de données spatiales (Exploratory Spatial Data Analysis, ESDA) sont traités selon l'approche traditionnelle de la géostatistique avec la variographie expérimentale et selon les principes de l'apprentissage automatique. La variographie expérimentale, qui étudie les relations entre pairs de points, est un outil de base pour l'analyse géostatistique de corrélations spatiales anisotropiques qui permet de détecter la présence de patterns spatiaux descriptible par une statistique. L'approche de l'apprentissage automatique pour l'ESDA est présentée à travers l'application de la méthode des k plus proches voisins qui est très simple et possède d'excellentes qualités d'interprétation et de visualisation. Une part importante de la thèse traite de sujets d'actualité comme la cartographie automatique de données spatiales. Le réseau de neurones de régression généralisée est proposé pour résoudre cette tâche efficacement. Les performances du GRNN sont démontrées par des données de Comparaison d'Interpolation Spatiale (SIC) de 2004 pour lesquelles le GRNN bat significativement toutes les autres méthodes, particulièrement lors de situations d'urgence. La thèse est composée de quatre chapitres : théorie, applications, outils logiciels et des exemples guidés. Une partie importante du travail consiste en une collection de logiciels : Machine Learning Office. Cette collection de logiciels a été développée durant les 15 dernières années et a été utilisée pour l'enseignement de nombreux cours, dont des workshops internationaux en Chine, France, Italie, Irlande et Suisse ainsi que dans des projets de recherche fondamentaux et appliqués. Les cas d'études considérés couvrent un vaste spectre de problèmes géoenvironnementaux réels à basse et haute dimensionnalité, tels que la pollution de l'air, du sol et de l'eau par des produits radioactifs et des métaux lourds, la classification de types de sols et d'unités hydrogéologiques, la cartographie des incertitudes pour l'aide à la décision et l'estimation de risques naturels (glissements de terrain, avalanches). Des outils complémentaires pour l'analyse exploratoire des données et la visualisation ont également été développés en prenant soin de créer une interface conviviale et facile à l'utilisation. Machine Learning for geospatial data: algorithms, software tools and case studies Abstract The thesis is devoted to the analysis, modeling and visualisation of spatial environmental data using machine learning algorithms. In a broad sense machine learning can be considered as a subfield of artificial intelligence. It mainly concerns with the development of techniques and algorithms that allow computers to learn from data. In this thesis machine learning algorithms are adapted to learn from spatial environmental data and to make spatial predictions. Why machine learning? In few words most of machine learning algorithms are universal, adaptive, nonlinear, robust and efficient modeling tools. They can find solutions for the classification, regression, and probability density modeling problems in high-dimensional geo-feature spaces, composed of geographical space and additional relevant spatially referenced features. They are well-suited to be implemented as predictive engines in decision support systems, for the purposes of environmental data mining including pattern recognition, modeling and predictions as well as automatic data mapping. They have competitive efficiency to the geostatistical models in low dimensional geographical spaces but are indispensable in high-dimensional geo-feature spaces. The most important and popular machine learning algorithms and models interesting for geo- and environmental sciences are presented in details: from theoretical description of the concepts to the software implementation. The main algorithms and models considered are the following: multi-layer perceptron (a workhorse of machine learning), general regression neural networks, probabilistic neural networks, self-organising (Kohonen) maps, Gaussian mixture models, radial basis functions networks, mixture density networks. This set of models covers machine learning tasks such as classification, regression, and density estimation. Exploratory data analysis (EDA) is initial and very important part of data analysis. In this thesis the concepts of exploratory spatial data analysis (ESDA) is considered using both traditional geostatistical approach such as_experimental variography and machine learning. Experimental variography is a basic tool for geostatistical analysis of anisotropic spatial correlations which helps to understand the presence of spatial patterns, at least described by two-point statistics. A machine learning approach for ESDA is presented by applying the k-nearest neighbors (k-NN) method which is simple and has very good interpretation and visualization properties. Important part of the thesis deals with a hot topic of nowadays, namely, an automatic mapping of geospatial data. General regression neural networks (GRNN) is proposed as efficient model to solve this task. Performance of the GRNN model is demonstrated on Spatial Interpolation Comparison (SIC) 2004 data where GRNN model significantly outperformed all other approaches, especially in case of emergency conditions. The thesis consists of four chapters and has the following structure: theory, applications, software tools, and how-to-do-it examples. An important part of the work is a collection of software tools - Machine Learning Office. Machine Learning Office tools were developed during last 15 years and was used both for many teaching courses, including international workshops in China, France, Italy, Ireland, Switzerland and for realizing fundamental and applied research projects. Case studies considered cover wide spectrum of the real-life low and high-dimensional geo- and environmental problems, such as air, soil and water pollution by radionuclides and heavy metals, soil types and hydro-geological units classification, decision-oriented mapping with uncertainties, natural hazards (landslides, avalanches) assessments and susceptibility mapping. Complementary tools useful for the exploratory data analysis and visualisation were developed as well. The software is user friendly and easy to use.
Resumo:
Phenomena with a constrained sample space appear frequently in practice. This is the case e.g. with strictly positive data, or with compositional data, like percentages or proportions. If the natural measure of difference is not the absolute one, simple algebraic properties show that it is more convenient to work with a geometry different from the usual Euclidean geometry in real space, and with a measure different from the usual Lebesgue measure, leading to alternative models which better fit the phenomenon under study. The general approach is presented and illustrated using the normal distribution, both on the positive real line and on the D-part simplex. The original ideas of McAlister in his introduction to the lognormal distribution in 1879, are recovered and updated
Resumo:
The present paper advocates for the creation of a federated, hybrid database in the cloud, integrating law data from all available public sources in one single open access system - adding, in the process, relevant meta-data to the indexed documents, including the identification of social and semantic entities and the relationships between them, using linked open data techniques and standards such as RDF. Examples of potential benefits and applications of this approach are also provided, including, among others, experiences from of our previous research, in which data integration, graph databases and social and semantic networks analysis were used to identify power relations, litigation dynamics and cross-references patterns both intra and inter-institutionally, covering most of the World international economic courts.
Resumo:
This documents sums up a projectaimed at building a new web interfaceto the Apertium machine translationplatform, including pre-editing andpost-editing environments. It containsa description of the accomplished workon this project, as well as an overviewof possible evolutions.
Resumo:
Le partage et la réutilisation d'objets d'apprentissage est encore une utopie. La mise en commun de documents pédagogiques et leur adaptation à différents contextes ont fait l'objet de très nombreux travaux. L'un des aspects qui fait problème concerne leur description qui se doit d'être aussi précise que possible afin d'en faciliter la gestion et plus spécifiquement un accès ciblé. Cette description s'effectue généralement par l'instanciation d'un ensemble de descripteurs standardisés ou métadonnées (LOM, ARIADNE, DC, etc). Force est de constater que malgré l'existence de ces standards, dont certains sont relativement peu contraignants, peu de pédagogues ou d'auteurs se prêtent à cet exercice qui reste lourd et peu gratifiant. Nous sommes parti de l'idée que si l'indexation pouvait être réalisée automatiquement avec un bon degré d'exactitude, une partie de la solution serait trouvée. Pour ce, nous nous sommes tout d'abord penché sur l'analyse des facteurs bloquants de la génération manuelle effectuée par les ingénieurs pédagogiques de l'Université de Lausanne. La complexité de ces facteurs (humains et techniques) nous a conforté dans l'idée que la génération automatique de métadonnées était bien de nature à contourner les difficultés identifiées. Nous avons donc développé une application de génération automatique de métadonnées laquelle se focalise sur le contenu comme source unique d'extraction. Une analyse en profondeur des résultats obtenus, nous a permis de constater que : - Pour les documents non structurés : notre application présente des résultats satisfaisants en se basant sur les indicateurs de mesure de qualité des métadonnées (complétude, précision, consistance logique et cohérence). - Pour des documents structurés : la génération automatique s'est révélée peu satisfaisante dans la mesure où elle ne permet pas d'exploiter les éléments sémantiques (structure, annotations) qu'ils contiennent. Et dans ce cadre nous avons pensé qu'il était possible de faire mieux. C'est ainsi que nous avons poursuivi nos travaux afin de proposer une deuxième application tirant profit du potentiel des documents structurés et des langages de transformation (XSLT) qui s'y rapportent pour améliorer la recherche dans ces documents. Cette dernière exploite la totalité des éléments sémantiques (structure, annotations) et constitue une autre alternative à la recherche basée sur les métadonnées. De plus, la recherche basée sur les annotations et la structure offre comme avantage supplémentaire de permettre de retrouver, non seulement les documents eux-mêmes, mais aussi des parties de documents. Cette caractéristique apporte une amélioration considérable par rapport à la recherche par métadonnées qui ne donne accès qu'à des documents entiers. En conclusion nous montrerons, à travers des exemples appropriés, que selon le type de document : il est possible de procéder automatiquement à leur indexation pour faciliter la recherche de documents dès lors qu'il s'agit de documents non structurés ou d'exploiter directement leur contenu sémantique dès lors qu'il s'agit de documents structurés.
Resumo:
Tämän tutkimuksen aiheena on tilintarkastuksen historiallinen kehittyminen Suomessa runsaan sadan vuoden aikana. Tutkimuksen tavoitteena on analysoida osakeyhtiön tilintarkastuksen kehitystä ja yhdistää vuosisadan kehityspiirteet tilintarkastuksen kokonaiskuvaksi. Tutkittava periodi alkaa 1800-luvun lopulta ja päättyy 2000-luvun taitteeseen. Tutkimuksessa tarkastellaan suomalaista tilintarkastusinstituutiota, joka jaetaan kolmeen osaan: tilintarkastusta säätelevään normistoon (normit), tilintarkastajajärjestelmään (toimijat) ja tilintarkastuksen sisältöön (tehtävät). Tutkimuksessa tavoitellaan vastauksia kysymyksiin: mitä tarkastettiin, milloin tarkastettiin, kuka tarkasti ja miten tarkastettiin eri aikakausina? Tutkimus perustuu historialliseen lähdeaineistoon, jonka muodostavat tutkimusajanjakson lainsäädäntö, lainvalmisteluasiakirjat, viranomaisten ohjeet ja päätökset, alan järjestöjen suositukset, ammattilehtien artikkelit sekä laskentatoimen ja tilintarkastuksen ammattikirjallisuus. Metodologisesti tutkimus on teoreettinen, kvalitatiivinen historiantutkimus, jossa lähdeaineistoa käsitellään lähdekriittisesti ja osittain sisältöanalyysin keinoin. Tilintarkastusta säätelevässä normistossa keskeisiä lakeja ovat olleet osakeyhtiölaki, kirjanpitolaki ja tilintarkastuslaki. Lakisääteinen tilintarkastus alkoi vuoden 1895 osakeyhtiölaista, joka uudistui vuonna 1978 ja jälleen vuonna 1997. Kirjanpitolainsäädäntö on uudistunut viidesti: 1925 ja 1928, 1945, 1973, 1993 sekä 1997. Vuoden 1994 tilintarkastuslakiin koottiin tilintarkastuksen säädökset useista laeista. Muita normistoja ovat olleet EY:n direktiivit, Kilan ohjeet, KHT-yhdistyksen suositukset, Keskuskauppakamarin säännökset ja viimeisimpinä IAS- ja ISA-standardit. Ammattimainen tilintarkastajajärjestelmä saatiin maahamme kauppiaskokousten ansiosta. Ammattimaisena tilintarkastuksen toimijana aloitti Suomen Tilintarkastajainyhdistys vuonna 1911, ja sen toimintaa jatkoi KHT-yhdistys vuodesta 1925 alkaen. Tilintarkastajien auktorisointi siirtyi Keskuskauppakamarille vuonna 1924. HTM-tilintarkastajat ovat olleet alalla vuodesta 1950 lähtien. Kauppakamarijärjestö on toiminut hyväksyttyjen tilintarkastajien valvojana koko ammattimaisen tilintarkastustoiminnan ajan. Valtion valvontaa suorittaa VALA (Valtion tilintarkastuslautakunta). Koko tutkittavan periodin ajan auktorisoitujen tilintarkastajien rinnalla osakeyhtiöiden tarkastajina ovat toimineet myös maallikot.Tilintarkastuksen tehtäviin kuului vuoden 1895 osakeyhtiölain mukaan hallinnon ja tilien tarkastus. Myöhemmin sisältö täsmentyi tilinpäätöksen, kirjanpidon ja hallinnon tarkastukseksi. Tutkimusajanjakson alussa tilintarkastus oli manuaalista kaikkien tositteiden prikkausta ja virheiden etsimistä. Myöhemmin tarkastus muuttui pistokokeiksi. Kertatarkastuksesta siirryttiin jatkuvaan valvontatarkastukseen 1900-luvun alkupuolella. Dokumentoinnista ja työpapereista alkaa olla havaintoja 1930-luvulta lähtien. Atk-tarkastus yleistyi 1970- ja 1980-luvuilla, jolloin myös riskianalyyseihin alettiin kiinnittää huomiota. Hallinnon tarkastuksen merkitys on kasvanut kaiken aikaa. Tilintarkastuskertomukset olivat tutkimusajanjakson alussa vapaamuotoisia ja sisällöltään ilmaisurikkaita ja kuvailevia. Kertomus muuttui julkiseksi vuoden 1978 osakeyhtiölain myötä. Myöhemmin KHT-yhdistyksen vakiokertomusmallit yhdenmukaistivat ja pelkistivät raportointia. Tutkimuksen perusteella tilintarkastuksen historia voidaan jakaa kolmeen kauteen, jotka ovat tilintarkastusinstituution rakentumisen kausi (1895 - 1950), vakiintumisen kausi (1951 - 1985) ja kansainvälistymisen ja julkisuuden kausi (1986 alkaen). Tutkimusajanjakson jokaisella vuosikymmenellä keskusteltiin jatkuvasti tilintarkastajien riittävyydestä, alalle pääsyn ja tutkintojen vaikeudesta, tilintarkastajien ammattitaidon tasosta,hallinnon tarkastuksen sisällöstä, tilintarkastuskertomuksesta sekä maallikkotarkastajien asemasta. 1990-luvun keskeisimmät keskusteluaiheet olivat konsultointi, riippumattomuus, odotuskuilu sekä tilintarkastuksen taso ja laadunvalvonta. Analysoitaessa tilintarkastuksen muutoksia runsaan sadan vuoden ajalta voidaan todeta, että tilintarkastuksen ydintehtävät eivät juurikaan ole muuttuneet vuosikymmenien kuluessa. Osakeyhtiön tilintarkastus on edelleenkin laillisuustarkastusta. Sen tarkoituksena on yhä kirjanpidon, tilinpäätöksen ja hallinnon tarkastus. Tilintarkastajat valvovat osakkeenomistajien etua ja raportoivat heille tarkastuksen tuloksista. Tilintarkastuksen ulkoinen maailma sen sijaan on muuttunut vuosikymmenten saatossa. Kansainvälistyminen on lisännyt säännösten määrää, odotuksia ja vaatimuksia on nykyisin enemmän, uusi tekniikka mahdollistaa nopean tiedonkulun ja valvonta on lisääntynyt nykypäivää kohti tultaessa. Tilintarkastajan pätevyys perustuu nykyään tietotekniikan, tietojärjestelmien ja yrityksen toimialantuntemukseen. Runsaan sadan vuoden takaisen lain vaarinpitovaatimuksesta on tultu virtuaaliaikaiseen maailmaan!
Resumo:
A beautiful smile is directly related with white teeth. Nowadays oral care has increased and developed processes for beautiful smiles. Dental bleaching is frequently used in odontology, not just for health care also for aesthetic treatment. With the possibility of teeth bleaching, now the importance is in, how white the tooth is? Because color is relate to an individual perception. In order to assets teeth correct color identification has been developed many color guides, models, spaces and analytical methods. Spite all of these useful tools the color interpretation depends on environmental factors, position of the sample in the data acquisition and most importantly the instrument sensitivity. The commons methods have proved to be useful. They are easy to handle, some are portable but they do not have a high sensitivity. The present work is based on the integration of a new analytical technique for color acquisition. High spectral Image (HSI) is able to performed image analysis with high quality and efficiency. HSI is used in many fields and we used it for color image analysis within the bleaching process. The main comparison was done with the HSI and the colorimeter through the processes of two different bleaching protocols. The results showed that HSI has higher sensitivity than the colorimeter. During the analysis the dental surface with the HSI we were able to notice surface changes. These changes were analyzed by roughness studies.