225 resultados para indexation automatique
Resumo:
PériCulture est le nom d'un projet de recherche à l'Université de Montréal qui fait partie d'un projet plus vaste basé à l'Université de Sherbrooke. Ce dernier visait à former un réseau de recherche pour la gestion du contenu culturel numérique canadien. L'objectif général de la recherche de PériCulture était d'étudier les méthodes d'indexation de contenus culturels non textuels sur le Web, plus spécifiquement des images. Les résultats de la recherche présentés ici s'appuient sur des travaux précédents en indexation d'images et en indexation automatique (de texte), par l'étude des propriétés du texte associé à des images dans un environnement réseau. Le but était de comprendre la façon dont le texte associé à des images sur des pages Web (appelé péritexte) peut être exploité pour indexer les images correspondantes. Nous avons étudié cette question dans le contexte de pages Web sélectionnées, c'est à dire : des pages de contenu culturel canadien contenant des objets multimédia auxquels était associé du texte (plus que simplement les noms de fichiers et les légendes) et qui étaient bilingues (anglais et français). Nous avons identifié les mots-clés utiles à l'indexation situés à proximité de l'objet décrit. Les termes d'indexation potentiels ont été identifiés dans diverses balises HTML et dans le texte intégral (chacun étant considéré comme une source différente de péritexte). Notre étude a révélé qu'un grand nombre de termes d'indexation utiles sont disponibles dans le péritexte de nombreux sites Web ayant un contenu culturel, et ce péritexte de différentes sources a une utilité variable dans la recherche d’information. Nos résultats suggèrent que ces termes peuvent être exploités de différentes manières dans les systèmes de recherche d’information pour améliorer les résultats de recherche.
Resumo:
This research project is a contribution to the global field of information retrieval, specifically, to develop tools to enable information access in digital documents. We recognize the need to provide the user with flexible access to the contents of large, potentially complex digital documents, with means other than a search function or a handful of metadata elements. The goal is to produce a text browsing tool offering a maximum of information based on a fairly superficial linguistic analysis. We are concerned with a type of extensive single-document indexing, and not indexing by a set of keywords (see Klement, 2002, for a clear distinction between the two). The desired browsing tool would not only give at a glance the main topics discussed in the document, but would also present relationships between these topics. It would also give direct access to the text (via hypertext links to specific passages). The present paper, after reviewing previous research on this and similar topics, discusses the methodology and the main characteristics of a prototype we have devised. Experimental results are presented, as well as an analysis of remaining hurdles and potential applications.
Resumo:
Dans cet article, nous examinons le sort des documents qui ne sont pas destinés à vivre longtemps et qui ne méritent ainsi aucun traitement documentaire traditionnel. Nous défendrons la thèse que les traitements automatiques, bien que produisant des résultats de moindre qualité que les traitements humains, ont leur place pour le traitement de certains documents éphémères. Ils doivent cependant répondre à des normes de qualité qu’il faut définir de nouveau dans le contexte numérique.
Resumo:
We investigate the claims of superiority of fundamental indexation strategy over capitalisation-weighted indexation by using data for Australian Securities Exchange (ASX) listed stocks. Whilst our results are in line with the outperformance observed in other geographical markets, we find that the excess returns from fundamental indexation in Australian market are much higher. On a rolling 5-year basis, the fundamental index always outperforms the capitalisation-weighted index. Our results suggest that superior performance of fundamental indexation could not be entirely attributed to value, size, or momentum effects. The outperformance persists even after adjusting for slightly higher transaction costs related to turnover.
Resumo:
In the principles-and-parameters model of language, the principle known as "free indexation'' plays an important part in determining the referential properties of elements such as anaphors and pronominals. This paper addresses two issues. (1) We investigate the combinatorics of free indexation. In particular, we show that free indexation must produce an exponential number of referentially distinct structures. (2) We introduce a compositional free indexation algorithm. We prove that the algorithm is "optimal.'' More precisely, by relating the compositional structure of the formulation to the combinatorial analysis, we show that the algorithm enumerates precisely all possible indexings, without duplicates.
Resumo:
La mise en registre 3D (opération parfois appelée alignement) est un processus de transformation d’ensembles de données 3D dans un même système de coordonnées afin d’en aligner les éléments communs. Deux ensembles de données alignés ensemble peuvent être les scans partiels des deux vues différentes d’un même objet. Ils peuvent aussi être deux modèles complets, générés à des moments différents, d’un même objet ou de deux objets distincts. En fonction des ensembles de données à traiter, les méthodes d’alignement sont classées en mise en registre rigide ou non-rigide. Dans le cas de la mise en registre rigide, les données sont généralement acquises à partir d’objets rigides. Le processus de mise en registre peut être accompli en trouvant une seule transformation rigide globale (rotation, translation) pour aligner l’ensemble de données source avec l’ensemble de données cible. Toutefois, dans le cas non-rigide, où les données sont acquises à partir d’objets déformables, le processus de mise en registre est plus difficile parce qu’il est important de trouver à la fois une transformation globale et des déformations locales. Dans cette thèse, trois méthodes sont proposées pour résoudre le problème de mise en registre non-rigide entre deux ensembles de données (représentées par des maillages triangulaires) acquises à partir d’objets déformables. La première méthode permet de mettre en registre deux surfaces se chevauchant partiellement. La méthode surmonte les limitations des méthodes antérieures pour trouver une grande déformation globale entre deux surfaces. Cependant, cette méthode est limitée aux petites déformations locales sur la surface afin de valider le descripteur utilisé. La seconde méthode est s’appuie sur le cadre de la première et est appliquée à des données pour lesquelles la déformation entre les deux surfaces est composée à la fois d’une grande déformation globale et de petites déformations locales. La troisième méthode, qui se base sur les deux autres méthodes, est proposée pour la mise en registre d’ensembles de données qui sont plus complexes. Bien que la qualité que elle fournit n’est pas aussi bonne que la seconde méthode, son temps de calcul est accéléré d’environ quatre fois parce que le nombre de paramètres optimisés est réduit de moitié. L’efficacité des trois méthodes repose sur des stratégies via lesquelles les correspondances sont déterminées correctement et le modèle de déformation est exploité judicieusement. Ces méthodes sont mises en oeuvre et comparées avec d’autres méthodes sur diverses données afin d’évaluer leur robustesse pour résoudre le problème de mise en registre non-rigide. Les méthodes proposées sont des solutions prometteuses qui peuvent être appliquées dans des applications telles que la mise en registre non-rigide de vues multiples, la reconstruction 3D dynamique, l’animation 3D ou la recherche de modèles 3D dans des banques de données.
Resumo:
Département de linguistique et de traduction
Resumo:
Depuis quelques années, Internet est devenu un média incontournable pour la diffusion de ressources multilingues. Cependant, les différences linguistiques constituent souvent un obstacle majeur aux échanges de documents scientifiques, culturels, pédagogiques et commerciaux. En plus de cette diversité linguistique, on constate le développement croissant de bases de données et de collections composées de différents types de documents textuels ou multimédias, ce qui complexifie également le processus de repérage documentaire. En général, on considère l’image comme « libre » au point de vue linguistique. Toutefois, l’indexation en vocabulaire contrôlé ou libre (non contrôlé) confère à l’image un statut linguistique au même titre que tout document textuel, ce qui peut avoir une incidence sur le repérage. Le but de notre recherche est de vérifier l’existence de différences entre les caractéristiques de deux approches d’indexation pour les images ordinaires représentant des objets de la vie quotidienne, en vocabulaire contrôlé et en vocabulaire libre, et entre les résultats obtenus au moment de leur repérage. Cette étude suppose que les deux approches d’indexation présentent des caractéristiques communes, mais également des différences pouvant influencer le repérage de l’image. Cette recherche permet de vérifier si l’une ou l’autre de ces approches d’indexation surclasse l’autre, en termes d’efficacité, d’efficience et de satisfaction du chercheur d’images, en contexte de repérage multilingue. Afin d’atteindre le but fixé par cette recherche, deux objectifs spécifiques sont définis : identifier les caractéristiques de chacune des deux approches d’indexation de l’image ordinaire représentant des objets de la vie quotidienne pouvant influencer le repérage, en contexte multilingue et exposer les différences sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images à repérer des images ordinaires représentant des objets de la vie quotidienne indexées à l’aide d’approches offrant des caractéristiques variées, en contexte multilingue. Trois modes de collecte des données sont employés : l’analyse des termes utilisés pour l’indexation des images, la simulation du repérage d’un ensemble d’images indexées selon chacune des formes d’indexation à l’étude réalisée auprès de soixante répondants, et le questionnaire administré aux participants pendant et après la simulation du repérage. Quatre mesures sont définies pour cette recherche : l’efficacité du repérage d’images, mesurée par le taux de succès du repérage calculé à l’aide du nombre d’images repérées; l’efficience temporelle, mesurée par le temps, en secondes, utilisé par image repérée; l’efficience humaine, mesurée par l’effort humain, en nombre de requêtes formulées par image repérée et la satisfaction du chercheur d’images, mesurée par son autoévaluation suite à chaque tâche de repérage effectuée. Cette recherche montre que sur le plan de l’indexation de l’image ordinaire représentant des objets de la vie quotidienne, les approches d’indexation étudiées diffèrent fondamentalement l’une de l’autre, sur le plan terminologique, perceptuel et structurel. En outre, l’analyse des caractéristiques des deux approches d’indexation révèle que si la langue d’indexation est modifiée, les caractéristiques varient peu au sein d’une même approche d’indexation. Finalement, cette recherche souligne que les deux approches d’indexation à l’étude offrent une performance de repérage des images ordinaires représentant des objets de la vie quotidienne différente sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images, selon l’approche et la langue utilisées pour l’indexation.
Resumo:
La présente recherche a pour but de faire le point sur l'état du droit canadien et sur ses perspectives futures en relation avec les œuvres créées par ordinateurs. L'outil terminologique choisi pour notre objectif est le logiciel de traduction automatique multilingue qui, à cause de sa complexité, s'éloigne le plus du programmeur « créateur» et se rapproche le plus d'œuvres qui ne peuvent être directement attribuées aux linguistes et programmeurs. Ces outils et leurs créations seront d'après nous les prochains outils technologiques à confronter le droit. En effet, dans un avenir prévisible, considérant l'évolution technologique, ces logiciels produiront des textes qui bénéficieront d'une valeur commerciale ajoutée et c'est alors que certains feront valoir leurs « droits », non seulement sur les textes mais aussi sur la technologie. Pour atteindre cet objectif, nous débuterons par un retour historique sur la technologie et ses origines. Par la suite, nous ferons une analyse de la protection actuelle accordée aux logiciels, aux banques de données et aux traductions qu'ils produisent. Nous déterminerons ensuite qui sera responsable des textes produits en relation avec le texte d'origine et avec sa résultante au niveau du droit d'auteur et de celui de la responsabilité civile. Cette recherche nous amènera à conclure que le droit actuel est « mésadapté » tant à l'égard de la protection qu'au niveau de la responsabilité. Ces conclusions devront d'après nous imposer un retour aux principes fondamentaux du droit. Ce fondamentalisme légal sera pour nous le prix à payer pour la légitimité. En effet, plus particulièrement concernant le droit d'auteur, nous conclurons qu'il devra cesser d'être le « fourre-tout» du droit de la propriété intellectuelle et redevenir ce qu'il doit être: un droit qui protège la créativité. Cette démarche prospective tirera ses racines du fait que nous serons obligés de conclure que les juristes canadiens ont refusé, à tort à notre point de vue, de renvoyer au monde des brevets les méthodes et procédés nouveaux et inventifs, ce qui donc a introduit des problématiques inutiles qui exacerbent l'incertitude. Finalement, notre cheminement nous dirigera vers le droit de la responsabilité où nous soutiendrons que le fournisseur ne peut actuellement être responsable du texte produit puisqu'il ne participe pas directement aux choix et ne porte pas atteinte au contenu. Voici donc en quelques mots le cœur de notre recherche qui entrouvre une boîte de Pandore.