Biblioteca Digital

989 resultados para Automatic term extraction

Robust Extraction of Text from Camera Images using Colour and Spatial Information Simultaneously

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The importance and use of text extraction from camera based coloured scene images is rapidly increasing with time. Text within a camera grabbed image can contain a huge amount of meta data about that scene. Such meta data can be useful for identification, indexing and retrieval purposes. While the segmentation and recognition of text from document images is quite successful, detection of coloured scene text is a new challenge for all camera based images. Common problems for text extraction from camera based images are the lack of prior knowledge of any kind of text features such as colour, font, size and orientation as well as the location of the probable text regions. In this paper, we document the development of a fully automatic and extremely robust text segmentation technique that can be used for any type of camera grabbed frame be it single image or video. A new algorithm is proposed which can overcome the current problems of text segmentation. The algorithm exploits text appearance in terms of colour and spatial distribution. When the new text extraction technique was tested on a variety of camera based images it was found to out perform existing techniques (or something similar). The proposed technique also overcomes any problems that can arise due to an unconstraint complex background. The novelty in the works arises from the fact that this is the first time that colour and spatial information are used simultaneously for the purpose of text extraction.

Fast automatic two-stage nonlinear model identification based on the extreme learning machine

Relevância:

30.00% 30.00%

Publicador:

Resumo:

It is convenient and effective to solve nonlinear problems with a model that has a linear-in-the-parameters (LITP) structure. However, the nonlinear parameters (e.g. the width of Gaussian function) of each model term needs to be pre-determined either from expert experience or through exhaustive search. An alternative approach is to optimize them by a gradient-based technique (e.g. Newton’s method). Unfortunately, all of these methods still need a lot of computations. Recently, the extreme learning machine (ELM) has shown its advantages in terms of fast learning from data, but the sparsity of the constructed model cannot be guaranteed. This paper proposes a novel algorithm for automatic construction of a nonlinear system model based on the extreme learning machine. This is achieved by effectively integrating the ELM and leave-one-out (LOO) cross validation with our two-stage stepwise construction procedure [1]. The main objective is to improve the compactness and generalization capability of the model constructed by the ELM method. Numerical analysis shows that the proposed algorithm only involves about half of the computation of orthogonal least squares (OLS) based method. Simulation examples are included to confirm the efficacy and superiority of the proposed technique.

Effect of short-term macrophage depletion in the development of posterior capsule opacification in rodents

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Aim: To evaluate the role of macrophages in the development of posterior capsule opacification (PCO). Methods: For this purpose, an extracapsular lens extraction was performed in 18 consecutive Sprague-Dawley rats. Animals were treated with liposomal clodronate (Cl MDP-lip-treated group, n = 10) or phosphate-buffered saline (PBS) (control group, n = 8) 1 day preoperatively and on the first day postoperatively, and sacrificed 3 days postoperatively. Masked clinical, light microscopy and immunohistochemistry studies were conducted. The Fisher exact test and randomisation test were used to assess statistically differences between groups. Results: A statistically significant reduction in the number of macrophages (ED1+, ED7+, ED8+) was found in the Cl MDP-lip-treated group compared with the PBS-lip-treated group (p = 0.048, p = 0.004, p = 0.027, respectively). There were no statistically significant differences with regards to the presence/absence of central opacification (p = 0.29) and capsular wrinkling (p = 0.21) as detected clinically between groups. Similarly, a qualitative evaluation of the degree of PCO with regards to lens epithelial cell (LEC) proliferation, capsular wrinkling and Soemmerring ring formation showed no statistically significance between groups (p = 0.27, p = 0.061, p = 1.0, respectively). However, a statistically significant reduction in the number of lens epithelial cells (LEC) counted in the centre of the posterior capsule was found in the Cl MDP-lip- treated group (p = 0.009). Conclusion: Depletion of macrophages was accompanied by a reduction in LEC in the centre of the posterior capsule in rodents.

Medical information extraction in European Portuguese

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The electronic storage of medical patient data is becoming a daily experience in most of the practices and hospitals worldwide. However, much of the data available is in free-form text, a convenient way of expressing concepts and events, but especially challenging if one wants to perform automatic searches, summarization or statistical analysis. Information Extraction can relieve some of these problems by offering a semantically informed interpretation and abstraction of the texts. MedInX, the Medical Information eXtraction system presented in this document, is the first information extraction system developed to process textual clinical discharge records written in Portuguese. The main goal of the system is to improve access to the information locked up in unstructured text, and, consequently, the efficiency of the health care process, by allowing faster and reliable access to quality information on health, for both patient and health professionals. MedInX components are based on Natural Language Processing principles, and provide several mechanisms to read, process and utilize external resources, such as terminologies and ontologies, in the process of automatic mapping of free text reports onto a structured representation. However, the flexible and scalable architecture of the system, also allowed its application to the task of Named Entity Recognition on a shared evaluation contest focused on Portuguese general domain free-form texts. The evaluation of the system on a set of authentic hospital discharge letters indicates that the system performs with 95% F-measure, on the task of entity recognition, and 95% precision on the task of relation extraction. Example applications, demonstrating the use of MedInX capabilities in real applications in the hospital setting, are also presented in this document. These applications were designed to answer common clinical problems related with the automatic coding of diagnoses and other health-related conditions described in the documents, according to the international classification systems ICD-9-CM and ICF. The automatic review of the content and completeness of the documents is an example of another developed application, denominated MedInX Clinical Audit system.

Extraction and purification of triterpenic acids from eucalypt bark

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A indústria da pasta e do papel é um sector importante da economia mundial, particularmente a que assenta em espécies de Eucalyptus. No entanto, essas indústrias geram quantidades significativas de correntes secundárias de subprodutos e resíduos de biomassa que podem ser exploradas em aplicações de valor acrescentado em vez de serem queimadas para produção de energia. Um exemplo nobre pode ser a produção de ácidos triterpénicos com estruturas dos tipos lupano, oleanano e ursano, dada a sua abundância em alguns destes resíduos, em particular na casca, adotando o conceito de biorrefinaria integrada numa fábrica de pasta. Estes compostos são conhecidos pelas suas inúmeras actividades biológicas, por exemplo, antioxidante, anti-inflamatória e antitumoral, e podem encontrar aplicações em produtos de elevado valor, tais como cosméticos, nutracêuticos ou farmacêuticos. Neste sentido, o estudo das potencialidades das cascas das espécies de eucalipto mais exploradas enquanto fontes de compostos triterpénicos é um tópico relevante. Por conseguinte, foram analisados e comparados em pormenor os teores e composições em ácidos triterpénicos (TTAs) das cascas externas de várias espécies de eucalipto (E. globulus, E. grandis, E. urograndis, E. maidenii e E. nitens). Os teores dos principais TTAs identificados nestas espécies variaram entre 4.5 g/kg no E. urograndis e 21.6 g/kg no E. nitens. Observou-se que as cascas externas de Eucalyptus de zonas temperadas e Mediterrânicas, nomeadamente E. nitens e E. globulus, são mais ricas em TTAs que as espécies de regiões tropicais e subtropicais. Além disso, a casca externa do E. globulus é claramente a mais rica em ácidos com estruturas do tipo ursano enquanto a do E. nitens é a mais rica em ácidos do tipo oleanano e lupano. Estes resultados levaram-nos a estudar a extração dos TTAs da casca de Eucalyptus, bem como a sua posterior concentração e purificação, a qual foi efetuada por extração sólido-líquido convencional combinada com a precipitação de solutos, e por extração com fluidos supercríticos (SFE). No que diz respeito à primeira abordagem referida, foi desenvolvido neste trabalho um método patenteado que permite obter extratos enriquecidos em TTAs das cascas de eucalipto baseado em tecnologias disponíveis no imediato. Em relação à segunda abordagem, e de forma a apostar em processos de baixo impacto ambiental exigidos pelas biorrefinarias do futuro, a SFE surge como uma opção natural. Assim, foi efetuada a SFE da casca caduca do E. globulus com dióxido de carbono puro e modificado para recuperar a fração de TTAs, e os resultados foram comparados com os obtidos por extração em Soxhlet com diclorometano. Foram realizados estudos preliminares sobre a influência da pressão (100-200 bar), a adição de co-solvente (0, 5 e 8% m/m de etanol), e operação em múltiplos passos a fim de avaliar a aplicabilidade da alternativa supercrítica para a sua produção eficiente e selectiva. Os resultados destacaram a influência da pressão e o importante papel resumo (cont.) desempenhado pelo co-solvente neste processo, cujo efeito foi mais relevante do que o aumento da pressão em várias dezenas de bar. Este trabalho foi depois otimizado, usando o planeamento factorial de experiências e a metodologia de superfícies de resposta, para analisar a influência da temperatura (40-60 ºC), pressão (100-200 bar), e teor de etanol (0.0-5.0% m/m) na recuperação dos TTAs e respectiva concentração nos extractos. Nestes intervalos, as melhores condições de operação encontradas foram 200 bar, 40 °C e 5% de etanol, para as quais os modelos de regressão estatisticamente validados previram um rendimento de extração de 1.2% com 50% de concentração em TTAs, correspondendo ao rendimento em TTAs de 5.1 g/kg de casca e uma recuperação de 79.2% comparativamente ao valor do Soxhlet. Os TTAs livres e acetilados apresentaram tendências de extracção bastante distintas devido às suas diferentes afinidades para o CO2 causadas pelas diferentes polaridades: os derivados acetilados aproximam-se de um patamar máximo a cerca de 200 bar e 5% de etanol, enquanto a extração dos TTAs livres apresenta uma tendência sempre crescente no intervalo de condições estudado. Foram também medidas curvas cumulativas de SFE da casca do E. globulus de forma a analisar o comportamento cinético do processo em termos de rendimento total, rendimento em TTAs, rendimento em TTAs livres, rendimento em TTAs acetilados, e concentração dos TTAs nos extractos. Foi analisada a influência da pressão, temperatura, teor de co-solvente e caudal do dióxido de carbono sobre as respostas anteriores. Os dados experimentais foram modelados com os modelos Logístico, de Dessorção, de Placa Plana Simples, e de Difusão. Na globalidade, os resultados confirmaram que a pressão e o teor de etanol têm um efeito significativo sobre as curvas de extração, os rendimentos finais e as concentrações dos extratos, e mostraram a presença de limitações externas à transferência de massa em alguns ensaios. Mais uma vez, as famílias individuais de TTAs livres e acetilados apresentaram diferentes tendências de extracção. A modelação permitiu-nos confirmar não só o importante papel desempenhado pela difusão intraparticular na SFE, mas também a contribuição da resistência no filme em alguns ensaios. Após a análise de todos os resultados, foi efetuado um ensaio em duas etapas em série, possibilitando o enriquecimento do teor em TTAs no extracto devido às diferentes condições adotadas em cada etapa. Por último, um éster metílico de um ácido triterpénico do tipo oleanano - morolato de metilo - foi identificado pela primeira vez enquanto componente da casca de Eucalyptus na casca externa do Eucalyptus grandis x globulus, onde ocorre em teores elevados. A sua extração com CO2 supercrítico foi também realizada, visando a conceção de uma alternativa de extração ambientalmente benigna para este composto. A 200 bar e 60 ºC, a remoção do morolato de metilo atingiu um patamar às 6 h para 5.1 kg h-1 de CO2 / kg de casca. Em geral, e de forma semelhante à SFE da casca do E. globulus, os TTAs acetilados foram mais significativamente extraídos quando comparados com os seus ácidos livres, o que está diretamente relacionado com a natureza menos polar destas moléculas. O trabalho apresentado nesta tese é uma contribuição para a valorização de uma corrente de biomassa com baixo valor na indústria de pasta em duas vertentes complementares. Por um lado, aumentou o conhecimento da composição lipofílica das cascas de Eucalyptus spp. com interesse comercial para a produção de pasta, destacando o seu potencial enquanto fontes de ácidos triterpénicos. Por outro lado, foram desenvolvidos dois processos alternativos e facilmente integráveis numa fábrica de pasta para a sua exploração a partir da casca: um baseado em tecnologias convencionais bem estabelecidas a nível industrial, prevendo a sua aplicação a curto prazo, e um outro baseado na SFE, seguindo as tendências das futuras biorrefinarias.

Enhancing extractive summarization with automatic post-processing

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Tese de doutoramento, Informática (Ciência da Computação), Universidade de Lisboa, Faculdade de Ciências, 2015

Genetic algorithm for shipping route estimation with long-range tracking data : automatic reconstruction of shipping routes based on the historical ship positions for maritime safety applications

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Ship tracking systems allow Maritime Organizations that are concerned with the Safety at Sea to obtain information on the current location and route of merchant vessels. Thanks to Space technology in recent years the geographical coverage of the ship tracking platforms has increased significantly, from radar based near-shore traffic monitoring towards a worldwide picture of the maritime traffic situation. The long-range tracking systems currently in operations allow the storage of ship position data over many years: a valuable source of knowledge about the shipping routes between different ocean regions. The outcome of this Master project is a software prototype for the estimation of the most operated shipping route between any two geographical locations. The analysis is based on the historical ship positions acquired with long-range tracking systems. The proposed approach makes use of a Genetic Algorithm applied on a training set of relevant ship positions extracted from the long-term storage tracking database of the European Maritime Safety Agency (EMSA). The analysis of some representative shipping routes is presented and the quality of the results and their operational applications are assessed by a Maritime Safety expert.

In situ evaluation of single-cell lysis by cytosol extraction observation through fluorescence decay and dielectrophoretic trapping time

Relevância:

30.00% 30.00%

Publicador:

Resumo:

We present a new method for lysis of single cells in continuous flow, where cells are sequentially trapped, lysed and released in an automatic process. Using optimized frequencies, dielectrophoretic trapping allows exposing cells in a reproducible way to high electrical fields for long durations, thereby giving good control on the lysis parameters. In situ evaluation of cytosol extraction on single cells has been studied for Chinese hamster ovary (CHO) cells through out-diffusion of fluorescent molecules for different voltage amplitudes. A diffusion model is proposed to correlate this out-diffusion to the total area of the created pores, which is dependent on the potential drop across the cell membrane and enables evaluation of the total pore area in the membrane. The dielectrophoretic trapping is no longer effective after lysis because of the reduced conductivity inside the cells, leading to cell release. The trapping time is linked to the time required for cytosol extraction and can thus provide additional validation of the effective cytosol extraction for non-fluorescent cells. Furthermore, the application of one single voltage for both trapping and lysis provides a fully automatic process including cell trapping, lysis, and release, allowing operating the device in continuous flow without human intervention.

Developing a numerical inverse-theory-based extraction of orientation-dependent relaxation rates from partially- relaxed spectra

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Second-rank tensor interactions, such as quadrupolar interactions between the spin- 1 deuterium nuclei and the electric field gradients created by chemical bonds, are affected by rapid random molecular motions that modulate the orientation of the molecule with respect to the external magnetic field. In biological and model membrane systems, where a distribution of dynamically averaged anisotropies (quadrupolar splittings, chemical shift anisotropies, etc.) is present and where, in addition, various parts of the sample may undergo a partial magnetic alignment, the numerical analysis of the resulting Nuclear Magnetic Resonance (NMR) spectra is a mathematically ill-posed problem. However, numerical methods (de-Pakeing, Tikhonov regularization) exist that allow for a simultaneous determination of both the anisotropy and orientational distributions. An additional complication arises when relaxation is taken into account. This work presents a method of obtaining the orientation dependence of the relaxation rates that can be used for the analysis of the molecular motions on a broad range of time scales. An arbitrary set of exponential decay rates is described by a three-term truncated Legendre polynomial expansion in the orientation dependence, as appropriate for a second-rank tensor interaction, and a linear approximation to the individual decay rates is made. Thus a severe numerical instability caused by the presence of noise in the experimental data is avoided. At the same time, enough flexibility in the inversion algorithm is retained to achieve a meaningful mapping from raw experimental data to a set of intermediate, model-free

REFLECT : logiciel de restitution des réflectances au sol pour l’amélioration de la qualité de l'information extraite des images satellitales à haute résolution spatiale

Relevância:

30.00% 30.00%

Publicador:

Resumo:

RÉSUMÉ - Les images satellitales multispectrales, notamment celles à haute résolution spatiale (plus fine que 30 m au sol), représentent une source d’information inestimable pour la prise de décision dans divers domaines liés à la gestion des ressources naturelles, à la préservation de l’environnement ou à l’aménagement et la gestion des centres urbains. Les échelles d’étude peuvent aller du local (résolutions plus fines que 5 m) à des échelles régionales (résolutions plus grossières que 5 m). Ces images caractérisent la variation de la réflectance des objets dans le spectre qui est l’information clé pour un grand nombre d’applications de ces données. Or, les mesures des capteurs satellitaux sont aussi affectées par des facteurs « parasites » liés aux conditions d’éclairement et d’observation, à l’atmosphère, à la topographie et aux propriétés des capteurs. Deux questions nous ont préoccupé dans cette recherche. Quelle est la meilleure approche pour restituer les réflectances au sol à partir des valeurs numériques enregistrées par les capteurs tenant compte des ces facteurs parasites ? Cette restitution est-elle la condition sine qua non pour extraire une information fiable des images en fonction des problématiques propres aux différents domaines d’application des images (cartographie du territoire, monitoring de l’environnement, suivi des changements du paysage, inventaires des ressources, etc.) ? Les recherches effectuées les 30 dernières années ont abouti à une série de techniques de correction des données des effets des facteurs parasites dont certaines permettent de restituer les réflectances au sol. Plusieurs questions sont cependant encore en suspens et d’autres nécessitent des approfondissements afin, d’une part d’améliorer la précision des résultats et d’autre part, de rendre ces techniques plus versatiles en les adaptant à un plus large éventail de conditions d’acquisition des données. Nous pouvons en mentionner quelques unes : - Comment prendre en compte des caractéristiques atmosphériques (notamment des particules d’aérosol) adaptées à des conditions locales et régionales et ne pas se fier à des modèles par défaut qui indiquent des tendances spatiotemporelles à long terme mais s’ajustent mal à des observations instantanées et restreintes spatialement ? - Comment tenir compte des effets de « contamination » du signal provenant de l’objet visé par le capteur par les signaux provenant des objets environnant (effet d’adjacence) ? ce phénomène devient très important pour des images de résolution plus fine que 5 m; - Quels sont les effets des angles de visée des capteurs hors nadir qui sont de plus en plus présents puisqu’ils offrent une meilleure résolution temporelle et la possibilité d’obtenir des couples d’images stéréoscopiques ? - Comment augmenter l’efficacité des techniques de traitement et d’analyse automatique des images multispectrales à des terrains accidentés et montagneux tenant compte des effets multiples du relief topographique sur le signal capté à distance ? D’autre part, malgré les nombreuses démonstrations par des chercheurs que l’information extraite des images satellitales peut être altérée à cause des tous ces facteurs parasites, force est de constater aujourd’hui que les corrections radiométriques demeurent peu utilisées sur une base routinière tel qu’est le cas pour les corrections géométriques. Pour ces dernières, les logiciels commerciaux de télédétection possèdent des algorithmes versatiles, puissants et à la portée des utilisateurs. Les algorithmes des corrections radiométriques, lorsqu’ils sont proposés, demeurent des boîtes noires peu flexibles nécessitant la plupart de temps des utilisateurs experts en la matière. Les objectifs que nous nous sommes fixés dans cette recherche sont les suivants : 1) Développer un logiciel de restitution des réflectances au sol tenant compte des questions posées ci-haut. Ce logiciel devait être suffisamment modulaire pour pouvoir le bonifier, l’améliorer et l’adapter à diverses problématiques d’application d’images satellitales; et 2) Appliquer ce logiciel dans différents contextes (urbain, agricole, forestier) et analyser les résultats obtenus afin d’évaluer le gain en précision de l’information extraite par des images satellitales transformées en images des réflectances au sol et par conséquent la nécessité d’opérer ainsi peu importe la problématique de l’application. Ainsi, à travers cette recherche, nous avons réalisé un outil de restitution de la réflectance au sol (la nouvelle version du logiciel REFLECT). Ce logiciel est basé sur la formulation (et les routines) du code 6S (Seconde Simulation du Signal Satellitaire dans le Spectre Solaire) et sur la méthode des cibles obscures pour l’estimation de l’épaisseur optique des aérosols (aerosol optical depth, AOD), qui est le facteur le plus difficile à corriger. Des améliorations substantielles ont été apportées aux modèles existants. Ces améliorations concernent essentiellement les propriétés des aérosols (intégration d’un modèle plus récent, amélioration de la recherche des cibles obscures pour l’estimation de l’AOD), la prise en compte de l’effet d’adjacence à l’aide d’un modèle de réflexion spéculaire, la prise en compte de la majorité des capteurs multispectraux à haute résolution (Landsat TM et ETM+, tous les HR de SPOT 1 à 5, EO-1 ALI et ASTER) et à très haute résolution (QuickBird et Ikonos) utilisés actuellement et la correction des effets topographiques l’aide d’un modèle qui sépare les composantes directe et diffuse du rayonnement solaire et qui s’adapte également à la canopée forestière. Les travaux de validation ont montré que la restitution de la réflectance au sol par REFLECT se fait avec une précision de l’ordre de ±0.01 unités de réflectance (pour les bandes spectrales du visible, PIR et MIR), même dans le cas d’une surface à topographie variable. Ce logiciel a permis de montrer, à travers des simulations de réflectances apparentes à quel point les facteurs parasites influant les valeurs numériques des images pouvaient modifier le signal utile qui est la réflectance au sol (erreurs de 10 à plus de 50%). REFLECT a également été utilisé pour voir l’importance de l’utilisation des réflectances au sol plutôt que les valeurs numériques brutes pour diverses applications courantes de la télédétection dans les domaines des classifications, du suivi des changements, de l’agriculture et de la foresterie. Dans la majorité des applications (suivi des changements par images multi-dates, utilisation d’indices de végétation, estimation de paramètres biophysiques, …), la correction des images est une opération cruciale pour obtenir des résultats fiables. D’un point de vue informatique, le logiciel REFLECT se présente comme une série de menus simples d’utilisation correspondant aux différentes étapes de saisie des intrants de la scène, calcul des transmittances gazeuses, estimation de l’AOD par la méthode des cibles obscures et enfin, l’application des corrections radiométriques à l’image, notamment par l’option rapide qui permet de traiter une image de 5000 par 5000 pixels en 15 minutes environ. Cette recherche ouvre une série de pistes pour d’autres améliorations des modèles et méthodes liés au domaine des corrections radiométriques, notamment en ce qui concerne l’intégration de la FDRB (fonction de distribution de la réflectance bidirectionnelle) dans la formulation, la prise en compte des nuages translucides à l’aide de la modélisation de la diffusion non sélective et l’automatisation de la méthode des pentes équivalentes proposée pour les corrections topographiques.

Étude empirique des commentaires et application des techniques de résumé par extraction pour la redocumentation

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La documentation des programmes aide les développeurs à mieux comprendre le code source pendant les tâches de maintenance. Toutefois, la documentation n’est pas toujours disponible ou elle peut être de mauvaise qualité. Le recours à la redocumentation s’avère ainsi nécessaire. Dans ce contexte, nous proposons de faire la redocumentation en générant des commentaires par application de techniques de résumé par extraction. Pour mener à bien cette tâche, nous avons commencé par faire une étude empirique pour étudier les aspects quantitatifs et qualitatifs des commentaires. En particulier, nous nous sommes intéressés à l’étude de la distribution des commentaires par rapport aux différents types d’instructions et à la fréquence de documentation de chaque type. Aussi, nous avons proposé une taxonomie de commentaires pour classer les commentaires selon leur contenu et leur qualité. Suite aux résultats de l’étude empirique, nous avons décidé de résumer les classes Java par extraction des commentaires des méthodes/constructeurs. Nous avons défini plusieurs heuristiques pour déterminer les commentaires les plus pertinents à l’extraction. Ensuite, nous avons appliqué ces heuristiques sur les classes Java de trois projets pour en générer les résumés. Enfin, nous avons comparé les résumés produits (les commentaires produits) à des résumés références (les commentaires originaux) en utilisant la métrique ROUGE.

Étude sur l'équivalence de termes extraits automatiquement d'un corpus parallèle : contribution à l'extraction terminologique bilingue

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Élaboration d'un corpus étalon pour l'évaluation d'extracteurs de termes

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.

Automatic Image Annotation Using SURF Descriptors

Relevância:

30.00% 30.00%

Publicador:

Resumo:

In recent years there is an apparent shift in research from content based image retrieval (CBIR) to automatic image annotation in order to bridge the gap between low level features and high level semantics of images. Automatic Image Annotation (AIA) techniques facilitate extraction of high level semantic concepts from images by machine learning techniques. Many AIA techniques use feature analysis as the first step to identify the objects in the image. However, the high dimensional image features make the performance of the system worse. This paper describes and evaluates an automatic image annotation framework which uses SURF descriptors to select right number of features and right features for annotation. The proposed framework uses a hybrid approach in which k-means clustering is used in the training phase and fuzzy K-NN classification in the annotation phase. The performance of the system is evaluated using standard metrics.

The Effect of SIFT Features as Content Descriptors in the Context of Automatic Writer Identification in Malayalam Language

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The span of writer identification extends to broad domes like digital rights administration, forensic expert decisionmaking systems, and document analysis systems and so on. As the success rate of a writer identification scheme is highly dependent on the features extracted from the documents, the phase of feature extraction and therefore selection is highly significant for writer identification schemes. In this paper, the writer identification in Malayalam language is sought for by utilizing feature extraction technique such as Scale Invariant Features Transform (SIFT).The schemes are tested on a test bed of 280 writers and performance evaluated

«
1
2
...
5
6
7
8
9
10
11
...
65
66
»