995 resultados para Text Corpus
Resumo:
Aquest document conté el text REL2, un "casament" que forma part del Corpus Oral de Registres (COR). El COR és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text EDUC3, una "classe magistral" que forma part del Corpus Oral de Registres (COR). El COR és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text CULT4, un "recital de poesia" que forma part del Corpus Oral de Registres (COR). El COR és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text EDUC4, una "conferència" que forma part del Corpus Oral de Registres (COR). El COR és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text POL1, un "míting polític" que forma part del Corpus Oral de Registres (COR). El COR és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text POL2, una "sessió parlamentària" que forma part del Corpus Oral de Registres (COR). El COR és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text POL3, un "ple d'ajuntament" que forma part del Corpus Oral de Registres (COR). El COR és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Biomedical research is currently facing a new type of challenge: an excess of information, both in terms of raw data from experiments and in the number of scientific publications describing their results. Mirroring the focus on data mining techniques to address the issues of structured data, there has recently been great interest in the development and application of text mining techniques to make more effective use of the knowledge contained in biomedical scientific publications, accessible only in the form of natural human language. This thesis describes research done in the broader scope of projects aiming to develop methods, tools and techniques for text mining tasks in general and for the biomedical domain in particular. The work described here involves more specifically the goal of extracting information from statements concerning relations of biomedical entities, such as protein-protein interactions. The approach taken is one using full parsing—syntactic analysis of the entire structure of sentences—and machine learning, aiming to develop reliable methods that can further be generalized to apply also to other domains. The five papers at the core of this thesis describe research on a number of distinct but related topics in text mining. In the first of these studies, we assessed the applicability of two popular general English parsers to biomedical text mining and, finding their performance limited, identified several specific challenges to accurate parsing of domain text. In a follow-up study focusing on parsing issues related to specialized domain terminology, we evaluated three lexical adaptation methods. We found that the accurate resolution of unknown words can considerably improve parsing performance and introduced a domain-adapted parser that reduced the error rate of theoriginal by 10% while also roughly halving parsing time. To establish the relative merits of parsers that differ in the applied formalisms and the representation given to their syntactic analyses, we have also developed evaluation methodology, considering different approaches to establishing comparable dependency-based evaluation results. We introduced a methodology for creating highly accurate conversions between different parse representations, demonstrating the feasibility of unification of idiverse syntactic schemes under a shared, application-oriented representation. In addition to allowing formalism-neutral evaluation, we argue that such unification can also increase the value of parsers for domain text mining. As a further step in this direction, we analysed the characteristics of publicly available biomedical corpora annotated for protein-protein interactions and created tools for converting them into a shared form, thus contributing also to the unification of text mining resources. The introduced unified corpora allowed us to perform a task-oriented comparative evaluation of biomedical text mining corpora. This evaluation established clear limits on the comparability of results for text mining methods evaluated on different resources, prompting further efforts toward standardization. To support this and other research, we have also designed and annotated BioInfer, the first domain corpus of its size combining annotation of syntax and biomedical entities with a detailed annotation of their relationships. The corpus represents a major design and development effort of the research group, with manual annotation that identifies over 6000 entities, 2500 relationships and 28,000 syntactic dependencies in 1100 sentences. In addition to combining these key annotations for a single set of sentences, BioInfer was also the first domain resource to introduce a representation of entity relations that is supported by ontologies and able to capture complex, structured relationships. Part I of this thesis presents a summary of this research in the broader context of a text mining system, and Part II contains reprints of the five included publications.
Resumo:
Aquest document conté el text Presentació, una introducció al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Una selecció de materials del CCCUB ha estat dipositada al RECERCAT (Dipòsit de la Recerca de Catalunya, www.recercat.cat), i també és accessible a través del web del CCCUB: http://www.ub.edu/cccub.
Resumo:
Aquest document conté el text Presentació, una introducció al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Una selecció de materials del CCCUB ha estat dipositada al RECERCAT (Dipòsit de la Recerca de Catalunya, www.recercat.cat), i també és accessible a través del web del CCCUB: http://www.ub.edu/cccub.
Resumo:
Aquest document conté el text Criteris, una explicació dels criteris que s'han seguit per elaborar el Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d¿Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Criteria_English, una explicació en anglès dels criteris que s'han seguit per elaborar el Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Ciutadella_Fon, la transcripció fonètica d'un fragment de conversa lliure amb un informant de Ciutadella que forma part del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Criteris, una explicació dels criteris que s'han seguit per elaborar el Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d¿Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Criteria_English, una explicació en anglès dels criteris que s'han seguit per elaborar el Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).