5 resultados para vignette in-text
Thesis presented in partial fulfillment of the requirements for the degree of Doctor of Philosophy in the subject of Electrical and Computer Engineering
Dissertação para obtenção do Grau de Mestre em Engenharia Informática
The extraction of relevant terms from texts is an extensively researched task in Text- Mining. Relevant terms have been applied in areas such as Information Retrieval or document clustering and classification. However, relevance has a rather fuzzy nature since the classification of some terms as relevant or not relevant is not consensual. For instance, while words such as "president" and "republic" are generally considered relevant by human evaluators, and words like "the" and "or" are not, terms such as "read" and "finish" gather no consensus about their semantic and informativeness. Concepts, on the other hand, have a less fuzzy nature. Therefore, instead of deciding on the relevance of a term during the extraction phase, as most extractors do, I propose to first extract, from texts, what I have called generic concepts (all concepts) and postpone the decision about relevance for downstream applications, accordingly to their needs. For instance, a keyword extractor may assume that the most relevant keywords are the most frequent concepts on the documents. Moreover, most statistical extractors are incapable of extracting single-word and multi-word expressions using the same methodology. These factors led to the development of the ConceptExtractor, a statistical and language-independent methodology which is explained in Part I of this thesis. In Part II, I will show that the automatic extraction of concepts has great applicability. For instance, for the extraction of keywords from documents, using the Tf-Idf metric only on concepts yields better results than using Tf-Idf without concepts, specially for multi-words. In addition, since concepts can be semantically related to other concepts, this allows us to build implicit document descriptors. These applications led to published work. Finally, I will present some work that, although not published yet, is briefly discussed in this document.
A investigação de que resulta o presente trabalho foi desenvolvida em Teoria do texto - área de especialização em Linguística criada na FCSH - UNL pela Professora Luísa Opitz. Os contornos teóricos e epistemológicos da configuração disciplinar assim designada merecem naturalmente uma atenção particular. Pode dizer-se que os primeiros contributos, no sentido de uma abordagem linguística do texto, se devem aos vários trabalhos que, sobretudo na Holanda e na Alemanha, desde o início dos anos setenta, preconizavam o alargamento do quadro generativista para além do domínio da frase. A estes projectos de gramática de texto convém também associar. como se pode compreender, a noção de competência textual - enquanto sistema de regras susceptíveis de derivarem qualquer texto, numa determinada lingua natural. Veja-se o paralelismo da definição proposta por Petôfi (um dos autores em destaque, nesta perspectiva): Its direct aim [of the grammatical theory of verbal texts] is to describe the knowledge of the 'ideal native speaker/listener' concernmg the grammatical structuredness of verbal texts (i.e. his verbal grammatical competence). PETÔFI 1973:206 Quase em simultâneo com a convicção generativista, ou decorrendo de alguma insatisfacão que se ia instalando, outras tendências menos formalizantes se faziam também sentir. Pode destacar-se, em particular, o ponto de vista de P. Hartmann, no prefácio que assina para Studies in Text Grammar, editado por J.S. Petôfi e H. Rieser em 1973. Assinalando a mudança, em termos de interesses epistemológicos, associada ao facto de se tratar de objectos cuja descrição requer mais dimensões do que as contempladas por uma gramática de frase, Hartmann afirma: Se a nogão de texto aparece associada å de fungão (ou funções), uma e outra são fundamentalmente determinadas pela decisão relativa aos objectos sujeitos a observação - isto é, pelo facto de se tomarem em consideração os textos efectivamente produzidos em situações de comunicação, não sujeitos, portanto, a reduções metodológicas.
Double Degree