In this thesis we present and evaluate two pattern matching based methods for answer extraction in textual question answering systems. A textual question answering system is a system that seeks answers to natural language questions from unstructured text. Textual question answering systems are an important research problem because as the amount of natural language text in digital format grows all the time, the need for novel methods for pinpointing important knowledge from the vast textual databases becomes more and more urgent. We concentrate on developing methods for the automatic creation of answer extraction patterns. A new type of extraction pattern is developed also. The pattern matching based approach chosen is interesting because of its language and application independence. The answer extraction methods are developed in the framework of our own question answering system. Publicly available datasets in English are used as training and evaluation data for the methods. The techniques developed are based on the well known methods of sequence alignment and hierarchical clustering. The similarity metric used is based on edit distance. The main conclusions of the research are that answer extraction patterns consisting of the most important words of the question and of the following information extracted from the answer context: plain words, part-of-speech tags, punctuation marks and capitalization patterns, can be used in the answer extraction module of a question answering system. This type of patterns and the two new methods for generating answer extraction patterns provide average results when compared to those produced by other systems using the same dataset. However, most answer extraction methods in the question answering systems tested with the same dataset are both hand crafted and based on a system-specific and fine-grained question classification. The the new methods developed in this thesis require no manual creation of answer extraction patterns. As a source of knowledge, they require a dataset of sample questions and answers, as well as a set of text documents that contain answers to most of the questions. The question classification used in the training data is a standard one and provided already in the publicly available data.


Concept inventory tests are one method to evaluate conceptual understanding and identify possible misconceptions. The multiple-choice question format, offering a choice between a correct selection and common misconceptions, can provide an assessment of students' conceptual understanding in various dimensions. Misconceptions of some engineering concepts exist due to a lack of mental frameworks, or schemas, for these types of concepts or conceptual areas. This study incorporated an open textual response component in a multiple-choice concept inventory test to capture written explanations of students' selections. The study's goal was to identify, through text analysis of student responses, the types and categorizations of concepts in these explanations that had not been uncovered by the distractor selections. The analysis of the textual explanations of a subset of the discrete-time signals and systems concept inventory questions revealed that students have difficulty conceptually explaining several dimensions of signal processing. This contributed to their inability to provide a clear explanation of the underlying concepts, such as mathematical concepts. The methods used in this study evaluate students' understanding of signals and systems concepts through their ability to express understanding in written text. This may present a bias for students with strong written communication skills. This study presents a framework for extracting and identifying the types of concepts students use to express their reasoning when answering conceptual questions.


The subject and methodology of biblical scholarship has expanded immense-ly during the last few decades. The traditional text-, literary-, source- and form-critical approaches, labeled historical-critical scholarship , have faced the challenge of social sciences. Various new literary, synchronic readings, sometimes characterized with the vague term postmodernism, have in turn challenged historicalcritical, and social-scientific approaches. Widened limits and diverging methodologies have caused a sense of crisis in biblical criticism. This metatheoretical thesis attempts to bridge the gap between philosophical discussion about the basis of biblical criticism and practical academic biblical scholarship. The study attempts to trace those epistemological changes that have produced the wealth of methods and results within biblical criticism. The account of the cult reform of King Josiah of Judah as reported in 2 Kings 22:1 23:30 serves as the case study because of its importance for critical study of the Hebrew Bible. Various scholarly approaches embracing 2 Kings 22:1 23:30 are experimentally arranged around four methodological positions: text, author, reader, and context. The heuristic model is a tentative application of Oliver Jahraus s model of four paradigms in literary theory. The study argues for six theses: 1) Our knowledge of the world is con-structed, fallible and theory-laden. 2) Methodological plurality is the neces-sary result of changes in epistemology and culture in general. 3) Oliver Jahraus s four methodological positions in regard to literature are also an applicable model within biblical criticism to comprehend the methodological plurality embracing the study of the Hebrew Bible. 4) Underlying the methodological discourse embracing biblical criticism is the epistemological ten-sion between the natural sciences and the humanities. 5) Biblical scholars should reconsider and analyze in detail concepts such as author and editor to overcome the dichotomy between the Göttingen and Cross schools. 6) To say something about the historicity of 2 Kings 22:1 23:30 one must bring together disparate elements from various disciplines and, finally, admit that though it may be possible to draw some permanent results, our conclusions often remain provisional.


We address the task of mapping a given textual domain model (e.g., an industry-standard reference model) for a given domain (e.g., ERP), with the source code of an independently developed application in the same domain. This has applications in improving the understandability of an existing application, migrating it to a more flexible architecture, or integrating it with other related applications. We use the vector-space model to abstractly represent domain model elements as well as source-code artifacts. The key novelty in our approach is to leverage the relationships between source-code artifacts in a principled way to improve the mapping process. We describe experiments wherein we apply our approach to the task of matching two real, open-source applications to corresponding industry-standard domain models. We demonstrate the overall usefulness of our approach, as well as the role of our propagation techniques in improving the precision and recall of the mapping task.


[ES]En este trabajo se estudia el uso de los marcadores del discurso y del asíndeton como medios de articulación textual entre los diversos enunciados que constituyen los "Progumnásmata" de Nicolao. Este estudio permite observar si existen diferencias entre las dos partes que componen la edición de Felten y si el uso de partículas de Nicolao es diferente del que hacen los demás autores de "Progumnásmata".


Raquel Merino Álvarez, José Miguel Santamaría, Eterio Pajares (eds.)


[EN]Measuring semantic similarity and relatedness between textual items (words, sentences, paragraphs or even documents) is a very important research area in Natural Language Processing (NLP). In fact, it has many practical applications in other NLP tasks. For instance, Word Sense Disambiguation, Textual Entailment, Paraphrase detection, Machine Translation, Summarization and other related tasks such as Information Retrieval or Question Answering. In this masther thesis we study di erent approaches to compute the semantic similarity between textual items. In the framework of the european PATHS project1, we also evaluate a knowledge-base method on a dataset of cultural item descriptions. Additionaly, we describe the work carried out for the Semantic Textual Similarity (STS) shared task of SemEval-2012. This work has involved supporting the creation of datasets for similarity tasks, as well as the organization of the task itself.


Esta tese tem por objetivo avaliar a contribuição, a nosso ver pioneira, de Othon Moacyr Garcia para os estudos linguísticos, textuais e literários no Brasil. A primeira parte de nosso estudo se concentrará nas principais contribuições dadas pelo livro Comunicação em prosa moderna, cuja primeira edição data de 1967; a segunda parte estudará sua contribuição à crítica literária brasileira, por meio de seus ensaios estilísticos; a terceira parte consistirá num resumo de sua obra dispersa, e a quarta parte também será um resumo das cartas que recebeu e enviou em sua correspondência com escritores e estudiosos da língua e da literatura


Esta tese tem como objetivo apresentar uma nova atitude diante do ensino de produção de textos. Trata-se do resultado de uma experiência didático-pedagógica cuja meta é deflagrar nos discentes a competência em produção textual. Então, são descritas técnicas que, explorando as várias linguagens e códigos, estimulam os discentes à expressão verbal, em especial, à produção de textos escritos. Baseadas em pressupostos semiótico-linguísticos, as dinâmicas utilizadas nas aulas criam um espaço no qual a produção de textos se dá de forma lúdica, atraente, longe dos bloqueios que normalmente impedem que os alunos sejam proficientes na interação sociocomunicativa e, especificamente, na produção textual escrita em diferentes gêneros textuais. As três técnicas que originaram esta tese integram um conjunto de quinze propostas de atividades reunidas sob o título de Técnicas de Comunicação e Expressão TCE. Tais técnicas buscam desinibir e promover a expressão verbal escrita, em especial. TCE (ou a eletiva Semiótica & Linguagem) surge como um novo paradigma no ensino de produção de textos, trazendo, para os futuros professores, elementos motivadores para a prática textual, de forma a dinamizar esse momento que, quase sempre, é sinônimo de tortura, medo, insegurança e, consequentemente, fracasso


A Literatura e a História sempre foram determinantes na evolução e afirmação de todos os povos que sofreram dominação estrangeira; o que, tantas vezes, levou os povos subjugados à perda de todas ou de uma boa parte de suas características específicas. Uma situação que ocasionou o questionamento das histórias destes povos - elaboradas pelos dominadores da cultura hegemônica à época e que, no nosso trabalho, são identificados como colonizadores. Este trabalho se propõe a visitar e salientar, através de duas obras bem características - a brasileira, Viva o Povo Brasileiro, de João Ubaldo Ribeiro e a senegalesa Sundjata ou a Epopéia Mandinga, de Djibril Tamsir Niane - não só o impacto das ocupações no cotidiano desses povos, mas também discutir e contribuir para a destruição da visão estereotipada desses povos espalhada pelos colonizadores antes de projetar a re-construção das identidades nacional e cultural corrompidas pela dependência cultural, uma das conseqüências da colonização. Tal será levado a cabo através de uma atuação de primeiro e segundo planos do Herói-Mito que, ultrapassando o maravilhoso e o fantástico com que se identifica geralmente sua personagem, sublinha com insistência a evolução de uma entidade totalizadora como o povo-nação: o passado, o presente e o futuro. O Senegal e o Brasil, a partir de uma exploração detalhada de suas culturas, têm plena consciência dos laços mais do que estreitos que os definem como meio-irmãos, frutos de um pai...polígamo


A Sociolinguística veio enfatizar desde os anos 60 um ponto essencial para a educação linguística: a heterogeneidade inerente às línguas. Desde então, nossa escola, aos poucos, foi incorporando muitas das inovações sociolinguísticas, ao menos em termos programáticos. No entanto, apesar de todas as conquistas, a variação linguística ainda é: negada preconceituosamente em nome do único modo de dizer legitimado - a norma-padrão; vista como erro que, presente no texto dos alunos, tem de ser apagado a qualquer custo; abordada de forma conteudística e estanque, principalmente nos livros didáticos; perspectivizada somente pelo combate ao preconceito linguístico ou pela adequação linguística; negada quanto ao poliglotismo inseparável dos usuários da língua; negada como elemento expressivo; e dissociada da produção de texto. Este trabalho move-se pela concepção sociointeracional da linguagem, que privilegia a interação como forma de intervenção social pela língua, e não se limita apenas a incluir, em tal educação, propostas de descrição da variação, nem somente a tornar menos assimétrica a relação professor-aluno. Vai além, sobremaneira porque prega a criação de condições de produção de verdadeiras práticas dialógicas da linguagem, nas quais se destacam a relação autor-texto-leitor, a articulação leitura-análise linguística-produção textual e a variação como elemento estilístico e discursivo


Este trabalho pretende comparar o ensino da produção textual em livros didáticos do português (LDP) e em apostilas escolares (AE), as quais hoje apontam para uma opção mercadológica de mercantilização do conhecimento escolar brasileiro. Como metodologia da pesquisa, optamos por um levantamento diacrônico sobre o ensino de Língua Portuguesa no Brasil, apresentando um histórico do LD como suporte de ensino e de aprendizagem da disciplina, para analisarmos os impactos das teorias linguísticas modernas, sobretudo, no que diz respeito aos gêneros discursivos (cf. Bakhtin, 2003), e dos PCN/PCNEM no ensino da produção de textos em sala de aula. Em virtude das modificações recentemente propostas pelo Exame Nacional de Ensino Médio (ENEM) e dos seus impactos na abordagem escolar da Produção Textual (PT), delimitamos nossa análise ao gênero dissertação escolar (DE), conhecido genericamente como redação escolar (RE), o mais cobrado em concursos e vestibulares brasileiros, traçando um recorte desde o período pós-Ditadura até as recentes propostas semióticas de abordagem do gênero (BARTHES, 1975; SANTAELLA, 2009; SIMÕES, 2009). Nossa perspectiva é, à guisa das mudanças ideológicas envolvidas na mudança de abordagem do ensino de RE para PT, apontar como LDP, tradicionalmente adotados em escolas públicas, e AE, contemporaneamente preferidas por dirigentes de escolas particulares, comportam-se frente a quatro eixos fundamentais para a prática docente do ensino da dissertação escolar: concepções teóricas adotadas, metodologia do ensino de DE, fundamentação teórico-metodológica dos professores e propostas de avaliação. Feita a análise contrastiva, o trabalho apontará aspectos divergentes e convergentes desse ensino, contextualizando o papel docente como mediador diante dos conflitos pedagógicos surgidos no decorrer da educação básica


O presente estudo parte da análise de uma amostra de 100 redações produzidas no exame de Vestibular da UERJ/2002. Tem por objetivo estabelecer critérios para o reconhecimento dos problemas de progressão argumentativa. Com base nas teorias propostas em Lingüística Textual e Análise do Discurso discutiram-se as noções de Cognição, Textualidade, Argumentação e coerência. Apresentou-se uma proposta metodológica de Produção Textual no Ensino Médio e exercícios didáticos. Os resultados da pesquisa apontam para a necessidade de que os recentes estudos sobre Cognição, Textualidade, Argumentação, Progressão e Métodos de Produção Textual sejam divulgados, debatidos e absorvidos pelos profissionais que exercem o ensino da disciplina