2 resultados para linguistic corpora
em Repositório Científico da Universidade de Évora - Portugal
Resumo:
RESUMO No presente trabalho, realizamos um estudo sobre a sintaxe histórica da língua portuguesa, focalizando as construções com se apassivador/indeterminador. Partindo de uma concepção de língua histórica, considerada em sua dimensão sociolinguística (COSERIU, 1979a; LABOV, 1972, 1982), analisamos a situação de variação e mudança linguística por que passam tais construções na gramática do português arcaico. Para tanto, utilizamos quatro corpora, representativos da prosa literária e não-literária do português dos séculos XIII, XIV, XV e XVI. Paralelamente ao estudo linguístico deste sintaticismo no referido período, esboçamos também um estudo historiográfico recuperando as reflexões dedicadas ao tema das construções com se pelas tradições gramaticais portuguesa e brasileira, bem como pelos estudos filológicos e linguístico-históricos. ABSTRACT In this paper, we carry out a study on Portuguese historical syntax, focusing on the se constructions. Based on a conception of historical language, considered in its sociolinguistic dimension (COSERIU, 1979a; LABOV, 1972, 1982), we analyze linguistic variation and change which these constructions undergo in the grammar of Old Portuguese. We used four corpora, representative of literary and non-literary Portuguese prose of the of 13th, 14th, 15th and 16th centuries. Parallel to the syntactic study, we also outline a study recovering the reflections on the theme of the se constructions by Brazilian and Portuguese grammatical tradition, as well as by the philological and historical linguistic studies.
Resumo:
This paper describes various experiments done to investigate author profiling of tweets in 4 different languages – English, Dutch, Italian, and Spanish. Profiling consists of age and gender classification, as well as regression on 5 different person- ality dimensions – extroversion, stability, agreeableness, open- ness, and conscientiousness. Different sets of features were tested – bag-of-words, word ngrams, POS ngrams, and average of word embeddings. SVM was used as the classifier. Tfidf worked best for most English tasks while for most of the tasks from the other languages, the combination of the best features worked better.