957 resultados para corpora, terminologia, termini, estrazione automatica


Relevância:

100.00% 100.00%

Publicador:

Resumo:

In any terminological study, candidate term extraction is a very time-consuming task. Corpus analysis tools have automatized some processes allowing the detection of relevant data within the texts, facilitating term candidate selection as well. Nevertheless, these tools are (normally) not specific for terminology research; therefore, the units which are automatically extracted need manual evaluation. Over the last few years some software products have been specifically developed for automatic term extraction. They are based on corpus analysis, but use linguistic and statistical information to filter data more precisely. As a result, the time needed for manual evaluation is reduced. In this framework, we tried to understand if and how these new tools can really be an advantage. In order to develop our project, we simulated a terminology study: we chose a domain (i.e. legal framework for medicinal products for human use) and compiled a corpus from which we extracted terms and phraseologisms using AntConc, a corpus analysis tool. Afterwards, we compared our list with the lists extracted automatically from three different tools (TermoStat Web, TaaS e Sketch Engine) in order to evaluate their performance. In the first chapter we describe some principles relating to terminology and phraseology in language for special purposes and show the advantages offered by corpus linguistics. In the second chapter we illustrate some of the main concepts of the domain selected, as well as some of the main features of legal texts. In the third chapter we describe automatic term extraction and the main criteria to evaluate it; moreover, we introduce the term-extraction tools used for this project. In the fourth chapter we describe our research method and, in the fifth chapter, we show our results and draw some preliminary conclusions on the performance and usefulness of term-extraction tools.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Implementazione di uno strumento in Matlab in grado di analizzare i tracciati di potenziali d'azione cardiaci e di valutarne dei potenziali d'azione in risposta a variazioni di parametri del modello cardiaco della corrente di ripolarizzazione rapida di potassio.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La tesi ha lo scopo di introdurre Investiga, un'applicazione per l'estrazione automatica di informazioni da articoli scientifici in formato PDF e pubblicazione di queste informazioni secondo i principi e i formati Linked Open Data, creata per la tesi. Questa applicazione è basata sul Task 2 della SemPub 2016, una challenge che ha come scopo principale quello di migliorare l'estrazione di informazioni da articoli scientifici in formato PDF. Investiga estrae i capitoli di primo livello, le didascalie delle figure e delle tabelle da un dato articolo e crea un grafo delle informazioni così estratte collegate adeguatamente tra loro. La tesi inoltre analizza gli strumenti esistenti per l'estrazione automatica di informazioni da documenti PDF e dei loro limiti.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il task del data mining si pone come obiettivo l'estrazione automatica di schemi significativi da grandi quantità di dati. Un esempio di schemi che possono essere cercati sono raggruppamenti significativi dei dati, si parla in questo caso di clustering. Gli algoritmi di clustering tradizionali mostrano grossi limiti in caso di dataset ad alta dimensionalità, composti cioè da oggetti descritti da un numero consistente di attributi. Di fronte a queste tipologie di dataset è necessario quindi adottare una diversa metodologia di analisi: il subspace clustering. Il subspace clustering consiste nella visita del reticolo di tutti i possibili sottospazi alla ricerca di gruppi signicativi (cluster). Una ricerca di questo tipo è un'operazione particolarmente costosa dal punto di vista computazionale. Diverse ottimizzazioni sono state proposte al fine di rendere gli algoritmi di subspace clustering più efficienti. In questo lavoro di tesi si è affrontato il problema da un punto di vista diverso: l'utilizzo della parallelizzazione al fine di ridurre il costo computazionale di un algoritmo di subspace clustering.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Questa tesi ha per argomento l'analisi linguistica della traduzione italiana del Treatise of electricity di Tiberio Cavallo (1777) ad opera di Ferdinando Fossi – Trattato completo d'elettricità – (1779). Con questo studio, che prende in esame un particolare episodio letterario, si è inteso esaminare un momento della storia del lessico scientifico italiano al fine di individuarne le peculiarità e sottolinearne le differenze rispetto ai corrispettivi di altre lingue, con speciale attenzione alla lingua inglese. I capitoli introduttivi riportano notizie biografiche e sulla formazione di T. Cavallo e F. Fossi. Nel terzo capitolo viene delineato un quadro della formazione e costituzione del lessico elettrologico italiano, seguendone l'evoluzione nel cinquantennio '40/'90 del XVIII secolo. Una parte della tesi è poi dedicata al fenomeno culturale rappresentato dalle scienze elettriche in cui si inscrive la traduzione del Treatise. Sono qui riportate notizie relative alla fortuna mondana dell'elettricità, per le quali si è attinto a carteggi, documenti d'archivio, testi antichi e studi moderni. L'analisi linguistica vera e propria si è basata sul confronto tra il testo originale di Tiberio Cavallo e la traduzione di Ferdinando Fossi. Partendo dal Treatise abbiamo isolato particolari gruppi di parole: 1) voci corrispondenti a termini propri dei fenomeni elettrici; 2) verbi; 3) strumenti scientifici. Per ognuna della voci abbiamo controllato la ricorsività; poi abbiamo cercato i traducenti corrispondenti, suddividendoli in “corrispondenze assolute” – il traducente è corrispettivo del termine originale –, “corrispondenze mancate” – variazioni nella traduzione di termini ripetuti costantemente –, “tendenza omologatrice” – traduzione univoca di termini semanticamente simili –. Un capitolo sulla lettura critica della traduzione spiega come da parte del Fossi si sia rilevata una sostanziale e sistematica assenza di sensibilità per la precisione terminologica che caratterizza il testo di Cavallo; ove si dimostra che il testo inglese insiste sulla ripetizione dei termini – già stabilizzati e facenti parte di un corpus omogeneo e condiviso –, mentre il testo italiano predilige il ricorso alla "variatio", ricercando una migliore resa stilistica d'insieme piuttosto che la precisione scientifica. Il momento storico-linguistico preso in esame attraverso il particolare caso della traduzione del Treatise vede la lingua italiana sprovvista di una lessico elettrico univoco e condiviso. Complici di questa mancata corrispondenza alle esigenze del linguaggio scientifico moderno sono certamente pregiudizi di ordine retorico, che esaltano l'importanza dello stile e alimentano il disprezzo per i tecnicismi, ma anche e soprattutto la diffusione di traduzioni eterogenee, che danno atto ad una moltiplicazione semantica dei termini realmente in grado di ritardare la formazione di un corpus lessicale condiviso dalla comunità scientifica italiana.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Lo studio si occupa di fluency e analizza alcuni aspetti che la definiscono (pause vuote, pause piene, segnali discorsivi, riformulazioni). Si analizzano frequenza e durata di tali fenomeni, attraverso due corpora di produzioni orali di due gruppi di parlanti della lingua inglese: gli studenti italiani del corso di Mediazione Linguistica Interculturale della Scuola di Lingue, Letterature, Interpretazione e Traduzione di Forlì, Università di Bologna, e partecipanti britannici di un programma radiofonico. Si è ritenuto utile comparare le produzioni orali di studenti della lingua inglese a quelle di oratori pubblici madrelingua. Si è cercato di bilanciare i due corpora in termini di genere. Sono stati utilzzati i software Praat, per identificare la morfologia e la durata delle variabili, e Notetab Light, per l'annotazione dei corpora. I risultati della ricerca mostrano che le differenze maggiori tra i due gruppi risiedono nella durata delle pause vuote e nella frequenza, durata e e varietà di suoni delle pause piene, oltre a sillabe aggiuntive, sillabe allungate e riformulazioni. Le sillabe aggiuntive appaiono tipiche della produzione orale degli studenti italiani, in quanto, per la maggior parte, le parole della lingua italiana terminano con un suono vocalico. E' inoltre emersa una questione di genere. Le parlanti di sesso femminile, in entrambi i corpora, impiegano maggiormente le variabili della fluency prese in esame, rispetto ai parlanti di sesso maschile. Sulla base di questa ricerca e ricerche future si potranno ideare moduli di insegnamento dell'inglese basati sulla fluency come fattore primario di competenza linguistica. Il Capitolo 1 introduce lo studio. Il Capitolo 2 presenta lo stato dell'arte sul tema. Il Capitolo 3 presenta la metodologia dello studio. Il Capitolo 4 è dedicato a illustrare e discutere i risultati della ricerca. Il Capitolo 5 presenta considerazioni conclusive e future prospettive per l'insegnamento dell'inglese e per la ricerca.

Relevância:

50.00% 50.00%

Publicador:

Resumo:

Il punto di partenza del presente lavoro di ricerca terminologica è stato il soggiorno formativo presso la Direzione generale della Traduzione (DGT) della Commissione Europea di Lussemburgo. Il progetto di tirocinio, ovvero l’aggiornamento e la revisione di schede IATE afferenti al dominio finanziario, e gli aspetti problematici riscontrati durante la compilazione di tali schede hanno portato alla definizione della presente tesi. Lo studio si prefigge di analizzare la ricezione della terminologia precipua della regolamentazione di Basilea 3, esaminando il fenomeno della variazione linguistica in corpora italiani e tedeschi. Nel primo capitolo si descrive brevemente l’esperienza di tirocinio svolto presso la DGT, si presenta la banca dati IATE, l’attività terminologica eseguita e si illustrano le considerazioni che hanno portato allo sviluppo del progetto di tesi. Nel secondo capitolo si approfondisce il dominio investigato, descrivendo a grandi linee la crisi finanziaria che ha portato alla redazione della nuova normativa di Basilea 3, e si presentano i punti fondamentali degli Accordi di Basilea 3. Il terzo capitolo offre una panoramica sulle caratteristiche del linguaggio economico-finanziario e sulle conseguenze della nuova regolamentazione dal punto di vista linguistico, sottolineando le peculiarità della terminologia analizzata. Nel quarto capitolo si descrivono la metodologia seguita e le risorse utilizzate per il progetto di tesi, ovvero corpora ad hoc in lingua italiana e tedesca per l’analisi dei termini e le relative schede terminologiche. Il quinto capitolo si concentra sul fenomeno della variazione linguistica, fornendo un quadro teorico dei diversi approcci alla terminologia, cui segue l’analisi dei corpora e il commento dei risultati ottenuti; si considerano quindi le riflessioni teoriche alla luce di quanto emerso dalla disamina dei corpora. Infine, nell'appendice sono riportate le schede terminologiche IATE compilate durante il periodo di tirocinio e le schede terminologiche redatte a seguito dell’analisi del presente elaborato.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

This article aims at highlighting the importance of Corpus Linguistics particularly to the compiling of specialized comparable corpora to the field of Translation as well as to the practice of translation itself. Hence, we report the stages of the compilation and the organization of bilingual comparable corpora in the Business field and its applications, with the purpose of also highlighting its relevance to two of our target audiences: translators and also researchers in the Terminolgy/Terminography field.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

This study aims to the elaboration of juridical and administrative terminology in Ladin language, actually on the Ladin idiom spoken in Val Badia. The necessity of this study is strictly connected to the fact that in South Tyrol the Ladin language is not just safeguarded, but the editing of administrative and normative text is guaranteed by law. This means that there is a need for a unique terminology in order to support translators and editors of specialised texts. The starting point of this study are, on one side the need of a unique terminology, and on the other side the translation work done till now from the employees of the public administration in Ladin language. In order to document their efforts a corpus made up of digitalized administrative and normative documents was build. The first two chapters focuses on the state of the art of projects on terminology and corpus linguistics for lesser used languages. The information were collected thanks to the help of institutes, universities and researchers dealing with lesser used languages. The third chapter focuses on the development of administrative language in Ladin language and the fourth chapter focuses on the creation of the trilingual Italian – German – Ladin corpus made up of administrative and normative documents. The last chapter deals with the methodologies applied in order to elaborate the terminology entries in Ladin language though the use of the trilingual corpus. Starting from the terminology entry all steps are described, from term extraction, to the extraction of equivalents, contexts and definitions and of course also of the elaboration of translation proposals for not found equivalences. Finally the problems referring to the elaboration of terminology in Ladin language are illustrated.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

La tesi è il risultato dell’attività di tirocinio svolta presso Ecor Research, su una tematica proposta da un cliente, più precisamente Tetra Pak. Si progettano nuove soluzioni per un meccanismo estrattore di pacchetti preformati all’interno di un macchina automatica riempitrice di liquido per il confezionamento continuo in ambiente asettico. L’estrattore è posto in seguito all’organo che forma i pacchetti preformati e deve aumentare la velocità degli stessi in modo tale da permettere lo scarto dei danneggiati, in corrispondenza della massima produttività della macchina. Lo scarto avviene tramite uno scivolo che si frappone al moto del pacchetto nel caso esso sia danneggiato, non appena è avvenuta l’estrazione. Quindi, senza la presenza dell’estrattore, il sistema di scarto non ha una adeguata finestra temporale in cui agire. In seguito i pacchetti non danneggiati entrano nel successivo organo macchina dove vengono riferiti e distanziati per le successive lavorazioni. Le nuove soluzioni sono sviluppate su un certo formato di pacchetto, per il quale risultano disponibili spazi minori per l’implementazione dell’estrattore. Si è affrontato il problema costruendo un modello cinetostatico dell’estrattore, ricavando le specifiche di progetto attraverso contatti con il cliente e attraverso l’analisi della soluzione esistente. A causa dei limitati ingombri a disposizione per l’implementazione dell’estrattore, si divide il problema in due parti, progettando ed analizzando per ognuna un ampio ventaglio di soluzioni, tra le quali anche sistemi articolati, introducendo in seguito parametri di valutazione per scegliere le migliori. Si va poi a comporre le parti del problema a seconda delle proprie affinità ottenendo le soluzioni complete e scegliendo le più adatte al caso in esame. Infine si valuta la flessibilità delle soluzioni scelte verificando l’adattabilità ad un differente formato di pacchetto. Si individuano 2 soluzioni, tramite cinghie sincrone e quadrilatero articolato

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Polissema: Revista de Letras do ISCAP 2002/N.º 2 Linguagens

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Tese apresentada para cumprimento dos requisitos necessários à obtenção do grau de Doutor em Linguística – Lexicologia, Lexicografia e Terminologia e e Tese apresentada para cumprimento dos requisitos necessários à obtenção do grau de Doutor em Filologia e Língua Portugesa na Faculdade de Filosofia Letras e Ciências Humanas da Universidade de São Paulo

Relevância:

30.00% 30.00%

Publicador:

Resumo:

O objetivo principal deste trabalho foi propor uma reflexão sobre o processo a ser utilizado para a elaboração de um léxico bilíngüe na subárea de cardiologia. Para tanto, tomamos como base os conceitos dos estudos da tradução baseados em corpus, da lingüística de corpus e da terminologia. Como material para compor os corpora utilizamos artigos de cardiologia escritos em português e traduzidos para o inglês, assim como artigos originalmente escritos em português e em inglês. Com base no léxico proposto, pudemos notar algumas diferenças e algumas correspondências de uso entre os termos que aparecem no subcorpus de estudo de textos originais e traduzidos e nos corpora comparáveis em português e em inglês. Essa diferença apontaria que os termos não seriam unívocos dentro dessa linguagem de especialidade devido às diferenças de uso pelos especialistas de cardiologia para designar um mesmo referente.