881 resultados para Text linguistics


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Wie viele andere Sprachen Ost- und Südostasiens ist das Thai eine numerusneutrale Sprache, in der ein Nomen lediglich das Konzept benennt und keinen Hinweis auf die Anzahl der Objekte liefert. Um Nomina im Thai zählen zu können, ist der Klassifikator (Klf) nötig, der die Objekte anhand ihrer semantischen Schlüsseleigenschaft herausgreift und individualisiert. Neben der Klassifikation stellt die Individualisierung die Hauptfunktion des Klf dar. Weitere Kernfunktionen des Klf außerhalb des Zählkontextes sind die Markierung der Definitheit, des Numerus sowie des Kontrasts. Die wichtigsten neuen Ergebnisse dieser Arbeit, die sowohl die Ebenen der Grammatik und Semantik als auch die der Logik und Pragmatik integriert, sind folgende: Im Thai kann der Klf sowohl auf der Element- als auch auf der Mengenebene agieren. In der Verbindung mit einem Demonstrativ kann der Klf auch eine pluralische Interpretation hervorrufen, wenn er auf eine als pluralisch präsupponierte Gesamtmenge referiert oder die Gesamtmenge in einer Teil-Ganzes-Relation individualisiert. In einem Ausdruck, der bereits eine explizite Zahlangabe enthält, bewirkt die Klf-Demonstrativ-Konstruktion eine Kontrastierung von Mengen mit gleichen Eigenschaften. Wie auch der Individualbegriff besitzt der Klf Intension und Extension. Intension und Extension von Thai-Klf verhalten sich umgekehrt proportional, d.h. je spezifischer der Inhalt eines Klf ist, desto kleiner ist sein Umfang. Der Klf signalisiert das Schlüsselmerkmal, das mit der Intension des Nomens der Identifizierung des Objekts dient. Der Klf individualisiert das Nomen, indem er Teilmengen quantifiziert. Er kann sich auf ein Objekt, eine bestimmte Anzahl von Objekten oder auf alle Objekte beziehen. Formal logisch lassen sich diese Funktionen mithilfe des Existenz- und des Allquantors darstellen. Auch die Nullstelle (NST) läßt sich formal logisch darstellen. Auf ihren jeweiligen Informationsgehalt reduziert, ergeben sich für Klf und NST abhängig von ihrer Positionierung verschiedene Informationswerte: Die Opposition von Klf und NST bewirkt in den Fragebögen ausschließlich skalare Q-Implikaturen, die sich durch die Informationsformeln in Form einer Horn-Skala darstellen lassen. In einem sich aufbauenden Kontext transportieren sowohl Klf als auch NST in der Kontextmitte bekannte Informationen, wodurch Implikaturen des M- bzw. I-Prinzips ausgelöst werden. Durch die Verbindung der Informationswerte mit den Implikaturen des Q-, M- und I-Prinzips lässt sich anhand der Positionierung direkt erkennen, wann der Klf die Funktion der Numerus-, der Definitheits- oder der Kontrast-Markierung erfüllt.

Relevância:

20.00% 20.00%

Publicador:

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'elaborato ha come scopo l'analisi delle tecniche di Text Mining e la loro applicazione all'interno di processi per l'auto-organizzazione della conoscenza. La prima parte della tesi si concentra sul concetto del Text Mining. Viene fornita la sua definizione, i possibili campi di utilizzo, il processo di sviluppo che lo riguarda e vengono esposte le diverse tecniche di Text Mining. Si analizzano poi alcuni tools per il Text Mining e infine vengono presentati alcuni esempi pratici di utilizzo. Il macro-argomento che viene esposto successivamente riguarda TuCSoN, una infrastruttura per la coordinazione di processi: autonomi, distribuiti e intelligenti, come ad esempio gli agenti. Si descrivono innanzi tutto le entità sulle quali il modello si basa, vengono introdotte le metodologie di interazione fra di essi e successivamente, gli strumenti di programmazione che l'infrastruttura mette a disposizione. La tesi, in un secondo momento, presenta MoK, un modello di coordinazione basato sulla biochimica studiato per l'auto-organizzazione della conoscenza. Anche per MoK, come per TuCSoN, vengono introdotte le entità alla base del modello. Avvalendosi MoK dell'infrastruttura TuCSoN, viene mostrato come le entità del primo vengano mappate su quelle del secondo. A conclusione dell'argomento viene mostrata un'applicazione per l'auto-organizzazione di news che si avvale del modello. Il capitolo successivo si occupa di analizzare i possibili utilizzi delle tecniche di Text Mining all'interno di infrastrutture per l'auto-organizzazione, come MoK. Nell'elaborato vengono poi presentati gli esperimenti effettuati sfruttando tecniche di Text Mining. Tutti gli esperimenti svolti hanno come scopo la clusterizzazione di articoli scientifici in base al loro contenuto, vengono quindi analizzati i risultati ottenuti. L'elaborato di tesi si conclude mettendo in evidenza alcune considerazioni finali su quanto svolto.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In numerosi campi scientici l'analisi di network complessi ha portato molte recenti scoperte: in questa tesi abbiamo sperimentato questo approccio sul linguaggio umano, in particolare quello scritto, dove le parole non interagiscono in modo casuale. Abbiamo quindi inizialmente presentato misure capaci di estrapolare importanti strutture topologiche dai newtork linguistici(Degree, Strength, Entropia, . . .) ed esaminato il software usato per rappresentare e visualizzare i grafi (Gephi). In seguito abbiamo analizzato le differenti proprietà statistiche di uno stesso testo in varie sue forme (shuffolato, senza stopwords e senza parole con bassa frequenza): il nostro database contiene cinque libri di cinque autori vissuti nel XIX secolo. Abbiamo infine mostrato come certe misure siano importanti per distinguere un testo reale dalle sue versioni modificate e perché la distribuzione del Degree di un testo normale e di uno shuffolato abbiano lo stesso andamento. Questi risultati potranno essere utili nella sempre più attiva analisi di fenomeni linguistici come l'autorship attribution e il riconoscimento di testi shuffolati.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il problema relativo alla predizione, la ricerca di pattern predittivi all‘interno dei dati, è stato studiato ampiamente. Molte metodologie robuste ed efficienti sono state sviluppate, procedimenti che si basano sull‘analisi di informazioni numeriche strutturate. Quella testuale, d‘altro canto, è una tipologia di informazione fortemente destrutturata. Quindi, una immediata conclusione, porterebbe a pensare che per l‘analisi predittiva su dati testuali sia necessario sviluppare metodi completamente diversi da quelli ben noti dalle tecniche di data mining. Un problema di predizione può essere risolto utilizzando invece gli stessi metodi : dati testuali e documenti possono essere trasformati in valori numerici, considerando per esempio l‘assenza o la presenza di termini, rendendo di fatto possibile una utilizzazione efficiente delle tecniche già sviluppate. Il text mining abilita la congiunzione di concetti da campi di applicazione estremamente eterogenei. Con l‘immensa quantità di dati testuali presenti, basti pensare, sul World Wide Web, ed in continua crescita a causa dell‘utilizzo pervasivo di smartphones e computers, i campi di applicazione delle analisi di tipo testuale divengono innumerevoli. L‘avvento e la diffusione dei social networks e della pratica di micro blogging abilita le persone alla condivisione di opinioni e stati d‘animo, creando un corpus testuale di dimensioni incalcolabili aggiornato giornalmente. Le nuove tecniche di Sentiment Analysis, o Opinion Mining, si occupano di analizzare lo stato emotivo o la tipologia di opinione espressa all‘interno di un documento testuale. Esse sono discipline attraverso le quali, per esempio, estrarre indicatori dello stato d‘animo di un individuo, oppure di un insieme di individui, creando una rappresentazione dello stato emotivo sociale. L‘andamento dello stato emotivo sociale può condizionare macroscopicamente l‘evolvere di eventi globali? Studi in campo di Economia e Finanza Comportamentale assicurano un legame fra stato emotivo, capacità nel prendere decisioni ed indicatori economici. Grazie alle tecniche disponibili ed alla mole di dati testuali continuamente aggiornati riguardanti lo stato d‘animo di milioni di individui diviene possibile analizzare tali correlazioni. In questo studio viene costruito un sistema per la previsione delle variazioni di indici di borsa, basandosi su dati testuali estratti dalla piattaforma di microblogging Twitter, sotto forma di tweets pubblici; tale sistema include tecniche di miglioramento della previsione basate sullo studio di similarità dei testi, categorizzandone il contributo effettivo alla previsione.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Das vorliegende Werk behandelt die Ursachen für die Nicht-, Schwer- und Missverständlichkeit von Bedienungsanleitungen und Instruktionen sowohl theoretisch durch eine Auswertung der einschlägigen Fachliteratur als auch praktisch durch eine empirische Untersuchung dreier Informationsprodukte. Zur Veranschaulichung der Tragweite von dysfunktionalen Instruktionen stellt die vorliegende Arbeit zunächst die rechtlichen Rahmenbedingungen für Bedienungsanleitungen dar. Im Anschluss daran erläutert sie die thematisch relevanten Kommunikationstheorien, die grundlegenden Kommunikationsmodelle sowie die zentralen Theorien der Kognitionswissenschaft zur Textverarbeitung und zum Textverstehen als Grundlage für die durchgeführten Lese- und Benutzertests. Die praktische Untersuchung veranschaulicht die vielfältigen und omnipräsenten Ursachen für eine dysfunktionale Rezeption von Instruktionen und legt aufgrund der potenziell gefährlichen Folgen die Durchführung von Benutzertests zur retrospektiven Vermeidung von Kommunikationsstörungen und zur prospektiven Stärkung des Problembewusstseins bei der Erstellung von Bedienungsanleitungen nahe.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’obiettivo della presente dissertazione è quello di creare un nuovo linguaggio controllato, denominato Español Técnico Simplificado (ETS). Basato sulla specifica tecnica del Simplified Technical English (STE), ufficialmente conosciuta come ASD-STE100, lo spagnolo controllato ETS si presenta come un documento metalinguistico in grado di fornire ad un redattore o traduttore tecnico alcune regole specifiche per produrre un documento tecnico. La strategia di implementazione conduce allo studio preliminare di alcuni linguaggi controllati simili all’inglese STE, quali il Français Rationalisé e il Simplified Technical Spanish. Attraverso un approccio caratteristico della linguistica dei corpora, la soluzione proposta fornisce il nuovo linguaggio controllato mediante l’estrazione di informazioni specifiche da un corpus ad-hoc di lingua spagnola appositamente creato ed interrogato. I risultati evidenziano un metodo linguistico (controllato) utile a produrre documentazione tecnica priva di ogni eventuale ambiguità. Il sistema ETS, infatti, si fonda sul concetto della intelligibilità in quanto condizione necessaria da soddisfare nell’ambito della produzione di un testo controllato. E, attraverso la sua macrostruttura, il documento ETS fornisce gli strumenti necessari per rendere il testo controllato univoco. Infatti, tale struttura bipartita suddivide in maniera logica i dettami: una prima parte riguarda e contiene regole sintattiche e stilistiche; una seconda parte riguarda e contiene un dizionario di un numero limitato di lemmi opportunamente selezionati. Il tutto a favore del principio della biunivocità dei segni, in questo caso, della lingua spagnola. Il progetto, nel suo insieme, apre le porte ad un linguaggio nuovo in alternativa a quelli presenti, totalmente creato in accademia, che vale come prototipo a cui far seguire altri progetti di ricerca.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Die Dissertation "Konsekutivdolmetschen und Notation" (Andres 2002) ist eine experimentelle Studie. Mit Hilfe einer von den Germersheimer Technikern konzipierten Spezialkamera wurde die Notizennahme von insgesamt 28 ProbandInnen, denen über Video die Fernsehansprache des französischen Staatspräsidenten zum Jahreswechsel 1996/1997 eingespielt wurde, gefilmt. Das Besondere an diesen Filmaufnahmen der Notizen war die mitlaufende Zeitschaltuhr. Damit konnte der zeitliche Abstand (Décalage) zur Originalrede gemessen werden. In der Verschriftung wurden die Originalrede, die Notizen und die Wiedergabe in ihrem temporalen Verlauf aufgezeichnet. Auch nonverbale Elemente wurden durch in Klammern hinter die jeweilige Äußerung gesetzte Anmerkungen integriert. Die Leistungen der ProbandInnen wurden von drei Dozentinnen bewertet. Die Auswertung der empirischen Daten erfolgte unter den Aspekten Effizienz und Knappheit, Quantität und Auswahl, Informationsstrukturierung, Décalage, Wissen und Erfahrung, Text als kommunikatives Ganzes. Auswertung der Dolmetschleistungen: Konsekutivdolmetschen ist eine komplexe Gesamtoperation, die sich aus zahlreichen miteinander vernetzten Teilen zusammensetzt. Faktoren wie Übung, Erfahrung, Wissen, das Verfügen über Sachkenntnis und Problemlösestrategien, spielen in diesem Prozess eine erhebliche Rolle. Daher ist es sinnvoll, im didaktischen Ansatz Einzeloperationen aus der Gesamtoperation herauszulösen und für Einzelbereiche die Fähigkeit zum Problemlösen zu trainieren. Die Grundvoraussetzung ist Verstehen, so dass vor allem Verstehenstechniken zu vermitteln sind. Insgesamt geht es darum, den Lernprozess so zu gestalten, dass Studierenden Strategien vermittelt werden, die es ihnen ermöglichen, defizitäre Daten der Textoberfläche durch differenzierte Erwartungsstrukturen zu ergänzen und zu lernen, Sinn zu konstruieren. In Bezug auf die Notation lassen die in der Untersuchung enthaltenen Daten den Schluss zu, dass es bei der Notation nicht um Fragen wie zielsprachliches oder ausgangssprachliches Notieren oder die Anzahl von Symbolen geht, sondern darum zu vermitteln, dass: (1) ein deutlich geschriebenes Notationssystem mit automatisierten Abkürzungsregeln und einem eindeutigen Stamm an Symbolen Zeitersparnis bewirkt, die für andere Operationen genutzt werden kann; (2) Verben und Tempusangaben für die Rekonstruktion des Gesagten ein wesentlicher Faktor sind; (3) Informationsgewichtung und -strukturierung in den Notizen die Verstehensoperationen intensivieren und die Textproduktion erleichtern; (4) Segmentierung und räumliche Anordnung in den Notizen das Zuordnen erleichtern und die Sprachproduktion positiv beeinflussen; (5) die Notation von Verknüpfungsmitteln ein wesentliches Element für die Herstellung von Kohäsion ist; (6) das Décalage in Abhängigkeit vom Faktor Verstehen Schwankungen unterworfen ist und sein darf; (7) jede Person das für sie individuelle Décalage herausfinden muss; (8) ein anhaltendes Décalage von mehr als 7 Sekunden zu Defiziten im Verstehens- oder im Notationsprozess führt; (9) diskontinuierliches Notieren zur Informationsstrukturierung oder -vervollständigung hilfreich sein kann; (10) rhetorische Merkmale in der Textproduktion leichter berücksichtigt werden, wenn diese in den Notizen markiert sind.rnSchließlich haben die Beobachtungen gezeigt, wie hilfreich für die Studierenden eine intensive Auseinandersetzung mit der Notation ist, wie wichtig ein trainiertes, verlässliches, effizientes Notationssystem als eine Teiloperation ist, die den Verstehensprozess stützt und damit entscheidenden Einfluss auf die Qualität der zielsprachlichen Umsetzung nimmt.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Information is nowadays a key resource: machine learning and data mining techniques have been developed to extract high-level information from great amounts of data. As most data comes in form of unstructured text in natural languages, research on text mining is currently very active and dealing with practical problems. Among these, text categorization deals with the automatic organization of large quantities of documents in priorly defined taxonomies of topic categories, possibly arranged in large hierarchies. In commonly proposed machine learning approaches, classifiers are automatically trained from pre-labeled documents: they can perform very accurate classification, but often require a consistent training set and notable computational effort. Methods for cross-domain text categorization have been proposed, allowing to leverage a set of labeled documents of one domain to classify those of another one. Most methods use advanced statistical techniques, usually involving tuning of parameters. A first contribution presented here is a method based on nearest centroid classification, where profiles of categories are generated from the known domain and then iteratively adapted to the unknown one. Despite being conceptually simple and having easily tuned parameters, this method achieves state-of-the-art accuracy in most benchmark datasets with fast running times. A second, deeper contribution involves the design of a domain-independent model to distinguish the degree and type of relatedness between arbitrary documents and topics, inferred from the different types of semantic relationships between respective representative words, identified by specific search algorithms. The application of this model is tested on both flat and hierarchical text categorization, where it potentially allows the efficient addition of new categories during classification. Results show that classification accuracy still requires improvements, but models generated from one domain are shown to be effectively able to be reused in a different one.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The aim of this dissertation is to investigate the differences in the phraseological patterns used by Italian and English translators and interpreters through the intermodal corpus EPTIC_01_2011. First, the most important studies and theories about corpus linguistics and collocations are introduced. After defining the notion of “corpus”, the different types of corpora are categorised, giving particular attention to the intermodal one. Then the dissertation focuses on a description of collocations, as defined by the main linguistics scholars, and it describes some attempts to apply corpus linguistics to the study of collocations. Secondly, EPTIC_01_2011 is presented, with a description of its structure and of the text editing process carried out applying specific editing conventions and adding a set of metadata before each text. The analysis of collocation candidate bigrams (adjective+noun/noun+adjective) from a quantitative point of view, was conducted applying a methodology adapted from Durrant and Schmitt (2009). Qualitative analysis was also performed on a subsection of the data. The results of the study are presented through examples and graphs, giving particular attention to the interpretation of the data analysed from a qualitative perspective. Finally, results are summarised and categorised, and suggestions are made concerning the diverging choices made in translation and interpreting. The final section concentrates on further studies that could be carried out in the future, as well as on suggestions for corpus enlargement.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In this thesis we are going to talk about technologies which allow us to approach sentiment analysis on newspapers articles. The final goal of this work is to help social scholars to do content analysis on big corpora of texts in a faster way thanks to the support of automatic text classification.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La tesi riguarda lo sviluppo di recommender system che hanno lo scopo di supportare chi è alla ricerca di un lavoro e le aziende che devono selezionare la giusta figura. A partire da un insieme di skill il sistema suggerisce alla persona la posizione lavorativa più affine al suo profilo, oppure a partire da una specifica posizione lavorativa suggerisce all'azienda la persona che più si avvicina alle sue esigenze.