Automatic induction of lexical features


Autoria(s): Jäger, Peter
Data(s)

2011

Resumo

This thesis concerns artificially intelligent natural language processing systems that are capable of learning the properties of lexical items (properties like verbal valency or inflectional class membership) autonomously while they are fulfilling their tasks for which they have been deployed in the first place. Many of these tasks require a deep analysis of language input, which can be characterized as a mapping of utterances in a given input C to a set S of linguistically motivated structures with the help of linguistic information encoded in a grammar G and a lexicon L: G + L + C → S (1) The idea that underlies intelligent lexical acquisition systems is to modify this schematic formula in such a way that the system is able to exploit the information encoded in S to create a new, improved version of the lexicon: G + L + S → L' (2) Moreover, the thesis claims that a system can only be considered intelligent if it does not just make maximum usage of the learning opportunities in C, but if it is also able to revise falsely acquired lexical knowledge. So, one of the central elements in this work is the formulation of a couple of criteria for intelligent lexical acquisition systems subsumed under one paradigm: the Learn-Alpha design rule. The thesis describes the design and quality of a prototype for such a system, whose acquisition components have been developed from scratch and built on top of one of the state-of-the-art Head-driven Phrase Structure Grammar (HPSG) processing systems. The quality of this prototype is investigated in a series of experiments, in which the system is fed with extracts of a large English corpus. While the idea of using machine-readable language input to automatically acquire lexical knowledge is not new, we are not aware of a system that fulfills Learn-Alpha and is able to deal with large corpora. To instance four major challenges of constructing such a system, it should be mentioned that a) the high number of possible structural descriptions caused by highly underspeci ed lexical entries demands for a parser with a very effective ambiguity management system, b) the automatic construction of concise lexical entries out of a bulk of observed lexical facts requires a special technique of data alignment, c) the reliability of these entries depends on the system's decision on whether it has seen 'enough' input and d) general properties of language might render some lexical features indeterminable if the system tries to acquire them with a too high precision. The cornerstone of this dissertation is the motivation and development of a general theory of automatic lexical acquisition that is applicable to every language and independent of any particular theory of grammar or lexicon. This work is divided into five chapters. The introductory chapter first contrasts three different and mutually incompatible approaches to (artificial) lexical acquisition: cue-based queries, head-lexicalized probabilistic context free grammars and learning by unification. Then the postulation of the Learn-Alpha design rule is presented. The second chapter outlines the theory that underlies Learn-Alpha and exposes all the related notions and concepts required for a proper understanding of artificial lexical acquisition. Chapter 3 develops the prototyped acquisition method, called ANALYZE-LEARN-REDUCE, a framework which implements Learn-Alpha. The fourth chapter presents the design and results of a bootstrapping experiment conducted on this prototype: lexeme detection, learning of verbal valency, categorization into nominal count/mass classes, selection of prepositions and sentential complements, among others. The thesis concludes with a review of the conclusions and motivation for further improvements as well as proposals for future research on the automatic induction of lexical features.

Die vorliegende Dissertation behandelt künstlich intelligente Sprachverarbeitungssysteme, die in der Lage sind, selbständig Eigenschaften lexikalischer Elemente (Eigenschaften wie Verbvalenz oder Zuordnung zu Flexionsklassen) zu lernen, während sie ihre Aufgaben verrichten, für die sie eigentlich eingesetzt sind. Für viele dieser Aufgaben wird eine tiefgehende Analyse der sprachlichen Eingabe benötigt, welche als eine Abbildung von sprachlichen Äußerungen in der Eingabe C auf eine Menge S linguistisch motivierter Strukturen charakterisiert werden kann, wobei diese Abbildung mithilfe von Informationen vollzogen wird, die in einer Grammatik G und einem Lexikon L enkodiert sind:rnG + L + C → S (1)rnDie den intelligenten sprachlernenden Systemen zu Grunde liegende Idee ist es, diese schematische Formel so umzustellen, dass ein solches System in der Lage ist, die Informationen in S auszunutzen und ein neues, verbessertes Lexikon zu erzeugen:rnG + L + S → L' (2)rnDie Dissertation stellt die Forderung auf, dass solche Systeme nur dann als intelligent betrachtet werden sollten, wenn sie nicht nur die Lerngelegenheiten in C maximal ausschöpfen, sondern auch zudem in der Lage sind, fälschlich erworbenes und damit vermeintliches lexikalisches Wissen revidieren zu können. Ein zentrales Element dieser Arbeit ist deshalb die Formulierung einer Reihe von Kriterien für intelligente Systeme, die lexikalisches Wissen erwerben können, zusammengefasst zur paradigmatischen Design-Regel Learn-Alpha.rnDie Dissertation beschreibt das Design und die Qualität eines Prototypen für ein solches System, dessen lexikalische Erwerbskomponenten von Grund auf entwickelt wurden und welches auf einem der aktuellen HPSG prozessierenden Systeme aufsetzt. Die Qualität dieses Prototyps wird in einer Reihe von Experimenten untersucht, in denen das System mit Extrakten eines großen Corpus des Englischen gefüttert wird.rnAuch wenn die Idee der Nutzung von maschinenlesbarer Spracheingabe zum Erwerb lexikalischen Wissens nicht neu ist, ist uns kein System bekannt, welches den Anforderungen in Learnalpha gerecht wird und gleichzeitig mit größeren Corpora umgehen kann. Für die Konstruktion eines solchen Systems sollen hier vier Herausforderungen beispielhaft angeführt werden: a) die durch die starke lexikalische Unterspezifikation hervorgerufene große Anzahl struktureller Beschreibungen erfordert einen Parser mit einem sehr effektiven Ambiguitätsmanagement, b) die automatische Gewinnung von Lexikoneinträgen aus einer Masse von beobachteten lexikalischen Fakten erfordert eine spezielle Technik des Datenabgleichs, c) die Zuverlässigkeit der Lexikoneinträge hängt von der Entscheidung des Systems ab, ob es 'ausreichend' Daten dafür analysiert hat, d) grundlegende Eigenschaften von Sprache können die Determinierbarkeit bestimmter lexikalischer Merkmale verhindern, wenn das System versucht, diese mit einer zu hohen Präzision zu erwerben.rnDer Grundstein dieser Dissertation ist die Motivierung und Entwicklung einer allgemeinen Theorie des automatischen Erwerbs lexikalischer Merkmale, die auf jede Sprache anwendbar und theorieneutral in Bezug auf Grammatik und Lexikon ist.rnDie Arbeit ist in fünf Kapitel gegliedert. Das Einführungskapitel kontrastiert zunächst drei unterschiedliche und gegenseitig inkompatible Ansätze des Erwerbs lexikalischer Merkmale: cue-basierte Anfragen bzw. Extraktion, kopflexikalisierte probabilistische kontextfreie Grammatiken und Lernen durch Unifikation. Danach wird die Learn Alpha Design-Regel vorgestellt. Das zweite Kapitel ist ein Abriss der Theorie, die Learn-Alpha zu Grunde liegt und legt alle Begriffe und Konzepte dar, die für ein gründliches Verständnis des künstlichen Lexikonerwerbs nötig sind.rnKapitel 3 entwickelt die als Prototyp entworfene Lexikonerwerbsmethode, ANALYZE-LEARN-REDUCE, ein Framework welches Learn-alpha implementiert. Das vierte Kapitel präsentiert das Design und die Ergebnisse eines mit dem Prototypen durchgeführten Bootstrapping-Experiments, welches unter anderem Lexemdetektion, Verbvalenz, Kategorisierung von Zähl- versus Massennomen sowie Selektion von Präpositionen und Satzkomplementen umfasst. Die Dissertation schließt mit einer Besprechung der Schlussfolgerungen und motiviert mögliche Verbesserungen sowie Vorschläge für künftige Forschung über die automatische Induktion lexikalischer Merkmale.

Formato

application/pdf

Identificador

urn:nbn:de:hebis:77-27345

http://ubm.opus.hbz-nrw.de/volltexte/2011/2734/

Idioma(s)

eng

Publicador

05: Philosophie und Philologie. 05: Philosophie und Philologie

Direitos

http://ubm.opus.hbz-nrw.de/doku/urheberrecht.php

Palavras-Chave #Maschinelles Lernen #Künstliche Intelligenz #machine learning #artificial intelligence #Learn-Alpha #belief revision #English Resource Grammar #Language, Linguistics
Tipo

Thesis.Doctoral