Biblioteca Digital

975 resultados para COMPUTER SCIENCE, THEORY

Annotation syntaxico-s��mantique des actants en corpus sp��cialis��

Relevância:

90.00% 90.00%

Publicador:

Resumo:

L��annotation en r��les s��mantiques est une t��che qui permet d��attribuer des ��tiquettes de r��les telles que Agent, Patient, Instrument, Lieu, Destination etc. aux diff��rents participants actants ou circonstants (arguments ou adjoints) d��une lexie pr��dicative. Cette t��che n��cessite des ressources lexicales riches ou des corpus importants contenant des phrases annot��es manuellement par des linguistes sur lesquels peuvent s��appuyer certaines approches d��automatisation (statistiques ou apprentissage machine). Les travaux ant��rieurs dans ce domaine ont port�� essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi �� alimenter les syst��mes d��annotation automatis��s. L��annotation dans d��autres langues, pour lesquelles on ne dispose pas d��un corpus annot�� manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l��anglais est plus que n��cessaire pour les syst��mes d��annotation automatis�� et l��annotation manuelle de milliers de phrases par des linguistes est une t��che fastidieuse et exigeante en temps. Nous avons propos�� dans cette th��se un syst��me automatique pour aider les linguistes dans cette t��che qui pourraient alors se limiter �� la validation des annotations propos��es par le syst��me. Dans notre travail, nous ne consid��rons que les verbes qui sont plus susceptibles que les noms d��tre accompagn��s par des actants r��alis��s dans les phrases. Ces verbes concernent les termes de sp��cialit�� d��informatique et d��Internet (ex. acc��der, configurer, naviguer, t��l��charger) dont la structure actancielle est enrichie manuellement par des r��les s��mantiques. La structure actancielle des lexies verbales est d��crite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel��uk et fait appel partiellement (en ce qui concerne les r��les s��mantiques) �� la notion de Frame Element tel que d��crit dans la th��orie Frame Semantics (FS) de Fillmore. Ces deux th��ories ont ceci de commun qu��elles m��nent toutes les deux �� la construction de dictionnaires diff��rents de ceux issus des approches traditionnelles. Les lexies verbales d��informatique et d��Internet qui ont ��t�� annot��es manuellement dans plusieurs contextes constituent notre corpus sp��cialis��. Notre syst��me qui attribue automatiquement des r��les s��mantiques aux actants est bas�� sur des r��gles ou classificateurs entra��n��s sur plus de 2300 contextes. Nous sommes limit��s �� une liste de r��les restreinte car certains r��les dans notre corpus n��ont pas assez d��exemples annot��s manuellement. Dans notre syst��me, nous n��avons trait�� que les r��les Patient, Agent et Destination dont le nombre d��exemple est sup��rieur �� 300. Nous avons cr��e une classe que nous avons nomm�� Autre o�� nous avons rassembl�� les autres r��les dont le nombre d��exemples annot��s est inf��rieur �� 100. Nous avons subdivis�� la t��che d��annotation en sous-t��ches : identifier les participants actants et circonstants et attribuer des r��les s��mantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus �� l��analyseur syntaxique Syntex afin d��extraire les informations syntaxiques qui d��crivent les diff��rents participants d��une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre mod��le d��apprentissage. Nous avons propos�� deux techniques pour l��identification des participants : une technique �� base de r��gles o�� nous avons extrait une trentaine de r��gles et une autre technique bas��e sur l��apprentissage machine. Ces m��mes techniques ont ��t�� utilis��es pour la t��che de distinguer les actants des circonstants. Nous avons propos�� pour la t��che d��attribuer des r��les s��mantiques aux actants, une m��thode de partitionnement (clustering) semi supervis�� des instances que nous avons compar��e �� la m��thode de classification de r��les s��mantiques. Nous avons utilis�� CHAM��L��ON, un algorithme hi��rarchique ascendant.

975 resultados para COMPUTER SCIENCE, THEORY

Filtro por publicador