481 resultados para Alignement de phrases
Resumo:
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art. Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%. Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur.
Resumo:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Resumo:
By examining Japanese fictional novels, this article will discuss how anaphoric devices (noun phrases (NPs), third person pronouns (TPPs), and zero anaphors) are selected and arranged in a given discourse. The traditional view of anaphora considers the co-referential relationship between anaphoric devices to be syntagmatic; that is, a pronoun, for example, refers back to its antecedent. It also declares the hierarchical order of information values between anaphoric devices; NPs are semantically the most informative, indicating an episode boundary, and pronouns less informative. Furthermore, zero anaphora is the most referentially transparent, showing the most accessibility of a topic. However, real text shows the contrary. NPs occur frequently while there is no apparent discourse boundary, and the same episode is continuous. This is because zero anaphors and TPPs (if they occur) break down readily due to the nature of a forthcoming sentence and the NP is reinstated, in order to continue the same topic in a given discourse. Therefore, the article opposes the traditional view of anaphora. Based on the concept of text processing, using ‘mental representations’, this article will determine certain occurrence patterns of the three anaphoric devices.
Resumo:
Melodic motifs form essential building blocks in Indian Classical music. The motifs, or key phrases, providestrong cues to the identity of the underlying raga in both Hindustani and Carnatic styles of Indian music. Automatic identification and clustering of similar motifs is relevant in this context. The inherent variations in various instances of a characteristic phrase in a bandish (composition)performance make it challenging to identify similar phrases in a performance. A nyas svara (long note)marks the ending of these phrases. The proposed method does segmentation of phrases through identification ofnyas and computes similarity with the reference characteristic phrase.
Resumo:
Prepositional phrases are the commonest kind of postmodification in all registers of English (Biber et al. 1999: 634). The locative ones that can be expanded into a defining relative clause (the books [which are] on the table) are usually expressed by such a construction in Spanish (los libros que están encima de la mesa) or by a phrase introduced by de (los libros de encima de la mesa). Wonder (1979) argues that Spanish allows locative phrases with prepositions other than de in the case of"situaciones"activas"" (el aterrizaje en pleno campo) as against"situaciones estáticas" (*el sofá en la sala), and if the phrase can be given an adverbial rather than, or in addition to, an adjectival interpretation (el ruido en la calle), especially if that phrase implies an alternative location for an object or contrast with another similar object (el sofá en la sala contigua). This paper further investigates this claim and looks at Spanish equivalents of English postmodifying prepositional phrases in general, while proposing an explanation for the choice of these different structures in Spanish based on considerations of lexical density. Resumen: Las frases preposicionales constituyen el tipo más frecuente de posmodificación en todos los registros del inglés (Biber et a. 1999: 634). En el español, las expresiones locativas suelen incorporar un pronombre relativo y un verbo (the books [which are] on the table > los libros que están encima de la mesa), o bien expresarse mediante una frase introducida por la preposición de (los libros de encima de la mesa). Wonder (1979) sostiene que el español permite el uso de preposiciones que no sean de en las frases locativas en el caso de"situaciones"activas"" (el aterrizaje en pleno campo) frente a"situaciones estáticas" (*el sofá en la sala), y también si la frase puede tener una función adverbial antes que, o además de, una interpretación adjetiva (el ruido en la calle), sobre todo si dicha frase encierra la idea de una posición alternativa para un objeto, o bien un contraste con otro objeto similar (el sofá en la sala contigua). El presente estudio pretende examinar este argumento y, además, explorar la posmodificación preposicional en español de un modo más general, a la par que propone una explicación sobre la elección de estructura en español que se basa en el criterio de la densidad léxica.
Resumo:
Collection : Archives de la linguistique française ; 307