995 resultados para corpus multilingüe
Resumo:
Corpus constituido desde 1993 hasta la actualidad en el marco del proyecto Corpus del Institut Universitari de Lingüística Aplicada (IULA) de la Universidad Pompeu Fabra. Este proyecto recopila textos escritos en cinco lenguas diferentes (catalán, castellano, inglés, francés y alemán) de las áreas de especialidad de la economía, el derecho,el medio ambiente, la medicina y la informática.
Resumo:
Uno de los objetivos principales del trabajo terminográfico es la identificación de conocimientosobre los términos que aparecenen textos especializados. Para confeccionar diccionarios, glosarios u ontologías, los terminógrafos suelen buscar definiciones sobre los términos que pretenden definir. La búsqueda de definiciones se puede hacer apartir de corpus especializados, donde normalmente aparecen en contextos definitorios, es decir, en fragmentos de texto donde un autor explícitamente define el término en cuestión. Hoy en día hay un interés creciente por automatizar este proceso, basado enla búsqueda de patrones definitorios sobre corpus especializados anotados morfosintácticamente. En este artículo presentamos una investigación centrada en la extracción automática de contextos definitorios. Presentamos una metodología que incluye tres procesos automáticos diferentes: la extracción de ocurrencias de patrones definitorios, el filtradode contextos no relevantes, y la identificación de elementos constitutivos, es decir, términos, definiciones y patrones pragmáticos.
Resumo:
El projecte central que es duu a terme a l'Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra és el corpus de Llenguatges especialitzats. En el marc d'aquest projecte —que implica cinc dominis d'especialitat (dret, economia, informàtica, medi ambient i medicina) i cinc llengües (català, castellà, francès, anglès i alemany)— s'han desenvolupat dos etiquetaris per a la llengua catalana i castellana. Amb el desenvolupament d'aquests etiquetaris es pretén facilitar l'etapa del processament lingüístic del corpus. En aquest paper es discuteixen, d'una banda, alguns aspectes teòrics relatius a la construcció d'etiquetaris i, de l'altra, es presenten els dos etiquetaris que s'han elaborat a l'IULA.
Resumo:
En aquest paper, es presenten els criteris de treball que s'han seguit durant els 10 anys en què s'ha anat constituint el corpus de l'IULA. S'exposa l'estat de les dades del corpus, els recursos lèxics utilitzats per al tractament de les dades (diccionaris i etiquetaris) i les eines constituïdes o adaptades. Es dedica especial atenció a la documentació de la cadena de treball de processament del corpus, des de l'adquisició dels textos en format electrònic fins a la seva incorporació definitiva al corpus.
Resumo:
El principal projecte de recerca desenvolupat a l'Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra és el projecte de Llenguatges especialitzats, sota el qual s'aglutina la totalitat dels investigadors pertanyents a aquest centre. És en aquest marc de recerca on es duu a terme la constitució d'un corpus plurilingüe (català, castellà, francès, anglès i alemany), especialitzat en les àrees del dret, l'economia, la informàtica, el medi ambient i la medicina. En aquest article es descriuen els criteris que s'han tingut en compte per al disseny d'aquest recurs lingüístic i cada una de les fases de desenvolupament que s'han seguit. El resultat de diferents estadis en el procés d'elaboració del corpus es mostra en un conjunt d'annexos al final de l'article, on s'incorpora, a més, una síntesi de l'estat actual del projecte, periòdicament actualitzada.
Resumo:
L'edició de textos fent ús de mitjans informàtics ha comportat avantatges i inconvenients. Mentre que ha fet molt accessible l'edició acurada de textos també ha provocat tot un seguit de problemes, un del quals és la dificultat de compartir recursos.Per altra banda, la lingüística necessita emprar corpus voluminosos per conèixer amb més precisió i fonament el comportament real del llenguatge. És evident que l'obtenció i consegüent preparació d'un corpus per a la seva explotació esdevé un procés costós en temps i recursos, motiu pel qual és força atractiu i gairebé necessari compartir aquest material de recerca amb altres organitzacions. En aquest treball s'examinen les diferents propostes d'aplicació de l'estàndard SGML (Standard Generalized Markup Language) en la constitució de corpus textuals per a la recerca lingüística, amb èmfasi especial en les solucions proposades a l'Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra.
Resumo:
En el presente trabajo se presenta un estado de la cuestión desde diferentes disciplinas sobre los sintagmas nominales extensos especializados (SNEE) de más de tres tokens en inglés y en español en textos especializados del nivel experto-experto en el área del genoma. Se propone una metodología para describir y clasificar los SNEE a partir de 500.000 palabras en cada lengua de modo que se definan regularidades y se propongan soluciones para los diferentes profesionales del lenguaje.
Resumo:
A medida que el tamaño de un corpus aumenta, aumenta también el número de concordancias obtenidas al consultar una forma. Un número muy elevado de concordancias, de cientos o de miles, dificulta la sistematicidad de la tarea del lexicógrafo. La propuesta del artículo consiste en el uso de un sistema automático de agrupación de concordancias según su similitud léxica (es decir, qué elementos léxicos comparten), con el objetivo de presentar dichas concordancias agrupadas y asociadas a un único representante de todo el conjunto de las que son consideradas como léxicamente similares, de manera que la cardinalidad efectiva de los datos de corpus se vea reducida. El sistema se ha desarrollado teniendo en cuenta las ventajas de una arquitectura distribuida, por lo que cada una de las partes del sistema (stemming, identificación de stop words, cálculo de similitud entre concordancias, ordenación final de los datos, etc.) se ha desarrollado en módulos diferentes que pueden estar alojados en servidores, ya que las necesidades de cálculo del sistema harían que su uso desde un ordenador personal resultara muy lento.
Resumo:
Análisis de los subtítulos en español de una película multilingüe y comparación de éstos con los subtítulos intralingüísticos y los que ya aparecen en el texto de partida, para poder juzgar con mayor precisión la adecuación de éstos y el papel que juegan en ellos las llamadas “terceras lenguas”.
Resumo:
Glosario de equivalentes en castellano a partir de términos en inglés y en francés, relacionados con el ámbito de la economía. Este trabajo es fruto de un convenio institucional entre la Universidad Pompeu Fabra y el gobierno de Canadá para alimentar el banco de datos terminológico TERMIUM.
Resumo:
El nostre objectiu principal ha estat estudiar el desenvolupament de competències discursives de l’alumnat (d’origen) estranger que contribueixin a entendre i atendre les seves necessitats socials i educatives a l’aula (de matemàtiques) multilingüe. Amb aquesta intenció, hem dut a terme accions científiques a dos nivells: amb professorat i amb estudiants. Quant a la caracterització de la complexitat normativa de l’aula de matemàtiques multilingüe, tal com estava previst: 1) hem exemplificat diverses normes socials i lingüístiques existents en el desenvolupament de pràctiques matemàtiques a l’aula; i 2) hem particularitzat el fenomen de la diversitat de normes socials i lingüístiques en casos de sessions de classe de secundària. Quant a la documentació d'indicadors de progrés en la comprensió de normes socials i lingüístiques de l’aula, i en el desenvolupament de competències discursives d’adequació a aquestes normes, tal com estava previst: 1) hem caracteritzat estratègies d’ensenyament i aprenentatge de normes socials i lingüístiques en situacions d’interacció social en petit i gran grup; i 2) hem construït criteris de seguiment del grau de desenvolupament de competències discursives d’adequació a les normes, tant pel que a professorat com alumnat. Finalment, quant a l'anàlisi de la contribució de les competències discursives a la construcció d’identitats socials, lingüístiques i matemàtiques compartides: 1) hem estudiat els usos que l’estudiant (d’origen) estranger fa de normes escolars vinculades a pràctiques socials, lingüístiques i matemàtiques; i 2) hem examinat la construcció de significats socials, lingüístics i matemàtics compartits en un ampli ventall de processos d’adequació a normes de l’aula orquestrades pel professorat de la nostra mostra.
Resumo:
The visual cortex in each hemisphere is linked to the opposite hemisphere by axonal projections that pass through the splenium of the corpus callosum. Visual-callosal connections in humans and macaques are found along the V1/V2 border where the vertical meridian is represented. Here we identify the topography of V1 vertical midline projections through the splenium within six human subjects with normal vision using diffusion-weighted MR imaging and probabilistic diffusion tractography. Tractography seed points within the splenium were classified according to their estimated connectivity profiles to topographic subregions of V1, as defined by functional retinotopic mapping. First, we report a ventral-dorsal mapping within the splenium with fibers from ventral V1 (representing the upper visual field) projecting to the inferior-anterior corner of the splenium and fibers from dorsal V1 (representing the lower visual field) projecting to the superior-posterior end. Second, we also report an eccentricity gradient of projections from foveal-to-peripheral V1 subregions running in the anterior-superior to posterior-inferior direction, orthogonal to the dorsal-ventral mapping. These results confirm and add to a previous diffusion MRI study (Dougherty et al., 2005) which identified a dorsal/ventral mapping of human splenial fibers. These findings yield a more detailed view of the structural organization of the splenium than previously reported and offer new opportunities to study structural plasticity in the visual system.
Resumo:
Ce travail se propose de comparer le personnage de Merlin dans un corpus médiéval (Geoffroy de Monmouth; Wace, Roman de Brut; Merlin en prose; La Suite du Roman de Merlin) et un texte moderne (Blanche-Neige contre Merlin l'enchanteur de Catherine Dufour) à travers la problématique du bien et du mal. Savoir où se situe Merlin, entre Dieu et le diable, est essentiel dans les textes du Moyen Age, alors que cette préoccupation semble à priori dépassée dans un texte iconoclaste, tel que celui de Dufour. Il est pourtant possible de l'observer à de nombreuses reprises, notamment en ce qui concerne l'origine de l'enchanteur, ses pouvoirs, ses éclats de rire et le rôle qu'il joue dans la conception d'Arthur. En annexe, un entretien avec Catherine Dufour.
Resumo:
El text que es presenta a continuació: ‘Aquí s'esculpeixen inscripcions’. Aproximació al Corpus epigràfic de la ciutat de Girona, forma part d'un projecte d'investigació i anàlisi molt més ampli del que aquí es pot mostrar. Aquest té com a objectiu principal l'estudi dels signes i símbols escrits de la ciutat de Girona. És a dir, l'estudi de l'ús públic que es fa de l'escriptura, entenent l'escriptura com una eina que fa perdurable un determinat missatge i que pretén arribar a un gran nombre de persones