3 resultados para prawn crawling

em Consorci de Serveis Universitaris de Catalunya (CSUC), Spain


Relevância:

10.00% 10.00%

Publicador:

Resumo:

The objective of the PANACEA ICT-2007.2.2 EU project is to build a platform that automates the stages involved in the acquisition,production, updating and maintenance of the large language resources required by, among others, MT systems. The development of a Corpus Acquisition Component (CAC) for extracting monolingual and bilingual data from the web is one of the most innovative building blocks of PANACEA. The CAC, which is the first stage in the PANACEA pipeline for building Language Resources, adopts an efficient and distributed methodology to crawl for web documents with rich textual content in specific languages and predefined domains. The CAC includes modules that can acquire parallel data from sites with in-domain content available in more than one language. In order to extrinsically evaluate the CAC methodology, we have conducted several experiments that used crawled parallel corpora for the identification and extraction of parallel sentences using sentence alignment. The corpora were then successfully used for domain adaptation of Machine Translation Systems.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper demonstrates a novel distributed architecture to facilitate the acquisition of Language Resources. We build a factory that automates the stages involved in the acquisition, production, updating and maintenance of these resources. The factory is designed as a platform where functionalities are deployed as web services, which can be combined in complex acquisition chains using workflows. We show a case study, which acquires a Translation Memory for a given pair of languages and a domain using web services for crawling, sentence alignment and conversion to TMX.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Existe un número elevado de sectores de la sociedad que identifican los beneficios ofrecidos por el ecosistema del manglar así como la interacción entre ellos y el bienestar humano. Aún así, los servicios ecosistémicos (ESs) ofrecidos por la naturaleza son poco visibles y reconocidos legislativamente. Se puede observar que el manglar es uno de los ecosistemas más productivos del planeta. Tienen gran importancia tanto económica, social, ambiental como cultural, pero en las últimas décadas se ha hecho más notable una degradación progresiva debida, en gran parte, a la cría de camarón en cautividad, la camaronicultura. Por esta causa, se observa que la legislación y las políticas que pretenden gestionar estos ecosistemas, no actúan en consecuencia al no imponer ciertas medidas necesarias para esta vital protección, ni considera la importancia de los ecosistemas para la vida de las comunidades tradicionales que dependen de sus servicios para sobrevivir. Por ello es necesario producir un conocimiento sobre ESs a partir de la percepción por parte de la comunidad y que la comunidad se implique en la resolución de esta problemática, ya sea en la toma de decisiones o mediante ciertas actividades o acciones que puedan denunciar estas prácticas insostenibles. Frente a este contexto, este trabajo fue realizado a partir de la información obtenida en la comunidad de Curral Velho (Ceará, Brasil), con el objetivo de realizar un estudio sobre los ESs proveídos por los manglares a partir de la percepción de la comunidad para demostrar la importancia que éstos tienen para el bienestar de los habitantes de la comunidad que se benefician. Los resultados fueron alcanzados a partir de una combinación de metodologías sociales que hacen posible la participación por parte de los habitantes: free listing, encuestas de valoración, grupos focales y observación participante. En la aplicación de estos métodos fueron identificados nuevos ESs de carácter psicológico por los pescadores/as de la pesca artesanal. Por lo que se concluye que es importante tener en cuenta la opinión de las comunidades adyacentes para preservar los flujos ecosistémicos que proporciona el manglar.