79 resultados para Procesamiento en lenguaje natural
Resumo:
Este artículo describe investigación sobre los efectos de la desambiguación morfosintáctica usada como un preproceso de un analizador sint´actico profundo basado en HPSG, en el contexto del desarrollo de un treebank del español de código abierto, en el entorno de DELPH-IN. La anotación treebank se realiza manualmente tomando las decisiones apropiadas entre las opciones propuestas por el sistema y ordenadas por un módulo estadístico. Los experimentos presentados muestran que el uso de un etiquetador reduce la ambigüedad de las frases, y contribuye a limitar la cantidad de frases cuyo análisis sobrepasa a el límite de tiempo, y ayuda a al m´odulo estadístico a clasificar el árbol correcto entre los n mejores. Por un lado, nuestros resultados validan los beneficios ya reportados en la literatura de tal preproceso de análisis profundo con respecto a la velocidad, cobertura y precisión. Por otro lado, proponemos una estrategia basada en existentes herramientas de código abierto y recursos para desarrollar con alta consitencia treebanks de sintaxis profunda para idiomas con limitada disponibilidad de recursos lingüísticos.
Resumo:
En este artículo presentamos el desarrollo de un nuevo recurso de código abierto para el español: el treebank Tibidabo. La anotación se está llevando a cabo de forma semiautomática en la que, en primer lugar, el corpus es analizado automaticamente con una gramática simbólica del español basada en HPSG e implementada en el sistema Linguistic Knowledge Builder, y, en segundo lugar, los resultados del proceso de análisis se desambiguan manualmente. La existencia del treebank Tibidabo nos permitirá futuros trabajos de investigación para el desarrollo y evaluación de una arquitectura híbrida que combine métodos simbólicos y estadísticos para el PLN, así como investigaciones orientadas a la hibridización de técnicas de bajo y alto nivel para el PLN.
Resumo:
Finding an adequate paraphrase representation formalism is a challenging issue in Natural Language Processing. In this paper, we analyse the performance of Tree Edit Distance as a paraphrase representation baseline. Our experiments using Edit Distance Textual Entailment Suite show that, as Tree Edit Distance consists of a purely syntactic approach, paraphrase alternations not based on structural reorganizations do not find an adequate representation. They also show that there is much scope for better modelling of the way trees are aligned.
Resumo:
In this paper, we present a critical analysis of the state of the art in the definition and typologies of paraphrasing. This analysis shows that there exists no characterization of paraphrasing that is comprehensive, linguistically based and computationally tractable at the same time. The following sets out to define and delimit the concept on the basis of the propositional content. We present a general, inclusive and computationally oriented typology of the linguistic mechanisms that give rise to form variations between paraphrase pairs.
Resumo:
In this paper we present ClInt (Clinical Interview), a bilingual Spanish-Catalan spoken corpus that contains 15 hours of clinical interviews. It consists of audio files aligned with multiple-level transcriptions comprising orthographic, phonetic and morphological information, as well as linguistic and extralinguistic encoding. This is a previously non-existent resource for these languages and it offers a wide-ranging exploitation potential in a broad variety of disciplines such as Linguistics, Natural Language Processing and related fields.
Resumo:
CoCo is a collaborative web interface for the compilation of linguistic resources. In this demo we are presenting one of its possible applications: paraphrase acquisition.
Resumo:
Aquest projecte tracta la implementació d’una eina gràfica multiplataforma de creació i edició de gramàtiques electròniques per representar el Llenguatge Natural. És una eina per lingüistes i projectes com Spanish FrameNet Project amb la quan poden representar fàcilment transductors en un format més visual, les transicions es representen en forma de “caixes”, i guardar els resultats. S’han implementat varies opcions per crear una eina còmode i personalitzable per l’usuari amb funcionalitats enfocades a les seves necessitats com importar/exportar autòmats des d’una Expressió Regular. Es tracta l’implementació de tots els components que s’han necessitat per crear la GUI així com la seva funcionalitat.
Resumo:
El objetivo del presente trabajo es tratar de identificar algunas estrategias discursivas que puedan asociarse de manera específica a y al mismo tiempo, configurar las diversas fases de construcción colaborativa del conocimiento desarrolladas por grupos de estudiantes universitarios que resuelven tareas de elaboración conjunta de productos escritos en un entorno de aprendizaje mediado por ordenador. Para ello, se ha realizado un estudio de casos en situación natural, en dos situaciones o contextos instruccionales distintos, correspondientes a sendas asignaturas del ámbito de la Psicología de la Educación. En cada situación, se han seguido tres pequeños grupos de estudiantes, y se han analizado las tareas correspondientes a dos secuencias didácticas completas y consecutivas. Como resultado, se ha podido identificar un amplio conjunto de estrategias discursivas típicas de cada una de las fases de construcción colaborativa del conocimiento consideradas. Estas estrategias remiten a formas de uso del lenguaje mediante las cuales los miembros del grupo consiguen, en cada caso, alcanzar el nivel de intersubjetividad y el grado de construcción de conocimiento compartido propio de la fase.
Resumo:
Per a altes freqüències, les connexions poden tenir un paper rellevant. Atès que la velocitat de propagació dels senyals electromagnètics, c, en el cable no és infinita, el voltatge i el corrent al llarg del cable varien amb el temps. Per tant, amb l’objectiu de reproduir el comportament elèctric de dispositius nanoelectrònics a freqüències de THz, en aquest treball hem estudiat la regió activa del dispositiu nanoelectrònic i les seves connexions, en un sistema global complex. Per a aquest estudi hem utilitzat un nou concepte de dispositiu anomenat Driven Tunneling Device (DTD). Per a les connexions, hem plantejat el problema a partir de tot el conjunt de les equacions de Maxwell, ja que per a les freqüències i longituds de cable considerats, la contribució del camp magnètic és també important. En particular, hem suposat que la propagació que és dóna en el cable és una propagació transversal electromagnètica (TEM). Un cop definit el problema hem desenvolupat un programa en llenguatge FORTRAN que amb l'algoritme de diferències finites soluciona el sistema global. La solució del sistema global s'ha aplicat a una configuració particular de DTD com a multiplicador de freqüència per tal de discutir quins paràmetres de les connexions permet maximitzar la potència real que pot donar el DTD.
Resumo:
La finalitat d’aquest document es presentar un conjunt de resultats de recerca i d’innovació al voltant de l’aprenentatge servei, una metodologia pràctica d’educació en valors i per a la ciutadania que combina el servei a la comunitat amb l’aprenentatge de coneixements i valors. Els objectius bàsic que es busquen són: fonamentar teòricament l’aprenentatge servei, analitzar experiències rellevants i impulsar accions per afovorir la seva implantació en el nostre sistema educatiu formal i no formal. L’amplitud d’objectius ens obliga a diferenciar els resultats de recerca d’aquells vinculats a la innovació. Pels que fa als primers –els de recerca– es presenten tres treballs complementaris per documentar i analitzar bones pràctiques d’aprenentatge servei: 1) l’estudi d’experiències realitzat conjuntament entre els protagonistes i els investigadors usant com a metodologia la etnografia històrica; 2) l’estudi etnogràfic en situació natural d’experiències paradigmàtiques en l’àmbit de l’aprenentatge servei, i 3) la classificació i anàlisi quantitatiu d’experiències properes a l’aprenentatge servei que s’han detectat en revistes pedagògiques de relleu. Aquestes recerques ofereixen un bagatge experièncial ampli i obren camins per una reflexió teòrica més acurada. Pel que fa als objectius d’innovació es presenten en els annexos els següents treballs: la col•laboració amb el Banc de Sang i Teixits de Catalunya per implementar una proposta d’aprenentatge servei, de la que es presenten uns materials didàctics; el desenvolupament amb Institut Municipal d’Educació de Mataró d’un pla per acordar experiències d’aprenentatge servei entre centres educatius i entitats de la ciutat; i finalment dos treballs sobre el lloc de l’aprenentatge servei en l’Educació per a la ciutadania i, per una altra part, un treball de síntesi sobre la formació del professorat en la metodologia de l’aprenentatge servei.
Resumo:
Con la mayor capacidad de los nodos de procesamiento en relación a la potencia de cómputo, cada vez más aplicaciones intensivas de datos como las aplicaciones de la bioinformática, se llevarán a ejecutar en clusters no dedicados. Los clusters no dedicados se caracterizan por su capacidad de combinar la ejecución de aplicaciones de usuarios locales con aplicaciones, científicas o comerciales, ejecutadas en paralelo. Saber qué efecto las aplicaciones con acceso intensivo a dados producen respecto a la mezcla de otro tipo (batch, interativa, SRT, etc) en los entornos no-dedicados permite el desarrollo de políticas de planificación más eficientes. Algunas de las aplicaciones intensivas de E/S se basan en el paradigma MapReduce donde los entornos que las utilizan, como Hadoop, se ocupan de la localidad de los datos, balanceo de carga de forma automática y trabajan con sistemas de archivos distribuidos. El rendimiento de Hadoop se puede mejorar sin aumentar los costos de hardware, al sintonizar varios parámetros de configuración claves para las especificaciones del cluster, para el tamaño de los datos de entrada y para el procesamiento complejo. La sincronización de estos parámetros de sincronización puede ser demasiado compleja para el usuario y/o administrador pero procura garantizar prestaciones más adecuadas. Este trabajo propone la evaluación del impacto de las aplicaciones intensivas de E/S en la planificación de trabajos en clusters no-dedicados bajo los paradigmas MPI y Mapreduce.
Resumo:
Aquest projecte consisteix en generar un programa escrit en llenguatge Java, que utilitzant un motor d'inferència a través d'una llibreria anomenada JESS, pugui llegir un document en format OWL que és una representació de l'ontologia (representació del coneixement) sobre una assignatura, transformant-lo al format de triples que és capaç d'interpretar JESS.
Resumo:
En aquest TFC s'ha proposat dissenyar i implementar en llenguatge Java un sistema segur de descàrrega anònima de fitxers. Per fer aquesta tasca es proposa un conjunt d'aplicacions web que es s'intercanviaran dades en format XML de forma segura, sempre sota protocol HTTPS i mantenint la integritat, autenticitat i autenticació de les parts amb l'ajut d'un PKI.
Resumo:
La progressiva reducció de dimensió i cost en els dispositius electrònics, la dràstica retallada de consum elèctric i la independència de què això els dota han fet créixer en els últims temps l'interès de les comunitats científiques i tecnològiques per les xarxes sense fils de petits dispositius. Per altra banda, l'XML (eXtensible Markup Language) és un metallenguatge extensible que ha esdevingut un estàndard per a l'intercanvi d'informació estructurada entre diferents plataformes. L'objectiu d'aquest treball és explorar les possibilitats que pot oferir la introducció de l'XML en les xarxes de sensors amb l'elaboració d'un protocol de comunicació basat en aquest llenguatge i demostrar la transparència en el canvi de plataforma. Per fer-ho, es disposa de dos dispositius amb capacitat de comunicació sense fils equipats amb detectors de temperatura, lluminositat, efecte Hall i nivell de càrrega de la bateria. El projecte constarà de dues parts: una, més extensa, dedicada al desenvolupament del programari per a aquests dispositius, encarregat de obtenir les lectures dels diferents sensors i emetre-les per la xarxa utilitzant el llenguatge XML, i una altra, per recollir aquesta informació present a la xarxa, interpretar-la, salvar-la en una base de dades i exposar-la al món en una plana web. El programari dels dispositius sensors s'escriurà en llenguatge nesC dins el sistema tinyOS que és el sistema operatiu que equipen. La part d'explotació de les dades es desenvoluparà sota la plataforma .NET de Microsoft.