1000 resultados para Web as a Corpus
Resumo:
El projecte central que es duu a terme a l'Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra és el corpus de Llenguatges especialitzats. En el marc d'aquest projecte —que implica cinc dominis d'especialitat (dret, economia, informàtica, medi ambient i medicina) i cinc llengües (català, castellà, francès, anglès i alemany)— s'han desenvolupat dos etiquetaris per a la llengua catalana i castellana. Amb el desenvolupament d'aquests etiquetaris es pretén facilitar l'etapa del processament lingüístic del corpus. En aquest paper es discuteixen, d'una banda, alguns aspectes teòrics relatius a la construcció d'etiquetaris i, de l'altra, es presenten els dos etiquetaris que s'han elaborat a l'IULA.
Resumo:
En aquest paper, es presenten els criteris de treball que s'han seguit durant els 10 anys en què s'ha anat constituint el corpus de l'IULA. S'exposa l'estat de les dades del corpus, els recursos lèxics utilitzats per al tractament de les dades (diccionaris i etiquetaris) i les eines constituïdes o adaptades. Es dedica especial atenció a la documentació de la cadena de treball de processament del corpus, des de l'adquisició dels textos en format electrònic fins a la seva incorporació definitiva al corpus.
Resumo:
El principal projecte de recerca desenvolupat a l'Institut Universitari de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra és el projecte de Llenguatges especialitzats, sota el qual s'aglutina la totalitat dels investigadors pertanyents a aquest centre. És en aquest marc de recerca on es duu a terme la constitució d'un corpus plurilingüe (català, castellà, francès, anglès i alemany), especialitzat en les àrees del dret, l'economia, la informàtica, el medi ambient i la medicina. En aquest article es descriuen els criteris que s'han tingut en compte per al disseny d'aquest recurs lingüístic i cada una de les fases de desenvolupament que s'han seguit. El resultat de diferents estadis en el procés d'elaboració del corpus es mostra en un conjunt d'annexos al final de l'article, on s'incorpora, a més, una síntesi de l'estat actual del projecte, periòdicament actualitzada.
Resumo:
L'edició de textos fent ús de mitjans informàtics ha comportat avantatges i inconvenients. Mentre que ha fet molt accessible l'edició acurada de textos també ha provocat tot un seguit de problemes, un del quals és la dificultat de compartir recursos.Per altra banda, la lingüística necessita emprar corpus voluminosos per conèixer amb més precisió i fonament el comportament real del llenguatge. És evident que l'obtenció i consegüent preparació d'un corpus per a la seva explotació esdevé un procés costós en temps i recursos, motiu pel qual és força atractiu i gairebé necessari compartir aquest material de recerca amb altres organitzacions. En aquest treball s'examinen les diferents propostes d'aplicació de l'estàndard SGML (Standard Generalized Markup Language) en la constitució de corpus textuals per a la recerca lingüística, amb èmfasi especial en les solucions proposades a l'Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra.
Resumo:
En el presente trabajo se presenta un estado de la cuestión desde diferentes disciplinas sobre los sintagmas nominales extensos especializados (SNEE) de más de tres tokens en inglés y en español en textos especializados del nivel experto-experto en el área del genoma. Se propone una metodología para describir y clasificar los SNEE a partir de 500.000 palabras en cada lengua de modo que se definan regularidades y se propongan soluciones para los diferentes profesionales del lenguaje.
Resumo:
El present projecte de recerca té com a objecte d’estudi la influència de la composició gràfica de la interfície en la satisfacció de l’usuari en entorns web. La hipòtesi inicial de la que parteix exposa que el component compositiu de la interfície web té capacitat per generar satisfacció a partir de la transmissió de valors emocionals que connecten positivamentamb l’usuari millorant l’eficiència de la comunicació. En aquest sentit, es proposa una investigació de caràcter experimental que ens permeti descobrir com influeix la composició gràfica en la satisfacció, i quines composicions i per què tenen més influència que d’altres. D’aquesta manera, es pretén constituir un marc de reflexió al voltant de les possibilitats comunicatives visuals de la interfície web i aportar nous coneixements pel seu desenvolupament.
Resumo:
A medida que el tamaño de un corpus aumenta, aumenta también el número de concordancias obtenidas al consultar una forma. Un número muy elevado de concordancias, de cientos o de miles, dificulta la sistematicidad de la tarea del lexicógrafo. La propuesta del artículo consiste en el uso de un sistema automático de agrupación de concordancias según su similitud léxica (es decir, qué elementos léxicos comparten), con el objetivo de presentar dichas concordancias agrupadas y asociadas a un único representante de todo el conjunto de las que son consideradas como léxicamente similares, de manera que la cardinalidad efectiva de los datos de corpus se vea reducida. El sistema se ha desarrollado teniendo en cuenta las ventajas de una arquitectura distribuida, por lo que cada una de las partes del sistema (stemming, identificación de stop words, cálculo de similitud entre concordancias, ordenación final de los datos, etc.) se ha desarrollado en módulos diferentes que pueden estar alojados en servidores, ya que las necesidades de cálculo del sistema harían que su uso desde un ordenador personal resultara muy lento.
Resumo:
In the past, research in ontology learning from text has mainly focused on entity recognition, taxonomy induction and relation extraction. In this work we approach a challenging research issue: detecting semantic frames from texts and using them to encode web ontologies. We exploit a new generation Natural Language Processing technology for frame detection, and we enrich the frames acquired so far with argument restrictions provided by a super-sense tagger and domain specializations. The results are encoded according to a Linguistic MetaModel, which allows a complete translation of lexical resources and data acquired from text, enabling custom transformations of the enriched frames into modular ontology components.
Resumo:
L’objectiu d’aquest treball és proposar, estudiar i analitzar un conjunt de models d’aplicació de les TIC, i més concretament d’eines associades a la Web 2.0, en la docència presencial de la Facultat de Comunicació de la Universitat Pompeu Fabra.Partint d’aquest objectiu, les idees principals que s’aporten en aquest treballsón: la necessitat d’actualitzar el model docent presencial amb les eines d’Internet que estan a l’abast dels estudiants, per tal d’innovar i arribar a superar els estàndards europeus de qualitat docent. Per donar validesa a aquest treball, s’ha fet una revisió dels models teòrics associats a laSocietat del Coneixement, les Tecnologies de la Informació i la Comunicació, la Tecnologia Educativa, Internet i la Web 2.0, i el sistema d’ensenyament superior a la Universitat Pompeu Fabra.Aquest treball és una porta oberta cap a una tesi on s’ha establert el següent esquema de treball:· Revisió de la bibliografia precedent i adquisició del coneixement de nous conceptes i models teòrics.· Disseny d’un marc pràctic per tal d’obtenir diverses variables per a la posterior anàlisi.· Aplicació de la matèria a la Universitat Pompeu Fabra.
Resumo:
En aquest projecte he avaluat un seguit de plataformes per veure quina era la millor pertal d’integrar les eines que proporcionen serveis del projecte TENCompetence.Per començar el projecte plantejaré el context del projecte. Com se situa al marc del projecte TENCompetence on he desenvolupat aquest treball fi de carrera. Tot seguit es veuen quines eines disposem per tal d’accedir als diferents serveis que ens proporciona el projecte.Comento els escenaris on s’aplicarà la tecnologia que triem i finalment comento les diferents plataformes web on integrarem les diferents eines.A continuació he realitzat un capítol per tal de comentar l’anàlisi de requeriments del’escenari d’aplicació de cada pilot. Per a cada escenari aplico unes determinades eines a un determinat context, i per tant hi han unes necessitats concretes que he de recollir. Per plasmar-ho en paper he realitzat l’anàlisi de requeriments. Un cop recollides totes les dades he pogut feruna selecció de la plataforma contenidora que més s’escau a cada pilot.Amb els requeriments i la plataforma seleccionada, he realitzat un disseny per a cada pilot. Després de refinar el disseny he realitzat la implementació per tal de cobrir les necessitats dels pilots. També he aprofitat per veure quina tecnologia es pot utilitzar per tal d’integrar leseines dins de la plataforma.Amb la implementació feta he realitzat un seguit de proves per tal de veure els resultats aconseguits. Tot seguit he iniciat un procés iteractiu per tal refinar el disseny i millorar la implementació.
Resumo:
La introducción de dispositivos tecnológicos como PDAs, móviles o portátiles, en la educación ofrece nuevas oportunidades para el aprendizaje. El uso apropiado de estas herramientas abre la posibilidad a un abanico de escenarios educativos colaborativos que no serían posibles sin la tecnología. Sin embargo, uno de los problemas principales que dificulta la adopción de estos dispositivos en entornos educativos reales es el comprender cómo aplicarlos de forma adecuada y beneficiosa para cubrir los objetivos de aprendizaje esperados. Para ello es necesario establecer vínculos entre educadores y tecnólogos para que este tipo de escenarios se puedan llevar a cabo. Por un lado, los educadores tienen conocimientos sobre prácticas educativas y, por otro lado, los tecnólogos pueden aportar con sus conocimientos acerca de las oportunidades que las tecnologías ofrecen. 4SPPIces es un modelo conceptual que tiene como objetivo establecer este puente entre las dos comunidades. Concretamente, se trata de un modelo que propone 4 factores interrelacionados que deben considerarse en el diseño de experiencias educativas colaborativas que combinen actividades dentro y fuera del aula: (1) el método pedagógico (Pedagiocal Method), (2) los participantes (Participants), (3) el espacio (Space) y (4) el historial (History). El objetivo de este proyecto es desarrollar una aplicación web para que educadores y tecnólogos colaboren en el diseño de escenarios basados en este modelo. Concretamente, este trabajo presenta el proceso de desarrollo de la aplicación así como algunas pruebas con usuarios para analizar la usabilidad y utilidad del sistema.
Resumo:
En este proyecto se va a realizar una evaluación a Google para encontrar los puntos débiles de la aplicación y proponer soluciones y/o mejoras.Empezaremos introduciendo la historia de Google para tener referencias de cómo y dónde surgió, el algoritmo de PageRank que es el núcleo del motor de búsqueda y el hardware y software que ha desarrollado con su propia tecnología.Previamente se introducirán los requisitos que se necesitarán para entender cómo se van a evaluar los cuestionarios, es decir, se explicará la escalera Likert y las dos aplicaciones desarrolladas para realizar el análisis de las queries obtenidas.A continuación se detallará como se realizará la evaluación y se propondrá un cuestionario para este fin. Una vez enviado el cuestionario, obtendremos los datos necesarios para poder evaluar Google.Al concluir la evaluación, se propondrán 5 mejoras para dar más control al usuario y para poder evaluarlas se creará otro cuestionario. Con los datos que se obtendrán de este, se realizará una evaluación de las mejoras y se analizará si tienen una buena acogidas por parte de los usuarios.Para finalizar el proyecto, se realizarán unas conclusiones globales de todos los datos analizados y de las propuestas de mejora.
Resumo:
Navegar per la World Wide Web és avui una acció rutinària per milions de persones arreu del globus terraqui. En el transcurs d'aquesta activitat cada individu deixa traces digitals a mesura que es va relacionant amb cada un dels elements que integren la Web. Aquest treball de recerca es proposa analitzar el codi font de llocs web per trobar evidències d'aquest procés latent de recollida de dades i, en la mesura del possible (i també del factible), identificar actors, establir usos potencials i cartografiar els espais de la web tenint en compte el grau de monitorització al que està sotmès l'usuari quan els visita.