30 resultados para Information Retrieval, Document Databases, Digital Libraries


Relevância:

100.00% 100.00%

Publicador:

Resumo:

In the beginning of the 90s, ontology development was similar to an art: ontology developers did not have clear guidelines on how to build ontologies but only some design criteria to be followed. Work on principles, methods and methodologies, together with supporting technologies and languages, made ontology development become an engineering discipline, the so-called Ontology Engineering. Ontology Engineering refers to the set of activities that concern the ontology development process and the ontology life cycle, the methods and methodologies for building ontologies, and the tool suites and languages that support them. Thanks to the work done in the Ontology Engineering field, the development of ontologies within and between teams has increased and improved, as well as the possibility of reusing ontologies in other developments and in final applications. Currently, ontologies are widely used in (a) Knowledge Engineering, Artificial Intelligence and Computer Science, (b) applications related to knowledge management, natural language processing, e-commerce, intelligent information integration, information retrieval, database design and integration, bio-informatics, education, and (c) the Semantic Web, the Semantic Grid, and the Linked Data initiative. In this paper, we provide an overview of Ontology Engineering, mentioning the most outstanding and used methodologies, languages, and tools for building ontologies. In addition, we include some words on how all these elements can be used in the Linked Data initiative.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper describes an infrastructure for the automated evaluation of semantic technologies and, in particular, semantic search technologies. For this purpose, we present an evaluation framework which follows a service-oriented approach for evaluating semantic technologies and uses the Business Process Execution Language (BPEL) to define evaluation workflows that can be executed by process engines. This framework supports a variety of evaluations, from different semantic areas, including search, and is extendible to new evaluations. We show how BPEL addresses this diversity as well as how it is used to solve specific challenges such as heterogeneity, error handling and reuse

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Las redes sociales en la actualidad son muy relevantes, no solo ocupan mucho tiempo en la vida diaria de las personas si no que también sirve a millones de empresas para publicitarse entre otras cosas. Al fenómeno de las redes sociales se le ha unido la faceta empresarial. La liberación de las APIs de algunas redes sociales ha permitido el desarrollo de aplicaciones de todo tipo y que puedan tener diferentes objetivos como por ejemplo este proyecto. Este proyecto comenzó desde el interés por Ericsson del estudio del API de Google+ y sugerencias para dar valores añadidos a las empresas de telecomunicaciones. También ha complementando la referencia disponible en Ericsson y de los otros dos proyectos de recuperación de información de las redes sociales, añadiendo una serie de opciones para el usuario en la aplicación. Para ello, se ha analizado y realizado un ejemplo, de lo que podemos obtener de las redes sociales, principalmente Twitter y Google+. Lo primero en lo que se ha basado el proyecto ha sido en realizar un estudio teórico sobre el inicio de las redes sociales, el desarrollo y el estado en el que se encuentran, analizando así las principales redes sociales que existen y aportando una visión general sobre todas ellas. También se ha realizado un estado de arte sobre una serie de webs que se dedican al uso de esa información disponible en Internet. Posteriormente, de todas las redes sociales con APIs disponibles se realizó la elección de Google+ porque es una red social nueva aun por explorar y mejorar. Y la elección de Twitter por la serie de opciones y datos que se puede obtener de ella. De ambas se han estudiado sus APIs, para posteriormente con la información obtenida, realizar una aplicación prototipo que recogiera una serie de funciones útiles a partir de los datos de sus redes sociales. Por último se ha realizado una simple interfaz en la cual se puede acceder a los datos de la cuenta como si se estuviera en Twitter o Google+, además con los datos de Twitter se puede realizar una búsqueda avanzada con alertas, un análisis de sentimiento, ver tus mayores retweets de los que te siguen y por último realizar un seguimiento comparando lo que se comenta sobre dos temas determinados. Con este proyecto se ha pretendido proporcionar una idea general de todo lo relacionado con las redes sociales, las aplicaciones disponibles para trabajar con ellas, la información del API de Twitter y Google+ y un concepto de lo que se puede obtener. Today social networks are very relevant, they not only take a long time in daily life of people but also serve millions of businesses to advertise and other things. The phenomenon of social networks has been joined the business side. The release of the APIs of some social networks has allowed the development of applications of all types and different objectives such as this project. This project started from an interest in the study of Ericsson about Google+ API and suggestions to add value to telecommunications companies. This project has complementing the reference available in Ericsson and the other two projects of information retrieval of social networks, adding a number of options for the user in the application. To do this, we have analyzed and made an example of what we can get it from social networks, mainly Twitter and Google+. The first thing that has done in the project was to make a theoretical study on the initiation of social networks, the development and the state in which they are found, and analyze the major social networks that exist. There has also been made a state of art on a number of websites that are dedicated to the use of this information available online. Subsequently, about all the social networks APIs available, Google+ was choice because it is a new social network even to explore and improve. And the choice of Twitter for the number of options and data that can be obtained from it. In both APIs have been studied, and later with the information obtained, make a prototype application to collect a number of useful features from data of social networks. Finally there has been a simple interface, in which you can access the account as if you were on Twitter or Google+. With Twitter data can perform an advanced search with alerts, sentiment analysis, see retweets of who follow you and make comparing between two particular topics. This project is intended to provide an overview of everything related to social networks, applications available to work with them, information about API of Google+ and Twitter, and a concept of what you can get.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En el presente estudio de tesis doctoral analizamos un texto literario francés del siglo XVI en el que aparecen 217 juegos. Como valor añadido se trata de parte de un texto reconocido mundialmente por la Literatura Universal como es el Gargantua de François Rabelais. A tenor de la conocida y famosa definición de Gimnasia establecida por Francisco de Amorós y Ondeano allá por 1830 en su Manuel d'éducation physique, gymnastique et morale, uno de los objetos de estudio en nuestra ciencia es la relación de nuestros movimientos con nuestras costumbres. Para ello indudablemente debemos recurrir a todo tipo de fuentes, escritas, orales o de otro tipo, para analizarlas. “La gimnasia es la ciencia razonada de nuestros movimientos, de sus relaciones con nuestros sentidos, nuestra inteligencia, nuestros sentimientos, nuestras costumbres y el desarrollo de todas nuestras facultades...” Costumbres, tradición e historia, en definitiva, que se contrasta con los medios utilizados en su análisis, herramientas TIC como son librerías digitales, buscadores de textos y palabras. A través del análisis de textos de diversa índole hemos ido obteniendo datos sobre los juegos. Estas fuentes han sido novelas, diccionarios, enciclopedias y ensayos desde el siglo XIV hasta obras contemporáneas. Se ha realizado un análisis estadístico de estas fuentes lo que ha dado a este estudio otro valor añadido desde un punto de vista metodológico. El resultado del estudio se ha plasmado en una colección de fichas creadas a partir de un estudio comparativo de diferentes fichas de juegos de autores de relevancia. ABSTRACT Gymnastics is the reasoned science of our movements, of its relations with our senses, our intelligence, our feelings, our customs and the development of all our faculties… In accordance with the all known famous definition of Gymnastics that established Don Francisco de Amorós and Ondeano in 1830 in his Manuel d'éducation physique, gymnastique et morale, one of the objects of study in our science is the relation of our movements with our customs. For it doubtlessly we must resort to all type of sources, written, oral or of another type, to analyze them. In the present doctoral thesis study we analyzed a French literary text of the XVI th century in which they appear 217 games. As added value treats world-wide from a recognized text by Universal Literature as it is the Gargantua of François Rabelais. Customs, tradition and history, really, that are resisted with means used in its analysis, TIC tools as they are digital libraries and tools to seek texts and words. Through text analysis of diverse nature we have been collecting data on the games. These sources have been novels, dictionaries, encyclopedias and tests from century XIV to contemporary works. A statistical analysis of these sources has been made which has given to this study another value added from a methodological point of view. The result of the study has been resumed in index cards created from a comparative cards study from different relevant authors.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El presente trabajo aborda el aprovechamiento de algunos subproductos agrícolas (bagazo de maguey y fibra de coco) y forestales (corteza de pino) en el Estado de Oaxaca (Sur de México). El objetivo principal se centra en localizar, cuantificar y caracterizar estos con vistas a su aplicación como sustratos o componentes de sustratos en cultivos ornamentales, forestales y hortícolas, y a su uso como enmiendas en cultivos tipo. Así mismo se persigue reducir el uso de la turba y la tierra de monte como sustratos mayoritarios en la actualidad. Para la localización de los subproductos se utilizaron los datos de los registros parcelarios de los productores de coco para la obtención de copra (generadores de fibra de coco) de la región costa y de los productores de mezcal (generadores del residuo de bagazo de maguey) de la región valles centrales, así como las ubicaciones de los aserraderos forestales en el Estado de Oaxaca. Se emplea un Sistema de Información Geográfica (SIG) con una cartografía digitalizada de los elementos del medio (clima, geología y suelo), de los cultivos generadores (bagazo de maguey, fibra de coco y corteza de pino), de la agricultura protegida como receptora (tomate) y de la agricultura extensiva con cultivos receptores de enmienda (café, hule, limón, mango, palma de coco y maguey). La producción anual de los residuos se cartografía y cuantifica con los siguientes resultados: bagazo de maguey 624.000 t, fibra de coco 86.000 m3 y 72.000 t de corteza de pino. Mediante el estudio de las características de los suelos de los cultivos receptores y de los requerimientos de materia orgánica de cada cultivo se calcularon las necesidades totales de materia orgánica para cada suelo. Los resultados de las cantidades globales para cada cultivo en todo el Estado muestran una necesidad total de 3.112.000 t de materia orgánica como enmienda. Con los datos obtenidos y a través de un algoritmo matemático se realiza una propuesta de localización de dos plantas de compostaje (de bagazo de maguey y fibra de coco) y cuatro plantas de compostaje de corteza de pino. Con el fin de conocer los subproductos a valorizar como sustrato o componente de sustrato se caracteriza su composición física‐química, siguiendo Normas UNE‐EN, y se analizan mediante Resonancia Magnética Nuclear (RMN). Para el acondicionamiento de bagazo de maguey y la corteza de pino se realizaron ensayos de compostaje. Al final de 241 días la temperatura y la humedad de ambos procesos se encontraban en los rangos recomendados, indicando que los materiales estaban estabilizados y con calidad para ser utilizados como sustrato o componente de sustrato. Para la fibra de coco se realizó el proceso de molienda en seco de conchas de coco provenientes de la comunidad de Río Grande Oaxaca (Principal zona productora de copra en Oaxaca). Posteriormente se emplean los materiales obtenidos como componentes para sustratos de cultivo. Se estudia el compost de bagazo de maguey y siete mezclas; el compost de corteza de pino y ocho mezclas y la fibra de coco con tres mezclas. Estos sustratos alternativos permiten obtener mezclas y reducir el uso de la tierra de monte, turba, arcilla expandida y vermiculita, siendo por tanto una alternativa sostenible para la producción en invernadero. Se elaboraron mezclas especificas para el cultivo de Lilium hibrido asiático y oriental (siete mezclas), sustratos eco‐compatibles para cultivo de tomate (nueve mezclas), para la producción de planta forestal (siete mezclas) y para la producción de plántula hortícola (ocho mezclas). Como resultados más destacados del bagazo de maguey, corteza de pino y las mezclas obtenidas se resume lo siguiente: el bagazo de maguey, con volúmenes crecientes de turba (20, 30, 50 y 60 %) y la corteza de pino, con volúmenes de turba 40 y 60%, presentan valores muy recomendados de porosidad, capacidad de aireación, capacidad de retención de humedad y equilibrio agua‐aire. Para la fibra de coco, la procedente de Río Grande presenta mejor valoración que la muestra comercial de fibra de coco de Morelos. Por último se llevó a cabo la evaluación agronómica de los sustratos‐mezclas, realizando cinco experimentos por separado, estudiando el desarrollo vegetal de cultivos tipo, que se concretan en los siguientes ensayos: 1. Producción de Lilium asiático y oriental en cama para flor de corte; 2. Producción de Lilium oriental en contenedor para flor de corte; 3. Producción de plántula forestal (Pinus greggii E y Pinus oaxacana M); 4. Producción de tomate (Solanum lycopersicum L) y 5. Producción de plántula de tomate en semillero (Solanum lycopersicum L). En relación a la producción de Lilium hibrido asiático en cama los sustratos corteza de pino (CPTU 80:20 v/v), corteza de pino + sustrato comercial (CPSC 80:20 v/v) y corteza de pino+turba+arcilla expandida+vermiculita (CPTAEV2 30:40:15:15 v/v) presentan los mejores resultados. Dichos sustratos también presentan adecuados resultados para Lilium hibrido oriental con excepción de la corteza de pino + turba (CPTU 80:20 v/v). En la producción de Lilium hibrido oriental en contenedor para flor de corte, además de los sustratos de CPSC y CPTAEV2, la mezcla de corteza de pino+turba+arcilla expandida+vermiculita (CPTAEV 70:20:5:5 v/v) manifestó una respuesta favorable. En el ensayo de producción de plántulas de Pinus greggii E y Pinus oaxacana Mirov, las mezclas con corteza de pino+turba+arcilla expandida+vermiculita (CPTAEV2 30:40:15:15 v/v) y bagazo de maguey turba+arcilla expandida+vermiculita (BMTAEV2 30:60:5:5 v/v) son una alternativa que permite disminuir el empleo de turba, arcilla expandida y vermiculita, en comparación con el sustrato testigo de turba+arcilla expandida+vermiculita (TAEV 60:30:10 v/v). En la producción de tomate (Solanum lycopersicum L) frente a la utilización actual del serrín sin compostar (SSC), las mezclas alternativas de bagazo de maguey+turba (BMT 70:30 v/v), fibra de coco de Río Grande (FCRG 100v/v) y corteza de pino+turba (CPT 70:30 v/v), presentaron los mejores resultados en rendimientos. Así mismo, en la producción de plántulas de tomate las dos mezclas alternativas de bagazo de maguey+turba+ arcilla expandida+vermiculita (BMTAEV5 50:30:10:10 v/v) y (BMTAEV6 40:40:10:10 v/v) presentaron mejores resultados que los obtenidos en la mezcla comercial (Sunshine 3), mayoritariamente utilizada en México en la producción de plántula de tomate y hortícola. ABSTRACT This paper addresses the use of some agricultural products (maguey bagasse and coconut fiber) and forestry (pine bark) in the State of Oaxaca (southern Mexico). The principal purpose is to locate, quantify and characterize these with the idea of applying them as substrates or substrate components in ornamental crops, forestry, horticultural, and their use as crop amendments. On the other hand, the reduction of peat and forest soil as main substrates is pursued. For the location of the products, registry parcel data from copra producers (coconut fiber generators) of the coastal region and mescal producers (maguey bagasse residue generators) of the central valleys region, as well as the locations of forest mills in the State of Oaxaca. A Geographic Information System (GIS) with digital mapping of environmental factors (climate, geology and soil), crop generators of residues (maguey bagasse, coconut and pine bark) receptors of amendments such as protected agriculture (tomato) and extensive agriculture crops (coffee, rubber, lemon, mango, coconut and agave). The annual production of waste is mapped and quantified with the following results: 624,000t maguey bagasse, coconut fiber 72,000 m3 and 86,000 t of pine bark. Through the study of receiving crops soils properties of and organic matter requirements of each crop, total needs of organic matter for each soil were estimated. The results of the total quantities for each crop across the state show a total of 3,112,000 t of organic matter needed as amendment. Using that data and a mathematical algorithm, the location of two composting plants (agave bagasse and coconut fiber) and four composting plants pine bark was proposed. In order to know the by‐products that were going to be used as substrates or substrate components, their physical‐chemical composition was analyzed following UNE‐EN technics. Furthermore they were analyzed by Nuclear Magnetic Resonance (NMR). For conditioning of maguey bagasse and pine bark, composting essays were conducted. At the end of 241 days the temperature and humidity of both processes were at the recommended ranges, indicating that the materials were stabilized and had reached the quality to be used as a substrate or substrate component. Coconut shells from the community of Rio Grande Oaxaca (Main copra producing area in Oaxaca) were put through a process of dry milling. Subsequently, the obtained materials were used as components for growing media. We studied the maguey bagasse compost and seven mixtures; the pine bark compost and eight blends and coconut fiber with three mixtures. These alternative substrates allow obtaining mixtures and reduce the use of forest soil, peat, vermiculite and expanded clay, making it a sustainable alternative for greenhouse production. Specific mixtures were prepared for growing Lillium, Asian and eastern hybrids (seven blends), eco‐compatible substrates for tomato (nine mixtures), for producing forest plant (seven mixtures) and for the production of horticultural seedlings (eight mixtures). Results from maguey bagasse, pine bark and mixtures obtained are summarized as follows: the maguey bagasse, with increasing volumes of peat (20, 30, 50 and 60%) and pine bark mixed with 40 and 60% peat by volume, have very recommended values of porosity, aeration capacity, water retention capacity and water‐air balance. Coconut fiber from Rio Grande had better quality than commercial coconut fiber from Morelos. Finally the agronomic evaluation of substrates‐mixtures was carried out conducting five experiments separately: 1. Production of Asiatic and Eastern Lilium in bed for cut flower, 2. Production of oriental Lillium in container for cut flower, 3.Production of forest seedlings (Pinus greggii E and Pinus oaxacana M), 4. Production of tomato (Solanum lycopersicum L) and 5. Tomato seedling production in seedbed (Solanum lycopersicum L). In relation to the production of hybrid Asian Lilium in bed, pine bark substrates (CPTU 80:20 v/v), pine bark + commercial substrate (CPSC 80:20 v/v) and pine bark + peat + expanded clay + vermiculite (CPTAEV2 30:40:15:15 v/v) showed the best results. Such substrates also have adequate results for Lilium Oriental hybrid except pine bark + peat (CPTU 80:20 v / v). In the production of Lilium oriental hybrid container for cut flower, besides the CPSC and CPTAEV2 substrates, the mixture of pine bark + peat + vermiculite expanded clay (CPTAEV 70:20:5:5 v / v) showed a favorable response. In the production of Pinus greggii E and Pinus oaxacana Mirov seedlings trial, mixtures with pine bark + peat + expanded clay + vermiculite (CPTAEV2 30:40:15:15 v/v) and maguey bagasse+ peat+ expanded clay + vermiculite (BMTAEV2 30:60:5:5 v / v) are an alternative which allows reducing the use of peat, vermiculite and expanded clay in comparison with the control substrate made of peat + expanded clay+ vermiculite (60:30 TAEV: 10 v/v). In the production of tomato (Solanum lycopersicum L), alternative mixes of maguey bagasse + peat (BMT 70:30 v/v), coconut fiber from Rio Grande (FCRG 100 v / v) and pine bark + peat (CPT 70:30 v / v) showed the best results in yields versus the current use of sawdust without compost (SSC). Likewise, in the production of tomato seedlings of the two alternative mixtures maguey bagasse + peat expanded clay + vermiculite (BMTAEV5 50:30:10:10 v/v) and (BMTAEV6 40:40:10:10 v/v) had better results than those obtained in the commercial mixture (Sunshine 3), mainly used in Mexico in tomato seedling production and horticulture.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Most empirical disciplines promote the reuse and sharing of datasets, as it leads to greater possibility of replication. While this is increasingly the case in Empirical Software Engineering, some of the most popular bug-fix datasets are now known to be biased. This raises two significants concerns: first, that sample bias may lead to underperforming prediction models, and second, that the external validity of the studies based on biased datasets may be suspect. This issue has raised considerable consternation in the ESE literature in recent years. However, there is a confounding factor of these datasets that has not been examined carefully: size. Biased datasets are sampling only some of the data that could be sampled, and doing so in a biased fashion; but biased samples could be smaller, or larger. Smaller data sets in general provide less reliable bases for estimating models, and thus could lead to inferior model performance. In this setting, we ask the question, what affects performance more? bias, or size? We conduct a detailed, large-scale meta-analysis, using simulated datasets sampled with bias from a high-quality dataset which is relatively free of bias. Our results suggest that size always matters just as much bias direction, and in fact much more than bias direction when considering information-retrieval measures such as AUC and F-score. This indicates that at least for prediction models, even when dealing with sampling bias, simply finding larger samples can sometimes be sufficient. Our analysis also exposes the complexity of the bias issue, and raises further issues to be explored in the future.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Today?s knowledge management (KM) systems seldom account for language management and, especially, multilingual information processing. Document management is one of the strongest components of KM systems. If these systems do not include a multilingual knowledge management policy, intranet searches, excessive document space occupancy and redundant information slow down what are the most effective processes in a single language environment. In this paper, we model information flow from the sources of knowledge to the persons/systems searching for specific information. Within this framework, we focus on the importance of multilingual information processing, which is a hugely complex component of modern organizations.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La proliferación en todos los ámbitos de la producción multimedia está dando lugar a la aparición de nuevos paradigmas de recuperación de información visual. Dentro de éstos, uno de los más significativos es el de los sistemas de recuperación de información visual, VIRS (Visual Information Retrieval Systems), en los que una de las tareas más representativas es la ordenación de una población de imágenes según su similitud con un ejemplo dado. En este trabajo se presenta una propuesta original para la evaluación de la similitud entre dos imágenes, basándose en la extensión del concepto de saliencia desde el espacio de imágenes al de características para establecer la relevancia de cada componente de dicho vector. Para ello se introducen metodologías para la cuantificación de la saliencia de valores individuales de características, para la combinación de estas cuantificaciones en procesos de comparación entre dos imágenes, y para, finalmente, establecer la mencionada ponderación de cada característica en atención a esta combinación. Se presentan igualmente los resultados de evaluar esta propuesta en una tarea de recuperación de imágenes por contenido en comparación con los obtenidos con la distancia euclídea. Esta comparación se realiza mediante la evaluación de ambos resultados por voluntarios.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El proyecto que he realizado ha consistido en la creación de un sistema de información geográfica para el Campus Sur UPM, que puede servir de referencia para su implantación en cualquier otro campus universitario. Esta idea surge de la necesidad por parte de los usuarios de un campus de disponer de una herramienta que les permita consultar la información de los distintos lugares y servicios del campus, haciendo especial hincapié en su localización geográfica. Para ello ha sido necesario estudiar las tecnologías actuales que permiten implementar un sistema de información geográfica, dando lugar al sistema propuesto, que consiste en un conjunto de medios informáticos (hardware y software), que van a permitir al personal del campus obtener la información y localización de los elementos del campus desde su móvil. Tras realizar un análisis de los requisitos y funcionalidades que debía tener el sistema, el proyecto ha consistido en el diseño e implementación de dicho sistema. La información a consultar estará almacenada y disponible para su consulta en un equipo servidor accesible para el personal del campus. Para ello, durante la realización del proyecto, ha sido necesario crear un modelo de datos basado en el campus y cargar los datos geográficos de utilidad en una base de datos. Todo esto ha sido realizado mediante el producto software Smallword Core 4.2. Además, ha sido también necesario desplegar un software servidor que permita a los usuarios consultar dichos datos desde sus móviles vía WIFI o Internet, el producto utilizado para este fin ha sido Smallworld Geospatial Server 4.2. Para la realización de las consultas se han utilizado los servicios WMS(Web Map Service) y WFS(Web Feature Service) definidos por el OGC(Open Geospatial Consortium). Estos servicios están adaptados para la consulta de información geográfica. El sistema también está compuesto por una aplicación para dispositivos móviles con sistema operativo Android, que permite a los usuarios del sistema consultar y visualizar la información geográfica del campus. Dicha aplicación ha sido diseñada y programada a lo largo de la realización del proyecto. Para la realización de este proyecto también ha sido necesario un estudio del presupuesto que supondría una implantación real del sistema y el mantenimiento que implicaría tener el sistema actualizado. Por último, el proyecto incluye una breve descripción de las tecnologías futuras que podrían mejorar las funcionalidades del sistema: la realidad aumentada y el posicionamiento en el interior de edificios. ABSTRACT. The project I've done has been to create a geographic information system for the Campus Sur UPM, which can serve as a reference for implementation in any other college campus. This idea arises from the need for the campus users to have a tool that allows them to view information from different places and services, with particular emphasis on their geographical location. It has been necessary to study the current technologies that allow implementing a geographic information system, leading to the proposed system, which consists of a set of computer resources (hardware and software) that will allow campus users to obtain information and location of campus components from their mobile phones. Following an analysis of the requirements and functionalities that the system should have, the project involved the design and implementation of the system . The information will be stored and available on a computer server accessible to campus users. Accordingly, during the project, it was necessary to create a data model based on campus data and load this data in a database. All this has been done by Smallword Core 4.2 software product. In addition, it has also been necessary to deploy a server software that allows users to query the data from their phones via WIFI or Internet, the product used for this purpose has been Smallworld Geospatial Server 4.2 . To carry out the consultations have used the services WMS (Web Map Service) and WFS (Web Feature Service) defined by the OGC (Open Geospatial Consortium). These services are tailored to the geographic information retrieval. The system also consists of an application for mobile devices with Android operating system, which allows users to query and display geographic information related to the campus. This application has been designed and programmed over the project. For the realization of this project has also been necessary to study the budget that would be a real system implementation and the maintenance that would have the system updated. Finally, the project includes a brief description of future technologies that could improve the system's functionality: augmented reality and positioning inside the buildings.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La Gestión de Recursos Humanos a través de Internet es un problema latente y presente actualmente en cualquier sitio web dedicado a la búsqueda de empleo. Este problema también está presente en AFRICA BUILD Portal. AFRICA BUILD Portal es una emergente red socio-profesional nacida con el ánimo de crear comunidades virtuales que fomenten la educación e investigación en el área de la salud en países africanos. Uno de los métodos para fomentar la educación e investigación es mediante la movilidad de estudiantes e investigadores entre instituciones, apareciendo así, el citado problema de la gestión de recursos humanos. Por tanto, este trabajo se centra en solventar el problema de la gestión de recursos humanos en el entorno específico de AFRICA BUILD Portal. Para solventar este problema, el objetivo es desarrollar un sistema de recomendación que ayude en la gestión de recursos humanos en lo que concierne a la selección de las mejores ofertas y demandas de movilidad. Caracterizando al sistema de recomendación como un sistema semántico el cual ofrecerá las recomendaciones basándose en las reglas y restricciones impuestas por el dominio. La aproximación propuesta se basa en seguir el enfoque de los sistemas de Matchmaking semánticos. Siguiendo este enfoque, por un lado, se ha empleado un razonador de lógica descriptiva que ofrece inferencias útiles en el cálculo de las recomendaciones y por otro lado, herramientas de procesamiento de lenguaje natural para dar soporte al proceso de recomendación. Finalmente para la integración del sistema de recomendación con AFRICA BUILD Portal se han empleado diversas tecnologías web. Los resultados del sistema basados en la comparación de recomendaciones creadas por el sistema y por usuarios reales han mostrado un funcionamiento y rendimiento aceptable. Empleando medidas de evaluación de sistemas de recuperación de información se ha obtenido una precisión media del sistema de un 52%, cifra satisfactoria tratándose de un sistema semántico. Pudiendo concluir que con la solución implementada se ha construido un sistema estable y modular posibilitando: por un lado, una fácil evolución que debería ir encaminada a lograr un rendimiento mayor, incrementando su precisión y por otro lado, dejando abiertas nuevas vías de crecimiento orientadas a la explotación del potencial de AFRICA BUILD Portal mediante la Web 3.0. ---ABSTRACT---The Human Resource Management through Internet is currently a latent problem shown in any employment website. This problem has also appeared in AFRICA BUILD Portal. AFRICA BUILD Portal is an emerging socio-professional network with the objective of creating virtual communities to foster the capacity for health research and education in African countries. One way to foster this capacity of research and education is through the mobility of students and researches between institutions, thus appearing the Human Resource Management problem. Therefore, this dissertation focuses on solving the Human Resource Management problem in the specific environment of AFRICA BUILD Portal. To solve this problem, the objective is to develop a recommender system which assists the management of Human Resources with respect to the selection of the best mobility supplies and demands. The recommender system is a semantic system which will provide the recommendations according to the domain rules and restrictions. The proposed approach is based on semantic matchmaking solutions. So, this approach on the one hand uses a Description Logics reasoning engine which provides useful inferences to the recommendation process and on the other hand uses Natural Language Processing techniques to support the recommendation process. Finally, Web technologies are used in order to integrate the recommendation system into AFRICA BUILD Portal. The results of evaluating the system are based on the comparison between recommendations created by the system and by real users. These results have shown an acceptable behavior and performance. The average precision of the system has been obtained by evaluation measures for information retrieval systems, so the average precision of the system is at 52% which may be considered as a satisfactory result taking into account that the system is a semantic system. To conclude, it could be stated that the implemented system is stable and modular. This fact on the one hand allows an easy evolution that should aim to achieve a higher performance by increasing its average precision and on the other hand keeps open new ways to increase the functionality of the system oriented to exploit the potential of AFRICA BUILD Portal through Web 3.0.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La minería de datos es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de datos. La minería de datos busca generar información similar a la que podría producir un experto humano. Además es el proceso de descubrir conocimientos interesantes, como patrones, asociaciones, cambios, anomalías y estructuras significativas a partir de grandes cantidades de datos almacenadas en bases de datos, data warehouses o cualquier otro medio de almacenamiento de información. El aprendizaje automático o aprendizaje de máquinas es una rama de la Inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. De forma más concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. La minería de datos utiliza métodos de aprendizaje automático para descubrir y enumerar patrones presentes en los datos. En los últimos años se han aplicado las técnicas de clasificación y aprendizaje automático en un número elevado de ámbitos como el sanitario, comercial o de seguridad. Un ejemplo muy actual es la detección de comportamientos y transacciones fraudulentas en bancos. Una aplicación de interés es el uso de las técnicas desarrolladas para la detección de comportamientos fraudulentos en la identificación de usuarios existentes en el interior de entornos inteligentes sin necesidad de realizar un proceso de autenticación. Para comprobar que estas técnicas son efectivas durante la fase de análisis de una determinada solución, es necesario crear una plataforma que de soporte al desarrollo, validación y evaluación de algoritmos de aprendizaje y clasificación en los entornos de aplicación bajo estudio. El proyecto planteado está definido para la creación de una plataforma que permita evaluar algoritmos de aprendizaje automático como mecanismos de identificación en espacios inteligentes. Se estudiarán tanto los algoritmos propios de este tipo de técnicas como las plataformas actuales existentes para definir un conjunto de requisitos específicos de la plataforma a desarrollar. Tras el análisis se desarrollará parcialmente la plataforma. Tras el desarrollo se validará con pruebas de concepto y finalmente se verificará en un entorno de investigación a definir. ABSTRACT. The data mining is a field of the sciences of the computation referred to the process that it tries to discover patterns in big volumes of information. The data mining seeks to generate information similar to the one that a human expert might produce. In addition it is the process of discovering interesting knowledge, as patterns, associations, changes, abnormalities and significant structures from big quantities of information stored in databases, data warehouses or any other way of storage of information. The machine learning is a branch of the artificial Intelligence which aim is to develop technologies that they allow the computers to learn. More specifically, it is a question of creating programs capable of generalizing behaviors from not structured information supplied in the form of examples. The data mining uses methods of machine learning to discover and to enumerate present patterns in the information. In the last years there have been applied classification and machine learning techniques in a high number of areas such as healthcare, commercial or security. A very current example is the detection of behaviors and fraudulent transactions in banks. An application of interest is the use of the techniques developed for the detection of fraudulent behaviors in the identification of existing Users inside intelligent environments without need to realize a process of authentication. To verify these techniques are effective during the phase of analysis of a certain solution, it is necessary to create a platform that support the development, validation and evaluation of algorithms of learning and classification in the environments of application under study. The project proposed is defined for the creation of a platform that allows evaluating algorithms of machine learning as mechanisms of identification in intelligent spaces. There will be studied both the own algorithms of this type of technologies and the current existing platforms to define a set of specific requirements of the platform to develop. After the analysis the platform will develop partially. After the development it will be validated by prove of concept and finally verified in an environment of investigation that would be define.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El trabajo se enmarca dentro de los proyecto INTEGRATE y EURECA, cuyo objetivo es el desarrollo de una capa de interoperabilidad semántica que permita la integración de datos e investigación clínica, proporcionando una plataforma común que pueda ser integrada en diferentes instituciones clínicas y que facilite el intercambio de información entre las mismas. De esta manera se promueve la mejora de la práctica clínica a través de la cooperación entre instituciones de investigación con objetivos comunes. En los proyectos se hace uso de estándares y vocabularios clínicos ya existentes, como pueden ser HL7 o SNOMED, adaptándolos a las necesidades particulares de los datos con los que se trabaja en INTEGRATE y EURECA. Los datos clínicos se representan de manera que cada concepto utilizado sea único, evitando ambigüedades y apoyando la idea de plataforma común. El alumno ha formado parte de un equipo de trabajo perteneciente al Grupo de Informática de la UPM, que a su vez trabaja como uno de los socios de los proyectos europeos nombrados anteriormente. La herramienta desarrollada, tiene como objetivo realizar tareas de homogenización de la información almacenada en las bases de datos de los proyectos haciendo uso de los mecanismos de normalización proporcionados por el vocabulario médico SNOMED-CT. Las bases de datos normalizadas serán las utilizadas para llevar a cabo consultas por medio de servicios proporcionados en la capa de interoperabilidad, ya que contendrán información más precisa y completa que las bases de datos sin normalizar. El trabajo ha sido realizado entre el día 12 de Septiembre del año 2014, donde comienza la etapa de formación y recopilación de información, y el día 5 de Enero del año 2015, en el cuál se termina la redacción de la memoria. El ciclo de vida utilizado ha sido el de desarrollo en cascada, en el que las tareas no comienzan hasta que la etapa inmediatamente anterior haya sido finalizada y validada. Sin embargo, no todas las tareas han seguido este modelo, ya que la realización de la memoria del trabajo se ha llevado a cabo de manera paralela con el resto de tareas. El número total de horas dedicadas al Trabajo de Fin de Grado es 324. Las tareas realizadas y el tiempo de dedicación de cada una de ellas se detallan a continuación:  Formación. Etapa de recopilación de información necesaria para implementar la herramienta y estudio de la misma [30 horas.  Especificación de requisitos. Se documentan los diferentes requisitos que ha de cumplir la herramienta [20 horas].  Diseño. En esta etapa se toman las decisiones de diseño de la herramienta [35 horas].  Implementación. Desarrollo del código de la herramienta [80 horas].  Pruebas. Etapa de validación de la herramienta, tanto de manera independiente como integrada en los proyectos INTEGRATE y EURECA [70 horas].  Depuración. Corrección de errores e introducción de mejoras de la herramienta [45 horas].  Realización de la memoria. Redacción de la memoria final del trabajo [44 horas].---ABSTRACT---This project belongs to the semantic interoperability layer developed in the European projects INTEGRATE and EURECA, which aims to provide a platform to promote interchange of medical information from clinical trials to clinical institutions. Thus, research institutions may cooperate to enhance clinical practice. Different health standards and clinical terminologies has been used in both INTEGRATE and EURECA projects, e.g. HL7 or SNOMED-CT. These tools have been adapted to the projects data requirements. Clinical data are represented by unique concepts, avoiding ambiguity problems. The student has been working in the Biomedical Informatics Group from UPM, partner of the INTEGRATE and EURECA projects. The tool developed aims to perform homogenization tasks over information stored in databases of the project, through normalized representation provided by the SNOMED-CT terminology. The data query is executed against the normalized version of the databases, since the information retrieved will be more informative than non-normalized databases. The project has been performed from September 12th of 2014, when initiation stage began, to January 5th of 2015, when the final report was finished. The waterfall model for software development was followed during the working process. Therefore, a phase may not start before the previous one finishes and has been validated, except from the final report redaction, which has been carried out in parallel with the others phases. The tasks that have been developed and time for each one are detailed as follows:  Training. Gathering the necessary information to develop the tool [30 hours].  Software requirement specification. Requirements the tool must accomplish [20 hours].  Design. Decisions on the design of the tool [35 hours].  Implementation. Tool development [80 hours].  Testing. Tool evaluation within the framework of the INTEGRATE and EURECA projects [70 hours].  Debugging. Improve efficiency and correct errors [45 hours].  Documenting. Final report elaboration [44 hours].

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The scientific method is a methodological approach to the process of inquiry { in which empirically grounded theory of nature is constructed and verified [14]. It is a hard, exhaustive and dedicated multi-stage procedure that a researcher must perform to achieve valuable knowledge. Trying to help researchers during this process, a recommender system, intended as a researcher assistant, is designed to provide them useful tools and information for each stage of the procedure. A new similarity measure between research objects and a representational model, based on domain spaces, to handle them in dif ferent levels are created as well as a system to build them from OAI-PMH (and RSS) resources. It tries to represents a sound balance between scientific insight into individual scientific creative processes and technical implementation using innovative technologies in information extraction, document summarization and semantic analysis at a large scale.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En los últimos años ha habido un gran aumento de fuentes de datos biomédicos. La aparición de nuevas técnicas de extracción de datos genómicos y generación de bases de datos que contienen esta información ha creado la necesidad de guardarla para poder acceder a ella y trabajar con los datos que esta contiene. La información contenida en las investigaciones del campo biomédico se guarda en bases de datos. Esto se debe a que las bases de datos permiten almacenar y manejar datos de una manera simple y rápida. Dentro de las bases de datos existen una gran variedad de formatos, como pueden ser bases de datos en Excel, CSV o RDF entre otros. Actualmente, estas investigaciones se basan en el análisis de datos, para a partir de ellos, buscar correlaciones que permitan inferir, por ejemplo, tratamientos nuevos o terapias más efectivas para una determinada enfermedad o dolencia. El volumen de datos que se maneja en ellas es muy grande y dispar, lo que hace que sea necesario el desarrollo de métodos automáticos de integración y homogeneización de los datos heterogéneos. El proyecto europeo p-medicine (FP7-ICT-2009-270089) tiene como objetivo asistir a los investigadores médicos, en este caso de investigaciones relacionadas con el cáncer, proveyéndoles con nuevas herramientas para el manejo de datos y generación de nuevo conocimiento a partir del análisis de los datos gestionados. La ingestión de datos en la plataforma de p-medicine, y el procesamiento de los mismos con los métodos proporcionados, buscan generar nuevos modelos para la toma de decisiones clínicas. Dentro de este proyecto existen diversas herramientas para integración de datos heterogéneos, diseño y gestión de ensayos clínicos, simulación y visualización de tumores y análisis estadístico de datos. Precisamente en el ámbito de la integración de datos heterogéneos surge la necesidad de añadir información externa al sistema proveniente de bases de datos públicas, así como relacionarla con la ya existente mediante técnicas de integración semántica. Para resolver esta necesidad se ha creado una herramienta, llamada Term Searcher, que permite hacer este proceso de una manera semiautomática. En el trabajo aquí expuesto se describe el desarrollo y los algoritmos creados para su correcto funcionamiento. Esta herramienta ofrece nuevas funcionalidades que no existían dentro del proyecto para la adición de nuevos datos provenientes de fuentes públicas y su integración semántica con datos privados.---ABSTRACT---Over the last few years, there has been a huge growth of biomedical data sources. The emergence of new techniques of genomic data generation and data base generation that contain this information, has created the need of storing it in order to access and work with its data. The information employed in the biomedical research field is stored in databases. This is due to the capability of databases to allow storing and managing data in a quick and simple way. Within databases there is a variety of formats, such as Excel, CSV or RDF. Currently, these biomedical investigations are based on data analysis, which lead to the discovery of correlations that allow inferring, for example, new treatments or more effective therapies for a specific disease or ailment. The volume of data handled in them is very large and dissimilar, which leads to the need of developing new methods for automatically integrating and homogenizing the heterogeneous data. The p-medicine (FP7-ICT-2009-270089) European project aims to assist medical researchers, in this case related to cancer research, providing them with new tools for managing and creating new knowledge from the analysis of the managed data. The ingestion of data into the platform and its subsequent processing with the provided tools aims to enable the generation of new models to assist in clinical decision support processes. Inside this project, there exist different tools related to areas such as the integration of heterogeneous data, the design and management of clinical trials, simulation and visualization of tumors and statistical data analysis. Particularly in the field of heterogeneous data integration, there is a need to add external information from public databases, and relate it to the existing ones through semantic integration methods. To solve this need a tool has been created: the term Searcher. This tool aims to make this process in a semiautomatic way. This work describes the development of this tool and the algorithms employed in its operation. This new tool provides new functionalities that did not exist inside the p-medicine project for adding new data from public databases and semantically integrate them with private data.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La tesis que se presenta tiene como propósito la construcción automática de ontologías a partir de textos, enmarcándose en el área denominada Ontology Learning. Esta disciplina tiene como objetivo automatizar la elaboración de modelos de dominio a partir de fuentes información estructurada o no estructurada, y tuvo su origen con el comienzo del milenio, a raíz del crecimiento exponencial del volumen de información accesible en Internet. Debido a que la mayoría de información se presenta en la web en forma de texto, el aprendizaje automático de ontologías se ha centrado en el análisis de este tipo de fuente, nutriéndose a lo largo de los años de técnicas muy diversas provenientes de áreas como la Recuperación de Información, Extracción de Información, Sumarización y, en general, de áreas relacionadas con el procesamiento del lenguaje natural. La principal contribución de esta tesis consiste en que, a diferencia de la mayoría de las técnicas actuales, el método que se propone no analiza la estructura sintáctica superficial del lenguaje, sino que estudia su nivel semántico profundo. Su objetivo, por tanto, es tratar de deducir el modelo del dominio a partir de la forma con la que se articulan los significados de las oraciones en lenguaje natural. Debido a que el nivel semántico profundo es independiente de la lengua, el método permitirá operar en escenarios multilingües, en los que es necesario combinar información proveniente de textos en diferentes idiomas. Para acceder a este nivel del lenguaje, el método utiliza el modelo de las interlinguas. Estos formalismos, provenientes del área de la traducción automática, permiten representar el significado de las oraciones de forma independiente de la lengua. Se utilizará en concreto UNL (Universal Networking Language), considerado como la única interlingua de propósito general que está normalizada. La aproximación utilizada en esta tesis supone la continuación de trabajos previos realizados tanto por su autor como por el equipo de investigación del que forma parte, en los que se estudió cómo utilizar el modelo de las interlinguas en las áreas de extracción y recuperación de información multilingüe. Básicamente, el procedimiento definido en el método trata de identificar, en la representación UNL de los textos, ciertas regularidades que permiten deducir las piezas de la ontología del dominio. Debido a que UNL es un formalismo basado en redes semánticas, estas regularidades se presentan en forma de grafos, generalizándose en estructuras denominadas patrones lingüísticos. Por otra parte, UNL aún conserva ciertos mecanismos de cohesión del discurso procedentes de los lenguajes naturales, como el fenómeno de la anáfora. Con el fin de aumentar la efectividad en la comprensión de las expresiones, el método provee, como otra contribución relevante, la definición de un algoritmo para la resolución de la anáfora pronominal circunscrita al modelo de la interlingua, limitada al caso de pronombres personales de tercera persona cuando su antecedente es un nombre propio. El método propuesto se sustenta en la definición de un marco formal, que ha debido elaborarse adaptando ciertas definiciones provenientes de la teoría de grafos e incorporando otras nuevas, con el objetivo de ubicar las nociones de expresión UNL, patrón lingüístico y las operaciones de encaje de patrones, que son la base de los procesos del método. Tanto el marco formal como todos los procesos que define el método se han implementado con el fin de realizar la experimentación, aplicándose sobre un artículo de la colección EOLSS “Encyclopedia of Life Support Systems” de la UNESCO. ABSTRACT The purpose of this thesis is the automatic construction of ontologies from texts. This thesis is set within the area of Ontology Learning. This discipline aims to automatize domain models from structured or unstructured information sources, and had its origin with the beginning of the millennium, as a result of the exponential growth in the volume of information accessible on the Internet. Since most information is presented on the web in the form of text, the automatic ontology learning is focused on the analysis of this type of source, nourished over the years by very different techniques from areas such as Information Retrieval, Information Extraction, Summarization and, in general, by areas related to natural language processing. The main contribution of this thesis consists of, in contrast with the majority of current techniques, the fact that the method proposed does not analyze the syntactic surface structure of the language, but explores his deep semantic level. Its objective, therefore, is trying to infer the domain model from the way the meanings of the sentences are articulated in natural language. Since the deep semantic level does not depend on the language, the method will allow to operate in multilingual scenarios, where it is necessary to combine information from texts in different languages. To access to this level of the language, the method uses the interlingua model. These formalisms, coming from the area of machine translation, allow to represent the meaning of the sentences independently of the language. In this particular case, UNL (Universal Networking Language) will be used, which considered to be the only interlingua of general purpose that is standardized. The approach used in this thesis corresponds to the continuation of previous works carried out both by the author of this thesis and by the research group of which he is part, in which it is studied how to use the interlingua model in the areas of multilingual information extraction and retrieval. Basically, the procedure defined in the method tries to identify certain regularities at the UNL representation of texts that allow the deduction of the parts of the ontology of the domain. Since UNL is a formalism based on semantic networks, these regularities are presented in the form of graphs, generalizing in structures called linguistic patterns. On the other hand, UNL still preserves certain mechanisms of discourse cohesion from natural languages, such as the phenomenon of the anaphora. In order to increase the effectiveness in the understanding of expressions, the method provides, as another significant contribution, the definition of an algorithm for the resolution of pronominal anaphora limited to the model of the interlingua, in the case of third person personal pronouns when its antecedent is a proper noun. The proposed method is based on the definition of a formal framework, adapting some definitions from Graph Theory and incorporating new ones, in order to locate the notions of UNL expression and linguistic pattern, as well as the operations of pattern matching, which are the basis of the method processes. Both the formal framework and all the processes that define the method have been implemented in order to carry out the experimentation, applying on an article of the "Encyclopedia of Life Support Systems" of the UNESCO-EOLSS collection.