21 resultados para pacs: information retrieval techniques
Resumo:
La proliferación en todos los ámbitos de la producción multimedia está dando lugar a la aparición de nuevos paradigmas de recuperación de información visual. Dentro de éstos, uno de los más significativos es el de los sistemas de recuperación de información visual, VIRS (Visual Information Retrieval Systems), en los que una de las tareas más representativas es la ordenación de una población de imágenes según su similitud con un ejemplo dado. En este trabajo se presenta una propuesta original para la evaluación de la similitud entre dos imágenes, basándose en la extensión del concepto de saliencia desde el espacio de imágenes al de características para establecer la relevancia de cada componente de dicho vector. Para ello se introducen metodologías para la cuantificación de la saliencia de valores individuales de características, para la combinación de estas cuantificaciones en procesos de comparación entre dos imágenes, y para, finalmente, establecer la mencionada ponderación de cada característica en atención a esta combinación. Se presentan igualmente los resultados de evaluar esta propuesta en una tarea de recuperación de imágenes por contenido en comparación con los obtenidos con la distancia euclídea. Esta comparación se realiza mediante la evaluación de ambos resultados por voluntarios.
Resumo:
Over the last few decades, the ever-increasing output of scientific publications has led to new challenges to keep up to date with the literature. In the biomedical area, this growth has introduced new requirements for professionals, e.g., physicians, who have to locate the exact papers that they need for their clinical and research work amongst a huge number of publications. Against this backdrop, novel information retrieval methods are even more necessary. While web search engines are widespread in many areas, facilitating access to all kinds of information, additional tools are required to automatically link information retrieved from these engines to specific biomedical applications. In the case of clinical environments, this also means considering aspects such as patient data security and confidentiality or structured contents, e.g., electronic health records (EHRs). In this scenario, we have developed a new tool to facilitate query building to retrieve scientific literature related to EHRs. Results: We have developed CDAPubMed, an open-source web browser extension to integrate EHR features in biomedical literature retrieval approaches. Clinical users can use CDAPubMed to: (i) load patient clinical documents, i.e., EHRs based on the Health Level 7-Clinical Document Architecture Standard (HL7-CDA), (ii) identify relevant terms for scientific literature search in these documents, i.e., Medical Subject Headings (MeSH), automatically driven by the CDAPubMed configuration, which advanced users can optimize to adapt to each specific situation, and (iii) generate and launch literature search queries to a major search engine, i.e., PubMed, to retrieve citations related to the EHR under examination. Conclusions: CDAPubMed is a platform-independent tool designed to facilitate literature searching using keywords contained in specific EHRs. CDAPubMed is visually integrated, as an extension of a widespread web browser, within the standard PubMed interface. It has been tested on a public dataset of HL7-CDA documents, returning significantly fewer citations since queries are focused on characteristics identified within the EHR. For instance, compared with more than 200,000 citations retrieved by breast neoplasm, fewer than ten citations were retrieved when ten patient features were added using CDAPubMed. This is an open source tool that can be freely used for non-profit purposes and integrated with other existing systems.
Resumo:
El proyecto que he realizado ha consistido en la creación de un sistema de información geográfica para el Campus Sur UPM, que puede servir de referencia para su implantación en cualquier otro campus universitario. Esta idea surge de la necesidad por parte de los usuarios de un campus de disponer de una herramienta que les permita consultar la información de los distintos lugares y servicios del campus, haciendo especial hincapié en su localización geográfica. Para ello ha sido necesario estudiar las tecnologías actuales que permiten implementar un sistema de información geográfica, dando lugar al sistema propuesto, que consiste en un conjunto de medios informáticos (hardware y software), que van a permitir al personal del campus obtener la información y localización de los elementos del campus desde su móvil. Tras realizar un análisis de los requisitos y funcionalidades que debía tener el sistema, el proyecto ha consistido en el diseño e implementación de dicho sistema. La información a consultar estará almacenada y disponible para su consulta en un equipo servidor accesible para el personal del campus. Para ello, durante la realización del proyecto, ha sido necesario crear un modelo de datos basado en el campus y cargar los datos geográficos de utilidad en una base de datos. Todo esto ha sido realizado mediante el producto software Smallword Core 4.2. Además, ha sido también necesario desplegar un software servidor que permita a los usuarios consultar dichos datos desde sus móviles vía WIFI o Internet, el producto utilizado para este fin ha sido Smallworld Geospatial Server 4.2. Para la realización de las consultas se han utilizado los servicios WMS(Web Map Service) y WFS(Web Feature Service) definidos por el OGC(Open Geospatial Consortium). Estos servicios están adaptados para la consulta de información geográfica. El sistema también está compuesto por una aplicación para dispositivos móviles con sistema operativo Android, que permite a los usuarios del sistema consultar y visualizar la información geográfica del campus. Dicha aplicación ha sido diseñada y programada a lo largo de la realización del proyecto. Para la realización de este proyecto también ha sido necesario un estudio del presupuesto que supondría una implantación real del sistema y el mantenimiento que implicaría tener el sistema actualizado. Por último, el proyecto incluye una breve descripción de las tecnologías futuras que podrían mejorar las funcionalidades del sistema: la realidad aumentada y el posicionamiento en el interior de edificios. ABSTRACT. The project I've done has been to create a geographic information system for the Campus Sur UPM, which can serve as a reference for implementation in any other college campus. This idea arises from the need for the campus users to have a tool that allows them to view information from different places and services, with particular emphasis on their geographical location. It has been necessary to study the current technologies that allow implementing a geographic information system, leading to the proposed system, which consists of a set of computer resources (hardware and software) that will allow campus users to obtain information and location of campus components from their mobile phones. Following an analysis of the requirements and functionalities that the system should have, the project involved the design and implementation of the system . The information will be stored and available on a computer server accessible to campus users. Accordingly, during the project, it was necessary to create a data model based on campus data and load this data in a database. All this has been done by Smallword Core 4.2 software product. In addition, it has also been necessary to deploy a server software that allows users to query the data from their phones via WIFI or Internet, the product used for this purpose has been Smallworld Geospatial Server 4.2 . To carry out the consultations have used the services WMS (Web Map Service) and WFS (Web Feature Service) defined by the OGC (Open Geospatial Consortium). These services are tailored to the geographic information retrieval. The system also consists of an application for mobile devices with Android operating system, which allows users to query and display geographic information related to the campus. This application has been designed and programmed over the project. For the realization of this project has also been necessary to study the budget that would be a real system implementation and the maintenance that would have the system updated. Finally, the project includes a brief description of future technologies that could improve the system's functionality: augmented reality and positioning inside the buildings.
Resumo:
En Ecuador el maíz es el cultivo más importante en superficie y es base de la alimentación para la población rural que vive en los Andes. A diferencia de lo que sucede en la Costa, en la región Sierra todavía se cultivan numerosas variedades tradicionales que se agrupan en veinticuatro razas. Mantener esta diversidad es, pues, de gran importancia no solo para la seguridad alimentaria, sino también como fuente de genes para tolerancia a factores abióticos que podrían ser incorporados a las variedades modernas. Si bien parte de esta diversidad fue recolectada a mediados del siglo pasado y está siendo conservada en distintos bancos de germoplasma, es deseable que su conservación in situ también esté asegurada, entre otras razones, porque de esta manera el cultivo puede seguir evolucionando. Para poder implementar un plan de conservación en finca que contribuya a preservar este patrimonio, resulta imprescindible identificar áreas idóneas donde concentrar los recursos y conocer las características y tipologías de los agricultores que manejan la diversidad actual. Generar esta información es el objetivo principal de esta investigación y para lograrlo se han llevado a cabo cuatro estudios: (1) Análisis de la diversidad a nivel de razas e identificación de áreas de alta riqueza de razas, alta diversidad morfológica y/o alta diversidad ecogeográfica en la Sierra de Ecuador, (2) Identificación del perfil y las características de los agricultores que conservan y manejan las variedades tradicionales de maíz en la Sierra de Ecuador, (3) Análisis del conocimiento local, manejo y usos de variedades tradicionales de maíz en la Sierra de Ecuador, y (4) Identificación de áreas de alta diversidad y bajo riesgo de pérdida para la conservación en finca de maíz en la Sierra de Ecuador. Para el primer estudio se visitaron 303 fincas distribuidas a lo largo de la Sierra y se recolectaron 636 muestras que fueron caracterizadas morfológicamente mediante 14 variables: 8 relacionadas con la mazorca (forma, longitud y diámetro de la mazorca, color y diámetro de olote y número y disposición de hileras) y 7 referidas el grano (número total de granos, color, forma, longitud, anchura y grosor de grano y tipo de endospermo). Adicionalmente, las fincas donde se tomaron las muestras fueron caracterizadas ecogeográficamente mediante 5 variables climáticas (temperatura media estacional, rango de temperatura media anual, temperatura mínima de diciembre, precipitación estacional y precipitación de octubre), 2 geofísicas (altitud y pendiente) y 5 edáficas (textura principal del suelo, profundidad a roca, pH, contenido en materia orgánica y fertilidad). A partir de esta información y mediante técnicas de sistemas de información geográfica (SIG), se generaron mapas de distribución por raza en formato vectorial y un mapa de riqueza de razas, un mapa de diversidad morfológica y un mapa de diversidad ecogeográfica en formato ráster con celdas de 10 km x 10 km. Los resultados permitieron constatar que, en los últimos 60 años, no se ha perdido ninguna raza. Sin embargo, Canguil, Chaucho y Clavito han dejado de cultivarse en algunas provincias con la consiguiente erosión genética del cultivo. La caracterización morfológica detectó diferencias en el grado de variabilidad intra-raza, siendo Patillo Ecuatoriano, Racimo de Uva y Uchima las razas más heterogéneas tanto para los caracteres cualitativos como cuantitativos. A nivel climático y geofísico, también se detectaron diferencias en el grado de variación intra-raza; Cuzco Ecuatoriano, Kcello Ecuatoriano y Montaña Ecuatoriana fueron las razas que en promedio presentaron mayores rangos y coeficientes de variación para estas variables ecogeográficas. En cuanto a las condiciones edáficas todas las razas, excepto Cónico Dentado, presentaron una gran heterogeneidad, pudiendo crecer tanto en suelos ricos como pobres, con valores de pH entre ácido y moderadamente alcalino. La comparación entre razas reveló diferencias significativas en los rangos ambientales de algunas razas como Cónico Dentado, que tiende a cultivarse a menor altitud y, por tanto, en ambientes menos fríos y de mayor precipitación que Blanco Blandito, Patillo Ecuatoriano, Sabanero Ecuatoriano, Uchima y Zhima. Para la mayoría de las razas se encontraron materiales potencialmente adaptados a condiciones de estrés (precipitación estacional inferior a 500 mm y suelos con pH entre 4.5 y 5.5). Finalmente, los mapas de riqueza, de diversidad morfológica y de diversidad ecogeográfica mostraron 36 celdas de alta diversidad repartidas en las 10 provincias de la Sierra: 11 celdas en las provincias del norte, 11 en las provincias del centro y 14 en las provincias del sur. Para la caracterización e identificación de las tipologías de los agricultores que cultivan maíz en la Sierra de Ecuador y el análisis de los posibles factores de riesgo de pérdida de diversidad, se realizaron entrevistas individuales y semiestructuradas a los agricultores dueños de las fincas donde se recolectaron las muestras para el estudio de diversidad (254 en total). Las preguntas que se formularon (11 abiertas y 5 cerradas) estuvieron organizadas en seis bloques: datos del agricultor, características de la finca, diversidad y conocimiento del cultivo, manejo del cultivo, usos y flujo de semillas. Los resultados indicaron que la diversidad de maíz que hay en la Sierra de Ecuador es manejada mayoritariamente por agricultores mestizos, de entre 30 y 55 años, que cultivan una o dos variedades tradicionales para autoconsumo, en parcelas de menos de 0.5 ha y en asocio con fréjol. El análisis de segmentación mediante el algoritmo Chi-square automatic interaction detection (CHAID) permitió identificar un pequeño grupo de agricultores indígenas con parcelas medianas (entre 0.5 ha y 1.5 ha) que conservan un mayor número de variedades tradicionales por finca que el agricultor promedio. Los análisis estadísticos no detectaron diferencias significativas entre etnias (mestizo vs. indígena), géneros (hombre vs. mujer) y grupos de edad (jóvenes menores de 30 años, adultos entre 30 y 55 años y adultos mayores de 55 años) en lo que respecta al conocimiento del cultivo (criterios de reconocimiento y razones de preferencia) y manejo (tipo de cultivo), pero sí detectaron diferencias entre regiones, principalmente en el modo de cultivar el maíz; mientras que en el norte y sur tienden a sembrarlo en asocio y con un mayor número de especies, en el centro acostumbran a cultivarlo preferentemente solo. En cuanto a los usos, se recopilaron hasta 39 modos diferentes de consumir maíz, siendo Kcello Ecuatoriano y Zhima las razas para las que se registró un mayor número de usos. La comparación del número medio de usos por variedad entre etnias evidenció que los agricultores mestizos utilizan sus variedades tradicionales de forma más variada que los indígenas. Entre los factores de riesgo que se analizaron, el bajo porcentaje de jóvenes agricultores que se ocupan de las fincas podría suponer una amenaza a medio plazo por falta de relevo generacional. Adicionalmente, las numerosas sinonimias y homonimias que se detectaron y el bajo intercambio de semillas también podrían ser causa de pérdida de diversidad, bien por reemplazo o por envejecimiento de la semilla. Finalmente, se concluyó que las razas Chaucho, Complejo Chillo-Huandango, Complejo Mishca-Huandango, Cónico Dentado, Montaña Ecuatoriana y Sabanero Ecuatoriano son particularmente vulnerables, no solo por su baja presencia, sino también por el color de grano que tienen (los mismos que la mayoría de las razas más comunes) y carecer de nombres y usos específicos. Finalmente, para la priorización de áreas de conservación en finca para maíz en la Sierra de Ecuador, se utilizaron 13 criterios de diferente naturaleza: 2 ecogeográficos (precipitación, diversidad ecogeográfica), 6 biológicos (grado de presencia del cultivo, riqueza de razas, diversidad morfológica, presencia de mezclas, presencia de razas locales y riesgo de erosión genética), 3 culturales (abundancia de variedades por finca, diversidad de usos y frecuencia de intercambio) y 2 demográficos (tamaño de la población y distancia a núcleos urbanos). Mediante técnicas SIG y de evaluación multicriterio, los valores originales de las capas-criterio fueron transformados a una escala de 0 a 100. Posteriormente, las capas-criterio normalizadas fueron sumadas utilizando tres métodos de ponderación: (1) mismo peso, (2) diferente peso según la puntuación otorgada por 72 expertos, y (3) diferente peso según el método de comparación entre pares de criterios. Los resultados permitieron identificar ocho celdas de 10 km x 10 km con alta puntuación (> 65): tres celdas en el norte (una en cada una de las provincias), una celda en el centro (en la provincia de Cotopaxi), y cuatro celdas en la región sur (dos en Azuay y otras dos en Loja). ABSTRACT In Ecuador, the maize is the most important cultivation in surface and it is a base of the feeding for the rural population who lives in the Andes. In contrast to what it happens on the Coast, in the Sierra region still there are cultivated numerous traditional varieties that are grouped into twenty-four races. Maintaining this diversity is, therefore, of great importance not only for food security, but also as a source of genes for tolerance to abiotic factors could be incorporated into modern varieties. Although part of this diversity was collected in the middle of the last century and is still preserved in various germplasm banks, it is desirable for the in situ conservation also is assured, among other reasons, because in this way the crop can continue to evolve. To be able to implement a conservation plan on farm that contribute to preserving this heritage, it is essential to identify suitable areas where to concentrate resources and know the characteristics and typology of farmer who managed the current diversity. To generate this information is the main target of this investigation and to achieve this, four studies have been carried out: (1) Analysis of the diversity at races and identification of areas of high richness of races, high morphological diversity and / or ecogeographical high diversity in the Sierra of Ecuador, (2) Identification of the profile and characteristics of farmers who conserve and manage traditional varieties of maize in the Sierra of Ecuador, (3) Analysis of local knowledge, management and use of traditional varieties of maize in the Sierra of Ecuador, and (4) Identification of areas of high diversity and low risk of loss for the conservation of maize in the Sierra of Ecuador. For the first study were visited 303 farms distributed along the Sierra and collected 636 samples that were characterized morphologically by 14 variables: 8 related to the ear (shape, length and diameter of the cob, colour, and diameter of cob and number and arrangement of rows) and 7 referred to the grain (total number of grain, colour, shape, length, width, and thickness and type of grain endosperm). In addition, the farms where the samples were taken were characterized ecogeographically through 5 climatic variables (seasonal average temperature, range of average annual temperature, minimum temperature for December, seasonal precipitation and precipitation of October), 2 geophysical (altitude and slope) and edaphic 5 (main texture of the soil, deep rock, pH, content of organic matter and fertility). From this information and techniques of geographic information systems (GIS), maps were generated for distribution by race in vector format and a map of richness of races, a map of morphological diversity and a map of ecogeographical diversity in raster format with cells of 10 km x 10 km. The results allowed observing that, over the past 60 years, it has not lost any race. Nevertheless, Canguil, Chaucho and Clavito have stopped being cultivated in some provinces with the consequent genetic erosion of the cultivation. The morphological characterization detected differences in the degree of variability intra-race, being Patillo Ecuatoriano, Racimo de Uva and Uchima races more heterogeneous both for the qualitative and quantitative characters. At climate and geophysical level, also detected differences in the degree of variation intra-race; Cuzco Ecuatoriano, Kcello Ecuatoriano and Montaña Ecuatoriana were races that, on average, showed higher ranges and coefficients of variation for these geographical characters. In terms of the edaphic conditions, all races, except Cónico Dentado, showed a great heterogeneity, and can grow both in rich and poor soils, with pH values between acid and moderately alkaline. The comparison between races revealed significant differences in the environmental ranges in some races as Cónico Dentado, which tends to be grown at lower elevations and, therefore, in environments less cold and greater precipitation than Blanco Blandito, Patillo Ecuatoriano, Sabanero Ecuatoriano, Uchima and Zhima. For most of the races were found materials potentially adapted to stress conditions (seasonal precipitation less than 500 mm and soil with a pH between 4.5 and 5.5). Finally, the maps of richness, morphologic diversity and ecogeographical diversity showed 36 cells high diversity distributed in 10 provinces of the Sierra: 11 cells in the northern provinces, 11 in the central provinces and 14 in the southern provinces. For the characterization and identification of the typology of the farmers who cultivate corn in the Sierra of Ecuador and the analysis of the possible factors of risk of loss of diversity, there were realized interviews individual and semistructured to the farmers’ owners of the farms where the samples were gathered for the study of diversity (254 in whole). The questions that were formulated (11 opened ones and 5 closed ones) were organized in six blocks: data of the farmer, characteristics of the farm, diversity and knowledge of the crop, crop management, uses and seed flow. The results indicated that the maize diversity that exist in the Sierra of Ecuador is managed mainly by mestizo farmers, aged between 30 and 55, who cultivate one or two traditional varieties for self-consumption, on plots of less than 0.5 has and in associated with beans. The segmentation analysis algorithm using the Chi-square automatic interaction detection (CHAID technique), allowed to identify a small group of indigenous farmers with medium-sized plots (between 0.5 there is and 1.5 it is) that a major number of traditional varieties preserves for farm that the average farmer. The statistical analysis did not detect significant differences between ethnic groups (mestizos vs. indigenous), genres (man vs. women) and age groups (young people under 30 years of age, adults between 30 and 55 years and adults over 55 years old) in regards to the knowledge of the cultivation (recognition criteria and reasons of preference) and management (type of crop), but if detected differences between regions, mainly on the mode of cultivating the maize; while in the north and south they tend to sow in associate and with a greater number of species, in the center accustomed to cultivate it preferably only. In regards to the uses, they were compiled up to 39 different ways of consuming maize, being Kcello Ecuatoriano and Zhima the races for which a major number of uses registered. The comparison of the average number of uses per variety between ethnic groups showed that the mestizo farmers used their traditional varieties of form more varied than the indigenous people. Between the factors of risk that were analyzed, the low percentage of young farmers who deal with the farms might suppose a medium-term threat for lack of generational relief. In addition, the numerous synonyms and homonyms that were detected and the low seed exchange could also be a cause of loss of diversity, either by replacement or by aging of the seed. Finally, it was concluded that the races Chaucho, Complex Chillo-Huandango, Complex Mishca-Huandango, Cónico Dentado, Montaña Ecuatoriana and Sabanero Ecuatoriano are particularly vulnerable, not only because of their low presence, but also by the grain color they have (the same as the majority of races more common) and lack of names and specific uses. Finally, for the prioritization of maize conservation areas on farm in the Sierra of Ecuador, used 13 criteria of different nature: 2 ecogeographic (precipitation, diversity ecogeographical), 6 biological (degree of presence of the crop, races richness, morphological diversity, the presence of mixtures, presence of local races and risk of genetic erosion), 3 cultural (abundance of varieties per farm, diversity of uses and frequency of exchange) and 2 demographic (population size and distance to urban centers). Using GIS techniques and multicriteria evaluation, the original values of the layers-criterion were transformed to a scale of 0 to 100. Later, the normalized layers - criteria were added using three weighting methods: (1) the same weight, (2) different weight according to the score given by 72 experts, and (3) different weight according to the method of comparison between pairs of criteria. The results allowed to identify eight 10 km cells x 10 km with high punctuation (> 65): three cells in the north (one in each of the provinces), a cell in the center (in the Cotopaxi province), and four cells in the south region (two in Azuay and other two in Loja).
Resumo:
En esta tesis se estudia la representación, modelado y comparación de colecciones mediante el uso de ontologías en el ámbito de la Web Semántica. Las colecciones, entendidas como agrupaciones de objetos o elementos con entidad propia, son construcciones que aparecen frecuentemente en prácticamente todos los dominios del mundo real, y por tanto, es imprescindible disponer de conceptualizaciones de estas estructuras abstractas y de representaciones de estas conceptualizaciones en los sistemas informáticos, que definan adecuadamente su semántica. Mientras que en muchos ámbitos de la Informática y la Inteligencia Artificial, como por ejemplo la programación, las bases de datos o la recuperación de información, las colecciones han sido ampliamente estudiadas y se han desarrollado representaciones que responden a multitud de conceptualizaciones, en el ámbito de la Web Semántica, sin embargo, su estudio ha sido bastante limitado. De hecho hasta la fecha existen pocas propuestas de representación de colecciones mediante ontologías, y las que hay sólo cubren algunos tipos de colecciones y presentan importantes limitaciones. Esto impide la representación adecuada de colecciones y dificulta otras tareas comunes como la comparación de colecciones, algo crítico en operaciones habituales como las búsquedas semánticas o el enlazado de datos en la Web Semántica. Para solventar este problema esta tesis hace una propuesta de modelización de colecciones basada en una nueva clasificación de colecciones de acuerdo a sus características estructurales (homogeneidad, unicidad, orden y cardinalidad). Esta clasificación permite definir una taxonomía con hasta 16 tipos de colecciones distintas. Entre otras ventajas, esta nueva clasificación permite aprovechar la semántica de las propiedades estructurales de cada tipo de colección para realizar comparaciones utilizando las funciones de similitud y disimilitud más apropiadas. De este modo, la tesis desarrolla además un nuevo catálogo de funciones de similitud para las distintas colecciones, donde se han recogido las funciones de (di)similitud más conocidas y también algunas nuevas. Esta propuesta se ha implementado mediante dos ontologías paralelas, la ontología E-Collections, que representa los distintos tipos de colecciones de la taxonomía y su axiomática, y la ontología SIMEON (Similarity Measures Ontology) que representa los tipos de funciones de (di)similitud para cada tipo de colección. Gracias a estas ontologías, para comparar dos colecciones, una vez representadas como instancias de la clase más apropiada de la ontología E-Collections, automáticamente se sabe qué funciones de (di)similitud de la ontología SIMEON pueden utilizarse para su comparación. Abstract This thesis studies the representation, modeling and comparison of collections in the Semantic Web using ontologies. Collections, understood as groups of objects or elements with their own identities, are constructions that appear frequently in almost all areas of the real world. Therefore, it is essential to have conceptualizations of these abstract structures and representations of these conceptualizations in computer systems, that define their semantic properly. While in many areas of Computer Science and Artificial Intelligence, such as Programming, Databases or Information Retrieval, the collections have been extensively studied and there are representations that match many conceptualizations, in the field Semantic Web, however, their study has been quite limited. In fact, there are few representations of collections using ontologies so far, and they only cover some types of collections and have important limitations. This hinders a proper representation of collections and other common tasks like comparing collections, something critical in usual operations such as semantic search or linking data on the Semantic Web. To solve this problem this thesis makes a proposal for modelling collections based on a new classification of collections according to their structural characteristics (homogeneity, uniqueness, order and cardinality). This classification allows to define a taxonomy with up to 16 different types of collections. Among other advantages, this new classification can leverage the semantics of the structural properties of each type of collection to make comparisons using the most appropriate (dis)similarity functions. Thus, the thesis also develops a new catalog of similarity functions for the different types of collections. This catalog contains the most common (dis)similarity functions as well as new ones. This proposal is implemented through two parallel ontologies, the E-Collections ontology that represents the different types of collections in the taxonomy and their axiomatic, and the SIMEON ontology (Similarity Measures Ontology) that represents the types of (dis)similarity functions for each type of collection. Thanks to these ontologies, to compare two collections, once represented as instances of the appropriate class of E-Collections ontology, we can know automatically which (dis)similarity functions of the SIMEON ontology are suitable for the comparison. Finally, the feasibility and usefulness of this modeling and comparison of collections proposal is proved in the field of oenology, applying both E-Collections and SIMEON ontologies to the representation and comparison of wines with the E-Baco ontology.
Resumo:
The emergence of cloud datacenters enhances the capability of online data storage. Since massive data is stored in datacenters, it is necessary to effectively locate and access interest data in such a distributed system. However, traditional search techniques only allow users to search images over exact-match keywords through a centralized index. These techniques cannot satisfy the requirements of content based image retrieval (CBIR). In this paper, we propose a scalable image retrieval framework which can efficiently support content similarity search and semantic search in the distributed environment. Its key idea is to integrate image feature vectors into distributed hash tables (DHTs) by exploiting the property of locality sensitive hashing (LSH). Thus, images with similar content are most likely gathered into the same node without the knowledge of any global information. For searching semantically close images, the relevance feedback is adopted in our system to overcome the gap between low-level features and high-level features. We show that our approach yields high recall rate with good load balance and only requires a few number of hops.