974 resultados para Base de datos
Resumo:
A día de hoy, existen millones de artículos en internet que tratan sobre diferentes temas. Los investigadores hacen búsquedas exhaustivas para encontrar aquellos artículos que encuentran más importantes, los cuales se van descargando en su ordenador llegando a tal extremo que la cantidad de documentos que pueden llegar a tener se vuelve casi inmanejable. El proyecto Calimaco, el cual se está llevando a cabo en el Laboratorio Decoroso Crespo, busca dar soporte a la tarea de búsqueda de información en el ámbito de la investigación, donde la cantidad de información existente es abrumadora. El objetivo es generar una visualización tridimensional de una serie de documentos (corpus), de manera que el usuario pueda explorarlo fácilmente. Además se pretende que dicho proceso se adapte a las necesidades y características particulares del usuario. Esto puede resultar muy útil cuando, por ejemplo, un investigador desea buscar información acerca de un determinado tema dentro de todos sus documentos, ya que el sistema los clasificará en base a dichos temas, permitiéndole acceder a la información relevante de manera rápida y sencilla. La división de este proyecto se compone de dos partes: la primera se corresponde al preprocesamiento de los documentos, mientras que la segunda se encarga de la visualización de los resultados, además de la interactuación del usuario. El trabajo realizado expuesto en esta memoria se sitúa dentro de la parte de preprocesamiento del proyecto Calimaco. La aportación a este proyecto ha consistido en la realización de pruebas y análisis de los resultados, diseño e implementación de una base de datos, e integración de ambas partes, creando una primera versión del sistema. Para comprobar el funcionamiento de esta primera versión se diseñó un plan de pruebas del sistema para medir el tiempo y la precisión.---ABSTRACT---Nowadays, there are millions of articles on the Internet that deal with different topics. Researchers do exhaustive searches to find those articles that are more important for them and download them to their computer, sometimes, reaching a point where the amount of downloaded documents is unmanageable. Calimaco project, which is being carried out at Laboratorio Decoroso Crespo, aims to provide a solution in the task of searching information in terms of investigation, where the amount of information is overwhelming. The goal is to create a tridimensional vision of a set of documents (corpus), so that the user can explore it easily. In addition, this process is intended to adapt to the personal needs and characteristics of the user. This can turn out to be useful when, for example, a researcher wants to seek information about a specific subject inside all his documents, because the system will classify them by subjects, allowing to access relevant information in a fast and easy way. This project is formed by two big sections: the first one corresponds to the pre-process of documents, while the second one is in charge of result visualization as well as the interaction with the user. This memory contains the explanation of the job done in the first part of the Calimaco project, which belongs to the pre-process of documents. The contributions done to the project are: development of tests and analysis of results, a design and implementation of a database, and an integration of both parts (pre-process of documents and result visualization) creating a first version of the system. To test the functioning of this first version, the author created a system test plan in order to gather information about execution time and accuracy.
Resumo:
Poder clasificar de manera precisa la aplicación o programa del que provienen los flujos que conforman el tráfico de uso de Internet dentro de una red permite tanto a empresas como a organismos una útil herramienta de gestión de los recursos de sus redes, así como la posibilidad de establecer políticas de prohibición o priorización de tráfico específico. La proliferación de nuevas aplicaciones y de nuevas técnicas han dificultado el uso de valores conocidos (well-known) en puertos de aplicaciones proporcionados por la IANA (Internet Assigned Numbers Authority) para la detección de dichas aplicaciones. Las redes P2P (Peer to Peer), el uso de puertos no conocidos o aleatorios, y el enmascaramiento de tráfico de muchas aplicaciones en tráfico HTTP y HTTPS con el fin de atravesar firewalls y NATs (Network Address Translation), entre otros, crea la necesidad de nuevos métodos de detección de tráfico. El objetivo de este estudio es desarrollar una serie de prácticas que permitan realizar dicha tarea a través de técnicas que están más allá de la observación de puertos y otros valores conocidos. Existen una serie de metodologías como Deep Packet Inspection (DPI) que se basa en la búsqueda de firmas, signatures, en base a patrones creados por el contenido de los paquetes, incluido el payload, que caracterizan cada aplicación. Otras basadas en el aprendizaje automático de parámetros de los flujos, Machine Learning, que permite determinar mediante análisis estadísticos a qué aplicación pueden pertenecer dichos flujos y, por último, técnicas de carácter más heurístico basadas en la intuición o el conocimiento propio sobre tráfico de red. En concreto, se propone el uso de alguna de las técnicas anteriormente comentadas en conjunto con técnicas de minería de datos como son el Análisis de Componentes Principales (PCA por sus siglas en inglés) y Clustering de estadísticos extraídos de los flujos procedentes de ficheros de tráfico de red. Esto implicará la configuración de diversos parámetros que precisarán de un proceso iterativo de prueba y error que permita dar con una clasificación del tráfico fiable. El resultado ideal sería aquel en el que se pudiera identificar cada aplicación presente en el tráfico en un clúster distinto, o en clusters que agrupen grupos de aplicaciones de similar naturaleza. Para ello, se crearán capturas de tráfico dentro de un entorno controlado e identificando cada tráfico con su aplicación correspondiente, a continuación se extraerán los flujos de dichas capturas. Tras esto, parámetros determinados de los paquetes pertenecientes a dichos flujos serán obtenidos, como por ejemplo la fecha y hora de llagada o la longitud en octetos del paquete IP. Estos parámetros serán cargados en una base de datos MySQL y serán usados para obtener estadísticos que ayuden, en un siguiente paso, a realizar una clasificación de los flujos mediante minería de datos. Concretamente, se usarán las técnicas de PCA y clustering haciendo uso del software RapidMiner. Por último, los resultados obtenidos serán plasmados en una matriz de confusión que nos permitirá que sean valorados correctamente. ABSTRACT. Being able to classify the applications that generate the traffic flows in an Internet network allows companies and organisms to implement efficient resource management policies such as prohibition of specific applications or prioritization of certain application traffic, looking for an optimization of the available bandwidth. The proliferation of new applications and new technics in the last years has made it more difficult to use well-known values assigned by the IANA (Internet Assigned Numbers Authority), like UDP and TCP ports, to identify the traffic. Also, P2P networks and data encapsulation over HTTP and HTTPS traffic has increased the necessity to improve these traffic analysis technics. The aim of this project is to develop a number of techniques that make us able to classify the traffic with more than the simple observation of the well-known ports. There are some proposals that have been created to cover this necessity; Deep Packet Inspection (DPI) tries to find signatures in the packets reading the information contained in them, the payload, looking for patterns that can be used to characterize the applications to which that traffic belongs; Machine Learning procedures work with statistical analysis of the flows, trying to generate an automatic process that learns from those statistical parameters and calculate the likelihood of a flow pertaining to a certain application; Heuristic Techniques, finally, are based in the intuition or the knowledge of the researcher himself about the traffic being analyzed that can help him to characterize the traffic. Specifically, the use of some of the techniques previously mentioned in combination with data mining technics such as Principal Component Analysis (PCA) and Clustering (grouping) of the flows extracted from network traffic captures are proposed. An iterative process based in success and failure will be needed to configure these data mining techniques looking for a reliable traffic classification. The perfect result would be the one in which the traffic flows of each application is grouped correctly in each cluster or in clusters that contain group of applications of similar nature. To do this, network traffic captures will be created in a controlled environment in which every capture is classified and known to pertain to a specific application. Then, for each capture, all the flows will be extracted. These flows will be used to extract from them information such as date and arrival time or the IP length of the packets inside them. This information will be then loaded to a MySQL database where all the packets defining a flow will be classified and also, each flow will be assigned to its specific application. All the information obtained from the packets will be used to generate statistical parameters in order to describe each flow in the best possible way. After that, data mining techniques previously mentioned (PCA and Clustering) will be used on these parameters making use of the software RapidMiner. Finally, the results obtained from the data mining will be compared with the real classification of the flows that can be obtained from the database. A Confusion Matrix will be used for the comparison, letting us measure the veracity of the developed classification process.
Resumo:
La presente tesis propone un nuevo método de cartografía de ensayos no destructivos en edificios históricos mediante el uso de técnicas basadas en SIG. Primeramente, se define el método por el cual es posible elaborar y convertir una cartografía 3D basada en nubes de puntos de un elemento arquitectónico obtenida mediante fotogrametría, en cartografía raster y vectorial, legible por los sistemas SIG mediante un sistema de coordenadas particular que referencian cada punto de la nube obtenida por fotogrametría. A esta cartografía inicial la denominaremos cartografía base. Después, se define el método por el cual los puntos donde se realiza un ensayo NDT se referencian al sistema de coordenadas del plano base, lo que permite la generación de cartografías de los ensayos referenciadas y la posibilidad de obtener sobre un mismo plano base diferentes datos de múltiples ensayos. Estas nuevas cartografías las denominaremos cartografías de datos, y se demostrará la utilidad de las mismas en el estudio del deterioro y la humedad. Se incluirá el factor tiempo en las cartografías, y se mostrará cómo este nuevo hecho posibilita el trabajo interdisciplinar en la elaboración del diagnóstico. Finalmente, se generarán nuevas cartografías inéditas hasta entonces consistentes en la combinación de diferentes cartografías de datos con la misma planimetría base. Estas nuevas cartografías, darán pie a la obtención de lo que se ha definido como mapas de isograma de humedad, mapa de isograma de salinidad, factor de humedad, factor de evaporación, factor de salinidad y factor de degradación del material. Mediante este sistema se facilitará una mejor visión del conjunto de los datos obtenidos en el estudio del edificio histórico, lo que favorecerá la correcta y rigurosa interpretación de los datos para su posterior restauración. ABSTRACT This research work proposes a new mapping method of non-destructive testing in historical buildings, by using techniques based on GIS. First of all, the method that makes it possible to produce and convert a 3D map based on cloud points from an architectural element obtained by photogrammetry, are defined, as raster and vector, legible by GIS mapping systems using a particular coordinate system that will refer each cloud point obtained by photogrammetry. This initial mapping will be named base planimetry. Afterwards, the method by which the points where the NDT test is performed are referenced to the coordinate system of the base plane , which allows the generation of maps of the referenced tests and the possibility of obtaining different data from multiple tests on the same base plane. These new maps will be named mapping data and their usefulness will be demonstrated in the deterioration and moisture study. The time factor in maps will be included, and how this new fact will enable the interdisciplinary work in the elaboration of the diagnosis will be proved. Finally, new maps (unpublished until now) will be generated by combining different mapping from the same planimetry data base. These new maps will enable us to obtain what have been called isograma moisture maps, isograma salinity- maps, humidity factor, evaporation factor, salinity factor and the material degradation factor. This system will provide a better vision of all data obtained in the study of historical buildings , and will ease the proper and rigorous data interpretation for its subsequent restoration.
Resumo:
El presente proyecto de fin de grado es uno de los resultados generados en un proyecto de financiación privada por parte de Telefónica consistente en el desarrollo y posterior implantación de un sistema para minería de datos de empresas presentes en Internet. Este TFG surge a partir de un proyecto que el grupo de investigación AICU-LABS (Mercator) de la UPM ha desarrollado para Telefónica, y tiene como elemento principal el desarrollo de Agentes web (también llamados robots software, “softbots” o “crawlers”) capaces de obtener datos de empresas a partir de sus CIF a través de internet. El listado de empresas nos los proporciona Telefónica, y está compuesto por empresas que no son clientes de Telefónica en la actualidad. Nuestra misión es proporcionarles los datos necesarios (principalmente teléfono, correo electrónico y dirección de la empresa) para la creación de una base de datos de potenciales clientes. Para llevar a cabo esta tarea, se ha realizado una aplicación que, a partir de los CIF que nos proporcionan, busque información en internet y extraiga aquella que nos interese. Además se han desarrollado sistemas de validación de datos para ayudarnos a descartar datos no válidos y clasificar los datos según su calidad para así maximizar la calidad de los datos producidos por el robot. La búsqueda de datos se hará tanto en bases de datos online como, en caso de localizarlas, las propias páginas web de las empresas. ABSTRACT This Final Degree Project is one of the results obtained from a project funded by Telefónica. This project consists on the development and subsequent implantation of a system which performs data mining on companies operating on the Internet. This document arises from a project the research group AICU-LABS (Mercator) from the Universidad Politécnica de Madrid has developed for Telefónica. The main goal of this project is the creation of web agents (also known as “crawlers” or “web spiders”) able to obtain data from businesses through the Internet, knowing only their VAT identification number. The list of companies is given by Telefónica, and it is composed by companies that are not Telefónica’s customers today. Our mission is to provide the data required (mainly phone, email and address of the company) to create a database of potential customers. To perform this task, we’ve developed an application that, starting with the given VAT numbers, searches the web for information and extracts the data sought. In addition, we have developed data validation systems, that are capable of discarding low quality data and also sorting the data according to their quality, to maximize the quality of the results produced by the robot. We’ll use both the companies’ websites and external databases as our sources of information.
Resumo:
En este proyecto se ha desarrollado una aplicación Web cuya finalidad es ofrecer al usuario datos provenientes del análisis de texto de las noticias que se encuentran en periódicos online. La aplicación permite al usuario realizar búsquedas personalizadas sobre temáticas específicas y configurar algunos tipos de análisis sobre la información recuperada. Entre los análisis que son llevados a cabo destaca el análisis del sentimiento. Para ello se ofrece la posibilidad de que el usuario utilice sus propios diccionarios de pares palabra-valor, utilizados para realizar este tipo de análisis. Para la codificación de la herramienta, se ha utilizado el lenguaje de programación Python y la framework web Django. El almacenamiento de la información de la aplicación se ha realizado sobre una base de datos NoSQL de tipo MongoDB.
Resumo:
Ejercicios sobre los conceptos desarrollados en la primera parte de las sesiones de teoría (hora1, teoría1).
Resumo:
La segunda hora de las sesiones de teoría se centra en el modelo relacional y tiene un carácter más práctico, de resolución de problemas de aplicación de lo anterior.
Resumo:
En ese curso, este examen se hizo en la última sesión de teoría por lo que se prepararon varias versiones ligeramente diferentes para cada grupo de teoría.
Resumo:
El examen consta de 3 partes: Test de teoría, problemas de teoría y SQL. Hay dos versiones, una para informática y otra para multimedia.
Resumo:
En el curso 2011-12 este examen de problemas de aplicación de la teoría se realizó en la fecha asignada por la Universidad de Alicante y en aulas comunes para Informática y Multimedia.
Resumo:
Examen de segunda convocatoria del curso 2011-12. Consta de 3 partes: test y problemas de teoría, y SQL.
Resumo:
Mapas conceptuales de los temas de la asignatura.
Resumo:
Presentaciones de la primera hora de las sesiones de teoría (TEORÍA1).
Resumo:
El artículo proporciona una metodología sencilla para la identificación de minerales mediante la técnica de difracción de rayos X de polvo utilizando bases de datos mineralógicos de libre acceso y online. Las bases de datos utilizadas son la base de datos mineralógicas webmineral y la base de datos de estructuras cristalinas de la American Mineralogist Crystal Structure Database, AMS. En el presente trabajo se han elaborado 3 actividades resueltas de estudios reales y en orden creciente de dificultad. Se ha pretendido hacer hincapié en puntos donde el profesor puede interactuar con el alumno y promover la capacidad de análisis, síntesis y razonamiento crítico del alumno ante un problema de investigación en geología. Finalmente se ha elaborado un Anexo donde se recogen recomendaciones para que el profesor desarrolle sus propias actividades.
Resumo:
El tema Las bases de datos documentales (BDd) y el Proceso de Búsqueda forma parte del programa de la asignatura 'Documentación e Información Científica en Salud' del Máster Universitario en Investigación en Ciencias de la Enfermería que se imparte en la Facultad de Ciencias de la Salud (Universidad de Alicante).