21 resultados para Cluster Analysis. Information Theory. Entropy. Cross Information Potential. Complex Data
Resumo:
Global analysis of logic programs can be performed effectively by the use of one of several existing efficient algorithms. However, the traditional global analysis scheme in which all the program code is known in advance and no previous analysis information is available is unsatisfactory in many situations. Incrementa! analysis of logic programs has been shown to be feasible and much more efficient in certain contexts than traditional (non-incremental) global analysis. However, incremental analysis poses additional requirements on the fixpoint algorithm used. In this work we identify these requirements, present an important class of strategies meeting the requirements, present sufficient a priori conditions for such strategies, and propose, implement, and evalúate experimentally a novel algorithm for incremental analysis based on these ideas. The experimental results show that the proposed algorithm performs very efficiently in the incremental case while being comparable to (and, in some cases, considerably better than) other state-of-the-art analysis algorithms even for the non-incremental case. We argüe that our discussions, results, and experiments also shed light on some of the many tradeoffs involved in the design of algorithms for logic program analysis.
Resumo:
The Linked Data initiative offers a straight method to publish structured data in the World Wide Web and link it to other data, resulting in a world wide network of semantically codified data known as the Linked Open Data cloud. The size of the Linked Open Data cloud, i.e. the amount of data published using Linked Data principles, is growing exponentially, including life sciences data. However, key information for biological research is still missing in the Linked Open Data cloud. For example, the relation between orthologs genes and genetic diseases is absent, even though such information can be used for hypothesis generation regarding human diseases. The OGOLOD system, an extension of the OGO Knowledge Base, publishes orthologs/diseases information using Linked Data. This gives the scientists the ability to query the structured information in connection with other Linked Data and to discover new information related to orthologs and human diseases in the cloud.
Resumo:
We present a tutorial overview of Ciaopp, the Ciao system preprocessor. Ciao is a public-domain, next-generation logic programming system, which subsumes ISO-Prolog and is specifically designed to a) be highly extensible via librarles and b) support modular program analysis, debugging, and optimization. The latter tasks are performed in an integrated fashion by Ciaopp. Ciaopp uses modular, incremental abstract interpretation to infer properties of program predicates and literals, including types, variable instantiation properties (including modes), non-failure, determinacy, bounds on computational cost, bounds on sizes of terms in the program, etc. Using such analysis information, Ciaopp can find errors at compile-time in programs and/or perform partial verification. Ciaopp checks how programs cali system librarles and also any assertions present in the program or in other modules used by the program. These assertions are also used to genérate documentation automatically. Ciaopp also uses analysis information to perform program transformations and optimizations such as múltiple abstract specialization, parallelization (including granularity control), and optimization of run-time tests for properties which cannot be checked completely at compile-time. We illustrate "hands-on" the use of Ciaopp in all these tasks. By design, Ciaopp is a generic tool, which can be easily tailored to perform these and other tasks for different LP and CLP dialects.
Resumo:
La planificación y las políticas de transporte no pueden descuidar la calidad del servicio, considerando que influye notablemente en el cambio modal del coche hacia otros medios de transporte más sostenibles. El concepto se aplica también a los intercambiadores de transporte público, los nodos del sistema donde se cruzan las distintas redes del transporte público y privado. Aunque se han logrado numerosos avances para medir y evaluar la calidad en el sector del transporte público, se han dedicado relativamente pocos esfuerzos a investigar estos aspectos relacionados con la calidad de los intercambiadores del transporte público. Este trabajo de investigación se concentra en la calidad del servicio de la transferencia modal en los intercambiadores interurbanos, según la perspectiva de los viajeros. Su objetivo es identificar los factores clave de la calidad del servicio y los perfiles de los viajeros en los intercambiadores. La investigación es exploratoria y ofrece información acerca de la percepción de los viajeros intermodales relacionada con los aspectos de la calidad, aportando nuevos elementos y datos para adentrarse en estudios más detallados. La metodología del trabajo combina técnicas de análisis estadístico multivariante para analizar los datos de las encuestas sobre la satisfacción de los clientes y se subdivide en tres etapas. En primer lugar, se ha implementado el análisis de correspondencias múltiples para explorar los constructos latentes relacionados con la satisfacción de las características cualitativas de los intercambiadores interurbanos, identificando así los factores clave de la calidad. En segundo lugar, se ha aplicado un análisis de conglomerados de k-medias sobre los factores clave de calidad para clasificar a los viajeros en grupos de usuarios de transportes homogéneos, de acuerdo con su percepción de satisfacción, identificando de este modo los perfiles de los viajeros. Por último, se han formulado sugerencias y recomendaciones sobre la calidad para respaldar la formulación de políticas, estableciendo las prioridades para los intercambiadores interurbanos. La metodología se aplicó en cuatro intercambiadores interurbanos (estaciones de ferrocarriles o de autobuses ) en Madrid, Zaragoza, Gothenburg y Lion, analizando los datos recogidos mediante una encuesta de satisfacción del cliente llevada a cabo en 2011 en los cuatro casos de estudio, donde se interconectan distintos medios de transporte público y privado, de corta y larga distancia. Se recogieron datos sobre la satisfacción de los viajeros con 26 criterios de calidad, así como información sobre aspectos socio-económicos y pautas de comportamiento de viajes. Mediante el análisis de correspondencias múltiples se identificaron 4-5 factores clave de calidad en cada intercambiador, que se asocian principalmente con el sistema de emisión de billetes, el confort y la interconexión, mientras que los viajeros no perciben los temas clásicos como la información. Mediante el análisis de conglomerados se identificaron 2-5 perfiles de viajeros en cada intercambiador. Se reconocieron dos grupos de viajeros en casi todos los casos de estudio: viajeros de cercanía/trabajadores y turistas. Por lo que concierne a las prioridades para apoyar a las partes interesadas en la formulación de políticas, la expedición de billetes es el factor clave para los intercambiadores interurbanos españoles, mientras que la interconexión y los aspectos temporales se destacan en los intercambiadores de Francia y Suecia. Quality of Service can not be neglected in public transport planning and policy making, since it strongly influences modal shifts from car to more sustainable modes. This concept is also related to Public Transport interchanges, the nodes of the transport system where the different sub-systems of public passenger transport and personal vehicles meet. Although a lot of progress has been generally done to measure and assess quality in public transport sector, relatively little investigation has been conducted on quality at PT interchanges. This research work focusses on Quality of Service in the use of transfer facilities at interurban interchanges, according to current travellers’ perspective. It aims at identifying key quality factors and travellers profiles at interurban interchanges. The research is exploratory and offers insight into intermodal travellers’ perception on quality aspects, providing new elements and inputs for more definitive investigation. The methodology of the work combines multivariate statistical techniques to analyse data from customer satisfaction surveys and is subdivided in three steps. Firstly, multiple correspondence analysis was performed to explore latent constructs as concern satisfaction of quality attributes at interurban interchanges, thus identifying the so-called Key Quality Factor. Secondly, k-means cluster analysis was implemented on the key quality factors to classify travellers in homogeneous groups of transport users, according to their perception of satisfaction, thus identifying the so-called Travellers Profiles. Finally, hints and recommendations on quality were identified to support policy making, setting priorities for interurban interchanges. The methodology was applied at four interurban interchanges in Madrid, Zaragoza, Gothenburg and Lyon, analysing the data collected through a customer satisfaction survey carried out in 2011 at the four railway or bus stations where different modes of public and private transport are interconnected covering both short and long trips. Data on travellers’ satisfaction with 26 quality attributes were collected, as well as information on socio-economical and travel patterns. Through multiple correspondence analysis were identified 4-5 key quality factors per interchange. They are mainly related to ticketing, comfort and connectivity, while classical issues, as information, are not perceived as important by travellers’. Through cluster analysis were identified 2-5 travellers profiles per interchange. Two groups of travellers can be found in almost all case studies: commuter / business travellers and holiday travellers. As regards the priorities to support stakeholders in policy making, ticketing is the key-issue for the Spanish interurban interchanges, while connectivity and temporal issues emerge in the French and Swedish case studies.
Resumo:
El aprendizaje automático y la cienciometría son las disciplinas científicas que se tratan en esta tesis. El aprendizaje automático trata sobre la construcción y el estudio de algoritmos que puedan aprender a partir de datos, mientras que la cienciometría se ocupa principalmente del análisis de la ciencia desde una perspectiva cuantitativa. Hoy en día, los avances en el aprendizaje automático proporcionan las herramientas matemáticas y estadísticas para trabajar correctamente con la gran cantidad de datos cienciométricos almacenados en bases de datos bibliográficas. En este contexto, el uso de nuevos métodos de aprendizaje automático en aplicaciones de cienciometría es el foco de atención de esta tesis doctoral. Esta tesis propone nuevas contribuciones en el aprendizaje automático que podrían arrojar luz sobre el área de la cienciometría. Estas contribuciones están divididas en tres partes: Varios modelos supervisados (in)sensibles al coste son aprendidos para predecir el éxito científico de los artículos y los investigadores. Los modelos sensibles al coste no están interesados en maximizar la precisión de clasificación, sino en la minimización del coste total esperado derivado de los errores ocasionados. En este contexto, los editores de revistas científicas podrían disponer de una herramienta capaz de predecir el número de citas de un artículo en el fututo antes de ser publicado, mientras que los comités de promoción podrían predecir el incremento anual del índice h de los investigadores en los primeros años. Estos modelos predictivos podrían allanar el camino hacia nuevos sistemas de evaluación. Varios modelos gráficos probabilísticos son aprendidos para explotar y descubrir nuevas relaciones entre el gran número de índices bibliométricos existentes. En este contexto, la comunidad científica podría medir cómo algunos índices influyen en otros en términos probabilísticos y realizar propagación de la evidencia e inferencia abductiva para responder a preguntas bibliométricas. Además, la comunidad científica podría descubrir qué índices bibliométricos tienen mayor poder predictivo. Este es un problema de regresión multi-respuesta en el que el papel de cada variable, predictiva o respuesta, es desconocido de antemano. Los índices resultantes podrían ser muy útiles para la predicción, es decir, cuando se conocen sus valores, el conocimiento de cualquier valor no proporciona información sobre la predicción de otros índices bibliométricos. Un estudio bibliométrico sobre la investigación española en informática ha sido realizado bajo la cultura de publicar o morir. Este estudio se basa en una metodología de análisis de clusters que caracteriza la actividad en la investigación en términos de productividad, visibilidad, calidad, prestigio y colaboración internacional. Este estudio también analiza los efectos de la colaboración en la productividad y la visibilidad bajo diferentes circunstancias. ABSTRACT Machine learning and scientometrics are the scientific disciplines which are covered in this dissertation. Machine learning deals with the construction and study of algorithms that can learn from data, whereas scientometrics is mainly concerned with the analysis of science from a quantitative perspective. Nowadays, advances in machine learning provide the mathematical and statistical tools for properly working with the vast amount of scientometrics data stored in bibliographic databases. In this context, the use of novel machine learning methods in scientometrics applications is the focus of attention of this dissertation. This dissertation proposes new machine learning contributions which would shed light on the scientometrics area. These contributions are divided in three parts: Several supervised cost-(in)sensitive models are learned to predict the scientific success of articles and researchers. Cost-sensitive models are not interested in maximizing classification accuracy, but in minimizing the expected total cost of the error derived from mistakes in the classification process. In this context, publishers of scientific journals could have a tool capable of predicting the citation count of an article in the future before it is published, whereas promotion committees could predict the annual increase of the h-index of researchers within the first few years. These predictive models would pave the way for new assessment systems. Several probabilistic graphical models are learned to exploit and discover new relationships among the vast number of existing bibliometric indices. In this context, scientific community could measure how some indices influence others in probabilistic terms and perform evidence propagation and abduction inference for answering bibliometric questions. Also, scientific community could uncover which bibliometric indices have a higher predictive power. This is a multi-output regression problem where the role of each variable, predictive or response, is unknown beforehand. The resulting indices could be very useful for prediction purposes, that is, when their index values are known, knowledge of any index value provides no information on the prediction of other bibliometric indices. A scientometric study of the Spanish computer science research is performed under the publish-or-perish culture. This study is based on a cluster analysis methodology which characterizes the research activity in terms of productivity, visibility, quality, prestige and international collaboration. This study also analyzes the effects of collaboration on productivity and visibility under different circumstances.
Resumo:
Esta investigación se centra en determinar los grupos estratégicos (GE) de la industria bancaria venezolana y su influencia sobre el desempeño en el sector, así como su relación con la cobertura y la exclusión geográfica, durante el período 2008-2010. El test M de Box demostró que hubo inestabilidad financiera durante este lapso de tiempo, por ello se evaluó el comportamiento de los GE en cada año de estudio. La muestra se constituyó para el año 2008 por 58 entidades financieras, en el año 2009 por 52 entidades bancarias y para el período 2010 por sólo 39 instituciones. Antes de la aplicación del análisis cluster a las variables de alcance de la estrategia y recursos comprometidos, se realizó un análisis de componentes principales para determinar la relación entre estas variables y detectar valores atípicos; mientras que para distinguir las estrategias que caracterizaron a los grupos se siguió el procedimiento de uso común propuesto por Amel y Rhoades (1988), y se reforzó con la realización de las pruebas de contraste de medias o medianas ANOVA, Scheffé, Kruskal-Wallis y U de Mann-Whitney. Se empleó el paquete estadístico SPSS (versión 15.0) y el software de sistema de información geográfica Arcgis (versión 9.2) para lograr el objetivo propuesto. Los resultados indican que: 1) Al aplicar un procedimiento estadístico es posible detectar gradaciones en la implementación o evasión de las estrategias o del compromiso de recursos por parte de los GE, 2) En momentos de inestabilidad financiera los bancos cambian de estrategia y por tanto de GE, con el fin de obtener un buen desempeño, o al menos sobrevivir, 3) Sólo hubo evidencia parcial de la validez predictiva de los grupos estratégicos, 4) Al menos en Venezuela, los GE bancarios tienden a adoptar una estrategia de cobertura geográfica acorde con su estrategia financiera y, además que, los GE difieren en el nivel de Responsabilidad Social Empresarial en la lucha contra la exclusión financiera geográfica. ABSTRACT This research focuses on identifying strategic groups (SG) of the Venezuelan banking industry and its influence on the performance in the sector and its relationship with geographical coverage and exclusion, during the period 2008-2010. Box M test showed that there was financial instability during this period, so the behavior of SG in each year of study was evaluated. The sample was established for 2008 by 58 financial institutions, in 2009 by 52 banks and for the period 2010 to only 39 institutions. Before applying the cluster analysis variables scope of the strategy and committed resources, principal component analysis was performed to determine the relationship between these variables and outliers; while distinguishing strategies that characterized the group proposed by Amel and Rhoades (1988) commonly used procedure was followed and reinforced by the performance of tests contrast mean or median ANOVA, Scheffé, Kruskal-Wallis and Mann-Whitney. SPSS (version 15.0) and software Arcgis geographic information system (version 9.2) was used to achieve the objective. The results indicate that: 1) By applying a statistical procedure can detect gradations in implementation or avoidance strategies or resource commitment by SG, 2) In times of financial instability banks change their strategy and therefore SG, in order to get a good performance, or at least survive, 3) There was only partial evidence for the predictive validity of strategic groups, 4) At least in Venezuela, banking SG tend to adopt a strategy of geographical coverage according to their financial strategy and also that the SG differ in the level of corporate social responsibility in the fight against financial exclusion Geographic.