21 resultados para Bayesian Normal Mixture Model, Data Binning, Data Analysis
Resumo:
The direct application of existing models for seed germination may often be inadequate in the context of ecology and forestry germination experiments. This is because basic model assumptions are violated and variables available to forest managers are rarely used. In this paper, we present a method which addresses the aforementioned shortcomings. The approach is illustrated through a case study of Pinus pinea L. Our findings will also shed light on the role of germination in the general failure of natural regeneration in managed forests of this species. The presented technique consists of a mixed regression model based on survival analysis. Climate and stand covariates were tested. Data for fitting the model were gathered from a 5-year germination experiment in a mature, managed P. pinea stand in the Northern Plateau of Spain in which two different stand densities can be found. The model predictions proved to be unbiased and highly accurate when compared with the training data. Germination in P. pinea was controlled through thermal variables at stand level. At microsite level, low densities negatively affected the probability of germination. A time-lag in the response was also detected. Overall, the proposed technique provides a reliable alternative to germination modelling in ecology/forestry studies by using accessible/ suitable variables. The P. pinea case study highlights the importance of producing unbiased predictions. In this species, the occurrence and timing of germination suggest a very different regeneration strategy from that understood by forest managers until now, which may explain the high failure rate of natural regeneration in managed stands. In addition, these findings provide valuable information for the management of P. pinea under climate-change conditions.
Resumo:
Background:Malignancies arising in the large bowel cause the second largest number of deaths from cancer in the Western World. Despite progresses made during the last decades, colorectal cancer remains one of the most frequent and deadly neoplasias in the western countries. Methods: A genomic study of human colorectal cancer has been carried out on a total of 31 tumoral samples, corresponding to different stages of the disease, and 33 non-tumoral samples. The study was carried out by hybridisation of the tumour samples against a reference pool of non-tumoral samples using Agilent Human 1A 60-mer oligo microarrays. The results obtained were validated by qRT-PCR. In the subsequent bioinformatics analysis, gene networks by means of Bayesian classifiers, variable selection and bootstrap resampling were built. The consensus among all the induced models produced a hierarchy of dependences and, thus, of variables. Results: After an exhaustive process of pre-processing to ensure data quality--lost values imputation, probes quality, data smoothing and intraclass variability filtering--the final dataset comprised a total of 8, 104 probes. Next, a supervised classification approach and data analysis was carried out to obtain the most relevant genes. Two of them are directly involved in cancer progression and in particular in colorectal cancer. Finally, a supervised classifier was induced to classify new unseen samples. Conclusions: We have developed a tentative model for the diagnosis of colorectal cancer based on a biomarker panel. Our results indicate that the gene profile described herein can discriminate between non-cancerous and cancerous samples with 94.45% accuracy using different supervised classifiers (AUC values in the range of 0.997 and 0.955).
Resumo:
We present a computing model based on the DNA strand displacement technique which performs Bayesian inference. The model will take single stranded DNA as input data, representing the presence or absence of a specific molecular signal (evidence). The program logic encodes the prior probability of a disease and the conditional probability of a signal given the disease playing with a set of different DNA complexes and their ratios. When the input and program molecules interact, they release a different pair of single stranded DNA species whose relative proportion represents the application of Bayes? Law: the conditional probability of the disease given the signal. The models presented in this paper can empower the application of probabilistic reasoning in genetic diagnosis in vitro.
Resumo:
En esta Tesis Doctoral se emplean y desarrollan Métodos Bayesianos para su aplicación en análisis geotécnicos habituales, con un énfasis particular en (i) la valoración y selección de modelos geotécnicos basados en correlaciones empíricas; en (ii) el desarrollo de predicciones acerca de los resultados esperados en modelos geotécnicos complejos. Se llevan a cabo diferentes aplicaciones a problemas geotécnicos, como es el caso de: (1) En el caso de rocas intactas, se presenta un método Bayesiano para la evaluación de modelos que permiten estimar el módulo de Young a partir de la resistencia a compresión simple (UCS). La metodología desarrollada suministra estimaciones de las incertidumbres de los parámetros y predicciones y es capaz de diferenciar entre las diferentes fuentes de error. Se desarrollan modelos "específicos de roca" para los tipos de roca más comunes y se muestra cómo se pueden "actualizar" esos modelos "iniciales" para incorporar, cuando se encuentra disponible, la nueva información específica del proyecto, reduciendo las incertidumbres del modelo y mejorando sus capacidades predictivas. (2) Para macizos rocosos, se presenta una metodología, fundamentada en un criterio de selección de modelos, que permite determinar el modelo más apropiado, entre un conjunto de candidatos, para estimar el módulo de deformación de un macizo rocoso a partir de un conjunto de datos observados. Una vez que se ha seleccionado el modelo más apropiado, se emplea un método Bayesiano para obtener distribuciones predictivas de los módulos de deformación de macizos rocosos y para actualizarlos con la nueva información específica del proyecto. Este método Bayesiano de actualización puede reducir significativamente la incertidumbre asociada a la predicción, y por lo tanto, afectar las estimaciones que se hagan de la probabilidad de fallo, lo cual es de un interés significativo para los diseños de mecánica de rocas basados en fiabilidad. (3) En las primeras etapas de los diseños de mecánica de rocas, la información acerca de los parámetros geomecánicos y geométricos, las tensiones in-situ o los parámetros de sostenimiento, es, a menudo, escasa o incompleta. Esto plantea dificultades para aplicar las correlaciones empíricas tradicionales que no pueden trabajar con información incompleta para realizar predicciones. Por lo tanto, se propone la utilización de una Red Bayesiana para trabajar con información incompleta y, en particular, se desarrolla un clasificador Naïve Bayes para predecir la probabilidad de ocurrencia de grandes deformaciones (squeezing) en un túnel a partir de cinco parámetros de entrada habitualmente disponibles, al menos parcialmente, en la etapa de diseño. This dissertation employs and develops Bayesian methods to be used in typical geotechnical analyses, with a particular emphasis on (i) the assessment and selection of geotechnical models based on empirical correlations; on (ii) the development of probabilistic predictions of outcomes expected for complex geotechnical models. Examples of application to geotechnical problems are developed, as follows: (1) For intact rocks, we present a Bayesian framework for model assessment to estimate the Young’s moduli based on their UCS. Our approach provides uncertainty estimates of parameters and predictions, and can differentiate among the sources of error. We develop ‘rock-specific’ models for common rock types, and illustrate that such ‘initial’ models can be ‘updated’ to incorporate new project-specific information as it becomes available, reducing model uncertainties and improving their predictive capabilities. (2) For rock masses, we present an approach, based on model selection criteria to select the most appropriate model, among a set of candidate models, to estimate the deformation modulus of a rock mass, given a set of observed data. Once the most appropriate model is selected, a Bayesian framework is employed to develop predictive distributions of the deformation moduli of rock masses, and to update them with new project-specific data. Such Bayesian updating approach can significantly reduce the associated predictive uncertainty, and therefore, affect our computed estimates of probability of failure, which is of significant interest to reliability-based rock engineering design. (3) In the preliminary design stage of rock engineering, the information about geomechanical and geometrical parameters, in situ stress or support parameters is often scarce or incomplete. This poses difficulties in applying traditional empirical correlations that cannot deal with incomplete data to make predictions. Therefore, we propose the use of Bayesian Networks to deal with incomplete data and, in particular, a Naïve Bayes classifier is developed to predict the probability of occurrence of tunnel squeezing based on five input parameters that are commonly available, at least partially, at design stages.
Resumo:
Esta tesis doctoral propone un modelo de comportamiento del paciente de la clínica dental, basado en la percepción de la calidad del servicio (SERVQUAL), la fidelización del paciente, acciones de Marketing Relacional y aspectos socioeconómicos relevantes, de los pacientes de clínicas dentales. En particular, el estudio de campo se lleva a cabo en el ámbito geográfico de la Comunidad de Madrid, España, durante los años 2012 y 2013. La primera parte del proceso de elaboración del modelo está basada en la recolección de datos. Para ello, se realizaron cinco entrevistas a expertos dentistas y se aplicaron dos tipos encuestas diferentes: una para el universo formado por el conjunto de los pacientes de las clínicas dentales y la otra para el universo formado el conjunto de los dentistas de las clínicas dentales de la Comunidad de Madrid. Se obtuvo muestras de: 200 encuestas de pacientes y 220 encuestas de dentistas activos colegiados en el Ilustre Colegio Oficial de Odontólogos y Estomatólogos de la I Región Madrid. En la segunda parte de la elaboración del modelo, se realizó el análisis de los datos, la inducción y síntesis del modelo propuesto. Se utilizó la metodología de modelos gráficos probabilísticos, específicamente, una Red Bayesiana, donde se integraron variables (nodos) y sus dependencias estadísticas causales (arcos dirigidos), que representan el conocimiento obtenido de los datos recopilados en las encuestas y el conocimiento derivado de investigaciones precedentes en el área. Se obtuvo una Red Bayesiana compuesta por 6 nodos principales, de los cuales dos de ellos son nodos de observación directa: “Revisit Intention” y “SERVQUAL”, y los otros cuatro nodos restantes son submodelos (agrupaciones de variables), estos son respectivamente: “Attitudinal”, “Disease Information”, “Socioeconomical” y “Services”. Entre las conclusiones principales derivadas del uso del modelo, como herramientas de inferencia y los análisis de las entrevistas realizadas se obtiene que: (i) las variables del nodo “Attitudinal” (submodelo), son las más sensibles y significativas. Al realizarse imputaciones particulares en las variables que conforman el nodo “Attitudinal” (“RelationalMk”, “Satisfaction”, “Recommendation” y “Friendship”) se obtienen altas probabilidades a posteriori en la fidelidad del paciente de la clínica dental, medida por su intención de revisita. (ii) En el nodo “Disease Information” (submodelo) se destaca la relación de dependencia causal cuando se imputa la variable “Perception of disease” en “SERVQUAL”, demostrando que la percepción de la gravedad del paciente condiciona significativamente la percepción de la calidad del servicio del paciente. Como ejemplo destacado, si se realiza una imputación en la variable “Clinic_Type” se obtienen altas probabilidades a posteriori de las variables “SERVQUAL” y “Revisit Intention”, lo que evidencia, que el tipo de clínica dental influye significativamente en la percepción de la calidad del servicio y en la fidelidad del paciente (intención de revisita). (iii) En el nodo “Socioeconomical” (submodelo) la variable “Sex” resultó no ser significativa cuando se le imputaban diferentes valores, por el contrario, la variable “Age” e “Income” mostraban altas variabilidades en las probabilidades a posteriori cuando se imputaba alguna variable del submodelo “Services”, lo que evidencia, que estas variables condicionan la intención de contratar servicios (“Services”), sobretodo en las franjas de edad de 30 a 51 años en pacientes con ingresos entre 3000€ y 4000€. (iv) En el nodo “Services” (submodelo) los pacientes de las clínicas dentales mostraron altas probabilidades a priori para contratar servicios de fisiotrapia oral y gingival: “Dental Health Education” y “Parking”. (v) Las variables de fidelidad del paciente medidas desde su perspectiva comportamental que fueron utilizadas en el modelo: “Visit/year” “Time_clinic”, no aportaron información significativa. Tampoco, la variable de fidelidad del cliente (actitudinal): “Churn Efford”. (vi) De las entrevistas realizadas a expertos dentistas se obtiene que, los propietarios de la clínica tradicional tienen poca disposición a implementar nuevas estrategias comerciales, debido a la falta de formación en la gestión comercial y por falta de recursos y herramientas. Existe un rechazo generalizado hacia los nuevos modelos de negocios de clínicas dentales, especialmente en las franquicias y en lo que a políticas comerciales se refiere. Esto evidencia una carencia de gerencia empresarial en el sector. Como líneas futuras de investigación, se propone profundizar en algunas relaciones de dependencia (causales) como SERVQUALServices; SatisfactionServices; RelationalMKServices, Perception of diseaseSatisfaction, entre otras. Así como, otras variables de medición de la fidelidad comportamental que contribuyan a la mejora del modelo, como por ej. Gasto del paciente y rentabilidad de la visita. ABSTRACT This doctoral dissertation proposes a model of the behavior of the dental-clinic customer, based on the service-quality perception (SERVQUAL), loyalty, Relational Marketing and some relevant socio-economical characteristics, of the dental-clinic customers. In particular, the field study has been developed in the geographical region of Madrid, Spain during the years 2012 and 2013. The first stage of the preparation of the model consist in the data gathering process. For this purpose, five interviews where realized to expert dentists and also two different types of surveys: one for the universe defined by the set of dental-clinic patients and the second for the universe defined by the set of the dentists of the dental clinics of the Madrid Community. A sample of 200 surveys where collected for patients and a sample of 220 surveys where collected from active dentists belonging to the Ilustre Colegio Oficial de Odontólogos y Estomatólogos de la I Región Madrid. In the second stage of the model preparation, the processes of data-analysis, induction and synthesis of the final model where performed. The Graphic Probabilistic Models methodology was used to elaborate the final model, specifically, a Bayesian Network, where the variables (nodes) and their statistical and causal dependencies where integrated and modeled, representing thus, the obtained knowledge from the data obtained by the surveys and the scientific knowledge derived from previous research in the field. A Bayesian Net consisting on six principal nodes was obtained, of which two of them are directly observable: “Revisit Intention” y “SERVQUAL”, and the remaining four are submodels (a grouping of variables). These are: “Attitudinal”, “Disease Information”, “Socioeconomical” and “Services”. The main conclusions derived from the model, as an inference tool, and the analysis of the interviews are: (i) the variables inside the “Attitudinal” node are the most sensitive and significant. By making some particular imputations on the variables that conform the “Attitudinal” node (“RelationalMk”, “Satisfaction”, “Recommendation” y “Friendship”), high posterior probabilities (measured in revisit intention) are obtained for the loyalty of the dental-clinic patient. (ii) In the “Disease Information” node, the causal relation between the “Perception of disease” and “SERVQUAL” when “Perception of disease” is imputed is highlighted, showing that the perception of the severity of the patient’s disease conditions significantly the perception of service quality. As an example, by imputing some particular values to the “Clinic_Type” node high posterior probabilities are obtained for the “SERVQUAL” variables and for “Revisit Intention” showing that the clinic type influences significantly in the service quality perception and loyalty (revisit intention). (iii) In the “Socioeconomical” variable, the variable “Sex” showed to be non-significant, however, the “Age” variable and “Income” show high variability in its posterior probabilities when some variable from the “Services” node where imputed, showing thus, that these variables condition the intention to buy new services (“Services”), especially in the age range from 30 to 50 years in patients with incomes between 3000€ and 4000€. (iv) In the “Services” submodel the dental-clinic patients show high priors to buy services such as oral and gingival therapy, Dental Health Education and “Parking” service. (v) The obtained loyalty measures, from the behavioral perspective, “Visit/year” and “Time_clinic”, do not add significant information to the model. Neither the attitudinal loyalty component “Churn Efford”. (vi) From the interviews realized to the expert dentists it is observed that the owners of the traditional clinics have a low propensity to apply new commercial strategies due to a lack of resources and tools. In general, there exists an opposition to new business models in the sector, especially to the franchise dental model. All of this evidences a lack in business management in the sector. As future lines of research, a deep look into some statistical and causal relations is proposed, such as: SERVQUALServices; SatisfactionServices; RelationalMKServices, Perception of diseaseSatisfaction, as well as new measurement variables related to attitudinal loyalty that contribute to improve the model, for example, profit per patient and per visit.
Resumo:
La gran cantidad de datos que se registran diariamente en los sistemas de base de datos de las organizaciones ha generado la necesidad de analizarla. Sin embargo, se enfrentan a la complejidad de procesar enormes volúmenes de datos a través de métodos tradicionales de análisis. Además, dentro de un contexto globalizado y competitivo las organizaciones se mantienen en la búsqueda constante de mejorar sus procesos, para lo cual requieren herramientas que les permitan tomar mejores decisiones. Esto implica estar mejor informado y conocer su historia digital para describir sus procesos y poder anticipar (predecir) eventos no previstos. Estos nuevos requerimientos de análisis de datos ha motivado el desarrollo creciente de proyectos de minería de datos. El proceso de minería de datos busca obtener desde un conjunto masivo de datos, modelos que permitan describir los datos o predecir nuevas instancias en el conjunto. Implica etapas de: preparación de los datos, procesamiento parcial o totalmente automatizado para identificar modelos en los datos, para luego obtener como salida patrones, relaciones o reglas. Esta salida debe significar un nuevo conocimiento para la organización, útil y comprensible para los usuarios finales, y que pueda ser integrado a los procesos para apoyar la toma de decisiones. Sin embargo, la mayor dificultad es justamente lograr que el analista de datos, que interviene en todo este proceso, pueda identificar modelos lo cual es una tarea compleja y muchas veces requiere de la experiencia, no sólo del analista de datos, sino que también del experto en el dominio del problema. Una forma de apoyar el análisis de datos, modelos y patrones es a través de su representación visual, utilizando las capacidades de percepción visual del ser humano, la cual puede detectar patrones con mayor facilidad. Bajo este enfoque, la visualización ha sido utilizada en minería datos, mayormente en el análisis descriptivo de los datos (entrada) y en la presentación de los patrones (salida), dejando limitado este paradigma para el análisis de modelos. El presente documento describe el desarrollo de la Tesis Doctoral denominada “Nuevos Esquemas de Visualizaciones para Mejorar la Comprensibilidad de Modelos de Data Mining”. Esta investigación busca aportar con un enfoque de visualización para apoyar la comprensión de modelos minería de datos, para esto propone la metáfora de modelos visualmente aumentados. ABSTRACT The large amount of data to be recorded daily in the systems database of organizations has generated the need to analyze it. However, faced with the complexity of processing huge volumes of data over traditional methods of analysis. Moreover, in a globalized and competitive environment organizations are kept constantly looking to improve their processes, which require tools that allow them to make better decisions. This involves being bettered informed and knows your digital story to describe its processes and to anticipate (predict) unanticipated events. These new requirements of data analysis, has led to the increasing development of data-mining projects. The data-mining process seeks to obtain from a massive data set, models to describe the data or predict new instances in the set. It involves steps of data preparation, partially or fully automated processing to identify patterns in the data, and then get output patterns, relationships or rules. This output must mean new knowledge for the organization, useful and understandable for end users, and can be integrated into the process to support decision-making. However, the biggest challenge is just getting the data analyst involved in this process, which can identify models is complex and often requires experience not only of the data analyst, but also the expert in the problem domain. One way to support the analysis of the data, models and patterns, is through its visual representation, i.e., using the capabilities of human visual perception, which can detect patterns easily in any context. Under this approach, the visualization has been used in data mining, mostly in exploratory data analysis (input) and the presentation of the patterns (output), leaving limited this paradigm for analyzing models. This document describes the development of the doctoral thesis entitled "New Visualizations Schemes to Improve Understandability of Data-Mining Models". This research aims to provide a visualization approach to support understanding of data mining models for this proposed metaphor visually enhanced models.