Biblioteca Digital

960 resultados para Discrete Data Models

Monitoring growth in rapidly urbanizing areas using remotely sensed data

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Urbanization and the ability to manage for a sustainable future present numerous challenges for geographers and planners in metropolitan regions. Remotely sensed data are inherently suited to provide information on urban land cover characteristics, and their change over time, at various spatial and temporal scales. Data models for establishing the range of urban land cover types and their biophysical composition (vegetation, soil, and impervious surfaces) are integrated to provide a hierarchical approach to classifying land cover within urban environments. These data also provide an essential component for current simulation models of urban growth patterns, as both calibration and validation data. The first stages of the approach have been applied to examine urban growth between 1988 and 1995 for a rapidly developing area in southeast Queensland, Australia. Landsat Thematic Mapper image data provided accurate (83% adjusted overall accuracy) classification of broad land cover types and their change over time. The combination of commonly available remotely sensed data, image processing methods, and emerging urban growth models highlights an important application for current and next generation moderate spatial resolution image data in studies of urban environments.

Models with three Higgs doublets in the triplet representations of A(4) or S-4

Relevância:

90.00% 90.00%

Publicador:

Resumo:

We consider the quark sector of theories containing three scalar SU(2)(L) doublets in the triplet representation of A(4) (or S-4) and three generations of quarks in arbitrary A(4) (or S-4) representations. We show that for all possible choices of quark field representations and for all possible alignments of the Higgs vacuum expectation values that can constitute global minima of the scalar potential, it is not possible to obtain simultaneously nonvanishing quark masses and a nonvanishing CP-violating phase in the Cabibbo-Kobayashi-Maskawa quark mixing matrix. As a result, in this minimal form, models with three scalar fields in the triplet representation of A(4) or S-4 cannot be extended to the quark sector in a way consistent with experiment. DOI: 10.1103/PhysRevD.87.055010.

Recomendações personalizadas de alunos em sistemas de hipermédia adaptativa educacional usando Data Mining

Relevância:

90.00% 90.00%

Publicador:

Resumo:

O aumento de tecnologias disponíveis na Web favoreceu o aparecimento de diversas formas de informação, recursos e serviços. Este aumento aliado à constante necessidade de formação e evolução das pessoas, quer a nível pessoal como profissional, incentivou o desenvolvimento área de sistemas de hipermédia adaptativa educacional - SHAE. Estes sistemas têm a capacidade de adaptar o ensino consoante o modelo do aluno, características pessoais, necessidades, entre outros aspetos. Os SHAE permitiram introduzir mudanças relativamente à forma de ensino, passando do ensino tradicional que se restringia apenas ao uso de livros escolares até à utilização de ferramentas informáticas que através do acesso à internet disponibilizam material didático, privilegiando o ensino individualizado. Os SHAE geram grande volume de dados, informação contida no modelo do aluno e todos os dados relativos ao processo de aprendizagem de cada aluno. Facilmente estes dados são ignorados e não se procede a uma análise cuidada que permita melhorar o conhecimento do comportamento dos alunos durante o processo de ensino, alterando a forma de aprendizagem de acordo com o aluno e favorecendo a melhoria dos resultados obtidos. O objetivo deste trabalho foi selecionar e aplicar algumas técnicas de Data Mining a um SHAE, PCMAT - Mathematics Collaborative Educational System. A aplicação destas técnicas deram origem a modelos de dados que transformaram os dados em informações úteis e compreensíveis, essenciais para a geração de novos perfis de alunos, padrões de comportamento de alunos, regras de adaptação e pedagógicas. Neste trabalho foram criados alguns modelos de dados recorrendo à técnica de Data Mining de classificação, abordando diferentes algoritmos. Os resultados obtidos permitirão definir novas regras de adaptação e padrões de comportamento dos alunos, poderá melhorar o processo de aprendizagem disponível num SHAE.

Geospatial data harmonization from regional level to european level: a usa case in forest fire data

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Dissertation submitted in partial fulfillment of the requirements for the Degree of Master of Science in Geospatial Technologies.

Poker learner: modelação de jogadores através de data mining

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação

Length of hospital stay and postdischarge mortality in patients with pulmonary embolism: a statewide perspective

Relevância:

90.00% 90.00%

Publicador:

Resumo:

BACKGROUND: The optimal length of stay (LOS) for patients with pulmonary embolism (PE) is unknown. Although reducing LOS is likely to save costs, the effects on patient safety are unclear. We sought to identify patient and hospital factors associated with LOS and assess whether LOS was associated with postdischarge mortality. METHODS: We evaluated patients discharged with a primary diagnosis of PE from 186 acute care hospitals in Pennsylvania (January 2000 through November 2002). We used discrete survival models to examine the association between (1) patient and hospital factors and the time to discharge and (2) LOS and postdischarge mortality within 30 days of presentation, adjusting for patient and hospital factors. RESULTS: Among 15 531 patient discharges with PE, the median LOS was 6 days, and postdischarge mortality rate was 3.3%. In multivariate analysis, patients from Philadelphia were less likely to be discharged on a given day (odds ratio [OR], 0.82; 95% confidence interval [CI], 0.73-0.93), as were black patients (OR, 0.88; 95% CI, 0.82-0.94).The odds of discharge decreased notably with greater patient severity of illness and in patients without private health insurance. Adjusted postdischarge mortality was significantly higher for patients with an LOS of 4 days or less (OR, 1.55; 95% CI, 1.21-2.00) relative to those with an LOS of 5 to 6 days. CONCLUSIONS: Several hospital and patient factors were independently associated with LOS. Patients with a very short LOS had greater postdischarge mortality relative to patients with a typical LOS, suggesting that physicians may inappropriately select patients with PE for early discharge who are at increased risk of complications

Hospital volume and patient outcomes in pulmonary embolism.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

BACKGROUND: In numerous high-risk medical and surgical conditions, a greater volume of patients undergoing treatment in a given setting or facility is associated with better survival. For patients with pulmonary embolism, the relation between the number of patients treated in a hospital (volume) and patient outcome is unknown. METHODS: We studied discharge records from 186 acute care hospitals in Pennsylvania for a total of 15 531 patients for whom the primary diagnosis was pulmonary embolism. The study outcomes were all-cause mortality in hospital and within 30 days after presentation for pulmonary embolism and the length of hospital stay. We used logistic models to study the association between hospital volume and 30-day mortality and discrete survival models to study the association between in-hospital mortality and time to hospital discharge. RESULTS: The median annual hospital volume for pulmonary embolism was 20 patients (interquartile range 10-42). Overall in-hospital mortality was 6.0%, whereas 30-day mortality was 9.3%. In multivariable analysis, very-high-volume hospitals (> or = 42 cases per year) had a significantly lower odds of in-hospital death (odds ratio [OR] 0.71, 95% confidence interval [CI] 0.51-0.99) and of 30-day death (OR 0.71, 95% CI 0.54-0.92) than very-low-volume hospitals (< 10 cases per year). Although patients in the very-high-volume hospitals had a slightly longer length of stay than those in the very-low-volume hospitals (mean difference 0.7 days), there was no association between volume and length of stay. INTERPRETATION: In hospitals with a high volume of cases, pulmonary embolism was associated with lower short-term mortality. Further research is required to determine the causes of the relation between volume and outcome for patients with pulmonary embolism.

An enhanced concave program relaxation for choice network revenue management

Relevância:

90.00% 90.00%

Publicador:

Resumo:

The network choice revenue management problem models customers as choosing from an offer-set, andthe firm decides the best subset to offer at any given moment to maximize expected revenue. The resultingdynamic program for the firm is intractable and approximated by a deterministic linear programcalled the CDLP which has an exponential number of columns. However, under the choice-set paradigmwhen the segment consideration sets overlap, the CDLP is difficult to solve. Column generation has beenproposed but finding an entering column has been shown to be NP-hard. In this paper, starting with aconcave program formulation based on segment-level consideration sets called SDCP, we add a class ofconstraints called product constraints, that project onto subsets of intersections. In addition we proposea natural direct tightening of the SDCP called ?SDCP, and compare the performance of both methodson the benchmark data sets in the literature. Both the product constraints and the ?SDCP method arevery simple and easy to implement and are applicable to the case of overlapping segment considerationsets. In our computational testing on the benchmark data sets in the literature, SDCP with productconstraints achieves the CDLP value at a fraction of the CPU time taken by column generation and webelieve is a very promising approach for quickly approximating CDLP when segment consideration setsoverlap and the consideration sets themselves are relatively small.

Statistical learning theory for geospatial data. Case study: Aral sea

Relevância:

90.00% 90.00%

Publicador:

Resumo:

In recent years there has been an explosive growth in the development of adaptive and data driven methods. One of the efficient and data-driven approaches is based on statistical learning theory (Vapnik 1998). The theory is based on Structural Risk Minimisation (SRM) principle and has a solid statistical background. When applying SRM we are trying not only to reduce training error ? to fit the available data with a model, but also to reduce the complexity of the model and to reduce generalisation error. Many nonlinear learning procedures recently developed in neural networks and statistics can be understood and interpreted in terms of the structural risk minimisation inductive principle. A recent methodology based on SRM is called Support Vector Machines (SVM). At present SLT is still under intensive development and SVM find new areas of application (www.kernel-machines.org). SVM develop robust and non linear data models with excellent generalisation abilities that is very important both for monitoring and forecasting. SVM are extremely good when input space is high dimensional and training data set i not big enough to develop corresponding nonlinear model. Moreover, SVM use only support vectors to derive decision boundaries. It opens a way to sampling optimization, estimation of noise in data, quantification of data redundancy etc. Presentation of SVM for spatially distributed data is given in (Kanevski and Maignan 2004).

A qualitative continuous model of cellular auxin and brassinosteroid signaling and their crosstalk.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Motivation: Hormone pathway interactions are crucial in shaping plant development, such as synergism between the auxin and brassinosteroid pathways in cell elongation. Both hormone pathways have been characterized in detail, revealing several feedback loops. The complexity of this network, combined with a shortage of kinetic data, renders its quantitative analysis virtually impossible at present.Results: As a first step towards overcoming these obstacles, we analyzed the network using a Boolean logic approach to build models of auxin and brassinosteroid signaling, and their interaction. To compare these discrete dynamic models across conditions, we transformed them into qualitative continuous systems, which predict network component states more accurately and can accommodate kinetic data as they become available. To this end, we developed an extension for the SQUAD software, allowing semi-quantitative analysis of network states. Contrasting the developmental output depending on cell type-specific modulators enabled us to identify a most parsimonious model, which explains initially paradoxical mutant phenotypes and revealed a novel physiological feature.

General Equilibrium Long-Run Determinants for Spanish FDI: A Spatial Panel Data Approach

Relevância:

90.00% 90.00%

Publicador:

Resumo:

While general equilibrium theories of trade stress the role of third-country effects, little work has been done in the empirical foreign direct investment (FDI) literature to test such spatial linkages. This paper aims to provide further insights into long-run determinants of Spanish FDI by considering not only bilateral but also spatially weighted third-country determinants. The few studies carried out so far have focused on FDI flows in a limited number of countries. However, Spanish FDI outflows have risen dramatically since 1995 and today account for a substantial part of global FDI. Therefore, we estimate recently developed Spatial Panel Data models by Maximum Likelihood (ML) procedures for Spanish outflows (1993-2004) to top-50 host countries. After controlling for unobservable effects, we find that spatial interdependence matters and provide evidence consistent with New Economic Geography (NEG) theories of agglomeration, mainly due to complex (vertical) FDI motivations. Spatial Error Models estimations also provide illuminating results regarding the transmission mechanism of shocks.

Success factors of customer and supplier master data system

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Especially in global enterprises, key data is fragmented in multiple Enterprise Resource Planning (ERP) systems. Thus the data is inconsistent, fragmented and redundant across the various systems. Master Data Management (MDM) is a concept, which creates cross-references between customers, suppliers and business units, and enables corporate hierarchies and structures. The overall goal for MDM is the ability to create an enterprise-wide consistent data model, which enables analyzing and reporting customer and supplier data. The goal of the study was defining the properties and success factors of a master data system. The theoretical background was based on literature and the case consisted of enterprise specific needs and demands. The theoretical part presents the concept, background, and principles of MDM and then the phases of system planning and implementation project. Case consists of background, definition of as is situation, definition of project, evaluation criterions and concludes the key results of the thesis. In the end chapter Conclusions combines common principles with the results of the case. The case part ended up dividing important factors of the system in success factors, technical requirements and business benefits. To clarify the project and find funding for the project, business benefits have to be defined and the realization has to be monitored. The thesis found out six success factors for the MDM system: Well defined business case, data management and monitoring, data models and structures defined and maintained, customer and supplier data governance, delivery and quality, commitment, and continuous communication with business. Technical requirements emerged several times during the thesis and therefore those can’t be ignored in the project. Conclusions chapter goes through these factors on a general level. The success factors and technical requirements are related to the essentials of MDM: Governance, Action and Quality. This chapter could be used as guidance in a master data management project.

Modélisation bayésienne des changements aux niches écologiques causés par le réchauffement climatique

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Cette thèse présente des méthodes de traitement de données de comptage en particulier et des données discrètes en général. Il s'inscrit dans le cadre d'un projet stratégique du CRNSG, nommé CC-Bio, dont l'objectif est d'évaluer l'impact des changements climatiques sur la répartition des espèces animales et végétales. Après une brève introduction aux notions de biogéographie et aux modèles linéaires mixtes généralisés aux chapitres 1 et 2 respectivement, ma thèse s'articulera autour de trois idées majeures. Premièrement, nous introduisons au chapitre 3 une nouvelle forme de distribution dont les composantes ont pour distributions marginales des lois de Poisson ou des lois de Skellam. Cette nouvelle spécification permet d'incorporer de l'information pertinente sur la nature des corrélations entre toutes les composantes. De plus, nous présentons certaines propriétés de ladite distribution. Contrairement à la distribution multidimensionnelle de Poisson qu'elle généralise, celle-ci permet de traiter les variables avec des corrélations positives et/ou négatives. Une simulation permet d'illustrer les méthodes d'estimation dans le cas bidimensionnel. Les résultats obtenus par les méthodes bayésiennes par les chaînes de Markov par Monte Carlo (CMMC) indiquent un biais relatif assez faible de moins de 5% pour les coefficients de régression des moyennes contrairement à ceux du terme de covariance qui semblent un peu plus volatils. Deuxièmement, le chapitre 4 présente une extension de la régression multidimensionnelle de Poisson avec des effets aléatoires ayant une densité gamma. En effet, conscients du fait que les données d'abondance des espèces présentent une forte dispersion, ce qui rendrait fallacieux les estimateurs et écarts types obtenus, nous privilégions une approche basée sur l'intégration par Monte Carlo grâce à l'échantillonnage préférentiel. L'approche demeure la même qu'au chapitre précédent, c'est-à-dire que l'idée est de simuler des variables latentes indépendantes et de se retrouver dans le cadre d'un modèle linéaire mixte généralisé (GLMM) conventionnel avec des effets aléatoires de densité gamma. Même si l'hypothèse d'une connaissance a priori des paramètres de dispersion semble trop forte, une analyse de sensibilité basée sur la qualité de l'ajustement permet de démontrer la robustesse de notre méthode. Troisièmement, dans le dernier chapitre, nous nous intéressons à la définition et à la construction d'une mesure de concordance donc de corrélation pour les données augmentées en zéro par la modélisation de copules gaussiennes. Contrairement au tau de Kendall dont les valeurs se situent dans un intervalle dont les bornes varient selon la fréquence d'observations d'égalité entre les paires, cette mesure a pour avantage de prendre ses valeurs sur (-1;1). Initialement introduite pour modéliser les corrélations entre des variables continues, son extension au cas discret implique certaines restrictions. En effet, la nouvelle mesure pourrait être interprétée comme la corrélation entre les variables aléatoires continues dont la discrétisation constitue nos observations discrètes non négatives. Deux méthodes d'estimation des modèles augmentés en zéro seront présentées dans les contextes fréquentiste et bayésien basées respectivement sur le maximum de vraisemblance et l'intégration de Gauss-Hermite. Enfin, une étude de simulation permet de montrer la robustesse et les limites de notre approche.

Analyse en identification partielle de la décision d'émigrer des étudiants africains

Relevância:

90.00% 90.00%

Publicador:

Resumo:

La migration internationale d’étudiants est un investissement couteux pour les familles dans beaucoup de pays en voie de développement. Cependant, cet investissement est susceptible de générer des bénéfices financiers et sociaux relativement importants aux investisseurs, tout autant que des externalités pour d’autres membres de la famille. Cette thèse s’intéresse à deux aspects importants de la migration des étudiants internationaux : (i) Qui part? Quels sont les déterminants de la probabilité de migration? (ii) Qui paie? Comment la famille s’organise-t-elle pour couvrir les frais de la migration? (iii) Qui y gagne? Ce flux migratoire est-il au bénéfice du pays d’origine? Entreprendre une telle étude met le chercheur en face de défis importants, notamment, l’absence de données complètes et fiables; la dispersion géographique des étudiants migrants en étant la cause première. La première contribution importante de ce travail est le développement d’une méthode de sondage en « boule de neige » pour des populations difficiles à atteindre, ainsi que d’estimateurs corrigeant les possibles biais de sélection. A partir de cette méthodologie, j’ai collecté des données incluant simultanément des étudiants migrants et non-migrants du Cameroun en utilisant une plateforme internet. Un second défi relativement bien documenté est la présence d’endogénéité du choix d’éducation. Nous tirons avantage des récents développements théoriques dans le traitement des problèmes d’identification dans les modèles de choix discrets pour résoudre cette difficulté, tout en conservant la simplicité des hypothèses nécessaires. Ce travail constitue l’une des premières applications de cette méthodologie à des questions de développement. Le premier chapitre de la thèse étudie la décision prise par la famille d’investir dans la migration étudiante. Il propose un modèle structurel empirique de choix discret qui reflète à la fois le rendement brut de la migration et la contrainte budgétaire liée au problème de choix des agents. Nos résultats démontrent que le choix du niveau final d’éducation, les résultats académiques et l’aide de la famille sont des déterminants importants de la probabilité d’émigrer, au contraire du genre qui ne semble pas affecter très significativement la décision familiale. Le second chapitre s’efforce de comprendre comment les agents décident de leur participation à la décision de migration et comment la famille partage les profits et décourage le phénomène de « passagers clandestins ». D’autres résultats dans la littérature sur l’identification partielle nous permettent de considérer des comportements stratégiques au sein de l’unité familiale. Les premières estimations suggèrent que le modèle « unitaire », où un agent représentatif maximise l’utilité familiale ne convient qu’aux familles composées des parents et de l’enfant. Les aidants extérieurs subissent un cout strictement positif pour leur participation, ce qui décourage leur implication. Les obligations familiales et sociales semblent expliquer les cas de participation d’un aidant, mieux qu’un possible altruisme de ces derniers. Finalement, le troisième chapitre présente le cadre théorique plus général dans lequel s’imbriquent les modèles développés dans les précédents chapitres. Les méthodes d’identification et d’inférence présentées sont spécialisées aux jeux finis avec information complète. Avec mes co-auteurs, nous proposons notamment une procédure combinatoire pour une implémentation efficace du bootstrap aux fins d’inférences dans les modèles cités ci-dessus. Nous en faisons une application sur les déterminants du choix familial de soins à long terme pour des parents âgés.

Analyse du comportement hétérogène des usagers dans un réseau

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Le nombre important de véhicules sur le réseau routier peut entraîner des problèmes d'encombrement et de sécurité. Les usagers des réseaux routiers qui nous intéressent sont les camionneurs qui transportent des marchandises, pouvant rouler avec des véhicules non conformes ou emprunter des routes interdites pour gagner du temps. Le transport de matières dangereuses est réglementé et certains lieux, surtout les ponts et les tunnels, leur sont interdits d'accès. Pour aider à faire appliquer les lois en vigueur, il existe un système de contrôles routiers composé de structures fixes et de patrouilles mobiles. Le déploiement stratégique de ces ressources de contrôle mise sur la connaissance du comportement des camionneurs que nous allons étudier à travers l'analyse de leurs choix de routes. Un problème de choix de routes peut se modéliser en utilisant la théorie des choix discrets, elle-même fondée sur la théorie de l'utilité aléatoire. Traiter ce type de problème avec cette théorie est complexe. Les modèles que nous utiliserons sont tels, que nous serons amenés à faire face à des problèmes de corrélation, puisque plusieurs routes partagent probablement des arcs. De plus, puisque nous travaillons sur le réseau routier du Québec, le choix de routes peut se faire parmi un ensemble de routes dont le nombre est potentiellement infini si on considère celles ayant des boucles. Enfin, l'étude des choix faits par un humain n'est pas triviale. Avec l'aide du modèle de choix de routes retenu, nous pourrons calculer une expression de la probabilité qu'une route soit prise par le camionneur. Nous avons abordé cette étude du comportement en commençant par un travail de description des données collectées. Le questionnaire utilisé par les contrôleurs permet de collecter des données concernant les camionneurs, leurs véhicules et le lieu du contrôle. La description des données observées est une étape essentielle, car elle permet de présenter clairement à un analyste potentiel ce qui est accessible pour étudier les comportements des camionneurs. Les données observées lors d'un contrôle constitueront ce que nous appellerons une observation. Avec les attributs du réseau, il sera possible de modéliser le réseau routier du Québec. Une sélection de certains attributs permettra de spécifier la fonction d'utilité et par conséquent la fonction permettant de calculer les probabilités de choix de routes par un camionneur. Il devient alors possible d'étudier un comportement en se basant sur des observations. Celles provenant du terrain ne nous donnent pas suffisamment d'information actuellement et même en spécifiant bien un modèle, l'estimation des paramètres n'est pas possible. Cette dernière est basée sur la méthode du maximum de vraisemblance. Nous avons l'outil, mais il nous manque la matière première que sont les observations, pour continuer l'étude. L'idée est de poursuivre avec des observations de synthèse. Nous ferons des estimations avec des observations complètes puis, pour se rapprocher des conditions réelles, nous continuerons avec des observations partielles. Ceci constitue d'ailleurs un défi majeur. Nous proposons pour ces dernières, de nous servir des résultats des travaux de (Bierlaire et Frejinger, 2008) en les combinant avec ceux de (Fosgerau, Frejinger et Karlström, 2013). Bien qu'elles soient de nature synthétiques, les observations que nous utilisons nous mèneront à des résultats tels, que nous serons en mesure de fournir une proposition concrète qui pourrait aider à optimiser les décisions des responsables des contrôles routiers. En effet, nous avons réussi à estimer, sur le réseau réel du Québec, avec un seuil de signification de 0,05 les valeurs des paramètres d'un modèle de choix de routes discrets, même lorsque les observations sont partielles. Ces résultats donneront lieu à des recommandations sur les changements à faire dans le questionnaire permettant de collecter des données.

«
1
2
3
4
5
6
7
8
...
63
64
»