915 resultados para Secondary Data Analysis


Relevância:

90.00% 90.00%

Publicador:

Resumo:

This paper presents general problems and approaches for the spatial data analysis using machine learning algorithms. Machine learning is a very powerful approach to adaptive data analysis, modelling and visualisation. The key feature of the machine learning algorithms is that they learn from empirical data and can be used in cases when the modelled environmental phenomena are hidden, nonlinear, noisy and highly variable in space and in time. Most of the machines learning algorithms are universal and adaptive modelling tools developed to solve basic problems of learning from data: classification/pattern recognition, regression/mapping and probability density modelling. In the present report some of the widely used machine learning algorithms, namely artificial neural networks (ANN) of different architectures and Support Vector Machines (SVM), are adapted to the problems of the analysis and modelling of geo-spatial data. Machine learning algorithms have an important advantage over traditional models of spatial statistics when problems are considered in a high dimensional geo-feature spaces, when the dimension of space exceeds 5. Such features are usually generated, for example, from digital elevation models, remote sensing images, etc. An important extension of models concerns considering of real space constrains like geomorphology, networks, and other natural structures. Recent developments in semi-supervised learning can improve modelling of environmental phenomena taking into account on geo-manifolds. An important part of the study deals with the analysis of relevant variables and models' inputs. This problem is approached by using different feature selection/feature extraction nonlinear tools. To demonstrate the application of machine learning algorithms several interesting case studies are considered: digital soil mapping using SVM, automatic mapping of soil and water system pollution using ANN; natural hazards risk analysis (avalanches, landslides), assessments of renewable resources (wind fields) with SVM and ANN models, etc. The dimensionality of spaces considered varies from 2 to more than 30. Figures 1, 2, 3 demonstrate some results of the studies and their outputs. Finally, the results of environmental mapping are discussed and compared with traditional models of geostatistics.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

The geographic information system approach has permitted integration between demographic, socio-economic and environmental data, providing correlation between information from several data banks. In the current work, occurrence of human and canine visceral leishmaniases and insect vectors (Lutzomyia longipalpis) as well as biogeographic information related to 9 areas that comprise the city of Belo Horizonte, Brazil, between April 2001 and March 2002 were correlated and georeferenced. By using this technique it was possible to define concentration loci of canine leishmaniasis in the following regions: East; Northeast; Northwest; West; and Venda Nova. However, as for human leishmaniasis, it was not possible to perform the same analysis. Data analysis has also shown that 84.2% of the human leishmaniasis cases were related with canine leishmaniasis cases. Concerning biogeographic (altitude, area of vegetation influence, hydrographic, and areas of poverty) analysis, only altitude showed to influence emergence of leishmaniasis cases. A number of 4673 canine leishmaniasis cases and 64 human leishmaniasis cases were georeferenced, of which 67.5 and 71.9%, respectively, were living between 780 and 880 m above the sea level. At these same altitudes, a large number of phlebotomine sand flies were collected. Therefore, we suggest control measures for leishmaniasis in the city of Belo Horizonte, giving priority to canine leishmaniasis foci and regions at altitudes between 780 and 880 m.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

In this paper we look at how a web-based social software can be used to make qualitative data analysis of online peer-to-peer learning experiences. Specifically, we propose to use Cohere, a web-based social sense-making tool, to observe, track, annotate and visualize discussion group activities in online courses. We define a specific methodology for data observation and structuring, and present results of the analysis of peer interactions conducted in discussion forum in a real case study of a P2PU course. Finally we discuss how network visualization and analysis can be used to gather a better understanding of the peer-to-peer learning experience. To do so, we provide preliminary insights on the social, dialogical and conceptual connections that have been generated within one online discussion group.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Aquest estudi analitza les pràctiques diàries, els valors socials i les actituds de la població catalana en el procés de transició cap a la societat xarxa. Analitza el comportament de les persones a Internet i fora d'Internet, investigant el paper específic dels usos d'Internet a l'hora d'influenciar pràctiques i actituds. Es basa en les respostes a una enquesta de 3.005 individus, una mostra representativa de la població catalana el 2002. L'enquesta es va fer entre el febrer i el maig del 2002, i es basava en entrevistes cara a cara a partir d'un qüestionari de 179 preguntes. Es van utilitzar fonts secundàries per a situar els resultats catalans, particularment sobre els usos d'Internet, en el context global. L'anàlisi es va completar el 2007 incorporant-hi noves dades secundàries. L'estudi va cobrir pràctiques socials de treball, comunicació, sociabilitat, usos d'espai i temps, usos d'Internet, identitat cultural, pràctica política, associacionisme i formació de projectes d'autonomia. Es van construir diversos models estadístics per a proporcionar una anàlisi causal de cada una d'aquestes àrees d'estudi. El descobriment més significatiu fa referència a la relació entre els usos d'Internet i la construcció d'autonomia per part d'actors socials. Fent servir anàlisis factorial, l'estudi va definir cinc índexs d'autonomia que eren estadísticament independents: autonomia personal, autonomia professional, autonomia comunicativa, autonomia corporal i autonomia sociopolítica. Cada un d'aquests índexs d'autonomia independents estan fortament associats amb la freqüència i la intensitat de l'ús d'Internet, i les relacions observades es mantenen quan es controlen per variables sociodemogràfiques. A partir d'aquest estudi es pot afirmar que Internet és una plataforma important per a la construcció d'autonomia en la societat xarxa. En general, la societat catalana sembla que canviï de manera similar a altres societats en transició, amb l'èmfasi afegit del paper del territori i la família a l'hora d'enfortir les relacions socials, amb la contribució positiva d'Internet a un dens patró d'interacció social.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Aquest estudi analitza les pràctiques diàries, els valors socials i les actituds de la població catalana en el procés de transició cap a la societat xarxa. Analitza el comportament de les persones a Internet i fora d'Internet, investigant el paper específic dels usos d'Internet a l'hora d'influenciar pràctiques i actituds. Es basa en les respostes a una enquesta de 3.005 individus, una mostra representativa de la població catalana el 2002. L'enquesta es va fer entre el febrer i el maig del 2002, i es basava en entrevistes cara a cara a partir d'un qüestionari de 179 preguntes. Es van utilitzar fonts secundàries per a situar els resultats catalans, particularment sobre els usos d'Internet, en el context global. L'anàlisi es va completar el 2007 incorporant-hi noves dades secundàries. L'estudi va cobrir pràctiques socials de treball, comunicació, sociabilitat, usos d'espai i temps, usos d'Internet, identitat cultural, pràctica política, associacionisme i formació de projectes d'autonomia. Es van construir diversos models estadístics per a proporcionar una anàlisi causal de cada una d'aquestes àrees d'estudi. El descobriment més significatiu fa referència a la relació entre els usos d'Internet i la construcció d'autonomia per part d'actors socials. Fent servir anàlisis factorial, l'estudi va definir cinc índexs d'autonomia que eren estadísticament independents: autonomia personal, autonomia professional, autonomia comunicativa, autonomia corporal i autonomia sociopolítica. Cada un d'aquests índexs d'autonomia independents estan fortament associats amb la freqüència i la intensitat de l'ús d'Internet, i les relacions observades es mantenen quan es controlen per variables sociodemogràfiques. A partir d'aquest estudi es pot afirmar que Internet és una plataforma important per a la construcció d'autonomia en la societat xarxa. En general, la societat catalana sembla que canviï de manera similar a altres societats en transició, amb l'èmfasi afegit del paper del territori i la família a l'hora d'enfortir les relacions socials, amb la contribució positiva d'Internet a un dens patró d'interacció social.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Aquest estudi analitza les pràctiques diàries, els valors socials i les actituds de la població catalana en el procés de transició cap a la societat xarxa. Analitza el comportament de les persones a Internet i fora d'Internet, investigant el paper específic dels usos d'Internet a l'hora d'influenciar pràctiques i actituds. Es basa en les respostes a una enquesta de 3.005 individus, una mostra representativa de la població catalana el 2002. L'enquesta es va fer entre el febrer i el maig del 2002, i es basava en entrevistes cara a cara a partir d'un qüestionari de 179 preguntes. Es van utilitzar fonts secundàries per a situar els resultats catalans, particularment sobre els usos d'Internet, en el context global. L'anàlisi es va completar el 2007 incorporant-hi noves dades secundàries. L'estudi va cobrir pràctiques socials de treball, comunicació, sociabilitat, usos d'espai i temps, usos d'Internet, identitat cultural, pràctica política, associacionisme i formació de projectes d'autonomia. Es van construir diversos models estadístics per a proporcionar una anàlisi causal de cada una d'aquestes àrees d'estudi. El descobriment més significatiu fa referència a la relació entre els usos d'Internet i la construcció d'autonomia per part d'actors socials. Fent servir anàlisis factorial, l'estudi va definir cinc índexs d'autonomia que eren estadísticament independents: autonomia personal, autonomia professional, autonomia comunicativa, autonomia corporal i autonomia sociopolítica. Cada un d'aquests índexs d'autonomia independents estan fortament associats amb la freqüència i la intensitat de l'ús d'Internet, i les relacions observades es mantenen quan es controlen per variables sociodemogràfiques. A partir d'aquest estudi es pot afirmar que Internet és una plataforma important per a la construcció d'autonomia en la societat xarxa. En general, la societat catalana sembla que canviï de manera similar a altres societats en transició, amb l'èmfasi afegit del paper del territori i la família a l'hora d'enfortir les relacions socials, amb la contribució positiva d'Internet a un dens patró d'interacció social.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Aquest estudi analitza les pràctiques diàries, els valors socials i les actituds de la població catalana en el procés de transició cap a la societat xarxa. Analitza el comportament de les persones a Internet i fora d'Internet, investigant el paper específic dels usos d'Internet a l'hora d'influenciar pràctiques i actituds. Es basa en les respostes a una enquesta de 3.005 individus, una mostra representativa de la població catalana el 2002. L'enquesta es va fer entre el febrer i el maig del 2002, i es basava en entrevistes cara a cara a partir d'un qüestionari de 179 preguntes. Es van utilitzar fonts secundàries per a situar els resultats catalans, particularment sobre els usos d'Internet, en el context global. L'anàlisi es va completar el 2007 incorporant-hi noves dades secundàries. L'estudi va cobrir pràctiques socials de treball, comunicació, sociabilitat, usos d'espai i temps, usos d'Internet, identitat cultural, pràctica política, associacionisme i formació de projectes d'autonomia. Es van construir diversos models estadístics per a proporcionar una anàlisi causal de cada una d'aquestes àrees d'estudi. El descobriment més significatiu fa referència a la relació entre els usos d'Internet i la construcció d'autonomia per part d'actors socials. Fent servir anàlisis factorial, l'estudi va definir cinc índexs d'autonomia que eren estadísticament independents: autonomia personal, autonomia professional, autonomia comunicativa, autonomia corporal i autonomia sociopolítica. Cada un d'aquests índexs d'autonomia independents estan fortament associats amb la freqüència i la intensitat de l'ús d'Internet, i les relacions observades es mantenen quan es controlen per variables sociodemogràfiques. A partir d'aquest estudi es pot afirmar que Internet és una plataforma important per a la construcció d'autonomia en la societat xarxa. En general, la societat catalana sembla que canviï de manera similar a altres societats en transició, amb l'èmfasi afegit del paper del territori i la família a l'hora d'enfortir les relacions socials, amb la contribució positiva d'Internet a un dens patró d'interacció social.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Aquest estudi analitza les pràctiques diàries, els valors socials i les actituds de la població catalana en el procés de transició cap a la societat xarxa. Analitza el comportament de les persones a Internet i fora d'Internet, investigant el paper específic dels usos d'Internet a l'hora d'influenciar pràctiques i actituds. Es basa en les respostes a una enquesta de 3.005 individus, una mostra representativa de la població catalana el 2002. L'enquesta es va fer entre el febrer i el maig del 2002, i es basava en entrevistes cara a cara a partir d'un qüestionari de 179 preguntes. Es van utilitzar fonts secundàries per a situar els resultats catalans, particularment sobre els usos d'Internet, en el context global. L'anàlisi es va completar el 2007 incorporant-hi noves dades secundàries. L'estudi va cobrir pràctiques socials de treball, comunicació, sociabilitat, usos d'espai i temps, usos d'Internet, identitat cultural, pràctica política, associacionisme i formació de projectes d'autonomia. Es van construir diversos models estadístics per a proporcionar una anàlisi causal de cada una d'aquestes àrees d'estudi. El descobriment més significatiu fa referència a la relació entre els usos d'Internet i la construcció d'autonomia per part d'actors socials. Fent servir anàlisis factorial, l'estudi va definir cinc índexs d'autonomia que eren estadísticament independents: autonomia personal, autonomia professional, autonomia comunicativa, autonomia corporal i autonomia sociopolítica. Cada un d'aquests índexs d'autonomia independents estan fortament associats amb la freqüència i la intensitat de l'ús d'Internet, i les relacions observades es mantenen quan es controlen per variables sociodemogràfiques. A partir d'aquest estudi es pot afirmar que Internet és una plataforma important per a la construcció d'autonomia en la societat xarxa. En general, la societat catalana sembla que canviï de manera similar a altres societats en transició, amb l'èmfasi afegit del paper del territori i la família a l'hora d'enfortir les relacions socials, amb la contribució positiva d'Internet a un dens patró d'interacció social.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Planners in public and private institutions would like coherent forecasts of the components of age-specic mortality, such as causes of death. This has been di cult toachieve because the relative values of the forecast components often fail to behave ina way that is coherent with historical experience. In addition, when the group forecasts are combined the result is often incompatible with an all-groups forecast. It hasbeen shown that cause-specic mortality forecasts are pessimistic when compared withall-cause forecasts (Wilmoth, 1995). This paper abandons the conventional approachof using log mortality rates and forecasts the density of deaths in the life table. Sincethese values obey a unit sum constraint for both conventional single-decrement life tables (only one absorbing state) and multiple-decrement tables (more than one absorbingstate), they are intrinsically relative rather than absolute values across decrements aswell as ages. Using the methods of Compositional Data Analysis pioneered by Aitchison(1986), death densities are transformed into the real space so that the full range of multivariate statistics can be applied, then back-transformed to positive values so that theunit sum constraint is honoured. The structure of the best-known, single-decrementmortality-rate forecasting model, devised by Lee and Carter (1992), is expressed incompositional form and the results from the two models are compared. The compositional model is extended to a multiple-decrement form and used to forecast mortalityby cause of death for Japan

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Functional Data Analysis (FDA) deals with samples where a whole function is observedfor each individual. A particular case of FDA is when the observed functions are densityfunctions, that are also an example of infinite dimensional compositional data. In thiswork we compare several methods for dimensionality reduction for this particular typeof data: functional principal components analysis (PCA) with or without a previousdata transformation and multidimensional scaling (MDS) for diferent inter-densitiesdistances, one of them taking into account the compositional nature of density functions. The difeerent methods are applied to both artificial and real data (householdsincome distributions)

Relevância:

90.00% 90.00%

Publicador:

Resumo:

In this paper we examine the problem of compositional data from a different startingpoint. Chemical compositional data, as used in provenance studies on archaeologicalmaterials, will be approached from the measurement theory. The results will show, in avery intuitive way that chemical data can only be treated by using the approachdeveloped for compositional data. It will be shown that compositional data analysis is aparticular case in projective geometry, when the projective coordinates are in thepositive orthant, and they have the properties of logarithmic interval metrics. Moreover,it will be shown that this approach can be extended to a very large number ofapplications, including shape analysis. This will be exemplified with a case study inarchitecture of Early Christian churches dated back to the 5th-7th centuries AD

Relevância:

90.00% 90.00%

Publicador:

Resumo:

This analysis was stimulated by the real data analysis problem of householdexpenditure data. The full dataset contains expenditure data for a sample of 1224 households. The expenditure is broken down at 2 hierarchical levels: 9 major levels (e.g. housing, food, utilities etc.) and 92 minor levels. There are also 5 factors and 5 covariates at the household level. Not surprisingly, there are a small number of zeros at the major level, but many zeros at the minor level. The question is how best to model the zeros. Clearly, models that tryto add a small amount to the zero terms are not appropriate in general as at least some of the zeros are clearly structural, e.g. alcohol/tobacco for households that are teetotal. The key question then is how to build suitable conditional models. For example, is the sub-composition of spendingexcluding alcohol/tobacco similar for teetotal and non-teetotal households?In other words, we are looking for sub-compositional independence. Also, what determines whether a household is teetotal? Can we assume that it is independent of the composition? In general, whether teetotal will clearly depend on the household level variables, so we need to be able to model this dependence. The other tricky question is that with zeros on more than onecomponent, we need to be able to model dependence and independence of zeros on the different components. Lastly, while some zeros are structural, others may not be, for example, for expenditure on durables, it may be chance as to whether a particular household spends money on durableswithin the sample period. This would clearly be distinguishable if we had longitudinal data, but may still be distinguishable by looking at the distribution, on the assumption that random zeros will usually be for situations where any non-zero expenditure is not small.While this analysis is based on around economic data, the ideas carry over tomany other situations, including geological data, where minerals may be missing for structural reasons (similar to alcohol), or missing because they occur only in random regions which may be missed in a sample (similar to the durables)

Relevância:

90.00% 90.00%

Publicador:

Resumo:

The statistical analysis of compositional data should be treated using logratios of parts,which are difficult to use correctly in standard statistical packages. For this reason afreeware package, named CoDaPack was created. This software implements most of thebasic statistical methods suitable for compositional data.In this paper we describe the new version of the package that now is calledCoDaPack3D. It is developed in Visual Basic for applications (associated with Excel©),Visual Basic and Open GL, and it is oriented towards users with a minimum knowledgeof computers with the aim at being simple and easy to use.This new version includes new graphical output in 2D and 3D. These outputs could bezoomed and, in 3D, rotated. Also a customization menu is included and outputs couldbe saved in jpeg format. Also this new version includes an interactive help and alldialog windows have been improved in order to facilitate its use.To use CoDaPack one has to access Excel© and introduce the data in a standardspreadsheet. These should be organized as a matrix where Excel© rows correspond tothe observations and columns to the parts. The user executes macros that returnnumerical or graphical results. There are two kinds of numerical results: new variablesand descriptive statistics, and both appear on the same sheet. Graphical output appearsin independent windows. In the present version there are 8 menus, with a total of 38submenus which, after some dialogue, directly call the corresponding macro. Thedialogues ask the user to input variables and further parameters needed, as well aswhere to put these results. The web site http://ima.udg.es/CoDaPack contains thisfreeware package and only Microsoft Excel© under Microsoft Windows© is required torun the software.Kew words: Compositional data Analysis, Software

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Analyzing functional data often leads to finding common factors, for which functional principal component analysis proves to be a useful tool to summarize and characterize the random variation in a function space. The representation in terms of eigenfunctions is optimal in the sense of L-2 approximation. However, the eigenfunctions are not always directed towards an interesting and interpretable direction in the context of functional data and thus could obscure the underlying structure. To overcome such difficulty, an alternative to functional principal component analysis is proposed that produces directed components which may be more informative and easier to interpret. These structural components are similar to principal components, but are adapted to situations in which the domain of the function may be decomposed into disjoint intervals such that there is effectively independence between intervals and positive correlation within intervals. The approach is demonstrated with synthetic examples as well as real data. Properties for special cases are also studied.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

As stated in Aitchison (1986), a proper study of relative variation in a compositional data set should be based on logratios, and dealing with logratios excludes dealing with zeros. Nevertheless, it is clear that zero observations might be present in real data sets, either because the corresponding part is completelyabsent –essential zeros– or because it is below detection limit –rounded zeros. Because the second kind of zeros is usually understood as “a trace too small to measure”, it seems reasonable to replace them by a suitable small value, and this has been the traditional approach. As stated, e.g. by Tauber (1999) and byMartín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000), the principal problem in compositional data analysis is related to rounded zeros. One should be careful to use a replacement strategy that does not seriously distort the general structure of the data. In particular, the covariance structure of the involvedparts –and thus the metric properties– should be preserved, as otherwise further analysis on subpopulations could be misleading. Following this point of view, a non-parametric imputation method isintroduced in Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000). This method is analyzed in depth by Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2003) where it is shown that thetheoretical drawbacks of the additive zero replacement method proposed in Aitchison (1986) can be overcome using a new multiplicative approach on the non-zero parts of a composition. The new approachhas reasonable properties from a compositional point of view. In particular, it is “natural” in the sense thatit recovers the “true” composition if replacement values are identical to the missing values, and it is coherent with the basic operations on the simplex. This coherence implies that the covariance structure of subcompositions with no zeros is preserved. As a generalization of the multiplicative replacement, in thesame paper a substitution method for missing values on compositional data sets is introduced