850 resultados para High-dimensional data visualization
Resumo:
Esta pesquisa tem por objetivo identificar a intensidade dos valores organizacionais de uma empresa familiar do ramo de prestação de serviços do setor elétrico, como se dá a transmissão destes valores e quanto eles estão alinhados com uma percepção ideal de valor. Foi conceituado como ditos os elementos culturais formalizados. Atribuiu-se a expressão não dito aos valores formalizados mas que não conseguiram vencer a barreira do documento onde estão expressos. A pesquisa, de natureza empírica, adotou o modelo de estudo de caso único e utiliza como seu principal referencial teórico a pesquisa de Tamayo (1996), denominada Escala de Valores Organizacionais. Foram utilizadas entrevistas do tipo pautadas com o fundador da empresa e focalizadas com os funcionários e líder. Foi utilizado questionário estruturado do autor mencionado com as instruções adaptadas para o contexto da empresa e dado tratamento matemático para apurar os resultados. O estudo de campo deu-se por meio de observações sistemáticas em visitas realizadas nas duas unidades da empresa (Osasco SP e Jundiaí SP). Os resultados do estudo apresentam-se em tabelas para melhor visualização dos dados. As conclusões apontaram para a existência de valores com pouca intensidade. Os mais intensos são direcionados para Eficiência e Eficácia e para laços de relacionamento, ambos originários da formação profissional e pessoal do fundador. Os resultados também mostram, por meio da observação dos componentes da cultura, uma baixa capacidade de transmissão dos valores organizacionais e um alto desalinhamento dos valores percebidos como real em relação ao ideal. Por fim, recomenda-se novos estudos sobre o tema.(AU)
Resumo:
Esta pesquisa tem por objetivo identificar a intensidade dos valores organizacionais de uma empresa familiar do ramo de prestação de serviços do setor elétrico, como se dá a transmissão destes valores e quanto eles estão alinhados com uma percepção ideal de valor. Foi conceituado como ditos os elementos culturais formalizados. Atribuiu-se a expressão não dito aos valores formalizados mas que não conseguiram vencer a barreira do documento onde estão expressos. A pesquisa, de natureza empírica, adotou o modelo de estudo de caso único e utiliza como seu principal referencial teórico a pesquisa de Tamayo (1996), denominada Escala de Valores Organizacionais. Foram utilizadas entrevistas do tipo pautadas com o fundador da empresa e focalizadas com os funcionários e líder. Foi utilizado questionário estruturado do autor mencionado com as instruções adaptadas para o contexto da empresa e dado tratamento matemático para apurar os resultados. O estudo de campo deu-se por meio de observações sistemáticas em visitas realizadas nas duas unidades da empresa (Osasco SP e Jundiaí SP). Os resultados do estudo apresentam-se em tabelas para melhor visualização dos dados. As conclusões apontaram para a existência de valores com pouca intensidade. Os mais intensos são direcionados para Eficiência e Eficácia e para laços de relacionamento, ambos originários da formação profissional e pessoal do fundador. Os resultados também mostram, por meio da observação dos componentes da cultura, uma baixa capacidade de transmissão dos valores organizacionais e um alto desalinhamento dos valores percebidos como real em relação ao ideal. Por fim, recomenda-se novos estudos sobre o tema.(AU)
Resumo:
Efficient and reliable classification of visual stimuli requires that their representations reside a low-dimensional and, therefore, computationally manageable feature space. We investigated the ability of the human visual system to derive such representations from the sensory input-a highly nontrivial task, given the million or so dimensions of the visual signal at its entry point to the cortex. In a series of experiments, subjects were presented with sets of parametrically defined shapes; the points in the common high-dimensional parameter space corresponding to the individual shapes formed regular planar (two-dimensional) patterns such as a triangle, a square, etc. We then used multidimensional scaling to arrange the shapes in planar configurations, dictated by their experimentally determined perceived similarities. The resulting configurations closely resembled the original arrangements of the stimuli in the parameter space. This achievement of the human visual system was replicated by a computational model derived from a theory of object representation in the brain, according to which similarities between objects, and not the geometry of each object, need to be faithfully represented.
Resumo:
A leishmaniose visceral é uma zoonose de grande importância para a saúde pública, com ampla distribuição geográfica e epidemiologia complexa. Apesar de diversas estratégias de controle, a doença continua se expandindo, tendo o cão como principal reservatório. Levando em consideração que análises espaciais são úteis para compreender melhor a dinâmica da doença, avaliar fatores de risco e complementar os programas de prevenção e controle, o presente estudo teve como objetivo caracterizar a distribuição da leishmaniose visceral canina e relacionar sua dinâmica com características ou feições espaciais no município de Panorama (SP). A partir de dados secundários coletados em um inquérito sorológico entre agosto de 2012 e janeiro de 2013, 986 cães foram classificados como positivos e negativos de acordo com o protocolo oficial do Ministério da Saúde. Posteriormente uma análise espacial foi conduzida, compreendendo desde a visualização dos dados até a elaboração de um mapa de risco relativo, passando por análises de cluster global (função K) e local (varredura espacial). Para avaliar uma possível relação entre o cluster detectado com a vegetação na área de estudo, calculou-se o Índice de Vegetação por Diferença Normalizada (NDVI). A prevalência da doença encontrada na população de cães estudada foi de 20,3% (200/986). A visualização espacial demonstrou que tanto animais positivos quanto negativos estavam distribuídos por toda a área de estudo. O mapa de intensidade dos animais positivos apontou duas localidades de possíveis clusters, quando comparado ao mapa de intensidade dos animais negativos. As análises de cluster confirmaram a presença de um aglomerado e um cluster foi detectado na região central do município, com um risco relativo de 2,63 (p=0,01). A variação espacial do risco relativo na área de estudo foi mapeada e também identificou a mesma região como área significativa de alto risco (p<0,05). Não foram observadas diferenças no padrão de vegetação comparando as áreas interna e externa ao cluster. Sendo assim, novos estudos devem ser realizados com o intuito de compreender outros fatores de risco que possam ter levado à ocorrência do cluster descrito. A prevalência, a localização do cluster espacial e o mapa de risco relativo fornecem subsídios para direcionamento de esforços do Setor de Vigilância Epidemiológica de Panorama para áreas de alto risco, o que pode poupar recursos e aperfeiçoar o controle da leishmaniose visceral no município.
Resumo:
Self-organising neural models have the ability to provide a good representation of the input space. In particular the Growing Neural Gas (GNG) is a suitable model because of its flexibility, rapid adaptation and excellent quality of representation. However, this type of learning is time-consuming, especially for high-dimensional input data. Since real applications often work under time constraints, it is necessary to adapt the learning process in order to complete it in a predefined time. This paper proposes a Graphics Processing Unit (GPU) parallel implementation of the GNG with Compute Unified Device Architecture (CUDA). In contrast to existing algorithms, the proposed GPU implementation allows the acceleration of the learning process keeping a good quality of representation. Comparative experiments using iterative, parallel and hybrid implementations are carried out to demonstrate the effectiveness of CUDA implementation. The results show that GNG learning with the proposed implementation achieves a speed-up of 6× compared with the single-threaded CPU implementation. GPU implementation has also been applied to a real application with time constraints: acceleration of 3D scene reconstruction for egomotion, in order to validate the proposal.
Resumo:
The FANOVA (or “Sobol’-Hoeffding”) decomposition of multivariate functions has been used for high-dimensional model representation and global sensitivity analysis. When the objective function f has no simple analytic form and is costly to evaluate, computing FANOVA terms may be unaffordable due to numerical integration costs. Several approximate approaches relying on Gaussian random field (GRF) models have been proposed to alleviate these costs, where f is substituted by a (kriging) predictor or by conditional simulations. Here we focus on FANOVA decompositions of GRF sample paths, and we notably introduce an associated kernel decomposition into 4 d 4d terms called KANOVA. An interpretation in terms of tensor product projections is obtained, and it is shown that projected kernels control both the sparsity of GRF sample paths and the dependence structure between FANOVA effects. Applications on simulated data show the relevance of the approach for designing new classes of covariance kernels dedicated to high-dimensional kriging.
Resumo:
Thesis (Master's)--University of Washington, 2016-06
Resumo:
In many advanced applications, data are described by multiple high-dimensional features. Moreover, different queries may weight these features differently; some may not even specify all the features. In this paper, we propose our solution to support efficient query processing in these applications. We devise a novel representation that compactly captures f features into two components: The first component is a 2D vector that reflects a distance range ( minimum and maximum values) of the f features with respect to a reference point ( the center of the space) in a metric space and the second component is a bit signature, with two bits per dimension, obtained by analyzing each feature's descending energy histogram. This representation enables two levels of filtering: The first component prunes away points that do not share similar distance ranges, while the bit signature filters away points based on the dimensions of the relevant features. Moreover, the representation facilitates the use of a single index structure to further speed up processing. We employ the classical B+-tree for this purpose. We also propose a KNN search algorithm that exploits the access orders of critical dimensions of highly selective features and partial distances to prune the search space more effectively. Our extensive experiments on both real-life and synthetic data sets show that the proposed solution offers significant performance advantages over sequential scan and retrieval methods using single and multiple VA-files.
Resumo:
In many online applications, we need to maintain quantile statistics for a sliding window on a data stream. The sliding windows in natural form are defined as the most recent N data items. In this paper, we study the problem of estimating quantiles over other types of sliding windows. We present a uniform framework to process quantile queries for time constrained and filter based sliding windows. Our algorithm makes one pass on the data stream and maintains an E-approximate summary. It uses O((1)/(epsilon2) log(2) epsilonN) space where N is the number of data items in the window. We extend this framework to further process generalized constrained sliding window queries and proved that our technique is applicable for flexible window settings. Our performance study indicates that the space required in practice is much less than the given theoretical bound and the algorithm supports high speed data streams.
Resumo:
Although managers consider accurate, timely, and relevant information as critical to the quality of their decisions, evidence of large variations in data quality abounds. Over a period of twelve months, the action research project reported herein attempted to investigate and track data quality initiatives undertaken by the participating organisation. The investigation focused on two types of errors: transaction input errors and processing errors. Whenever the action research initiative identified non-trivial errors, the participating organisation introduced actions to correct the errors and prevent similar errors in the future. Data quality metrics were taken quarterly to measure improvements resulting from the activities undertaken during the action research project. The action research project results indicated that for a mission-critical database to ensure and maintain data quality, commitment to continuous data quality improvement is necessary. Also, communication among all stakeholders is required to ensure common understanding of data quality improvement goals. The action research project found that to further substantially improve data quality, structural changes within the organisation and to the information systems are sometimes necessary. The major goal of the action research study is to increase the level of data quality awareness within all organisations and to motivate them to examine the importance of achieving and maintaining high-quality data.
Resumo:
Large amounts of information can be overwhelming and costly to process, especially when transmitting data over a network. A typical modern Geographical Information System (GIS) brings all types of data together based on the geographic component of the data and provides simple point-and-click query capabilities as well as complex analysis tools. Querying a Geographical Information System, however, can be prohibitively expensive due to the large amounts of data which may need to be processed. Since the use of GIS technology has grown dramatically in the past few years, there is now a need more than ever, to provide users with the fastest and least expensive query capabilities, especially since an approximated 80 % of data stored in corporate databases has a geographical component. However, not every application requires the same, high quality data for its processing. In this paper we address the issues of reducing the cost and response time of GIS queries by preaggregating data by compromising the data accuracy and precision. We present computational issues in generation of multi-level resolutions of spatial data and show that the problem of finding the best approximation for the given region and a real value function on this region, under a predictable error, in general is "NP-complete.
Resumo:
Esta pesquisa tem por objetivo identificar a intensidade dos valores organizacionais de uma empresa familiar do ramo de prestação de serviços do setor elétrico, como se dá a transmissão destes valores e quanto eles estão alinhados com uma percepção ideal de valor. Foi conceituado como ditos os elementos culturais formalizados. Atribuiu-se a expressão não dito aos valores formalizados mas que não conseguiram vencer a barreira do documento onde estão expressos. A pesquisa, de natureza empírica, adotou o modelo de estudo de caso único e utiliza como seu principal referencial teórico a pesquisa de Tamayo (1996), denominada Escala de Valores Organizacionais. Foram utilizadas entrevistas do tipo pautadas com o fundador da empresa e focalizadas com os funcionários e líder. Foi utilizado questionário estruturado do autor mencionado com as instruções adaptadas para o contexto da empresa e dado tratamento matemático para apurar os resultados. O estudo de campo deu-se por meio de observações sistemáticas em visitas realizadas nas duas unidades da empresa (Osasco SP e Jundiaí SP). Os resultados do estudo apresentam-se em tabelas para melhor visualização dos dados. As conclusões apontaram para a existência de valores com pouca intensidade. Os mais intensos são direcionados para Eficiência e Eficácia e para laços de relacionamento, ambos originários da formação profissional e pessoal do fundador. Os resultados também mostram, por meio da observação dos componentes da cultura, uma baixa capacidade de transmissão dos valores organizacionais e um alto desalinhamento dos valores percebidos como real em relação ao ideal. Por fim, recomenda-se novos estudos sobre o tema.(AU)
Resumo:
This thesis is a study of the generation of topographic mappings - dimension reducing transformations of data that preserve some element of geometric structure - with feed-forward neural networks. As an alternative to established methods, a transformational variant of Sammon's method is proposed, where the projection is effected by a radial basis function neural network. This approach is related to the statistical field of multidimensional scaling, and from that the concept of a 'subjective metric' is defined, which permits the exploitation of additional prior knowledge concerning the data in the mapping process. This then enables the generation of more appropriate feature spaces for the purposes of enhanced visualisation or subsequent classification. A comparison with established methods for feature extraction is given for data taken from the 1992 Research Assessment Exercise for higher educational institutions in the United Kingdom. This is a difficult high-dimensional dataset, and illustrates well the benefit of the new topographic technique. A generalisation of the proposed model is considered for implementation of the classical multidimensional scaling (¸mds}) routine. This is related to Oja's principal subspace neural network, whose learning rule is shown to descend the error surface of the proposed ¸mds model. Some of the technical issues concerning the design and training of topographic neural networks are investigated. It is shown that neural network models can be less sensitive to entrapment in the sub-optimal global minima that badly affect the standard Sammon algorithm, and tend to exhibit good generalisation as a result of implicit weight decay in the training process. It is further argued that for ideal structure retention, the network transformation should be perfectly smooth for all inter-data directions in input space. Finally, there is a critique of optimisation techniques for topographic mappings, and a new training algorithm is proposed. A convergence proof is given, and the method is shown to produce lower-error mappings more rapidly than previous algorithms.
Resumo:
Solving many scientific problems requires effective regression and/or classification models for large high-dimensional datasets. Experts from these problem domains (e.g. biologists, chemists, financial analysts) have insights into the domain which can be helpful in developing powerful models but they need a modelling framework that helps them to use these insights. Data visualisation is an effective technique for presenting data and requiring feedback from the experts. A single global regression model can rarely capture the full behavioural variability of a huge multi-dimensional dataset. Instead, local regression models, each focused on a separate area of input space, often work better since the behaviour of different areas may vary. Classical local models such as Mixture of Experts segment the input space automatically, which is not always effective and it also lacks involvement of the domain experts to guide a meaningful segmentation of the input space. In this paper we addresses this issue by allowing domain experts to interactively segment the input space using data visualisation. The segmentation output obtained is then further used to develop effective local regression models.
Resumo:
The Generative Topographic Mapping (GTM) algorithm of Bishop et al. (1997) has been introduced as a principled alternative to the Self-Organizing Map (SOM). As well as avoiding a number of deficiencies in the SOM, the GTM algorithm has the key property that the smoothness properties of the model are decoupled from the reference vectors, and are described by a continuous mapping from a lower-dimensional latent space into the data space. Magnification factors, which are approximated by the difference between code-book vectors in SOMs, can therefore be evaluated for the GTM model as continuous functions of the latent variables using the techniques of differential geometry. They play an important role in data visualization by highlighting the boundaries between data clusters, and are illustrated here for both a toy data set, and a problem involving the identification of crab species from morphological data.