106 resultados para NVIDIA CUDA
Resumo:
A Digital Breast Tomosynthesis (DBT) é uma técnica que permite obter imagens mamárias 3D de alta qualidade, que só podem ser obtidas através de métodos de re-construção. Os métodos de reconstrução mais rápidos são os iterativos, sendo no en-tanto computacionalmente exigentes, necessitando de sofrer muitas optimizações. Exis-tem optimizações que usam computação paralela através da implementação em GPUs usando CUDA. Como é sabido, o desenvolvimento de programas eficientes que usam GPUs é ainda uma tarefa demorada, dado que os modelos de programação disponíveis são de baixo nível, e a portabilidade do código para outras arquitecturas não é imedia-ta. É uma mais valia poder criar programas paralelos de forma rápida, com possibili-dade de serem usados em diferentes arquitecturas, sem exigir muitos conhecimentos sobre a arquitectura subjacente e sobre os modelos de programação de baixo nível. Para resolver este problema, propomos a utilização de soluções existentes que reduzam o esforço de paralelização, permitindo a sua portabilidade, garantindo ao mesmo tempo um desempenho aceitável. Para tal, vamos utilizar um framework (FastFlow) com suporte para Algorithmic Skeletons, que tiram partido da programação paralela estruturada, capturando esquemas/padrões recorrentes que são comuns na programação paralela. O trabalho realizado centrou-se na paralelização de uma das fases de reconstru-ção da imagem 3D – geração da matriz de sistema – que é uma das mais demoradas do processo de reconstrução; esse trabalho incluiu um método de ordenação modificado em relação ao existente. Foram realizadas diferentes implementações em CPU e GPU (usando OpenMP, CUDA e FastFlow) o que permitiu comparar estes ambientes de programação em termos de facilidade de desenvolvimento e eficiência da solução. A comparação feita permite concluir que o desempenho das soluções baseadas no FastFlow não é muito diferente das tradicionais o que sugere que ferramentas deste tipo podem simplificar e agilizar a implementação de um algoritmos na área de recons-trução de imagens 3D, mantendo um bom desempenho.
Resumo:
En este proyecto se muestran las posibilidades de la visión estéreo para la visualización en monitores tanto de objetos simples como de grandes escenarios, así como su aplicación en juegos o en otros ámbitos como el cine, la geología e incluso la medicina. Para el desarrollo se ha usado una tarjeta con soporte 3d como la Nvidia 7600GT y una pantalla con una tasa de frecuencia alta como una ACER 19 pulgadas a 100Hz. Los resultados sobre la visualización han sido extraídos de las opiniones de un grupo de 20 personas, de diversas profesiones, no relacionadas con los gráficos por ordenador.
Resumo:
En el món dels videojocs el realisme és un punt molt important a tenir en compte ja que dónamés sensació a l’usuari d’estar immers en el videojoc. Això passa en part per aconseguir realisme en la dinàmica dels objectes i fer que aquests segueixin les lleis de la física de Newton. Per això s’han desenvolupat diverses llibreries que s’anomenen “motors de física” (physics engines), que empren variables com la massa, la velocitat, la fricció i la resistència del vent. Els objectius d’aquest projecte seran l’estudi de diferents llibreries físiques existents, la seva comparació i com s’integren en els motors de jocs. A més a més , la generació de contingut amb comportament que respongui a les funcions definides a aquestes llibreries no és trivial i per aquest motiu també es desenvoluparà una aplicació per generar murs de forma semiautomàtica que respongui a impactes. Per assolir aquests objectius caldrà: d’ una banda, comparar els cossos rígids, unions i funcionament en general de diferents llibreries físiques: Newton Game Dynamics, NVIDIA PhysX Technology, Open Dynamics Engine, Bullet PhysicsLibrary, Tokamak Physics Engine i Havok i d’ altra banda, implementar una aplicació que donant-li una imatge en planta d’una paret o conjunt de parets en format vectorial i les mides d’un maó, generi murs que puguin reaccionar de forma adequada quan rebin l’impacte d’una massa determinada. L’aplicació s’implementarà en C++ i amb l’entorn de desenvolupament Microsoft Visual Studio 2005. La visualització serà amb OpenGL
Resumo:
En el món dels videojocs el realisme és un punt molt important a tenir en compte ja que dónamés sensació a l’usuari d’estar immers en el videojoc. Això passa en part per aconseguir realisme en la dinàmica dels objectes i fer que aquests segueixin les lleis de la física de Newton. Per això s’han desenvolupat diverses llibreries que s’anomenen “motors de física” (physics engines), que empren variables com la massa, la velocitat, la fricció i la resistència del vent. Els objectius d’aquest projecte seran l’estudi de diferents llibreries físiques existents, la seva comparació i com s’integren en els motors de jocs. A més a més , la generació de contingut amb comportament que respongui a les funcions definides a aquestes llibreries no és trivial i per aquest motiu també es desenvoluparà una aplicació per generar murs de forma semiautomàtica que respongui a impactes. Per assolir aquests objectius caldrà: d’ una banda, comparar els cossos rígids, unions i funcionament en general de diferents llibreries físiques: Newton Game Dynamics, NVIDIA PhysX Technology, Open Dynamics Engine, Bullet Physics Library, Tokamak Physics Engine i Havok i d’ altra banda, implementar una aplicació que donant-li una imatge en planta d’una paret o conjunt de parets en format vectorial i les mides d’un maó, generi murs que puguin reaccionar de forma adequada quan rebin l’impacte d’una massa determinada. L’aplicació s’implementarà en C++ i amb l’entorn de desenvolupament Microsoft Visual Studio 2005. La visualització serà amb OpenGL
Resumo:
This article documents the addition of 512 microsatellite marker loci and nine pairs of Single Nucleotide Polymorphism (SNP) sequencing primers to the Molecular Ecology Resources Database. Loci were developed for the following species: Alcippe morrisonia morrisonia, Bashania fangiana, Bashania fargesii, Chaetodon vagabundus, Colletes floralis, Coluber constrictor flaviventris, Coptotermes gestroi, Crotophaga major, Cyprinella lutrensis, Danaus plexippus, Fagus grandifolia, Falco tinnunculus, Fletcherimyia fletcheri, Hydrilla verticillata, Laterallus jamaicensis coturniculus, Leavenworthia alabamica, Marmosops incanus, Miichthys miiuy, Nasua nasua, Noturus exilis, Odontesthes bonariensis, Quadrula fragosa, Pinctada maxima, Pseudaletia separata, Pseudoperonospora cubensis, Podocarpus elatus, Portunus trituberculatus, Rhagoletis cerasi, Rhinella schneideri, Sarracenia alata, Skeletonema marinoi, Sminthurus viridis, Syngnathus abaster, Uroteuthis (Photololigo) chinensis, Verticillium dahliae, Wasmannia auropunctata, and Zygochlamys patagonica. These loci were cross-tested on the following species: Chaetodon baronessa, Falco columbarius, Falco eleonorae, Falco naumanni, Falco peregrinus, Falco subbuteo, Didelphis aurita, Gracilinanus microtarsus, Marmosops paulensis, Monodelphis Americana, Odontesthes hatcheri, Podocarpus grayi, Podocarpus lawrencei, Podocarpus smithii, Portunus pelagicus, Syngnathus acus, Syngnathus typhle,Uroteuthis (Photololigo) edulis, Uroteuthis (Photololigo) duvauceli and Verticillium albo-atrum. This article also documents the addition of nine sequencing primer pairs and sixteen allele specific primers or probes for Oncorhynchus mykiss and Oncorhynchus tshawytscha; these primers and assays were cross-tested in both species.
Resumo:
Large-scale simulations of parts of the brain using detailed neuronal models to improve our understanding of brain functions are becoming a reality with the usage of supercomputers and large clusters. However, the high acquisition and maintenance cost of these computers, including the physical space, air conditioning, and electrical power, limits the number of simulations of this kind that scientists can perform. Modern commodity graphical cards, based on the CUDA platform, contain graphical processing units (GPUs) composed of hundreds of processors that can simultaneously execute thousands of threads and thus constitute a low-cost solution for many high-performance computing applications. In this work, we present a CUDA algorithm that enables the execution, on multiple GPUs, of simulations of large-scale networks composed of biologically realistic Hodgkin-Huxley neurons. The algorithm represents each neuron as a CUDA thread, which solves the set of coupled differential equations that model each neuron. Communication among neurons located in different GPUs is coordinated by the CPU. We obtained speedups of 40 for the simulation of 200k neurons that received random external input and speedups of 9 for a network with 200k neurons and 20M neuronal connections, in a single computer with two graphic boards with two GPUs each, when compared with a modern quad-core CPU. Copyright (C) 2010 John Wiley & Sons, Ltd.
Resumo:
With the growth of energy consumption worldwide, conventional reservoirs, the reservoirs called "easy exploration and production" are not meeting the global energy demand. This has led many researchers to develop projects that will address these needs, companies in the oil sector has invested in techniques that helping in locating and drilling wells. One of the techniques employed in oil exploration process is the reverse time migration (RTM), in English, Reverse Time Migration, which is a method of seismic imaging that produces excellent image of the subsurface. It is algorithm based in calculation on the wave equation. RTM is considered one of the most advanced seismic imaging techniques. The economic value of the oil reserves that require RTM to be localized is very high, this means that the development of these algorithms becomes a competitive differentiator for companies seismic processing. But, it requires great computational power, that it still somehow harms its practical success. The objective of this work is to explore the implementation of this algorithm in unconventional architectures, specifically GPUs using the CUDA by making an analysis of the difficulties in developing the same, as well as the performance of the algorithm in the sequential and parallel version
Resumo:
The vascular segmentation is important in diagnosing vascular diseases like stroke and is hampered by noise in the image and very thin vessels that can pass unnoticed. One way to accomplish the segmentation is extracting the centerline of the vessel with height ridges, which uses the intensity as features for segmentation. This process can take from seconds to minutes, depending on the current technology employed. In order to accelerate the segmentation method proposed by Aylward [Aylward & Bullitt 2002] we have adapted it to run in parallel using CUDA architecture. The performance of the segmentation method running on GPU is compared to both the same method running on CPU and the original Aylward s method running also in CPU. The improvemente of the new method over the original one is twofold: the starting point for the segmentation process is not a single point in the blood vessel but a volume, thereby making it easier for the user to segment a region of interest, and; the overall gain method was 873 times faster running on GPU and 150 times more fast running on the CPU than the original CPU in Aylward
Resumo:
This article documents the addition of 512 microsatellite marker loci and nine pairs of Single Nucleotide Polymorphism (SNP) sequencing primers to the Molecular Ecology Resources Database. Loci were developed for the following species: Alcippe morrisonia morrisonia, Bashania fangiana, Bashania fargesii, Chaetodon vagabundus, Colletes floralis, Coluber constrictor flaviventris, Coptotermes gestroi, Crotophaga major, Cyprinella lutrensis, Danaus plexippus, Fagus grandifolia, Falco tinnunculus, Fletcherimyia fletcheri, Hydrilla verticillata, Laterallus jamaicensis coturniculus, Leavenworthia alabamica, Marmosops incanus, Miichthys miiuy, Nasua nasua, Noturus exilis, Odontesthes bonariensis, Quadrula fragosa, Pinctada maxima, Pseudaletia separata, Pseudoperonospora cubensis, Podocarpus elatus, Portunus trituberculatus, Rhagoletis cerasi, Rhinella schneideri, Sarracenia alata, Skeletonema marinoi, Sminthurus viridis, Syngnathus abaster, Uroteuthis (Photololigo) chinensis, Verticillium dahliae, Wasmannia auropunctata, and Zygochlamys patagonica. These loci were cross-tested on the following species: Chaetodon baronessa, Falco columbarius, Falco eleonorae, Falco naumanni, Falco peregrinus, Falco subbuteo, Didelphis aurita, Gracilinanus microtarsus, Marmosops paulensis, Monodelphis Americana, Odontesthes hatcheri, Podocarpus grayi, Podocarpus lawrencei, Podocarpus smithii, Portunus pelagicus, Syngnathus acus, Syngnathus typhle,Uroteuthis (Photololigo) edulis, Uroteuthis (Photololigo) duvauceli and Verticillium albo-atrum. This article also documents the addition of nine sequencing primer pairs and sixteen allele specific primers or probes for Oncorhynchus mykiss and Oncorhynchus tshawytscha; these primers and assays were cross-tested in both species.
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
Identify opportunities for software parallelism is a task that takes a lot of human time, but once some code patterns for parallelism are identified, a software could quickly accomplish this task. Thus, automating this process brings many benefits such as saving time and reducing errors caused by the programmer [1]. This work aims at developing a software environment that identifies opportunities for parallelism in a source code written in C language, and generates a program with the same behavior, but with higher degree of parallelism, compatible with a graphics processor compatible with CUDA architecture.
Resumo:
Pós-graduação em Ciência e Tecnologia de Materiais - FC
Resumo:
Técnicas de reconhecimento de padrões tem como principal objetivo classificar um conjunto de amostras, sendo o processo de aprendizado a fase de maior consumo de tempo. O problema pode piorar em ferramentas de classificação interativas, o que pode ser inaceitável para grandes bases de dados. Um exemplo de classificador é o baseado em Floresta de Caminhos Ótimos [8] - OPF. Dado que muitos trabalhos tem sido orientados à implementação de algoritmos de reconhecimento de padrões em ambiente General Purpose Graphics Processing Unit - GPGPU, o presente estudo objetivou a implementação da etapa de treinamento do classificador Floresta de Caminhos Ótimos em CUDA, visando aumentar a sua eficiência. A otimização do classificador em CUDA demonstrou uma fase de treinamento mais rápida que a versão original.
Resumo:
The modern GPUs are well suited for intensive computational tasks and massive parallel computation. Sparse matrix multiplication and linear triangular solver are the most important and heavily used kernels in scientific computation, and several challenges in developing a high performance kernel with the two modules is investigated. The main interest it to solve linear systems derived from the elliptic equations with triangular elements. The resulting linear system has a symmetric positive definite matrix. The sparse matrix is stored in the compressed sparse row (CSR) format. It is proposed a CUDA algorithm to execute the matrix vector multiplication using directly the CSR format. A dependence tree algorithm is used to determine which variables the linear triangular solver can determine in parallel. To increase the number of the parallel threads, a coloring graph algorithm is implemented to reorder the mesh numbering in a pre-processing phase. The proposed method is compared with parallel and serial available libraries. The results show that the proposed method improves the computation cost of the matrix vector multiplication. The pre-processing associated with the triangular solver needs to be executed just once in the proposed method. The conjugate gradient method was implemented and showed similar convergence rate for all the compared methods. The proposed method showed significant smaller execution time.