966 resultados para Graphical processing units


Relevância:

80.00% 80.00%

Publicador:

Resumo:

How can GPU acceleration be obtained as a service in a cluster? This question has become increasingly significant due to the inefficiency of installing GPUs on all nodes of a cluster. The research reported in this paper is motivated to address the above question by employing rCUDA (remote CUDA), a framework that facilitates Acceleration-as-a-Service (AaaS), such that the nodes of a cluster can request the acceleration of a set of remote GPUs on demand. The rCUDA framework exploits virtualisation and ensures that multiple nodes can share the same GPU. In this paper we test the feasibility of the rCUDA framework on a real-world application employed in the financial risk industry that can benefit from AaaS in the production setting. The results confirm the feasibility of rCUDA and highlight that rCUDA achieves similar performance compared to CUDA, provides consistent results, and more importantly, allows for a single application to benefit from all the GPUs available in the cluster without loosing efficiency.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A optimização estrutural é uma temática antiga em engenharia. No entanto, com o crescimento do método dos elementos finitos em décadas recentes, dá origem a um crescente número de aplicações. A optimização topológica, especificamente, surge associada a uma fase de definição de domínio efectivo de um processo global de optimização estrutural. Com base neste tipo de optimização, é possível obter a distribuição óptima de material para diversas aplicações e solicitações. Os materiais compósitos e alguns materiais celulares, em particular, encontram-se entre os materiais mais proeminentes dos nossos dias, em termos das suas aplicações e de investigação e desenvolvimento. No entanto, a sua estrutura potencialmente complexa e natureza heterogénea acarretam grandes complexidades, tanto ao nível da previsão das suas propriedades constitutivas quanto na obtenção das distribuições óptimas de constituintes. Procedimentos de homogeneização podem fornecer algumas respostas em ambos os casos. Em particular, a homogeneização por expansão assimptótica pode ser utilizada para determinar propriedades termomecânicas efectivas e globais a partir de volumes representativos, de forma flexível e independente da distribuição de constituintes. Além disso, integra processos de localização e fornece informação detalhada acerca de sensibilidades locais em metodologias de optimização multiescala. A conjugação destas áreas pode conduzir a metodologias de optimização topológica multiescala, nas quais de procede à obtenção não só de estruturas óptimas mas também das distribuições ideais de materiais constituintes. Os problemas associados a estas abordagens tendem, no entanto, a exigir recursos computacionais assinaláveis, criando muitas vezes sérias limitações à exequibilidade da sua resolução. Neste sentido, técnicas de cálculo paralelo e distribuído apresentam-se como uma potencial solução. Ao dividir os problemas por diferentes unidades memória e de processamento, é possível abordar problemas que, de outra forma, seriam proibitivos. O principal foco deste trabalho centra-se na importância do desenvolvimento de procedimentos computacionais para as aplicações referidas. Adicionalmente, estas conduzem a diversas abordagens alternativas na procura simultânea de estruturas e materiais para responder a aplicações termomecânicas. Face ao exposto, tudo isto é integrado numa plataforma computacional de optimização multiobjectivo multiescala em termoelasticidade, desenvolvida e implementada ao longo deste trabalho. Adicionalmente, o trabalho é complementado com a montagem e configuração de um cluster do tipo Beowulf, assim como com o desenvolvimento do código com vista ao cálculo paralelo e distribuído.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A domótica é uma área com grande interesse e margem de exploração, que pretende alcançar a gestão automática e autónoma de recursos habitacionais, proporcionando um maior conforto aos utilizadores. Para além disso, cada vez mais se procuram incluir benefícios económicos e ambientais neste conceito, por forma a garantir um futuro sustentável. O aquecimento de água (por meios elétricos) é um dos fatores que mais contribui para o consumo de energia total de uma residência. Neste enquadramento surge o tema “algoritmos inteligentes de baixa complexidade”, com origem numa parceria entre o Departamento de Eletrónica, Telecomunicações e Informática (DETI) da Universidade de Aveiro e a Bosch Termotecnologia SA, que visa o desenvolvimento de algoritmos ditos “inteligentes”, isto é, com alguma capacidade de aprendizagem e funcionamento autónomo. Os algoritmos devem ser adaptados a unidades de processamento de 8 bits para equipar pequenos aparelhos domésticos, mais propriamente tanques de aquecimento elétrico de água. Uma porção do desafio está, por isso, relacionada com as restrições computacionais de microcontroladores de 8 bits. No caso específico deste trabalho, foi determinada a existência de sensores de temperatura da água no tanque como a única fonte de informação externa aos algoritmos, juntamente com parâmetros pré-definidos pelo utilizador que estabelecem os limiares de temperatura máxima e mínima da água. Partindo deste princípio, os algoritmos desenvolvidos baseiam-se no perfil de consumo de água quente, observado ao longo de cada semana, para tentar prever futuras tiragens de água e, consequentemente, agir de forma adequada, adiantando ou adiando o aquecimento da água do tanque. O objetivo é alcançar uma gestão vantajosa entre a economia de energia e o conforto do utilizador (água quente), isto sem que exista necessidade de intervenção direta por parte do utilizador final. A solução prevista inclui também o desenvolvimento de um simulador que permite observar, avaliar e comparar o desempenho dos algoritmos desenvolvidos.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Trabalho Final de Mestrado para obtenção do grau de Mestre em Engenharia de Electrónica e Telecomunicações

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La tomographie d’émission par positrons (TEP) est une modalité d’imagerie moléculaire utilisant des radiotraceurs marqués par des isotopes émetteurs de positrons permettant de quantifier et de sonder des processus biologiques et physiologiques. Cette modalité est surtout utilisée actuellement en oncologie, mais elle est aussi utilisée de plus en plus en cardiologie, en neurologie et en pharmacologie. En fait, c’est une modalité qui est intrinsèquement capable d’offrir avec une meilleure sensibilité des informations fonctionnelles sur le métabolisme cellulaire. Les limites de cette modalité sont surtout la faible résolution spatiale et le manque d’exactitude de la quantification. Par ailleurs, afin de dépasser ces limites qui constituent un obstacle pour élargir le champ des applications cliniques de la TEP, les nouveaux systèmes d’acquisition sont équipés d’un grand nombre de petits détecteurs ayant des meilleures performances de détection. La reconstruction de l’image se fait en utilisant les algorithmes stochastiques itératifs mieux adaptés aux acquisitions à faibles statistiques. De ce fait, le temps de reconstruction est devenu trop long pour une utilisation en milieu clinique. Ainsi, pour réduire ce temps, on les données d’acquisition sont compressées et des versions accélérées d’algorithmes stochastiques itératifs qui sont généralement moins exactes sont utilisées. Les performances améliorées par l’augmentation de nombre des détecteurs sont donc limitées par les contraintes de temps de calcul. Afin de sortir de cette boucle et permettre l’utilisation des algorithmes de reconstruction robustes, de nombreux travaux ont été effectués pour accélérer ces algorithmes sur les dispositifs GPU (Graphics Processing Units) de calcul haute performance. Dans ce travail, nous avons rejoint cet effort de la communauté scientifique pour développer et introduire en clinique l’utilisation des algorithmes de reconstruction puissants qui améliorent la résolution spatiale et l’exactitude de la quantification en TEP. Nous avons d’abord travaillé sur le développement des stratégies pour accélérer sur les dispositifs GPU la reconstruction des images TEP à partir des données d’acquisition en mode liste. En fait, le mode liste offre de nombreux avantages par rapport à la reconstruction à partir des sinogrammes, entre autres : il permet d’implanter facilement et avec précision la correction du mouvement et le temps de vol (TOF : Time-Of Flight) pour améliorer l’exactitude de la quantification. Il permet aussi d’utiliser les fonctions de bases spatio-temporelles pour effectuer la reconstruction 4D afin d’estimer les paramètres cinétiques des métabolismes avec exactitude. Cependant, d’une part, l’utilisation de ce mode est très limitée en clinique, et d’autre part, il est surtout utilisé pour estimer la valeur normalisée de captation SUV qui est une grandeur semi-quantitative limitant le caractère fonctionnel de la TEP. Nos contributions sont les suivantes : - Le développement d’une nouvelle stratégie visant à accélérer sur les dispositifs GPU l’algorithme 3D LM-OSEM (List Mode Ordered-Subset Expectation-Maximization), y compris le calcul de la matrice de sensibilité intégrant les facteurs d’atténuation du patient et les coefficients de normalisation des détecteurs. Le temps de calcul obtenu est non seulement compatible avec une utilisation clinique des algorithmes 3D LM-OSEM, mais il permet également d’envisager des reconstructions rapides pour les applications TEP avancées telles que les études dynamiques en temps réel et des reconstructions d’images paramétriques à partir des données d’acquisitions directement. - Le développement et l’implantation sur GPU de l’approche Multigrilles/Multitrames pour accélérer l’algorithme LMEM (List-Mode Expectation-Maximization). L’objectif est de développer une nouvelle stratégie pour accélérer l’algorithme de référence LMEM qui est un algorithme convergent et puissant, mais qui a l’inconvénient de converger très lentement. Les résultats obtenus permettent d’entrevoir des reconstructions en temps quasi-réel que ce soit pour les examens utilisant un grand nombre de données d’acquisition aussi bien que pour les acquisitions dynamiques synchronisées. Par ailleurs, en clinique, la quantification est souvent faite à partir de données d’acquisition en sinogrammes généralement compressés. Mais des travaux antérieurs ont montré que cette approche pour accélérer la reconstruction diminue l’exactitude de la quantification et dégrade la résolution spatiale. Pour cette raison, nous avons parallélisé et implémenté sur GPU l’algorithme AW-LOR-OSEM (Attenuation-Weighted Line-of-Response-OSEM) ; une version de l’algorithme 3D OSEM qui effectue la reconstruction à partir de sinogrammes sans compression de données en intégrant les corrections de l’atténuation et de la normalisation dans les matrices de sensibilité. Nous avons comparé deux approches d’implantation : dans la première, la matrice système (MS) est calculée en temps réel au cours de la reconstruction, tandis que la seconde implantation utilise une MS pré- calculée avec une meilleure exactitude. Les résultats montrent que la première implantation offre une efficacité de calcul environ deux fois meilleure que celle obtenue dans la deuxième implantation. Les temps de reconstruction rapportés sont compatibles avec une utilisation clinique de ces deux stratégies.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

clRNG et clProbdist sont deux interfaces de programmation (APIs) que nous avons développées pour la génération de nombres aléatoires uniformes et non uniformes sur des dispositifs de calculs parallèles en utilisant l’environnement OpenCL. La première interface permet de créer au niveau d’un ordinateur central (hôte) des objets de type stream considérés comme des générateurs virtuels parallèles qui peuvent être utilisés aussi bien sur l’hôte que sur les dispositifs parallèles (unités de traitement graphique, CPU multinoyaux, etc.) pour la génération de séquences de nombres aléatoires. La seconde interface permet aussi de générer au niveau de ces unités des variables aléatoires selon différentes lois de probabilité continues et discrètes. Dans ce mémoire, nous allons rappeler des notions de base sur les générateurs de nombres aléatoires, décrire les systèmes hétérogènes ainsi que les techniques de génération parallèle de nombres aléatoires. Nous présenterons aussi les différents modèles composant l’architecture de l’environnement OpenCL et détaillerons les structures des APIs développées. Nous distinguons pour clRNG les fonctions qui permettent la création des streams, les fonctions qui génèrent les variables aléatoires uniformes ainsi que celles qui manipulent les états des streams. clProbDist contient les fonctions de génération de variables aléatoires non uniformes selon la technique d’inversion ainsi que les fonctions qui permettent de retourner différentes statistiques des lois de distribution implémentées. Nous évaluerons ces interfaces de programmation avec deux simulations qui implémentent un exemple simplifié d’un modèle d’inventaire et un exemple d’une option financière. Enfin, nous fournirons les résultats d’expérimentation sur les performances des générateurs implémentés.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The forms of natural rubber studied were sheet [RSS 4 and RSS 5], ISNR 20 and EBC. In the case of the latter two forms samples from estate and nonestate sectors were included. The samples were collected from different locations at specified intervals, for a particular period. The effect of the extent of mastication on raw rubber properties as well as the properties of the compounds and vulcanizates also studied. The consistency in raw rubber properties and breakdown behavior of skim rubber were studied by collecting samples periodically from selected processing units. The effect of incorporation of skim with ISNR 20 has also been investigated

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The authors compare the performance of two types of controllers one based on the multilayered network and the other based on the single layered CMAC network (cerebellar model articulator controller). The neurons (information processing units) in the multi-layered network use Gaussian activation functions. The control scheme which is considered is a predictive control algorithm, along the lines used by Willis et al. (1991), Kambhampati and Warwick (1991). The process selected as a test bed is a continuous stirred tank reactor. The reaction taking place is an irreversible exothermic reaction in a constant volume reactor cooled by a single coolant stream. This reactor is a simplified version of the first tank in the two tank system given by Henson and Seborg (1989).

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Simulating spiking neural networks is of great interest to scientists wanting to model the functioning of the brain. However, large-scale models are expensive to simulate due to the number and interconnectedness of neurons in the brain. Furthermore, where such simulations are used in an embodied setting, the simulation must be real-time in order to be useful. In this paper we present NeMo, a platform for such simulations which achieves high performance through the use of highly parallel commodity hardware in the form of graphics processing units (GPUs). NeMo makes use of the Izhikevich neuron model which provides a range of realistic spiking dynamics while being computationally efficient. Our GPU kernel can deliver up to 400 million spikes per second. This corresponds to a real-time simulation of around 40 000 neurons under biologically plausible conditions with 1000 synapses per neuron and a mean firing rate of 10 Hz.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The functional networks of cultured neurons exhibit complex network properties similar to those found in vivo. Starting from random seeding, cultures undergo significant reorganization during the initial period in vitro, yet despite providing an ideal platform for observing developmental changes in neuronal connectivity, little is known about how a complex functional network evolves from isolated neurons. In the present study, evolution of functional connectivity was estimated from correlations of spontaneous activity. Network properties were quantified using complex measures from graph theory and used to compare cultures at different stages of development during the first 5 weeks in vitro. Networks obtained from young cultures (14 days in vitro) exhibited a random topology, which evolved to a small-world topology during maturation. The topology change was accompanied by an increased presence of highly connected areas (hubs) and network efficiency increased with age. The small-world topology balances integration of network areas with segregation of specialized processing units. The emergence of such network structure in cultured neurons, despite a lack of external input, points to complex intrinsic biological mechanisms. Moreover, the functional network of cultures at mature ages is efficient and highly suited to complex processing tasks.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Este trabalho tem por objetivo analisar as mudanças no sistema informatizado de orçamentação prévia dos serviços de caldeiraria que são realizados nas paradas de manutenção das unidades de processamento da Refinaria Duque de Caxias da PETROBRAS. Para tal fim, apresenta-se, inicialmente, um breve histórico da legislação que orientou as contratações de serviços na PETROBRAS sob a óptica da exigência de uma orçamentação prévia e a contextualização desta orçamentação no processo de contratação da Refinaria Duque de Caxias. Em seguida, são estudadas as variáveis que influenciam o orçamento dos serviços em análise, inclusive àquelas referentes a tributos e impostos, bem como os sistemas informatizados (atual e anterior) que calculam os preços finais dos serviços. Concluiu-se que o novo sistema informatizado trouxe mmor confiabilidade aos valores encontrados, mas ainda há muito que ser feito nesta área, desde a determinação de índices de produtividade da mão-de-obra até o estudo mais detalhado dos insumos ligados à legislação trabalhista e tributária.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The number of applications based on embedded systems grows significantly every year, even with the fact that embedded systems have restrictions, and simple processing units, the performance of these has improved every day. However the complexity of applications also increase, a better performance will always be necessary. So even such advances, there are cases, which an embedded system with a single unit of processing is not sufficient to achieve the information processing in real time. To improve the performance of these systems, an implementation with parallel processing can be used in more complex applications that require high performance. The idea is to move beyond applications that already use embedded systems, exploring the use of a set of units processing working together to implement an intelligent algorithm. The number of existing works in the areas of parallel processing, systems intelligent and embedded systems is wide. However works that link these three areas to solve any problem are reduced. In this context, this work aimed to use tools available for FPGA architectures, to develop a platform with multiple processors to use in pattern classification with artificial neural networks

Relevância:

80.00% 80.00%

Publicador:

Resumo:

As unidades de beneficiamento de macadâmia adotam silos secadores distintos, para cada etapa de secagem, a fim de garantir a manutenção da qualidade do produto pela redução da umidade a níveis desejáveis. Diante da necessidade de quantificar a resistência apresentada pelas nozes, submetidas a diferentes fluxos de ar durante a secagem, bem como avaliar a possibilidade de utilização de modelos empíricos, que estimem o gradiente de pressão a partir da vazão de ar, conduziram-se vários testes em laboratório para obtenção de dados experimentais e ajuste de modelos. Frutos de macadâmia (M. integrifolia), com umidade de 0,11 b.s., após limpeza e classificação, foram colocados no interior de um protótipo constituído por uma coluna de chapa galvanizada (com tomadas para medição da pressão estática), plenum e ventilador, sendo submetidos a diferentes fluxos de ar. Os testes consistiram de três medidas por profundidade, para cada um dos três lotes de nozes, perfazendo um total de nove medidas de pressão estática por profundidade na coluna. Os resultados obtidos permitiram concluir que os fluxos de ar testados apresentaram efeito significativo sobre a queda de pressão estática na coluna de macadâmia, a qual aumentou linearmente com a profundidade. Os dados experimentais ajustaram-se muito bem aos modelos de Shedd e Hunter, sugerindo sua boa aplicabilidade para a macadâmia.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A serious problem that affects an oil refinery s processing units is the deposition of solid particles or the fouling on the equipments. These residues are naturally present on the oil or are by-products of chemical reactions during its transport. A fouled heat exchanger loses its capacity to adequately heat the oil, needing to be shut down periodically for cleaning. Previous knowledge of the best period to shut down the exchanger may improve the energetic and production efficiency of the plant. In this work we develop a system to predict the fouling on a heat exchanger from the Potiguar Clara Camarão Refinery, based on data collected in a partnership with Petrobras. Recurrent Neural Networks are used to predict the heat exchanger s flow in future time. This variable is the main indicator of fouling, because its value decreases gradually as the deposits on the tubes reduce their diameter. The prediction could be used to tell when the flow will have decreased under an acceptable value, indicating when the exchanger shutdown for cleaning will be needed

Relevância:

80.00% 80.00%

Publicador:

Resumo:

During production of oil and gas, there is also the production of an aqueous effluent called produced water. This byproduct has in its composition salts, organic compounds, gases and heavy metals. This research aimed to evaluate the integration of processes Induced Air Flotation (IAF) and photo-Fenton for reducing the Total Oils and Greases (TOG) present in produced water. Experiments were performed with synthetic wastewater prepared from the dispersion of crude oil in saline solution. The system was stirred for 25 min at 33,000 rpm and then allowed to stand for 50 min to allow free oil separation. The initial oil concentration in synthetic wastewater was 300 ppm and 35 ppm for the flotation and the photo-Fenton steps, respectively. These values of initial oil concentration were established based on average values of primary processing units in Potiguar Basin. The processes were studied individually and then the integration was performed considering the best experimental conditions found in each individual step. The separation by flotation showed high removal rate of oil with first-order kinetic behavior. The flotation kinetics was dependent on both the concentration and the hydrophilic-lipophilic balance (HLB) of the surfactant. The best result was obtained for the concentration of 4.06.10-3 mM (k = 0.7719 min-1) of surfactant EO 2, which represents 86% of reduction in TOG after 4 min. For series of surfactants evaluated, the separation efficiency was found to be improved by the use of surfactants with low HLB. Regarding the TOG reduction step by photo-Fenton, the largest oil removal reached was 84% after 45 min of reaction, using 0.44 mM and 10 mM of ferrous ions and hydrogen peroxide, respectively. The best experimental conditions encountered in the integrated process was 10 min of flotation followed by 45 min of photo-Fenton with overall TOG reduction of 99%, which represents 5 ppm of TOG in the treated effluent. The integration of processes flotation and photo-Fenton proved to be highly effective in reducing TOG of produced water in oilfields