181 resultados para GPU


Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper presents the implementation of a high quality real-time 3D video system intended for 3D videoconferencing -- Basically, the system is able to extract depth information from a pair of images coming from a short-baseline camera setup -- The system is based on the use of a variant of the adaptive support-weight algorithm to be applied on GPU-based architectures -- The reason to do it is to get real-time results without compromising accuracy and also to reduce costs by using commodity hardware -- The complete system runs over the GStreamer multimedia software platform to make it even more flexible -- Moreover, an autoestereoscopic display has been used as the end-up terminal for 3D content visualization

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En esta tesis doctoral se exponen los fundamentos teóricos necesarios en el diseño de esquemas numéricos de volúmenes finitos para sistemas hiperbólicos no conservativos de una y dos dimensiones. Para el caso unidimensional se repasan los conceptos de esquema camino-conservativo y esquema bien equilibrado, así como la extensión de los esquemas numéricos a alto orden, basados en la reconstrucción de estados. En particular, se presentan los esquemas de tipo PVM (Polynomial Viscosity Matrix), así como diversos esquemas de limitadores de flujo que resultan de la extensión natural del método WAF, utilizando como base algunos esquemas de tipo PVM. Para el caso bidimensional se aborda el diseño de esquemas numéricos camino-conservativos y bien equilibrados de volúmenes finitos para sistemas hiperbólicos no conservativos y su extensión a alto orden, en particular se presenta una reconstrucción de estados de tercer orden compacta y que resulta de la combinación WENO de paraboloides y planos. 
 Se presenta además el desarrollo de métodos numéricos para el sistema de aguas someras bidimensional de una capa. En particular se definen esquemas de primer orden de tipo HLL y FORCE y su extensión a alto orden, un método de limitadores de flujo basado en el esquema HLL-WAF, así como su implementación en arquitecturas de tipo GPU, usando el entorno de programación CUDA. A continuación, se presenta un esquema numérico de orden uno para el sistema de aguas someras de una capa bidimensional en coordenadas esféricas (longitud/latitud), así como la extensión natural del método de limitadores de flujo presentado en el Capítulo 3 a este sistema. Finalmente, se presenta la validación del esquema de limitadores de flujo mediante la simulación de tsunamis reales, y la comparación con datos de campo.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

After a decade evolving in the High Performance Computing arena, GPU-equipped supercomputers have con- quered the top500 and green500 lists, providing us unprecedented levels of computational power and memory bandwidth. This year, major vendors have introduced new accelerators based on 3D memory, like Xeon Phi Knights Landing by Intel and Pascal architecture by Nvidia. This paper reviews hardware features of those new HPC accelerators and unveils potential performance for scientific applications, with an emphasis on Hybrid Memory Cube (HMC) and High Bandwidth Memory (HBM) used by commercial products according to roadmaps already announced.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Image and video compression play a major role in the world today, allowing the storage and transmission of large multimedia content volumes. However, the processing of this information requires high computational resources, hence the improvement of the computational performance of these compression algorithms is very important. The Multidimensional Multiscale Parser (MMP) is a pattern-matching-based compression algorithm for multimedia contents, namely images, achieving high compression ratios, maintaining good image quality, Rodrigues et al. [2008]. However, in comparison with other existing algorithms, this algorithm takes some time to execute. Therefore, two parallel implementations for GPUs were proposed by Ribeiro [2016] and Silva [2015] in CUDA and OpenCL-GPU, respectively. In this dissertation, to complement the referred work, we propose two parallel versions that run the MMP algorithm in CPU: one resorting to OpenMP and another that converts the existing OpenCL-GPU into OpenCL-CPU. The proposed solutions are able to improve the computational performance of MMP by 3 and 2:7 , respectively. The High Efficiency Video Coding (HEVC/H.265) is the most recent standard for compression of image and video. Its impressive compression performance, makes it a target for many adaptations, particularly for holoscopic image/video processing (or light field). Some of the proposed modifications to encode this new multimedia content are based on geometry-based disparity compensations (SS), developed by Conti et al. [2014], and a Geometric Transformations (GT) module, proposed by Monteiro et al. [2015]. These compression algorithms for holoscopic images based on HEVC present an implementation of specific search for similar micro-images that is more efficient than the one performed by HEVC, but its implementation is considerably slower than HEVC. In order to enable better execution times, we choose to use the OpenCL API as the GPU enabling language in order to increase the module performance. With its most costly setting, we are able to reduce the GT module execution time from 6.9 days to less then 4 hours, effectively attaining a speedup of 45 .

Relevância:

10.00% 10.00%

Publicador:

Resumo:

String searching within a large corpus of data is an important component of digital forensic (DF) analysis techniques such as file carving. The continuing increase in capacity of consumer storage devices requires corresponding im-provements to the performance of string searching techniques. As string search-ing is a trivially-parallelisable problem, GPGPU approaches are a natural fit – but previous studies have found that local storage presents an insurmountable performance bottleneck. We show that this need not be the case with modern hardware, and demonstrate substantial performance improvements from the use of single and multiple GPUs when searching for strings within a typical forensic disk image.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Fully articulated hand tracking promises to enable fundamentally new interactions with virtual and augmented worlds, but the limited accuracy and efficiency of current systems has prevented widespread adoption. Today's dominant paradigm uses machine learning for initialization and recovery followed by iterative model-fitting optimization to achieve a detailed pose fit. We follow this paradigm, but make several changes to the model-fitting, namely using: (1) a more discriminative objective function; (2) a smooth-surface model that provides gradients for non-linear optimization; and (3) joint optimization over both the model pose and the correspondences between observed data points and the model surface. While each of these changes may actually increase the cost per fitting iteration, we find a compensating decrease in the number of iterations. Further, the wide basin of convergence means that fewer starting points are needed for successful model fitting. Our system runs in real-time on CPU only, which frees up the commonly over-burdened GPU for experience designers. The hand tracker is efficient enough to run on low-power devices such as tablets. We can track up to several meters from the camera to provide a large working volume for interaction, even using the noisy data from current-generation depth cameras. Quantitative assessments on standard datasets show that the new approach exceeds the state of the art in accuracy. Qualitative results take the form of live recordings of a range of interactive experiences enabled by this new approach.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Solving a complex Constraint Satisfaction Problem (CSP) is a computationally hard task which may require a considerable amount of time. Parallelism has been applied successfully to the job and there are already many applications capable of harnessing the parallel power of modern CPUs to speed up the solving process. Current Graphics Processing Units (GPUs), containing from a few hundred to a few thousand cores, possess a level of parallelism that surpasses that of CPUs and there are much less applications capable of solving CSPs on GPUs, leaving space for further improvement. This paper describes work in progress in the solving of CSPs on GPUs, CPUs and other devices, such as Intel Many Integrated Cores (MICs), in parallel. It presents the gains obtained when applying more devices to solve some problems and the main challenges that must be faced when using devices with as different architectures as CPUs and GPUs, with a greater focus on how to effectively achieve good load balancing between such heterogeneous devices.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

To reduce the amount of time needed to solve the most complex Constraint Satisfaction Problems (CSPs) usually multi-core CPUs are used. There are already many applications capable of harnessing the parallel power of these devices to speed up the CSPs solving process. Nowadays, the Graphics Processing Units (GPUs) possess a level of parallelism that surpass the CPUs, containing from a few hundred to a few thousand cores and there are much less applications capable of solving CSPs on GPUs, leaving space for possible improvements. This article describes the work in progress for solving CSPs on GPUs and CPUs and compares results with some state-of-the-art solvers, presenting already some good results on GPUs.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Safe collaboration between a robot and human operator forms a critical requirement for deploying a robotic system into a manufacturing and testing environment. In this dissertation, the safety requirement for is developed and implemented for the navigation system of the mobile manipulators. A methodology for human-robot co-existence through a 3d scene analysis is also investigated. The proposed approach exploits the advance in computing capability by relying on graphic processing units (GPU’s) for volumetric predictive human-robot contact checking. Apart from guaranteeing safety of operators, human-robot collaboration is also fundamental when cooperative activities are required, as in appliance test automation floor. To achieve this, a generalized hierarchical task controller scheme for collision avoidance is developed. This allows the robotic arm to safely approach and inspect the interior of the appliance without collision during the testing procedure. The unpredictable presence of the operators also forms dynamic obstacle that changes very fast, thereby requiring a quick reaction from the robot side. In this aspect, a GPU-accelarated distance field is computed to speed up reaction time to avoid collision between human operator and the robot. An automated appliance testing also involves robotized laundry loading and unloading during life cycle testing. This task involves Laundry detection, grasp pose estimation and manipulation in a container, inside the drum and during recovery grasping. A wrinkle and blob detection algorithms for grasp pose estimation are developed and grasp poses are calculated along the wrinkle and blobs to efficiently perform grasping task. By ranking the estimated laundry grasp poses according to a predefined cost function, the robotic arm attempt to grasp poses that are more comfortable from the robot kinematic side as well as collision free on the appliance side. This is achieved through appliance detection and full-model registration and collision free trajectory execution using online collision avoidance.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

We start in Chapter 2 to investigate linear matrix-valued SDEs and the Itô-stochastic Magnus expansion. The Itô-stochastic Magnus expansion provides an efficient numerical scheme to solve matrix-valued SDEs. We show convergence of the expansion up to a stopping time τ and provide an asymptotic estimate of the cumulative distribution function of τ. Moreover, we show how to apply it to solve SPDEs with one and two spatial dimensions by combining it with the method of lines with high accuracy. We will see that the Magnus expansion allows us to use GPU techniques leading to major performance improvements compared to a standard Euler-Maruyama scheme. In Chapter 3, we study a short-rate model in a Cox-Ingersoll-Ross (CIR) framework for negative interest rates. We define the short rate as the difference of two independent CIR processes and add a deterministic shift to guarantee a perfect fit to the market term structure. We show how to use the Gram-Charlier expansion to efficiently calibrate the model to the market swaption surface and price Bermudan swaptions with good accuracy. We are taking two different perspectives for rating transition modelling. In Section 4.4, we study inhomogeneous continuous-time Markov chains (ICTMC) as a candidate for a rating model with deterministic rating transitions. We extend this model by taking a Lie group perspective in Section 4.5, to allow for stochastic rating transitions. In both cases, we will compare the most popular choices for a change of measure technique and show how to efficiently calibrate both models to the available historical rating data and market default probabilities. At the very end, we apply the techniques shown in this thesis to minimize the collateral-inclusive Credit/ Debit Valuation Adjustments under the constraint of small collateral postings by using a collateral account dependent on rating trigger.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The cation chloride cotransporters (CCCs) represent a vital family of ion transporters, with several members implicated in significant neurological disorders. Specifically, conditions such as cerebrospinal fluid accumulation, epilepsy, Down’s syndrome, Asperger’s syndrome, and certain cancers have been attributed to various CCCs. This thesis delves into these pharmacological targets using advanced computational methodologies. I primarily employed GPU-accelerated all-atom molecular dynamics simulations, deep learning-based collective variables, enhanced sampling methods, and custom Python scripts for comprehensive simulation analyses. Our research predominantly centered on KCC1 and NKCC1 transporters. For KCC1, I examined its equilibrium dynamics in the presence/absence of an inhibitor and assessed the functional implications of different ion loading states. In contrast, our work on NKCC1 revealed its unique alternating access mechanism, termed the rocking-bundle mechanism. I identified a previously unobserved occluded state and demonstrated the transporter's potential for water permeability under specific conditions. Furthermore, I confirmed the actual water flow through its permeable states. In essence, this thesis leverages cutting-edge computational techniques to deepen our understanding of the CCCs, a family of ion transporters with profound clinical significance.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La ricostruzione delle traiettorie delle particelle prodotte dai vertici di interazione a LHC è di fondamentale importanza per tutti gli esperimenti. Questo passo è uno dei più dispendiosi in termini di tempo e calcolo computazionale nella catena di ricostruzione dell’evento e diventa sempre più complesso con l’aumentare del numero di collisioni. L’esperimento CMS adotta un rivelatore di tracciamento con tecnologia al silicio, dove la parte più interna sfrutta rivelatori con geometria a pixel, mentre la parte esterna utilizza delle strisce di silicio. Per quanto riguarda la ricostruzione nel rivelatore a pixel, sono stati sviluppati diversi algoritmi ottimizzati per fronteggiare l’alto rate di acquisizione dati, sfruttando anche il calcolo parallelo su GPU, con un’efficienza di tracciamento comparabile o superiore agli algoritmi precedentemente utilizzati. Questi nuovi algoritmi sono alla base del software Patatrack per la ricostruzione delle traiettorie. Il lavoro descritto in questa tesi punta ad adattare Patatrack ad una geometria diversa e più complessa di quella di CMS e di valutarne le prestazioni di fisica e computazionali. Sono stati utilizzati i dati forniti dalla TrackML challenge, il cui scopo è incentivare lo sviluppo di nuovi algoritmi di ricostruzione di tracce per gli esperimenti in fisica delle alte energie. E' stato condotto uno studio approfondito della nuova geometria per potervi successivamente adattare il software esistente. Infine, la catena di ricostruzione è stata modificata per poter utilizzare i dati forniti dalla TrackML challenge e permettere la ricostruzione delle traiettorie.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Il cancro è un processo autosufficiente e adattivo che interagisce dinamicamente con il suo microambiente, la cui diagnosi, complessa e dispendiosa in termini di tempo e numero di specialisti impiegati, viene solitamente effettuata valutando l’imaging radiografico oppure effettuando un esame istologico. L'interpretazione di tali immagini risulta generalmente molto complessa, a questo scopo sarebbe molto utile poter addestrare un computer a comprendere tali immagini potendo di fatto affiancarsi allo specialista, senza sostituirlo, al momento della diagnosi. A questo scopo è possibile affidarsi alle tecniche di apprendimento automatico, sistema alla base dell’intelligenza artificiale (AI), le quali permettono di fatto di apprendere automaticamente la rappresentazione delle caratteristiche da immagini campione. Tali tecniche di intelligenza artificiale, hanno però bisogno, per essere addestrate, di grandi quantità di dati in cui il segnale di uscita desiderato è noto, comportando di fatto un aumento delle tempistiche di addestramento. Inoltre, in ambito sanitario, i dati sono distribuiti su più archivi, dislocati sul territorio nazionale, rendendo impossibile l’utilizzo di soluzioni centralizzate. L’obbiettivo di questa trattazione sarà cercare di trovare una soluzione a queste due problematiche, ricorrendo all’utilizzo delle tecniche di parallelizzazione. A seguito dell'introduzione dello scenario biologico e delle tecniche di diagnostica ad esso associato è presentato il percorso di creazione della rete neurale. A seguito del suo addestramento sulla GPU di una singola macchina, ottenendo un'accuratezza dell'83.94% in 5 ore 48 minuti e 43 secondi, è stata introdotto la parallelizzazione ed una sua implementazione. In conclusione, sfruttando il sistema implementato, è stata distribuita la fase di addestramento prima su due macchine e poi su tre, ottenendo una diminuzione del tempo di addestramento rispettivamente del 31.4% e del 50%.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Il mondo della moda è in continua e costante evoluzione, non solo dal punto di vista sociale, ma anche da quello tecnologico. Nel corso del presente elaborato si è studiata la possibilità di riconoscere e segmentare abiti presenti in una immagine utilizzando reti neurali profonde e approcci moderni. Sono state, quindi, analizzate reti quali FasterRCNN, MaskRCNN, YOLOv5, FashionPedia e Match-RCNN. In seguito si è approfondito l’addestramento delle reti neurali profonde in scenari di alta parallelizzazione e su macchine dotate di molteplici GPU al fine di ridurre i tempi di addestramento. Inoltre si è sperimentata la possibilità di creare una rete per prevedere se un determinato abito possa avere successo in futuro analizzando semplicemente dati passati e una immagine del vestito in questione. Necessaria per tali compiti è stata, inoltre, una approfondita analisi dei dataset esistenti nel mondo della moda e dei metodi per utilizzarli per l’addestramento. Il presente elaborato è stato svolto nell’ambito del progetto FA.RE.TRA. per il quale l'Università di Bologna svolge un compito di consulenza per lo studio di fattibilità su reti neurali in grado di svolgere i compiti menzionati.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Gli sforzi di ricerca relativi all'High Performance Computing, nel corso degli anni, hanno prodotto risultati importanti inerenti all'incremento delle prestazioni sia in termini di numero di operazioni effettuate per periodo temporale, sia introducendo o migliorando algoritmi paralleli presenti in letteratura. Tali traguardi hanno comportato cambiamenti alla struttura interna delle macchine; si è assistito infatti ad un'evoluzione delle architetture dei processori utilizzati e all'impiego di GPU come risorse di calcolo aggiuntive. La conseguenza di un continuo incremento di prestazioni è quella di dover far fronte ad un grosso dispendio energetico, in quanto le macchine impiegate nell'HPC sono ideate per effettuare un'intensa attività di calcolo in un periodo di tempo molto prolungato; l'energia necessaria per alimentare ciascun nodo e dissipare il calore generato comporta costi elevati. Tra le varie soluzioni proposte per limitare il consumo di energia, quella che ha riscosso maggior interesse, sia a livello di studio che di mercato, è stata l'integrazione di CPU di tipologia RISC (Reduced Instruction Set Computer), in quanto capaci di ottenere prestazioni soddisfacenti con un impiego energetico inferiore rispetto alle CPU CISC (Complex Instruction Set Computer). In questa tesi è presentata l'analisi delle prestazioni di Monte Cimone, un cluster composto da 8 nodi di calcolo basati su architettura RISC-V e distribuiti in 4 piattaforme (\emph{blade}) dual-board. Verranno eseguiti dei benchmark che ci permetteranno di valutare: le prestazioni dello scambio di dati a lunga e corta distanza; le prestazioni nella risoluzione di problemi che presentano un principio di località spaziale ridotto; le prestazioni nella risoluzione di problemi su grafi e, nello specifico, ricerca in ampiezza e cammini minimi da sorgente singola.