Dependable decentralized storage management for cloud computing


Autoria(s): Paulo, João Tiago Medeiros
Contribuinte(s)

Pereira, José Orlando

Data(s)

08/05/2015

Resumo

The MAP-i Doctoral Program of the Universities of Minho, Aveiro and Porto.

The volume of worldwide digital information is growing and will continue to grow at an impressive rate. Storage deduplication is accepted as valuable technique for handling such data explosion. Namely, by eliminating unnecessary duplicate content from storage systems, both hardware and storage management costs can be improved. Nowadays, this technique is applied to distinct storage types and, it is increasingly desired in cloud computing infrastructures, where a significant portion of worldwide data is stored. However, designing a deduplication system for cloud infrastructures is a complex task, as duplicates must be found and eliminated across a distributed cluster that supports virtual machines and applications with strict storage performance requirements. The core of this dissertation addresses precisely the challenges of cloud infrastructures deduplication. We start by surveying and comparing the existing deduplication systems and the distinct storage environments targeted by them. This discussion is missing in the literature and it is important for understanding the novel issues that must be addressed by cloud deduplication systems. Then, as our main contribution, we introduce our own deduplication system that eliminates duplicates across virtual machine volumes in a distributed cloud infrastructure. Redundant content is found and removed in a cluster-wide fashion while having a negligible impact in the performance of applications using the deduplicated volumes. Our prototype is evaluated in a real distributed setting with a benchmark suited for deduplication systems, which is also a contribution of this dissertation.

O volume de informação digital mundial está a crescer a uma taxa impressionante. A deduplicação de sistemas de armazenamento' é aceite como uma técnica valiosa para gerir esta explosão de dados, dado que ao eliminar o conteúdo duplicado é possível reduzir ambos os custos físicos e de gestão destes sistemas. Atualmente, esta técnica é aplicada a diversos tipos de armazenamento e é cada vez mais desejada em infraestruturas de computação em nuvem, onde é guardada uma parte considerável dos dados gerados mundialmente. Porém, conceber um sistema de deduplicação para computação em nuvem não é fácil, visto que os dados duplicados têm de ser eliminados numa infraestrutura distribuída onde estão a correr máquinas virtuais e aplicações com requisitos estritos de desempenho. Esta dissertação foca estes desafios. Em primeiro lugar, analisamos e comparamos os sistemas de deduplicação existentes e os diferentes ambientes de armazenamento abordados por estes. Esta discussão permite compreender quais os desafios enfrentados pelos sistemas de deduplicação de computação em nuvem. Como contribuição principal, introduzimos o nosso próprio sistema que elimina dados duplicados entre volumes de máquinas virtuais numa infraestrutura de computação em nuvem distribuída. O conteúdo redundante é removido abrangendo toda a infraestrutura e de forma a introduzir um impacto mínimo no desempenho dos volumes deduplicados. O nosso protótipo é avaliado experimentalmente num cenário distribuído real e com uma ferramenta de avaliação apropriada para este tipo de sistemas, a qual é também uma contribuição desta dissertação.

Fundação para a Ciência e Tecnologia (FCT) bolsa de doutoramento SFRH/BD/71372/2010.

Identificador

http://hdl.handle.net/1822/38462

101397100

Idioma(s)

eng

Direitos

info:eu-repo/semantics/openAccess

Tipo

info:eu-repo/semantics/doctoralThesis