6 resultados para Large Data Sets
em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha
Resumo:
Data sets describing the state of the earth's atmosphere are of great importance in the atmospheric sciences. Over the last decades, the quality and sheer amount of the available data increased significantly, resulting in a rising demand for new tools capable of handling and analysing these large, multidimensional sets of atmospheric data. The interdisciplinary work presented in this thesis covers the development and the application of practical software tools and efficient algorithms from the field of computer science, aiming at the goal of enabling atmospheric scientists to analyse and to gain new insights from these large data sets. For this purpose, our tools combine novel techniques with well-established methods from different areas such as scientific visualization and data segmentation. In this thesis, three practical tools are presented. Two of these tools are software systems (Insight and IWAL) for different types of processing and interactive visualization of data, the third tool is an efficient algorithm for data segmentation implemented as part of Insight.Insight is a toolkit for the interactive, three-dimensional visualization and processing of large sets of atmospheric data, originally developed as a testing environment for the novel segmentation algorithm. It provides a dynamic system for combining at runtime data from different sources, a variety of different data processing algorithms, and several visualization techniques. Its modular architecture and flexible scripting support led to additional applications of the software, from which two examples are presented: the usage of Insight as a WMS (web map service) server, and the automatic production of a sequence of images for the visualization of cyclone simulations. The core application of Insight is the provision of the novel segmentation algorithm for the efficient detection and tracking of 3D features in large sets of atmospheric data, as well as for the precise localization of the occurring genesis, lysis, merging and splitting events. Data segmentation usually leads to a significant reduction of the size of the considered data. This enables a practical visualization of the data, statistical analyses of the features and their events, and the manual or automatic detection of interesting situations for subsequent detailed investigation. The concepts of the novel algorithm, its technical realization, and several extensions for avoiding under- and over-segmentation are discussed. As example applications, this thesis covers the setup and the results of the segmentation of upper-tropospheric jet streams and cyclones as full 3D objects. Finally, IWAL is presented, which is a web application for providing an easy interactive access to meteorological data visualizations, primarily aimed at students. As a web application, the needs to retrieve all input data sets and to install and handle complex visualization tools on a local machine are avoided. The main challenge in the provision of customizable visualizations to large numbers of simultaneous users was to find an acceptable trade-off between the available visualization options and the performance of the application. Besides the implementational details, benchmarks and the results of a user survey are presented.
Resumo:
Coupled-cluster theory provides one of the most successful concepts in electronic-structure theory. This work covers the parallelization of coupled-cluster energies, gradients, and second derivatives and its application to selected large-scale chemical problems, beside the more practical aspects such as the publication and support of the quantum-chemistry package ACES II MAB and the design and development of a computational environment optimized for coupled-cluster calculations. The main objective of this thesis was to extend the range of applicability of coupled-cluster models to larger molecular systems and their properties and therefore to bring large-scale coupled-cluster calculations into day-to-day routine of computational chemistry. A straightforward strategy for the parallelization of CCSD and CCSD(T) energies, gradients, and second derivatives has been outlined and implemented for closed-shell and open-shell references. Starting from the highly efficient serial implementation of the ACES II MAB computer code an adaptation for affordable workstation clusters has been obtained by parallelizing the most time-consuming steps of the algorithms. Benchmark calculations for systems with up to 1300 basis functions and the presented applications show that the resulting algorithm for energies, gradients and second derivatives at the CCSD and CCSD(T) level of theory exhibits good scaling with the number of processors and substantially extends the range of applicability. Within the framework of the ’High accuracy Extrapolated Ab initio Thermochemistry’ (HEAT) protocols effects of increased basis-set size and higher excitations in the coupled- cluster expansion were investigated. The HEAT scheme was generalized for molecules containing second-row atoms in the case of vinyl chloride. This allowed the different experimental reported values to be discriminated. In the case of the benzene molecule it was shown that even for molecules of this size chemical accuracy can be achieved. Near-quantitative agreement with experiment (about 2 ppm deviation) for the prediction of fluorine-19 nuclear magnetic shielding constants can be achieved by employing the CCSD(T) model together with large basis sets at accurate equilibrium geometries if vibrational averaging and temperature corrections via second-order vibrational perturbation theory are considered. Applying a very similar level of theory for the calculation of the carbon-13 NMR chemical shifts of benzene resulted in quantitative agreement with experimental gas-phase data. The NMR chemical shift study for the bridgehead 1-adamantyl cation at the CCSD(T) level resolved earlier discrepancies of lower-level theoretical treatment. The equilibrium structure of diacetylene has been determined based on the combination of experimental rotational constants of thirteen isotopic species and zero-point vibrational corrections calculated at various quantum-chemical levels. These empirical equilibrium structures agree to within 0.1 pm irrespective of the theoretical level employed. High-level quantum-chemical calculations on the hyperfine structure parameters of the cyanopolyynes were found to be in excellent agreement with experiment. Finally, the theoretically most accurate determination of the molecular equilibrium structure of ferrocene to date is presented.
Resumo:
Data deduplication describes a class of approaches that reduce the storage capacity needed to store data or the amount of data that has to be transferred over a network. These approaches detect coarse-grained redundancies within a data set, e.g. a file system, and remove them.rnrnOne of the most important applications of data deduplication are backup storage systems where these approaches are able to reduce the storage requirements to a small fraction of the logical backup data size.rnThis thesis introduces multiple new extensions of so-called fingerprinting-based data deduplication. It starts with the presentation of a novel system design, which allows using a cluster of servers to perform exact data deduplication with small chunks in a scalable way.rnrnAfterwards, a combination of compression approaches for an important, but often over- looked, data structure in data deduplication systems, so called block and file recipes, is introduced. Using these compression approaches that exploit unique properties of data deduplication systems, the size of these recipes can be reduced by more than 92% in all investigated data sets. As file recipes can occupy a significant fraction of the overall storage capacity of data deduplication systems, the compression enables significant savings.rnrnA technique to increase the write throughput of data deduplication systems, based on the aforementioned block and file recipes, is introduced next. The novel Block Locality Caching (BLC) uses properties of block and file recipes to overcome the chunk lookup disk bottleneck of data deduplication systems. This chunk lookup disk bottleneck either limits the scalability or the throughput of data deduplication systems. The presented BLC overcomes the disk bottleneck more efficiently than existing approaches. Furthermore, it is shown that it is less prone to aging effects.rnrnFinally, it is investigated if large HPC storage systems inhibit redundancies that can be found by fingerprinting-based data deduplication. Over 3 PB of HPC storage data from different data sets have been analyzed. In most data sets, between 20 and 30% of the data can be classified as redundant. According to these results, future work in HPC storage systems should further investigate how data deduplication can be integrated into future HPC storage systems.rnrnThis thesis presents important novel work in different area of data deduplication re- search.
Resumo:
The two Mars Exploration Rovers (MER), Spirit and Opportunity, landed on the Martian surface in January 2004 and have since collected a wealth of information about their landing sites. As part of their payload, the miniaturised Mössbauer spectrometer MIMOS II contributes to the success of the mission by identifying Iron-bearing minerals and by determining Iron oxidation states in them. The basis of this work is the data set obtained at Opportunity’s landing site at Meridiani Planum. A portion of this data set is evaluated with different methods, with the aim to thoroughly characterize lithologic components at Meridiani Planum and possible relations between them.rnMIMOS II is able to measure Mössbauer spectra at different energies simultaneously, bearing information from different sampling depths of the investigated target. The ability of depth-selective Mössbauer spectroscopy to characterize weathered surface layers is illustrated through its application to two suitable rock targets that were investigated on Mars. In both cases, an enhanced concentration of Iron oxides at the rock surface was detected, pointing to a low degree of aqueous alteration. rnThe mineral hematite (α-Fe2O3) is present in the matrix of outcrop rocks and in spherules weathering from the outcrop. Simultaneous fitting of Mössbauer spectra was applied to data sets obtained on both target types to characterize the hematite component in detail. This approach reveals that two hematite populations are present, both in the outcrop matrix as well as in spherules. The hematite component with a comparably high degree of crystallinity and/or chemical purity is present in the outcrop matrix. The investigation of hematite at Meridiani Planum has shown that simultaneous fitting is a suitable and useful method to evaluate a large, correlated set of Mössbauer spectra.rnOpportunity encountered loose, cm-sized rocks along its traverse. Based on their composition and texture, these “cobbles” can be divided into three different groups. Outcrop fragments are impact-derived ejecta from local outcrop rocks. Cobbles of meteoritic origin contain the minerals kamacite (Fe,Ni) and troilite (FeS) and exhibit high Ni contents. Melt-bearing impact breccias bear similarities to local outcrop rocks and basaltic soil, with a phase composition and texture consistent with a formation scenario involving partial melting and inclusion of small, bright outcrop clasts. rnIron meteorites on the Martian surface experience weathering through the presence of even trace amounts of water due to their metallic nature. Opportunity encountered and investigated four Iron meteorites, which exhibit evidence for physical and chemical weathering. Discontinuous coatings contain Iron oxides, pointing to the influence of limited amounts of water. rnA terrestrial analogue site for Meridiani Planum is the Rio Tinto basin in south-west Spain. With its deposits of sulfate- and iron-oxide-bearing minerals, the region provides an adequate test bed for instrumentation for future Mars missions. In-situ investigations at Rio Tinto were carried out with a special focus on the combined use of Mössbauer spectroscopy with MIMOS II and Raman spectroscopy with a field-portable instrument. The results demonstrate that the two instruments provide complementary information about investigated samples.
Resumo:
Erkrankungen des Skelettapparats wie beispielsweise die Osteoporose oder Arthrose gehören neben den Herz-Kreislauferkrankungen und Tumoren zu den Häufigsten Erkrankungen des Menschen. Ein besseres Verständnis der Bildung und des Erhalts von Knochen- oder Knorpelgewebe ist deshalb von besonderer Bedeutung. Viele bisherige Ansätze zur Identifizierung hierfür relevanter Gene, deren Produkte und Interaktionen beruhen auf der Untersuchung pathologischer Situationen. Daher ist die Funktion vieler Gene nur im Zusammenhang mit Krankheiten beschrieben. Untersuchungen, die die Genaktivität bei der Normalentwicklung von knochen- und knorpelbildenden Geweben zum Ziel haben, sind dagegen weit weniger oft durchgeführt worden. rnEines der entwicklungsphysiologisch interessantesten Gewebe ist die Epiphysenfuge der Röhrenknochen. In dieser sogenannten Wachstumsfuge ist insbesondere beim fötalen Gewebe eine sehr hohe Aktivität derjenigen Gene zu erwarten, die an der Knochen- und Knorpelbildung beteiligt sind. In der vorliegenden Arbeit wurde daher aus der Epiphysenfuge von Kälberknochen RNA isoliert und eine cDNA-Bibliothek konstruiert. Von dieser wurden ca. 4000 Klone im Rahmen eines klassischen EST-Projekts sequenziert. Durch die Analyse konnte ein ungefähr 900 Gene umfassendes Expressionsprofil erstellt werden und viele Transkripte für Komponenten der regulatorischen und strukturbildenden Bestandteile der Knochen- und Knorpelentwicklung identifiziert werden. Neben den typischen Genen für Komponenten der Knochenentwicklung sind auch deutlich Bestandteile für embryonale Entwicklungsprozesse vertreten. Zu ersten gehören in erster Linie die Kollagene, allen voran Kollagen II alpha 1, das mit Abstand höchst exprimierte Gen in der fötalen Wachstumsfuge. Nach den ribosomalen Proteinen stellen die Kollagene mit ca. 10 % aller auswertbaren Sequenzen die zweitgrößte Gengruppe im erstellten Expressionsprofil dar. Proteoglykane und andere niedrig exprimierte regulatorische Elemente, wie Transkriptionsfaktoren, konnten im EST-Projekt aufgrund der geringen Abdeckung nur in sehr geringer Kopienzahl gefunden werden. Allerdings förderte die EST-Analyse mehrere interessante, bisher nicht bekannte Transkripte zutage, die detaillierter untersucht wurden. Dazu gehören Transkripte die, die dem LOC618319 zugeordnet werden konnten. Neben den bisher beschriebenen drei Exonbereichen konnte ein weiteres Exon im 3‘-UTR identifiziert werden. Im abgeleiteten Protein, das mindestens 121 AS lang ist, wurden ein Signalpeptid und eine Transmembrandomäne nachgewiesen. In Verbindung mit einer möglichen Glykosylierung ist das Genprodukt in die Gruppe der Proteoglykane einzuordnen. Leicht abweichend von den typischen Strukturen knochen- und knorpelspezifischer Proteoglykane ist eine mögliche Funktion dieses Genprodukts bei der Interaktion mit Integrinen und der Zell-Zellinteraktion, aber auch bei der Signaltransduktion denkbar. rnDie EST-Sequenzierungen von ca. 4000 cDNA-Klonen können aber in der Regel nur einen Bruchteil der möglichen Transkripte des untersuchten Gewebes abdecken. Mit den neuen Sequenziertechnologien des „Next Generation Sequencing“ bestehen völlig neue Möglichkeiten, komplette Transkriptome mit sehr hoher Abdeckung zu sequenzieren und zu analysieren. Zur Unterstützung der EST-Daten und zur deutlichen Verbreiterung der Datenbasis wurde das Transkriptom der bovinen fötalen Wachstumsfuge sowohl mit Hilfe der Roche-454/FLX- als auch der Illumina-Solexa-Technologie sequenziert. Bei der Auswertung der ca. 40000 454- und 75 Millionen Illumina-Sequenzen wurden Verfahren zur allgemeinen Handhabung, der Qualitätskontrolle, dem „Clustern“, der Annotation und quantitativen Auswertung von großen Mengen an Sequenzdaten etabliert. Beim Vergleich der Hochdurchsatz Blast-Analysen im klassischen „Read-Count“-Ansatz mit dem erstellten EST-Expressionsprofil konnten gute Überstimmungen gezeigt werden. Abweichungen zwischen den einzelnen Methoden konnten nicht in allen Fällen methodisch erklärt werden. In einigen Fällen sind Korrelationen zwischen Transkriptlänge und „Read“-Verteilung zu erkennen. Obwohl schon simple Methoden wie die Normierung auf RPKM („reads per kilo base transkript per million mappable reads“) eine Verbesserung der Interpretation ermöglichen, konnten messtechnisch durch die Art der Sequenzierung bedingte systematische Fehler nicht immer ausgeräumt werden. Besonders wichtig ist daher die geeignete Normalisierung der Daten beim Vergleich verschieden generierter Datensätze. rnDie hier diskutierten Ergebnisse aus den verschiedenen Analysen zeigen die neuen Sequenziertechnologien als gute Ergänzung und potentiellen Ersatz für etablierte Methoden zur Genexpressionsanalyse.rn
Resumo:
Klimamontoring benötigt eine operative, raum-zeitliche Analyse der Klimavariabilität. Mit dieser Zielsetzung, funktionsbereite Karten regelmäßig zu erstellen, ist es hilfreich auf einen Blick, die räumliche Variabilität der Klimaelemente in der zeitlichen Veränderungen darzustellen. Für aktuelle und kürzlich vergangene Jahre entwickelte der Deutsche Wetterdienst ein Standardverfahren zur Erstellung solcher Karten. Die Methode zur Erstellung solcher Karten variiert für die verschiedenen Klimaelemente bedingt durch die Datengrundlage, die natürliche Variabilität und der Verfügbarkeit der in-situ Daten.rnIm Rahmen der Analyse der raum-zeitlichen Variabilität innerhalb dieser Dissertation werden verschiedene Interpolationsverfahren auf die Mitteltemperatur der fünf Dekaden der Jahre 1951-2000 für ein relativ großes Gebiet, der Region VI der Weltorganisation für Meteorologie (Europa und Naher Osten) angewendet. Die Region deckt ein relativ heterogenes Arbeitsgebiet von Grönland im Nordwesten bis Syrien im Südosten hinsichtlich der Klimatologie ab.rnDas zentrale Ziel der Dissertation ist eine Methode zur räumlichen Interpolation der mittleren Dekadentemperaturwerte für die Region VI zu entwickeln. Diese Methode soll in Zukunft für die operative monatliche Klimakartenerstellung geeignet sein. Diese einheitliche Methode soll auf andere Klimaelemente übertragbar und mit der entsprechenden Software überall anwendbar sein. Zwei zentrale Datenbanken werden im Rahmen dieser Dissertation verwendet: So genannte CLIMAT-Daten über dem Land und Schiffsdaten über dem Meer.rnIm Grunde wird die Übertragung der Punktwerte der Temperatur per räumlicher Interpolation auf die Fläche in drei Schritten vollzogen. Der erste Schritt beinhaltet eine multiple Regression zur Reduktion der Stationswerte mit den vier Einflussgrößen der Geographischen Breite, der Höhe über Normalnull, der Jahrestemperaturamplitude und der thermischen Kontinentalität auf ein einheitliches Niveau. Im zweiten Schritt werden die reduzierten Temperaturwerte, so genannte Residuen, mit der Interpolationsmethode der Radialen Basis Funktionen aus der Gruppe der Neuronalen Netzwerk Modelle (NNM) interpoliert. Im letzten Schritt werden die interpolierten Temperaturraster mit der Umkehrung der multiplen Regression aus Schritt eins mit Hilfe der vier Einflussgrößen auf ihr ursprüngliches Niveau hochgerechnet.rnFür alle Stationswerte wird die Differenz zwischen geschätzten Wert aus der Interpolation und dem wahren gemessenen Wert berechnet und durch die geostatistische Kenngröße des Root Mean Square Errors (RMSE) wiedergegeben. Der zentrale Vorteil ist die wertegetreue Wiedergabe, die fehlende Generalisierung und die Vermeidung von Interpolationsinseln. Das entwickelte Verfahren ist auf andere Klimaelemente wie Niederschlag, Schneedeckenhöhe oder Sonnenscheindauer übertragbar.