2 resultados para Extraction methods

em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha


Relevância:

30.00% 30.00%

Publicador:

Resumo:

Except the article forming the main content most HTML documents on the WWW contain additional contents such as navigation menus, design elements or commercial banners. In the context of several applications it is necessary to draw the distinction between main and additional content automatically. Content extraction and template detection are the two approaches to solve this task. This thesis gives an extensive overview of existing algorithms from both areas. It contributes an objective way to measure and evaluate the performance of content extraction algorithms under different aspects. These evaluation measures allow to draw the first objective comparison of existing extraction solutions. The newly introduced content code blurring algorithm overcomes several drawbacks of previous approaches and proves to be the best content extraction algorithm at the moment. An analysis of methods to cluster web documents according to their underlying templates is the third major contribution of this thesis. In combination with a localised crawling process this clustering analysis can be used to automatically create sets of training documents for template detection algorithms. As the whole process can be automated it allows to perform template detection on a single document, thereby combining the advantages of single and multi document algorithms.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Eisbohrkerne stellen wertvolle Klimaarchive dar, da sie atmosphärisches Aerosol konservieren. Die Analyse chemischer Verbindungen als Bestandteil atmosphärischer Aerosole in Eisbohrkernen liefert wichtige Informationen über Umweltbedingungen und Klima der Vergangenheit. Zur Untersuchung der α-Dicarbonyle Glyoxal und Methylglyoxal in Eis- und Schneeproben wurde eine neue, sensitive Methode entwickelt, die die Stir Bar Sorptive Extraction (SBSE) mit der Hochleistungsflüssigchromatographie-Massenspektrometrie (HPLC-MS) kombiniert. Zur Analyse von Dicarbonsäuren in Eisbohrkernen wurde eine weitere Methode entwickelt, bei der die Festphasenextraktion mit starkem Anionenaustauscher zum Einsatz kommt. Die Methode erlaubt die Quantifizierung aliphatischer Dicarbonsäuren (≥ C6), einschließlich Pinsäure, sowie aromatischer Carbonsäuren (wie Phthalsäure und Vanillinsäure), wodurch die Bestimmung wichtiger Markerverbindungen für biogene und anthropogene Quellen ermöglicht wurde. Mit Hilfe der entwickelten Methoden wurde ein Eisbohrkern aus den Schweizer Alpen analysiert. Die ermittelten Konzentrationsverläufe der Analyten umfassen die Zeitspanne von 1942 bis 1993. Mittels einer Korrelations- und Hauptkomponentenanalyse konnte gezeigt werden, dass die organischen Verbindungen im Eis hauptsächlich durch Waldbrände und durch vom Menschen verursachte Schadstoffemissionen beeinflusst werden. Im Gegensatz dazu sind die Konzentrationsverläufe einiger Analyten auf den Mineralstaubtransport auf den Gletscher zurückzuführen. Zusätzlich wurde ein Screening der Eisbohrkernproben mittels ultrahochauflösender Massenspektrometrie durchgeführt. Zum ersten Mal wurden in diesem Rahmen auch Organosulfate und Nitrooxyorganosulfate in einem Eisbohrkern identifiziert.