2 resultados para XML HTML CSS JavaScript jQuery Cordova Android eLearning mLearning IncidentalLearning eLocal Gamification Geolocalizzazione

em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha


Diese Dissertation stellt das neu entwickelte SystemRelAndXML vor, das für das Management und dieSpeicherung von hypertextzentrierten XML-Dokumenten und dendazugehörenden XSL-Stylesheets spezialisiert ist. DerAnwendungsbereich sind die Vorlesungsmaterialien anUniversitäten. RelAndXML speichert die XML-formatiertenÜbungsblätter in Textbausteinen und weiterenTeilen in einer speziellen Datenbank.Die Speicherung von XML-Dokumenten in Datenbanken ist seiteinigen Jahren ein wichtiges Thema der Datenbankforschung.Ansätze dafür gliedern sich in solche fürdatenzentrierte und andere für dokumentenzentrierteDokumente. Die Dissertation präsentiert einen Ansatzzur Speicherung von hypertextzentrierten XML-Dokumenten, derAspekte von datenzentrierten und dokumentenzentriertenAnsätzen kombiniert. Der Ansatz erlaubt dieWiederverwendung von Textbausteinen und speichert dieReihenfolge dort, wo sie wichtig ist. Mit RelAndXML könnennicht nur Elemente gespeichert werden, wie mit einigenanderen Ansätzen, sondern auch Attribute, Kommentareund Processing Instructions. Algorithmen für dieFragmentierung und Rekonstruktion von Dokumenten werdenbereit gestellt.RelAndXML wurde mit Java und unter Verwendung einerobjektrelationalen Datenbank implementiert. Das System hateine graphische Benutzungsoberfläche, die das Erstellenund Verändern der XML- und XSL-Dokumente, dasEinfügen von neuen oder schon gespeichertenTextbausteinen sowie das Erzeugen von HTML-Dokumenten zurVeröffentlichung ermöglicht.


Except the article forming the main content most HTML documents on the WWW contain additional contents such as navigation menus, design elements or commercial banners. In the context of several applications it is necessary to draw the distinction between main and additional content automatically. Content extraction and template detection are the two approaches to solve this task. This thesis gives an extensive overview of existing algorithms from both areas. It contributes an objective way to measure and evaluate the performance of content extraction algorithms under different aspects. These evaluation measures allow to draw the first objective comparison of existing extraction solutions. The newly introduced content code blurring algorithm overcomes several drawbacks of previous approaches and proves to be the best content extraction algorithm at the moment. An analysis of methods to cluster web documents according to their underlying templates is the third major contribution of this thesis. In combination with a localised crawling process this clustering analysis can be used to automatically create sets of training documents for template detection algorithms. As the whole process can be automated it allows to perform template detection on a single document, thereby combining the advantages of single and multi document algorithms.