2 resultados para web content
em ArchiMeD - Elektronische Publikationen der Universität Mainz - Alemanha
Resumo:
Except the article forming the main content most HTML documents on the WWW contain additional contents such as navigation menus, design elements or commercial banners. In the context of several applications it is necessary to draw the distinction between main and additional content automatically. Content extraction and template detection are the two approaches to solve this task. This thesis gives an extensive overview of existing algorithms from both areas. It contributes an objective way to measure and evaluate the performance of content extraction algorithms under different aspects. These evaluation measures allow to draw the first objective comparison of existing extraction solutions. The newly introduced content code blurring algorithm overcomes several drawbacks of previous approaches and proves to be the best content extraction algorithm at the moment. An analysis of methods to cluster web documents according to their underlying templates is the third major contribution of this thesis. In combination with a localised crawling process this clustering analysis can be used to automatically create sets of training documents for template detection algorithms. As the whole process can be automated it allows to perform template detection on a single document, thereby combining the advantages of single and multi document algorithms.
Resumo:
Ein Tag ohne Internet ist für viele kaum vorstellbar. Das Spektrum der Internetnutzer ist breiter geworden und damit sind die Ansprüche an die Websites massiv angestiegen. Die Entscheidung auf einer Website zu bleiben oder auf einer anderen zu suchen fällt innerhalb von wenigen Sekunden. Diese Entscheidung ist sowohl vom Website-Design als auch von dem dargestellten Inhalt abhängig. Die Auswertung, wie schnell der Benutzer Online-Informationen finden und wie einfach er sie verstehen kann, ist die Aufgabe von Web-Usability-Testing. Für das Finden und Verstehen von Informationen sind die computertechnischen zusammen mit den linguistischen Aspekten zuständig. In der Usability-Forschung liegt jedoch der Fokus bislang weitgehend auf der Bewertung der computer¬linguistischen und ästhetischen Aspekte der Websites. In den Hintergrund gedrängt wurden dabei die linguistischen Aspekte. Im Vergleich sind diese weniger systematisch erforscht und in Usability-Richtlinien kaum zu finden. Stattdessen stößt man überwiegend auf allgemeine Empfehlungen. Motiviert davon hat die vorliegende Arbeit das Ziel, Die Web-Usability systematisch sowohl aus linguistischer als auch aus formaler Sicht zu erforschen. Auf linguistischer Ebene wurde in Anlehnung an die Zeichentheorie von Morris die Web-Usability analysiert und der Begriff Linguistische Web-Usability eingeführt. Auf Basis dieser Analyse sowie einer literaturstudie ‘literature review’ mehrerer Usability-Richtlinien wurde ein Kriterienkatalog entwickelt. Bei der Umsetzung dieses Kriterienkatalogs im Rahmen einer Usability-Studie wurde die Website der Universität Johannes Gutenberg-Universität Mainz (JGU) im Usability-Labor unter Anwendung der Methode Eye-Tracking zusammen mit der Think-Aloud-Methode und der Retrospective-Think-Aloud-Methode getestet. Die empirischen Ergebnisse zeigen, dass die linguistischen Usability-Probleme genau wie die formalen die Benutzer hindern, die gesuchten Informationen zu finden, oder zumindest ihre Suche verlangsamen. Dementsprechend sollten die linguistischen Perspektiven in die Usability-Richtlinien miteinbezogen werden.