Institute for Web Science and Technologies · Universität Koblenz - Landau
Institute WeST

Optische Texterkennung auf Webseiten

[zur Übersicht]
Christopher Dreide

Christopher Dreide will defend his bachelor thesis about “Optische Texterkennung auf Webseiten”. The talk is open for the university audience and will be given via Webex due to the current situation. For attendance, please register via E-mail to raphaelmenges@uni-koblenz.de until 19th August.

Text ist im Web allgegenwärtig und essentiell für dessen Nutzung. Textinhalte auf Webseiten werden zwar für Menschen immer ansprechender gestaltet, jedoch maschinell schwieriger zu indizieren und analysieren. Software, die für Nutzer mit Einschränkungen Barrierefreiheit gewinnen soll, ist auf diese Analyse angewiesen und wird durch diese Entwicklung eingeschränkt. Eine Möglichkeit, dieses Problem anzugehen ist es, die vom Web Browser gerenderte Webseite zu betrachten und die Inhalte mithilfe von Optical Character Recognition (OCR) zu erkennen. Die bestehende OCR Software Tesseract wird als Standardsoftware angesehen. Die Entwicklung von OCR konzentriert sich jedoch hauptsächlich auf die Digitalisierung von Texten auf Papier. Im Zuge dieser Arbeit wird evaluiert ob sich Tesseract für den Einsatz im Web eignet. Um dieses Ziel zu erreichen, wird das CGRE Framework erstellt, welches Webdokumente basierend auf realen Stylingdaten generiert und rendert, Tesseract auf diesen ausführt und die Ergebnisse evaluiert. Die Bestimmung und die Lokalisierung von Text wird dabei getrennt durchgeführt und evaluiert. Auf Basis der Genauigkeit der Bestimmung und Lokalisierung von Text und dem zeitlichen Aufwand dieser Aufgaben wird Tesseract bewertet. Mithilfe des CGRE Frameworks gelange ich zu dem Ergebnis, dass die Erkennung von Tesseract insbesondere, wenn Bilder auf Webdokumente vorhanden sind, nicht genau arbeitet. Ebenso ist die Erkennung von Text durch Tesseract zu zeitaufwendig um die Echtzeitanforderung zur Interaktion im Web zu erfüllen.

The defense talk will be in German.


21.08.20 - 14:15
Webex