Datenbestand vom 23. Mai 2013
Tel: 089 / 66060798 Mo - Fr, 9 - 12 Uhr
Impressum Fax: 089 / 66060799
aktualisiert am 23. Mai 2013
978-3-86853-979-0, Reihe Informatik
Annette Gotscharek Lexikalische Ressourcen zur Erschließung historischer Dokumentkollektionen
191 Seiten, Dissertation Ludwig-Maximilians-Universität München (2010), Hardcover, A5
Die Erschließung großer historischer Dokumentbestände stellt sowohl für die OCR als auch für das IR aus linguistischer Sicht neue Herausforderungen dar. Zwei grundsätzliche Gegebenheiten führen dazu, dass diese spezifischen Probleme im Anwendungsfall bisher zu teilweise sehr schlechten Ergebnissen führen: Zum einen liegt bisher zu wenig konkrete Kenntnis über die Beschaffenheit des Vokabulars historischer Texte vor. Klar ist, dass der Wortschatz vom gegenwartssprachlichen abweicht - wie diese Unterschiede genau aussehen und welchen Anteil diese am Gesamtvokabular haben ist jedoch nicht in umfangreichen quantitativen Untersuchungen belegt. Zum anderen sind bisher kaum geeignete lexikalische Ressourcen für den Einsatz in OCR und IR vorhanden, es ist unklar, für welchen Szenarien sich welche Lexika am besten eignen. Beide Probleme sind eng miteinander verknüpft: besseres Wissen über den historischen Wortschatz führt zu besseren Lexika und umgekehrt. Diese Arbeit stellt einen Beitrag zur Klärung der obengenannten Fragen dar.