Datenbestand vom 13. März 2019

Warenkorb Datenschutzhinweis Dissertationsdruck Dissertationsverlag Institutsreihen     Preisrechner

aktualisiert am 13. März 2019

ISBN 9783868539790

Euro 72,00 inkl. 7% MwSt


978-3-86853-979-0, Reihe Informatik

Annette Gotscharek
Lexikalische Ressourcen zur Erschließung historischer Dokumentkollektionen

191 Seiten, Dissertation Ludwig-Maximilians-Universität München (2010), Hardcover, A5

Zusammenfassung / Abstract

Die Erschließung großer historischer Dokumentbestände stellt sowohl für die OCR als auch für das IR aus linguistischer Sicht neue Herausforderungen dar. Zwei grundsätzliche Gegebenheiten führen dazu, dass diese spezifischen Probleme im Anwendungsfall bisher zu teilweise sehr schlechten Ergebnissen führen: Zum einen liegt bisher zu wenig konkrete Kenntnis über die Beschaffenheit des Vokabulars historischer Texte vor. Klar ist, dass der Wortschatz vom gegenwartssprachlichen abweicht - wie diese Unterschiede genau aussehen und welchen Anteil diese am Gesamtvokabular haben ist jedoch nicht in umfangreichen quantitativen Untersuchungen belegt. Zum anderen sind bisher kaum geeignete lexikalische Ressourcen für den Einsatz in OCR und IR vorhanden, es ist unklar, für welchen Szenarien sich welche Lexika am besten eignen. Beide Probleme sind eng miteinander verknüpft: besseres Wissen über den historischen Wortschatz führt zu besseren Lexika und umgekehrt. Diese Arbeit stellt einen Beitrag zur Klärung der obengenannten Fragen dar.