|
Das Projekt wird in Kooperation mit dem Helmholtz Forschungszentrum für Umwelt und Gesundheit in München und einem Industriepartner durchgeführt und konzentriert sich auf die Verbesserung von elektronischem und Content-basierten (“semantischem”) Zugang zu papierbasierten Archivunterlagen im Zusammenhang mit einer Lagerstätte für radioaktive Abfälle in Deutschland. Zu den Aufgaben der Universität Leipzig in diesem Projekt zählen die OCR-Optimierung mittels Nachkorrektur mit Hilfe von regelbasierten und statistischen Modellen sowie Dokumententrennung, Dokumentenklassifizierung und automatische Inhaltsanalyse (Relation Extraction, Netzwerkanalyse, Identifikation von Themensträngen, evtl. Sentiment-Analyse u.ä.) durch statistische Sprachverarbeitung und fortgeschrittene Text Mining Methoden.
|