ocr – Traduction – Dictionnaire Keybot

Spacer TTN Translation Network TTN TTN Login Deutsch English Spacer Help
Langues sources Langues cibles
Keybot 2 Résultats  asv.informatik.uni-leipzig.de
  Current projects - Abte...  
The tasks of Leipzig University in this project are to enhance OCR recognition rates by means of rule-based or statistical models as well as document separation, document classification and automated content analysis (relation extraction, network analysis, topic threads, sentiment analysis) through statistical NLP and advanced text mining.
Das Projekt wird in Kooperation mit dem Helmholtz Forschungszentrum für Umwelt und Gesundheit in München und einem Industriepartner durchgeführt und konzentriert sich auf die Verbesserung von elektronischem und Content-basierten (“semantischem”) Zugang zu papierbasierten Archivunterlagen im Zusammenhang mit einer Lagerstätte für radioaktive Abfälle in Deutschland. Zu den Aufgaben der Universität Leipzig in diesem Projekt zählen die OCR-Optimierung mittels Nachkorrektur mit Hilfe von regelbasierten und statistischen Modellen sowie Dokumententrennung, Dokumentenklassifizierung und automatische Inhaltsanalyse (Relation Extraction, Netzwerkanalyse, Identifikation von Themensträngen, evtl. Sentiment-Analyse u.ä.) durch statistische Sprachverarbeitung und fortgeschrittene Text Mining Methoden.
  Current projects - Abte...  
This includes archiving all intermediate prodcuts and completing and correcting meta data. Simple OCR results are transferred into the richer XML-TEI Format and presented in a digital citation infrastructure.
„Die Bibliothek der Milliarden Wörter“ ist ein Kooperationsprojekt zwischen der Universitätsbibliothek Leipzig, der Abteilung für Automatische Sprachverarbeitung am Institut für Informatik an der Universität Leipzig, und der Abteilung für Bild- und Signalverarbeitung am Institut für Informatik an der Universität Leipzig. Dieses Projekt wird gefördert aus Mitteln des Europäischen Sozialfonds (ESF). Das Projekt bearbeitet die technischen Probleme auf dem Weg zu einer Digitalisierungsinfrastruktur die den gesamten Weg vom gescannten Dokument zur Aufbereitung von Textuellen Daten in Form von Statistiken und Visualisierungen abdeckt. Hierzu gehören die Archivierung von allen Zwischenprodukten und die Vervollständigung und Korrektur von Metadaten. Außerdem sollen einfache OCR Resultate in das reichere XML-TEI Format übertragen und in einer elektronischen Zitationsinfrastruktur angeboten werden. Schließlich werden Visualisierungslösungen entwickelt, die es möglich machen werden eine ständig wachsende Zahl von Texten einer wissenschaftlichen Untersuchung zu unterziehen.