Willkommen

Der Turkologische Anzeiger

Der Turkologische Anzeiger/Turkology Annual (TA), begründet von Andreas Tietze (†) und György Hazai, ist eine unverzichtbare systematische Bibliographie für die Turkologie und die Osmanistik. Fachleute aus aller Welt sind an seiner Zusammenstellung beteiligt, die von mehreren Institutionen, einschließlich der UNESCO, finanziell unterstützt wird. Die vom Institut für Orientalistik der Universität Wien herausgegebenen Bände lagen bislang nur in gedruckter Form vor.

Turkologischer Anzeiger Online

Unser Projekt am Exzellenzcluster "Asia and Europe in a Global Context" der Universität Heidelberg hat die ersten 26 TA-Bände digitalisiert und stellt ihre Einträge erstmals in einer Online-Datenbank mit neuen effizienten Suchoptionen bereit. Die Einträge des nach Projektbeginn 2010 erschienenen Doppelbandes 27-28 werden so bald wie möglich hinzukommen.

Der TA umfasst Einträge in vielen verschiedenen Sprachen, einschließlich Transkriptionen aus dem Arabischen und aus Sprachen mit kyrillischem Alphabet. Bereits einzelne Einträge können aus Abschnitten in verschiedenen Sprachen bestehen. Wir erwarteten, dass dies ein ernsthaftes Problem bei der Digitalisierung mit Hilfe der am Exzellenzcluster verfügbaren Optical Character Recognition (OCR)-Software darstellen würde: Auch sehr gute OCR-Ergebnisse können noch keine akzeptable Grundlage für den Aufbau einer Datenbank liefern, denn Einträge mit Erkennungsfehlern lassen sich bei der Suche nicht zuverlässig abfragen.

Es stellte sich jedoch heraus, dass nach entsprechender Feinjustierung die OCR-Software Ergebnisse von so guter Qualität lieferte, dass die wenigen verbleibenden Fehler überwiegend irrelevant für typische Suchanfragen waren. Während dies bedeutete, dass für unser Projekt der Aufwand der Entwicklung automatischer Software zur Korrektur der OCR-Ergebnisse nicht gerechtfertigt schien, stießen wir auf andere Probleme: Die Syntaxanalyse der TA-Einträge erwies sich als weitaus schwieriger als erwartet, da die verschiedenen Eintrags-Typen und ihre Datenstrukturen oft nur implizit gekennzeichnet sind und sich einige von ihnen von Band zu Band ändern. Außerdem musste die Syntaxanalyse (Parsing) mit Fehlern in der Struktur von Einträgen zurechtkommen - Fehler, die menschliche Bearbeiter gemacht haben und die menschliche Leser kaum wahrnehmen würden, und dennoch Fehler, die ernsthafte Probleme für das Parsing darstellen können. Unsere Parsing-Software musste entsprechend auf die Daten zugeschnitten werden, um sowohl umfassend als auch robust zu sein.

Partner

Das Team

  • Prof. Dr. Anette Frank: Projektleiterin (Computerlinguistik)
  • Prof. Dr. Michael Ursinus: Projektleiter (Islamwissenschaft)
  • Matthias Arnold: Koordination (Bildbearbeitung und Nutzeroberfläche)
  • Peter Gietz: Koordination (Integration in die Heidelberg Research Architecture)
  • Christian Roth: allgemeine Koordination
  • Arina Chitavong: Scans
  • Jens Hansche: Scans
  • Nicolas Bellm: Programmierung (Datenbank)
  • Mateusz Dolata: Programmierung (Syntaxanalyse)
  • Dustin Heckmann: Programmierung (Nutzeroberfläche)

Wichtiger Hinweis

Wir sind nicht beteiligt an der Redaktion des TA selbst. Bitte kontaktieren Sie für Anfragen die Herausgeber oder die Universität Wien.