Intern
    Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte

    Die Digitale Bibliothek in TEI

    Die Digitale Bibliothek

    Die Digitale Bibliothek umfasst alle Texte der online-Bibliothek von zeno.org. Dabei handelt es sich um eine umfangreiche Sammlung von Texten vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20. Jahrhunderts in digitaler Form. Für die Germanistische Literaturwissenschaft ist die Sammlung von besonderem Interesse, da sie nahezu alle wichtigen kanonisierten Texte und zahlreiche weitere literarhistorisch relevante Texte enthält, deren urheberrechtliche Schutzfrist abgelaufen ist. Ähnliches gilt für die Philosophie und die Kulturwissenschaften insgesamt. Die Texte stammen zum größten Teil aus Studienausgaben und sind daher zitierfähig; das gilt auch für den Rest, der weitgehend auf die Digitalisierung von Erstdrucken zurückgeht.

    Das Projekt TextGrid hat die Texte erworben und wird sie der allgemeinen Öffentlichkeit nicht nur zur Lektüre, sondern vor allem auch zur Weiterverarbeitung z.B. in Editionen und Korpora zur Verfügung stellen. Dafür werden die xml-Dateien am Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte der Universität Würzburg (in Zusammenarbeit mit der Universität Tier und dem IDS Mannheim) in ein gültiges TEI-Format konvertiert, das die Möglichkeit einer genauen Recherche über die Texte bietet. Auf dieser Seite finden Sie nähere Informationen zum Projekt "Digitale Bibliothek" und den jeweils aktuellen Stand.

    Die Texte der online-Bibliothek von Zeno.org

    Die Texte der online-Bibliothek von zeno.org gliedern sich in die Kategorien:

    • Geschichte (Texte von 14 Autoren)
    • Kulturgeschichte (Texte von 113 Autoren)
    • Kunst (Texte von 12 Autoren)
    • Literatur (Texte von 693 Autoren)
    • Märchen (Texte von 58 Autoren)
    • Musik (Texte von 81 Autoren)
    • Naturwissenschaften  (Texte von 20 Autoren)
    • Philosophie (Texte von 248 Autoren)
    • Soziologie (Texte von 1 Autor)

    Zusätzlich sind noch folgende Wörterbücher und Enzyklopädien verfügbar:

    • Johann Christoph Adelung: Grammatisch-kritisches Wörterbuch der Hochdeutschen Mundart. Zweyte vermehrte und verbesserte Ausgabe 1793-1801 (4 Bände)
    • Brockhaus: Conversations-Lexikon oder kurzgefaßtes Handwörterbuch. 1. Auflage 1809 (6 Bände + 2 Bände Nachträge)
    • Brockhaus: Bilder-Conversations-Lexikon 1837-1841 (4 Bände)
    • Brockhaus: Kleines Konversations-Lexikon. Fünfte, vollständig neubearbeitete Auflage 1911 (2 Bände)
    • Damen Conversations Lexikon 1834-1838 (10 Bände)
    • Rudolf Eisler: Wörterbuch der philosophischen Begriffe. Zweite, völlig neu bearbeitete Auflage. 1904 (2 Bände)
    • Rudolf Eisler: Philosophen-Lexikon. Erste Ausgabe. 1912
    • Karl Ernst Georges: Kleines deutsch-lateinisches Handwörterbuch. 1910
    • Karl Ernst Georges: Ausführliches lateinisch-deutsches Handwörterbuch. Achte verbesserte und vermehrte Auflage. 1913-1918 (2 Bände)
    • Götzinger, E.: Reallexicon der Deutschen Altertümer. Zweite vollständig umgearbeitete Auflage. 1885
    • Hederich: Gründliches mythologisches Lexikon. 1770
    • Vollständiges Heiligen-Lexikon. Herausgegeben von Johann Evangelist Stadler und Franz Joseph Heim. 1858-1882 (5 Bände)
    • Herders Conversations-Lexikon. 1854-1857 (5 Bände)
    • Friedrich Kirchner, Carl Michaëlis: Wörterbuch der Philosophischen Grundbegriffe. Fünfte, von Carl Michaëlis neubearbeiten Auflage. 1907
    • Lemery, Nicholas: Vollständiges Materialien-Lexicon. 1721
    • Otto Lueger: Lexikon der gesamten Technik. 2. Auflage. 1904-1920 (10 Bände)
    • Fritz Mauthner: Wörterbuch der Philosophie. Zweite, vermehrte Auflage. 1923 (3 Bände)
    • Meyers Großes Konversations-Lexikon. 6. Auflage. 1905-1909 (20 Bände)
    • Biographisches Lexikon hervorragender Ärzte des neunzehnten Jahrhunderts. Herausgegeben von Prof. Dr. J. Pagel. 1901
    • Wilhelm Pape: Handwörterbuch der griechischen Sprache. 1880 (2 Bände)
    • Lexikon deutscher Frauen der Feder. Herausgegeben von Sophie Pataky. 1898 (2 Bände)
    • Pierer's Universal-Lexikon. Vierte, umgearbeitete und stark vermehrte Auflage, 1857 (19 Bände)
    • Röll: Enzyklopädie des Eisenbahnwesens. 1912 (10 Bände)
    • Schmidt: Deutsche Buchhändler. Deutsche Buchdrucker. 1902-1908 (6 Bände)
    • Johann George Sulzer: Allgemeine Theorie der Schönen Künste. 1771-1774 (2 Bände)
    • Dr. Vollmer's Wörterbuch der Mythologie aller Völker. Neu bearbeitet von Dr. W. Binder. Dritte Auflage. 1874
    • Karl Friedrich Wilhelm Wander (Hrsg.): Deutsches Sprichwörter-Lexikon. 1867-1880 (5 Bände)

    Arbeitsschritte zur Aufbereitung der Online-Bibliothek von zeno.org („Digitale Bibliothek“): Stand 28.09.2010

     1. Durchgeführte Arbeitsschritte

    • Strukturanalyse der Textdaten: Die Daten sind in Ordnern nach Wörterbüchern und Enzyklopädien bzw. nach Gebieten (Geschichte, Kulturgeschichte, Kunst, Literatur, Märchen, Musik, Naturwissenschaften, Philosophie, Soziologie) organisiert; jeder Ordner enthält Unterordner, i. d. R. einen Unterordner pro Autor, der alle Werke des Autors in einer Datei vereinigt.
    • Erste Anreicherung der XML-Struktur mit zusätzlichen Informationen für die Weiterverarbeitung, v.a. eine Routine zur Vergabe von Identifiern um die Daten eindeutig identifizieren zu können, aber auch für die weitere textsortenspezifische Transformation.
    • Extraktion der Metadaten: Die Metadaten zu den einzelnen Werken befinden sich in verschiedenen Dateien: die Information über die Digitalisierungsquelle ist in einer externen Katalogdatei ausgelagert, die Informationen über Ort und Zeit der Veröffentlichung stehen als unstrukturierter Freitext zu Beginn der Autordatei. Eine eigene Transformationsroutine ordnet alle einem Werk zugehörige Metadaten diesem zu.
    • Manuelle Auszeichnung der Werkebene: Die Auszeichnung lässt keine automatische Trennung der Daten in einzelne Werke zu, weswegen die Werk-Information (zunächst für den Literaturordner, über 120000 Einzelwerke) manuell hinzugefügt wurde. Dazu musste ein User-Interface zur Anzeige und Weiterverarbeitung der Daten geschaffen werden.
    • Zerlegung der Sammeldateien in eigenständige Werkdateien: Es wurde eine weitere Transformationsroutine entwickelt, die die Sammeldateien in eigenständige Werkdateien zerlegt.
    • Filterung der Dateien nach Textsorte: Für den Literaturordner müssen die einzelnen Werke nach Textsorte sortiert werden um textsortenspezifische Konvertierungsroutinen entwickeln zu können. Hierbei konnte das bereits bestehende User-Interface entsprechend erweitert werden.
    • Einbindung des Wörterbuchs von Adelung und Meyers Konversationslexikon in das Trierer Wörterbuchnetz
    • Erstellung von Routinen für das Mapping des Wörterbuchs von Adelung auf TEI P5.
    • Spezifikationen für das Mapping der Textsorten Lyrik, Prosa und Drama.

    2. Aktuelle Arbeitsschritte

    • Anreicherung der Originaldaten (ID, Werksinformation, Disambiguierung der Struktur)
    • Erstellung von Transformationsroutinen für das Mapping der einzelnen Textsorten des Literaturordners auf TEI P5.
    • Aufbau von einheitlichen Metadaten in Form von flachen TEI Headern (enthalten nur Autorennamen)

    --> Zwischenstand der Daten, erhalten bleibt die Originalstruktur der Daten

    3. Nächste Schritte

    • Manuelle Korrektur der automatisch transformierten Struktur für die einzelnen Textsorten
    • Verfeinerung der Metadaten
    • Erstellung von Patches mithilfe von XML-Diffs (für manuelle Korrekturen, Metadaten, …)
    • Strukturumformung von <div> nach <teiCorpus> (mit Metadaten für alle Einzelwerke)
    • Anpassung der Datenstruktur auf die TextGrid-Architektur
    • Vergabe von Persistenten Identifiern für jede Werkebene
    • Erste Publikation der Texte des Literaturordners und des Wörterbuchs von Adelung in TEI P5.
    • Anwendung und ggf. Anpassung der Transformationsroutinen auf die übrigen Ordner und Wörterbücher der Digitalen Bibliothek
    • Weitere Strukturerschließung der Texte und tiefere TEI-Auszeichnung, erneute Publikation