Lieber Herr Enders,
wir haben die Frage hier intern nochmal intensiver diskutiert. So wirklich eindeutig war
unser Diskussionsergebnis nicht, es wäre schön, wenn man sich ein konkretes Beispiel für
die von Ihnen beschriebenen Fälle anschauen könnte. Unterm Strich überzeugen mich aber
Ihre Argumente. Die Größe der METS-Datei sollte letztlich keine Rolle spielen und ein
Produktionssystem sollte diese auch problemlos in gegebener Zeit dynamisch produzieren
können. Dennoch produzieren wir dann bei recht umfangreichen Werken (das größte, was wir
aktuell so im Portfolio haben, ist ein 3000-Seiter) mit tiefer Strukturierung dann
hochgradig redundante Daten. Aber, METS ist halt "geschwätzig" und unser
Dokumentenmodell tatsächlich komplex, um die verschiedenen (vielleicht zunächst auch nur
denkbaren) Möglichkeiten abdecken zu können. Ergo: Ich schließe mich Ihrer Position an und
ziehe meine Frage zurück. ;)
Beste Grüße,
Kay Heiligenhaus
-----Original Message-----
From: dv-technik-bounces(a)dfg-viewer.de [mailto:dv-technik-
bounces(a)dfg-viewer.de] On Behalf Of Enders, Markus
Sent: Thursday, April 22, 2010 4:07 PM
To: dv-technik(a)dfg-viewer.de
Subject: [DFG-Viewer] Vereinfachung log/phys Verknuepfungen im METS
Liebe Liste,
Bei dem von Herrn Heiligenhaus am Dienstag angesprochenen Punkt geht es
um die Frage, ob es notwendig ist, alle Verknuepfungen zwischen logischer
und physischer Struktur vollstaendig in der METS Datei aufzunehmen.
Zentraler Punkt hierbei sind Verknuepfungen von untergeordneten
logischen Einheiten zu physischen Struktureinheiten (d.h. Unterkapitel zu
Seiten). Derzeit haben sowohl Unterkapitel als auch Kapitel
Verknuepfungen zu den jeweiligen Seiten. Diese Verknuepfungen sind
tatsaechlich redundant, da auf Grund der hierarchischen Stuktur Kapitel und
Unterkapitel auf diesselben Seiten verweisen. Diese Redundanz fuehrt in
der METS Datei zu einer relativ grossen structLink-Sektion und zu grossen
Dateien.
Zunaechst moechte ich mal annehmen,dass das Datenmodell fuer alle
seitenbasierten Medienarten gelten soll - unabhaengig davon, ob die
Beschreibung einer digitalen/digitalisierten Resource alle Teile des Modells in
voller Granularitaet ausschoepft oder nicht. Es ist weiterhin wichtig zu
verstehen, dass das Modell mehr Funktionalitaet erlaubt als derzeit im DFG
Viewer umgesetzt ist - gerade hinsichtlich der physischen Struktur
(=Seiten/Spalten/Textbereichte).
Generell stellt sich also die Frage, warum Verknuepfungen auf
ueberliegender Ebene gespeichert werden, wenn sie auf unterliegender
Ebene vorhanden sind:
1) Ein Kapitel kann laenger sein als die Summe aller Unterkapitel - oder
allgemein: Die summe aller logischer Unterstrukturen ist kleiner als die
ueberliegende Struktur. Dies kann damit zusammenhaengen, dass sich nicht
alle Unterstrukturen (automatisiert) erfassen lassen oder aber das die
ueberliegende Struktur tatsaechlich noch ueber zusaetzlichen Inhalte/Seiten
verfuegt.
2) D.h. Lesereihenfolge von ueber- und untergeordneten logischen
Einheiten kann unterschiedlich sein. Diese Reihenfolge wird jedoch durch die
Verknuepfung in der log. und phys. Einheit in der structLink Section
angegeben. Die smLink Elemente muessen in entsprechender
Blaetter/Lesereihenfolge angeordnet sein. Das ist zugegebenermassen nicht
sehr explizit ausgedrueckt; eine solche Moeglichkeit gibt es allerdings erst ab
METS 1.8.
Als Beispiel mag hier eine Tageszeitung dienen. Die einzelnen Sektionen
(Sport, Wirtschaft, Feuilleton) werden als uebergeordnete Einheit
betrachten und durch ein entsprechendes logisches <div> in der METS Datei
aufgenommen. Die Seiten werden mit dieser ueberliegenden Einheit
verknuepft - vermutlich in der Reihenfolge der Seitenpaginieren. Denn so
wuerde man durch diese Sektion durchblaettern/lesen.
Unterliegende Artikel werden als Kind <div> Element implementiert. Die
Lesereihenfolge der Artikel allerdings koennen unterschiedlich der
Seitenpaginierung sein. Zum einen kann Artikel auf Seite 1 beginnen und
anschliessend auf Seite 3 fortgefuehrt werden. Zum anderen koennen
Artikel aber auch auf der letzten Seite beginnen und innen fortgefuehrt
werden. Dies ist zumindest hier in UK regelmaessig beim Sportteil der Fall.
Dieser stellt die Rueckseitige Titelseite und wird von "hinten nach vorne"
gelesen.
3)
Bislang sind wir davon ausgegangen dass logische Verknuepfungen aus
unterscheidlicher Hierarchieebene auf physische Einheiten derselben
Hierarchiestufe (=Seiten) zeigen. Sobald die physische Seite jedoch auch
weiter untergliedert wird in Spalten und Textbloecke, wird die Verknuepfung
unterliegender logischen Einheiten nicht mehr auf Seitenebene geschehen,
sondern auf Textblockebene. Dies ist zumindest bei Tageszeitungen der Fall,
kann jedoch auch bei Monographien und Zeitschriften passieren: Auch fuer
diese Strukturtypen laesst sich eine Seite in verschiedene Textbloecke
aufteilen. Angenommen eine Seite beherbergt das Ende eines und den Start
eines zweiten Unterkapitels, so laesst sich die Seite in zwei Textbloecke
zerteilen. Aus den Unterkapiteln wird neben den anderen Seiten nur der
jeweilige Textblock (Start bzw. Ende) verwiesen.
In dem Fall, wird also auf sehr granulare Einheiten von den Unterkapiteln
verwiesen. Fuer die uebergeordnete Einheit sind die Textbloecke jedoch
unwichtig. Da die komplette Seite zu dem Kapitel gehoert, wird auch nur auf
sie verwiesen und nicht auf die Textbloecke. Weitere Untereinheiten
koennten naemlich ebenso zu dem Kapitel gehoeren, nicht jedoch zu einem
der Unterkapitel (siehe (1)).
Das Datenmodell ist nun einmal so komplex, wie es derzeit im METS Profil
dokumentiert ist. Die serialisierung in METS liesse sich vereinfachen, wenn
bestimmte Annahmen getroffen werden. Diese Annahmen muss der DFG-
Viewer beruecksichtigen; d.h. diese muessen implementiert werden. Das ist
fuer viele Faelle sicherlich machbar, wenn auch kompliziert, wenn tiefere
Strukturen als Seiten oder zusaetzliche Funktionalitaeten beruecksichtig
werden. Derzeit muss die Software lediglich log/phys Relationen
beruecksichtigen; Hierarchien in der log. Struktur koennen unberuecksichtigt
bleiben.
Entsprechend ausfuehrliche und grosse METS Dateien automatisiert zu
generieren scheint mir da das kleinere Uebel zu sein. An welcher Stelle wirkt
sich denn die Groesse der METS Datei nachteilig aus? Beim parsen?
uebertragen?
Ich sehe zumindest kein Problem, dem nicht mit etwas mehr Resourcen
beizukommen waere.
Ciao
Markus Enders