Sie befinden sich hier: Themen IT-Grundschutz-Kataloge. Inhalt. Dokumententitel: M 4.170 Auswahl geeigneter Datenformate für die Archivierung von Dokumenten - IT-Grundschutz-Kataloge - Stand 2006
direkt zu der Navigation Servicebereich. direkt zu der Hauptnavigation. direkt zur Themennavigation. direkt zum Seiteninhalt.

M 4.170 Auswahl geeigneter Datenformate für die Archivierung von Dokumenten

Verantwortlich für Initiierung: Leiter IT

Verantwortlich für Umsetzung: Leiter IT, Administrator

Für die Archivierung elektronischer Dokumente müssen geeignete Datenformate gewählt werden. Das Datenformat sollte langfristig eine originalgetreue Reproduktion der Archivdaten sowie ausgewählter Merkmale des ursprünglichen Dokumentmediums (z. B. Papierformat, Farben, Logos, Seitenzahl, Wasserzeichen, Unterschrift) ermöglichen. Die derzeit verwendeten Datenformate sind hierfür unterschiedlich geeignet, ihre Eignung hängt sehr stark vom Einsatzzweck der archivierten Daten und ihren Ursprungsmedien ab. Bei einem Wechsel des Medien- und Datenformats können jedoch in der Regel nicht alle Strukturmerkmale des Ursprungsmediums gleichzeitig abgebildet werden.

Da im Vorfeld meist nicht absehbar ist, welche Merkmale des Originaldokuments bei einer späteren Reproduktion nachgewiesen werden sollen und mit welcher Nachweiskraft dies erfolgen soll, werden Dokumente typischerweise in mehreren elektronischen Datenformaten gleichzeitig archiviert. Dadurch soll eine möglichst hohe Überdeckung der Merkmale des Originaldokuments erreicht werden. Der Konvertierungsvorgang wird häufig als Rendition bezeichnet.

Für die Wahl geeigneter Datenformate sind folgende Kriterien maßgeblich:

Typischerweise wird neben einer strukturellen Repräsentation (in einer Strukturbeschreibungssprache) bei Papierdokumenten auch eine graphische Repräsentation des Dokuments archiviert. Hinzu kommen unter Umständen elektronische Signaturen zur Beglaubigung der Authentizität.

In den folgenden Abschnitten werden einige typische Datenformate beschrieben und ihre Eignung für die elektronische Archivierung diskutiert.

A. Strukturformate

SGML

SGML (Standard Generalized Markup Language) ist eine Dokumentenbeschreibungssprache, die die logische Struktur und den Inhalt von elektronischen Dokumenten beschreibt. SGML ist als ISO-Norm 8879 standardisiert.

Neben der Struktur (Syntax) von Dokumenten beschreibt SGML insbesondere die Semantik der Strukturelemente des elektronischen Dokuments. SGML bildet jedoch nicht die konkrete Darstellung und Formatierung der Dokumentinhalte bei der Wiedergabe ab.

Wichtige Merkmale von SGML sind:

SGML kann als Format für die Langzeitarchivierung von elektronischen Dokumenten genutzt werden. Bei der Archivierung ist jedoch unbedingt auch die Semantikspezifikation (DTD) zu archivieren. Da SGML keinerlei Layout-Informationen beinhaltet, wird empfohlen, zusätzlich zu SGML-Dokumenten eine graphische Repräsentation des Ursprungsdokuments zu archivieren, z. B. im Format TIFF.

HTML

HTML (Hyper Text Markup Language) ist eine Strukturbeschreibungssprache für elektronische Dokumente. HTML basiert auf einer Untermenge der SGML-Beschreibungselemente und hat sich zum Standard für die Darstellung und den Dokumentenaustausch im World Wide Web entwickelt.

HTML bietet eine sehr eingeschränkte Zahl möglicher Strukturmerkmale für Dokumente und ist als SGML-Spezialisierung mit impliziter DTD zu verstehen.

Wichtige Merkmale von HTML sind:

HTML wird als Format für die Langzeitarchivierung nicht empfohlen. Es ist nicht für die Archivierung geeignet, da aufgrund der mangelhaften syntaktischen und semantischen Flexibilität auch künftig in kurzen zeitlichen Abständen Erweiterungen des HTML-Standards zu erwarten sind.

Es ist zudem nicht geeignet, da aufgrund der dynamischen Struktur der HTML-Dokumente eine Archivierung des Gesamtdokuments erfolgen muss, d. h. inklusive aller verlinkten Bilder, Subdokumente und Querverweise. Bei der Archivierung von HTML-Dokumenten dürfen keine aktiven Links zu nicht archivierten Dokumentteilen mehr vorhanden sein, da nicht sichergestellt werden kann, dass solche externen Dokumentteile bei späteren Reproduktionen zur Verfügung stehen.

XML

Aufgrund der eingeschränkten Funktion von HTML wurde vom W3C eine Möglichkeit geschaffen, die Vorteile der Sprache SGML zu nutzen, gleichzeitig aber nicht deren volle Komplexität einzubringen. XML wurde als Teilmenge von SGML entwickelt.

Wichtige Merkmale von XML sind:

XML kann als Format für die Langzeitarchivierung von elektronischen Dokumenten genutzt werden. Bei der Archivierung sind jedoch unbedingt auch die Semantikspezifikation (DTD - Document Type Definition) und ggf. auch die Layout-Informationen, in XSL beschrieben, zu archivieren.

PDF

PDF (Portable Document Format) ist ein Dokumentformat, bei dem neben der Strukturinformation von elektronischen Dokumenten auch wesentliche Layout-Informationen mitgespeichert werden. PDF wurde von der Firma Adobe auf Basis des Datenformats PostScript entwickelt.

Das Erscheinungsbild wird dabei durch einen Datenstrom beschrieben, der eine Reihe von graphischen Objekten enthält. Durch diese Beschreibung ist ein Dokument vollkommen festgelegt. Die Entscheidung über das Erscheinungsbild wird dabei zum Zeitpunkt der Erstellung des Dokuments getroffen und ist dann fixiert. Gegenüber einer rein bildlichen Darstellung (Pixeldarstellung) benötigen Dokumente im PDF-Format meist deutlich weniger Speicherplatz.

Zielsetzung beim Einsatz von PDF ist, das Erscheinungsbild eines elektronischen Dokuments unabhängig von der zur Erstellung benutzten Anwendungs-Software, der Hardware-Plattform oder dem Betriebssystem zu bewahren. PDF eignet sich daher primär für die Archivierung von Dokumenten, bei denen eine Abbildung in Papierform vorgesehen ist bzw. die den Charakter von Briefen und Geschäftsdokumenten haben.

PDF ist nicht standardisiert. Wenn es als Datenformat zur elektronischen Archivierung verwendet werden soll, sollte das Datenformat PDF separat dokumentiert werden.

B. Bildformate

TIFF

Das Format TIFF (Tagged Image File Format) wird zur Speicherung gerasterter Bilder verwendet. Eine TIFF-Datei besteht aus einem Datei-Header und der Bildinformation. Der Header enthält so genannte Tags, in denen Eigenschaften des aufgezeichneten Bildes gespeichert sind, z. B. Auflösung oder verwendete Kompressionsverfahren.

Wichtige Merkmale von TIFF sind:

TIFF ist in komprimierter Form als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten geeignet. Es wird empfohlen, ein verlustfreies Kompressionsverfahren zu verwenden, z. B. ITU/CCITT-Gruppe 4, um den benötigten Speicherbedarf zu minimieren.

GIF

Das Format GIF (Graphics Interchange Format) wird zur Speicherung gerasterter Bilder verwendet.

Wichtige Merkmale von GIF sind:

Der Einsatz des Formats GIF wird für die Langzeitarchivierung nicht empfohlen, jedoch kann GIF für die kurz- und mittelfristige Archivierung eingesetzt werden.

JPEG

JPEG wurde von der Joint Photographic Experts Group entwickelt und eignet sich besonders für Farb- und Grauwertbilder. In diesem Bereich ist die JPEG-Kompression auch effektiver als die ITU-Gruppe-4-Kompression.

JPEG kann anhand einiger Parameter unterschiedlich konfiguriert werden. Je nach Einstellung werden dann unterschiedliche Kompressionsraten erreicht. Allerdings können auch Verluste auftreten.

Wichtige Merkmale von JPEG sind:

JPEG ist als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten geeignet. Für eine revisionssichere Archivierung wird empfohlen, bei der Auswahl der Kompressionsstufe eine verlustfreie Kompression zu wählen.

C. Audio- und Video-Formate

Bei der digitalen Verarbeitung von Audio- und Videodaten entstehen schon bei zeitlich kurzen Aufzeichnungen sehr große Datenmengen. Daher gewinnt eine effektive Kompression an Bedeutung.

Verlustfreie Kompressionsverfahren für Audio- und Videodaten erreichen derzeit jedoch nur Kompressionsraten von etwa 2:1. Gebräuchlicher sind Verfahren, die eine Kompressionsrate bis zu 200:1 erreichen, jedoch nicht verlustfrei arbeiten. Der durch die Kompression entstehende, teilweise erhebliche Datenverlust wird typischerweise in Kauf genommen, solange er mit dem menschlichen Auge bzw. Ohr nicht wahrnehmbar ist bzw. nicht als störend empfunden wird.

Die Eignung verlustbehafteter Kompressionsverfahren für die Archivierung von Video- und Tonmaterial ist anwendungsspezifisch zu prüfen.

Im Folgenden werden einige typische Formate vorgestellt:

MPEG

Innerhalb der ISO ist die Motion Pictures Expert Group (MPEG) für die Bearbeitung weltweiter Standards zur Kompression digitalisierter Bewegtbilder verantwortlich.

Derzeit sind drei verschiedene Verfahren bekannt:

ITU H.261

Im Jahr 1990 wurde der Standard H.261 von der ITU zur Kodierung von Videosignalen verabschiedet. Die Kodierung nach H.261 ist für die Übertragung auf ISDN-Kanälen optimiert und entwickelt worden.

ITU H.263

Der ITU-Standard H.263 ist eine Weiterentwicklung des Standards H.261 aus dem Jahr 1995/96. Er ist ursprünglich für Datenraten kleiner als 64 kbit/s entwickelt worden. Dieser Beschränkung existiert heute nicht mehr. Die Bildqualität wurde gegenüber dem Standard H.261 bei deutlich verbesserter Kompression erheblich gesteigert.

Ergänzende Kontrollfragen: