Grundlagen

Grundlagen der Informationstheorie

Bevor Sie lernen, wie die einzelnen Schritte bei SDTP durchgeführt werden, sollten Sie Kenntnisse darüber haben, welche Eigenschaften Daten, Informationen usw. haben, und wie man diese mathematisch verarbeitet.

Entgegen der alltäglichen Definition von Informationen als Wissen über einen Sachverhalt sind sie in der Informationstheorie als eine Teilmenge von Wissen, die ein Sender einem Empfänger durch die Übermittlung von Signalen über ein Medium mitteilt, definiert. Daten hingegen sind als die Angabe von Informationen definiert, sodass unterschiedliche Daten die gleiche Information bedeuten können. Ein einfaches Beispiel seien folgende Aussagesätze:

"Ich habe gestern mit Gregor telefoniert."

"Gestern führte ich ein Telefongespräch mit Gregor."

Bei den Aussagen handelt es sich um andere Daten, da die gleiche Information (Der Absender der Mitteilung telefonierte am vorherigem Tag mit Gregor) auf unterschiedlichen Wegen angegeben wird. Die unterschiedliche Angabe zeigt sich hier darin, dass andere Wörter in einer anderen Reihenfolge übermittelt werden.

Bei Daten handelt es sich um eine kodierte Darstellung von Informationen. Da die meisten sich unter einer Kodierung eher abstrakte Darstellungen vorstellen, sei bemerkt, dass auch die deutsche Sprache (und alle anderen Sprachen) eine Form der Kodierung ist, die bloß dermaßen alltäglich ist, dass es nicht als solche wahrgenommen wird.

Je weniger verschiedene Datensätze existieren, um die gleiche Information zu kodieren, desto geringer ist die Kodierungsvorschrift sowie die darauf basierenden Datensätze redundant. Redundante Daten sind zum eigentlichem Verständnis der Daten unnötig, können jedoch auch dazu beitragen, dass Daten noch bei Beschädigung verständlich sind.

"DneS istnein Beilpielsntz, dmr die RedunDanz drr deutshhen Spravvke veransuhauliehen soll0"

Bei Sprachen handelt es sich meist um sehr hochredundante Kodierungsverfahren, wie der oben stehende Beispielsatz zeigen soll. Mit wenig Anstrengung ist es möglich, die eigentliche Bedeutung zu verstehen. Auch, wenn Sie mal einen Rechtschreibfehler machen, führt dies nicht dazu, dass der Text nicht mehr verständlich ist. Nur wenige Wörter (wie "Gebäck" und "Gepäck") unterscheiden sich so geringfügig, dass ein einzelner Fehler ein anderes, gültiges Wort erzeugt.

Da Sie später erlernen werden, wie Sie zu Daten gleichmäßig und kontrolliert Redundanz hinzufügen können, ist es zunächst unser Ziel, die Redundanz aus Daten gänzlich zu entfernen. Hierdurch werden Mitteilungen so kurz wie möglich, und die Übermittlung so günstig und schnell wie notwendig. Ich möchte gleich vornherein sagen, dass es bis heute (die Forschung im Bereich der Informationstheorie begann um 1948) kein Verfahren gibt, um Texte oder gar Mediendateien optimal zu kodieren, also ohne jede Redundanz. Allerdings gibt es die Möglichkeit, einzelne Ereignisse, deren eintreten Sie per Telekommunikation mitteilen möchten, mit möglichst wenig Zeichen zu kodieren, indem diese Abhängig von ihrer Auftrittswahrscheinlichkeit kodiert werden. Ist diese Wahrscheinlichkeit bei jedem Ereignis bekannt, können die Informationen optimal kodiert werden.

Wenn Sie nun erfahren, dass genau dies möglich ist, werden Sie sich vielleicht die Frage stellen, weshalb wir dann bis heute noch keinen Text optimal kodieren können. Der Grund dafür ist, dass nicht die bloße Kenntnis der Buchstabenhäufigkeit (z.B., dass e in deutschen Texten wesentlich häufiger als q ist) ausreichend ist, sondern die genaue Wahrscheinlichkeit für das auftreten des folgenden Buchstabens, abhängig von allen vorherigen. Dieses fiktive Kodierungsverfahren müsste den gesamten Text inhaltlich berücksichtigen, da z.B. die Wahrscheinlichkeit, dass das Wort "Belagerung" oder "Tribok" in einem Text über das Thema Mittelalter auftritt, wesentlich höher ist, als in dem Artikel einer Modezeitschrift. Was jedoch bereits getan wird, ist die Berücksichtigung von bestimmten Auftrittswahrscheinlichkeiten mehrerer Zeichen, etwa, dass mit einer extrem hohen Wahrscheinlichkeit auf ein Q das U folgt.

Ein Zeichen (sowie eine ganze Mitteilung) hat einen bestimmten Informationsgehalt, der meist in der Einheit Shannon (Symbol: Sh) angegeben wird. Sie ist nach dem Mathematiker Claude E. Shannon benannt. Diese Einheit gibt vereinfacht formuliert an, wie viele Ja/Nein-Fragen im Durchschnitt gestellt werden müssen, um ohne Vorkenntnisse eine bestimmte Information zu erhalten.

Bei einem Text sind dies je nach Vorgehensweise teils erstaunlich viele. Sie könnten zum Beispiel fragen, ob der erste Buchstabe einer zwischen A bis M ist, und wenn ja, fragen, ob er zwischen A bis G ist, usw. Hierdurch wird immer weiter eingegrenz, welcher es ist. Beim ersten Buchstaben wäre es allerdings sinnvoller, zu fragen, ob es sich um den Buchstaben E, D, W, I oder S handelt, da diese zusammen etwa 50 Prozent aller Anfangsbuchstaben in deutschen Texten ausmachen.