GLOSSAR.de: Unicode, UCS, Universal Character Set, ASCII, ANSI, ASCII-Standard, ASCII-Code, Alphabet, ISO, ISO 8859-1, ISO Latin-1, UTF-8, Steuerungcodes, Druckersteuerung, Zeichensatz, Zeichensatztabelle, Zeichensatztabellen, Zeichensätze, Umlaute, Sonderzeichen, American Standard Code for Information Interchange, Telex, Zahlencode, Sonderzeichen, Telekommunikation

Unicode, UCS (Universal Character Set)

http://www.glossar.de/glossar/z_unicode.htm

siehe auch CHIP
Ausgabe Juni 6/98 / Seite 208

Jeder, der ausgiebig im Internet unterwegs ist, kennt das: Suchmaschinen spucken Ergebnisse manchmal als Buchstabensuppe aus, Seiten aus Skandinavien sehen aus, als hätte man mit der Schrotflinte auf den Text geschossen, und auf russischen oder asiatischen Seiten herrscht typographischer Notzustand: !&%ü?. Ursache dafür sind unterschiedliche Zeichensätze in den jeweiligen Ländern:

1965 hatte das amerikanische Institut für Normung, ANSI, den amerikanischen Standard-Code für Informationsaustausch festgelegt, der erst einmal mit 7 Bit und 128 Zeichen auskam und auf Umlaute und andere Sonderzeichen verzichtete - siehe ASCII.

Anfang der 70er Jahre nutzten deutsche Informatiker die Codeplätze der eckigen Klammern, um Umlaute darzustellen. Auch in anderen Ländern entstanden eigene Zeichensätze. Mit der Einführung des PC verwendete IBM das 8. Bit eines kompletten Bytes für Sonderzeichen wie Umlaute. Der IBM-Zeichensatz enthielt zwar die 128 ASCII-Zeichen an den ursprünglichen Stellen, doch genauso viele Zeichen unterschieden sich. Die internationale Organisation für Normen, ISO, begegnete in den 80er Jahren dem Wildwuchs bei den 8-Bit-Codierungen recht erfolgreich mit der Serie von ISO-8859- Standards. Weitverbreitet ist ISO 8859-1, oft auch ISO Latin-1 genannt. In ihm sind die Zeichen der meisten europäischen Sprachen zusammengefaßt.

Im Chinesischen, Japanischen und Koreanischen bilden aber nicht Buchstaben die kleinsten Texteinheiten, sondern Schriftzeichen, von denen es Zehntausende gibt. Das sprengt das Fassungsvermögen einer 8-Bit-Codierung; man verwendet deshalb in Fernost eine 16-Bit-Codierung und spezielle Umschaltverfahren, die mit reservierten Steuerzeichen arbeiten.

Ein Über-Alphabet - Unicode - soll den Wirrwarr beenden

Ende der 80er Jahre wurde der Ruf nach einem neuen internationalen Standard für die Zeichendarstellung laut. Er sollte ganz ohne Sonderfälle auskommen und möglichst alle Zeichen aller Sprachen des Planeten in einem Zahlenraum vereinigen. Unicode war geboren.

In Unicode hat jedes Zeichen einen 16-Bit-Code. Die ersten 256 Plätze entsprechen ISO Latin-1. Die Rückwärtskompatibilität ist jedoch nicht so einfach. Wenn nicht besondere Codierungen (UTF-8) verwendet werden, wird der Buchstabe A in Unicode zu 0041, der ASCII-Code wäre dagegen 41 (jeweils hexadezimal).

Der 16-Bit Code des Unicode Systems bietet einen Zahlenraum ("code space") für über 65 536 Zeichen. In der Unicode 2.0 Version sind knapp 30.000 vom Unicode-Konsortium offiziell vergeben. In der Version 3.0, sind bereits knapp 40.000 Zeichen vergeben. Diese Version enthält bereits die Zeichen für so alltägliche Bedürfnisse, wie das Schreiben mit altgermanischen Runen, oder das Kommunizieren mit den knapp 50.000 Cherokee-Indianer in Oklahoma. Der Rest ist in Reserve. Jedes Zeichen, welches neu aufgenommen werden soll muss beantragt und von der Organisation abgesegnet werden:

Innerhalb des Zahlenraums ("code space") sind zusammengehörige Zeichen in sogenannten Skripten zusammengefaßt:

Auf das lateinische Alphabet folgen
griechische, kyrillische, hebräische, arabische, indische und andere Skripte,
dann Satzzeichen und Symbole;
weiter geht es mit Hiragana, Katakana, Bopomofo, Hangul.
Eine besondere Leistung haben die Wissenschaftler bei den zirka 31.000 Schriftzeichen des chinesischen, japanischen und koreanischen (CJK-Texte) vollbracht. In Unicode kommen etwa 21.000 Ideogramme vor, denn 10.000 Schriftzeichen sehen in diesen drei asiatischen Sprachen gleich aus. Was nicht heißt, daß sie immer die gleiche Bedeutung hätten - hier ist von Vorteil, daß Unicode sprachenneutral ist.
Gegen Ende des Zahlenraumes sind 6.000 Plätze für den internen Gebrauch reserviert, zum Beispiel für Firmensymbole.

Unicode genügen vier Steuerzeichen:

je eines für Zeilenende
und Absatzende
sowie zwei für die Schreibrichtung.

Das Steuerzeichen für die Schreibrichtung von rechts nach links kommt zum Beispiel im Arabischen vor, das Steuerzeichen von links nach rechts hingegen nur am Ende einer gegenläufigen Passage als Markierung für den Richtungswechsel. Der Standard faßt allmählich Fuß: Sowohl Java als auch Windows NT arbeiten intern mit Unicode. NT enthält mit Lucida Sans Serif einen 1.300 Zeichen umfassenden Font. Und auch MacOS von Apple gestattet Dateinamen in Unicode. Außerdem hat das World Wide Web Consortium (WWWC bzw. W3C) Unicode in den Standard von HTML4.0 aufgenommen. Jetzt liegt es vor allem an den Anwendungsentwicklern, ob Internet oder Textverarbeitungen wirklich zu universellen Werkzeugen werden.

Hinweis: Es gibt eine Schrift, welche die alle vergebenen Unicode-Zeichen gemäßt der Unicode Version 2 darstellen kann. Somit kann diese Schriftart die Zeichen auch vieler zentral- und ostasiatische Schriftsprachen darstellen. Diese Schrift nennt sich "Arial Unicode MS". Die Schrift ist nicht frei verfügbar, sondern muss z.B. im Zusammenhang mit dem MS Office2000 erworben werden. Diese Schriftdatei ist 23 MB groß und befindet sich z.B. auf der MS Office2000 CD 2 und zwar unter dem Namen Arialuni.ttf in komprimierter Form im OFFCD2_1.CAB.

siehe auch:

(zurück) zum Glossar:

Navigation ohne Frames:

- - - -
# A B C D E F G H I J K L M N O P Q R S T U V W X Y Z