Combining Grapheme Joiner

Combining Grapheme Joiner

Der Combining Grapheme Joiner (CGJ, deutsch Kombinierender Graphemverbinder) ist ein unsichtbares Sonderzeichen, das normalerweise von den Anwendungsprogrammen völlig ignoriert wird (engl.: „default ignorable“). Der Name ist insofern irreführend, als das dieses Zeichen keine Grapheme verbindet.[1]

In manchen Sprachen gibt es Digraphen und Trigraphen, die grundsätzlich als eigenständige Buchstaben behandelt, d. h. gesondert sortiert werden. Im Ungarischen beispielsweise betrifft das die Kombinationen cs, dz, dzs, gy, ly, ny, sz, ty und zs. Um Ausnahmen hiervon bei Bedarf zu kennzeichnen, wurde der Combining Grapheme Joiner eingeführt.[2]

Trägt ein Buchstabe mehrere Diakritika darüber oder darunter, werden diese normalerweise vertikal gestapelt. Für Ausnahmefälle, in denen zwei Diakritika nebeneinander stehen müssen, sieht Unicode vor, dass ein CGJ dazwischengestellt wird. Es obliegt dem Schriftentwickler, die Erscheinungsform der Zeichenfolgen „Diakritikon1 CGJ Diakritikon2“ festzulegen, auf die dann mittels einer Schrifttechnik wie OpenType zugegriffen werden kann.

Die im Standard festgelegte Eigenschaft „default ignorable“ qualifiziert den CGJ, in Sonderfällen auch andere sonst unnötige feine Unterschiede zu markieren. So kann die Datenverarbeitung deutscher Bibliotheken die Unterscheidung von Umlaut und Trema erfordern; meistens für fremdsprachige Namen. Hier empfiehlt Unicode, dem Trema (U+0308) den CGJ voranzustellen, um es vom Umlaut zu unterscheiden.[2] Die ursprünglich vom DIN vorgeschlagene nachträgliche gesonderte Kodierung der Umlaut-Punkte hätte zu einer kaum vertretbaren Inkonsistenz großer Datenmengen geführt.

Das CGJ ist in Unicode am Codepunkt U+034F kodiert.

Einzelnachweise und Quellen

  1. UTN #27: Known Anomalies in Unicode Character Names
  2. a b * Julie D. Allen: The Unicode Standard, version 6.0. The Unicode Consortium. The Unicode Consortium, Mountain View 2011, ISBN 9781936213016, S. 530 (Online-Version).

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Combining grapheme joiner — The combining grapheme joiner (CGJ), U+034F ͏ combining grapheme joiner (HTML: #847; ) is a Unicode character that has no visible glyph and is default ignorable by applications. Its name is a misnomer which does not describe the function of this… …   Wikipedia

  • Combining — may refer to: Combining capacity, in chemistry Combining character, in digital photography Combining form, in linguistics Combining grapheme joiner, Unicode character that has no visible glyph Combining Cyrillic Hundred Thousands, modifier in the …   Wikipedia

  • Combining character — In digital typography, combining characters are characters that are intended to modify other characters. The most common combining characters in the Latin script are the combining diacritical marks (including combining accents). Unicode also… …   Wikipedia

  • Zero-width non-joiner — The zero width non joiner (ZWNJ) is a non printing character used in the computerization of writing systems that make use of ligatures. When placed between two characters that would otherwise be connected into a ligature, a ZWNJ causes them to be …   Wikipedia

  • Mapping of Unicode characters — Unicode’s Universal Character Set has a potential capacity to support over 1 million characters. Each UCS character is mapped to a code point which is an integer between 0 and 1,114,111 used to represent each character within the internal logic… …   Wikipedia

  • Unicode — For the 1889 Universal Telegraphic Phrase book, see Commercial code (communications). The Unicode official logo since October 2009 …   Wikipedia

  • Phonetic symbols in Unicode — Unicode supports several phonetic scripts and notations through the existing writing systems and the addition of extra blocks with phonetic characters. These phonetic extras are derived of an existing script, usually Latin, Greek or Cyrillic. In… …   Wikipedia

  • Basic Multilingual Plane — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Block — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Ebene — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”