Transcript
  • Je ne connais pas dautre ressource moderne, ni en anglais ni en franais, regroupant une telle gamme de sujets utiles, et les expliquant de faon si claire et si accessible un large public. Jespre que vous apprcierez cet ouvrage autant que moi.

    Mark Davis, Ph. D. Prsident et cofondateur du Consortium Unicode

    Commandez en ligne

    Prface

    Table des matires

    Avant-propos

    Premier Chapitre

    Index

    Errata

    http://www.dunod.com/pages/ouvrages/ficheouvrage.asp?id=51140http://livre.fnac.com/a2028000/Patrick-Andries-Unicode-5-0-en-pratique?Mn=-1&Ra=-1&To=0&Nu=1&Fr=0http://www.amazon.fr/Unicode-5-0-pratique-Patrick-Andries/dp/2100511408/ref=pd_bbs_sr_1?ie=UTF8&s=books&qid=1206989878&sr=8-1http://alapage.com/-/Fiche/Livres/9782100511402/unicode-et-internationalisation-a-andries.htm?fulltext=Unicode&id=258871207344372&donnee_appel=ALAPAGE#reviewhttp://www.decitre.fr/livres/Unicode-5-0-en-pratique.aspx/9782100511402http://hapax.qc.ca/dunod/Unicode_Preface.pdfhttp://hapax.qc.ca/dunod/Unicode_tdm.pdfhttp://hapax.qc.ca/dunod/Unicode_AP.pdfhttp://hapax.qc.ca/dunod/Unicode_Chap_1.pdfhttp://hapax.qc.ca/dunod/Unicode_Index.pdfhttp://hapax.qc.ca/errata-unicode-5.html

  • Chapitre 8

    critures europennes alphabtiques Toutes les critures alphabtiques europennes modernes sont issues de lcriture grecque ou ont subi son influence. Le mot alphabet provient du mot grec alphabetos, lui-mme driv du nom des deux premires lettres de lalphabet grec, alpha et bta. Lcriture grecque est une adaptation de lcriture phnicienne. Les Grecs innovrent en crivant de gauche droite, une caractristique de toutes les critures drives ou sinspirant du grec. Les critures alphabtiques europennes selon le standard Unicode1 sont :

    latin,

    grec,

    cyrillique,

    armnien,

    gorgien,

    ogam,

    runes,

    italique,

    gotique.

    Elles scrivent de gauche droite. Plusieurs font la distinction entre les formes capitales et de bas de casse de leur alphabet. Des espaces sparent les mots. Les accents et autres signes diacritiques indiquent gnralement des caractristiques phontiques2 et permettent dtendre la puissance descriptive des critures de base et dcrire ainsi dautres langues. Lutilisation de ces signes diacritiques est potentiellement ouverte cest lune des raisons pour lesquelles ces signes combinatoires sont repris dans le standard Unicode. Le latin et le cyrillique servent crire ou translittrer plusieurs langues. Lalphabet latin est issu dun alphabet trusque, lui-mme inspir dune version occidentale de lalphabet grec classique. lorigine, il ne contenait que 24 lettres capitales. Lalphabet latin moderne, tel quil est cod dans le bloc du latin de base, doit son apparition aux innovations apportes par les scribes mdivaux et les imprimeurs du dbut de la Renaissance. Lcriture cyrillique, labore au IXe sicle, constitue le dernier avatar du grec en Europe. Les critures gorgiennes et armniennes furent inventes au cinquime sicle sous linfluence du grec. Le gorgien moderne ne distingue pas les majuscules des minuscules ; on dit alors que lcriture est unicamrale. Lalphabet phontique international est une extension de lalphabet latin qui permet de transcrire la dimension phontique de toutes les langues.

    1 Dans lordre dapparition de ce chapitre. Cet ordre nimplique aucunement une importance relative des critures, mais les couches successives dajout au standard Unicode. Les dernires critures dans la liste tant les plus rcentes. 2 Ce nest pas le cas en franais dans des mots comme o ou parat .

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 2

    Les deux critures historiques de lEurope du Nord-ouest, les runes et logam, diffrent foncirement par leur aspect des autres critures, consquence de leur support principal : le bois et la pierre. De manire gnrale, elles scrivent de gauche droite dans les textes rudits, toutefois lorigine on les gravait souvent en forme darche pour suivre de la sorte la forme de la pierre. Lalphabet italique synthtise un certain nombre dalphabets prclassiques provenant tous de la pninsule italienne. Quant au gotique, ne pas confondre avec le style , il sagit de lcriture des Goths, reprsentants de la branche orientale des peuples germains installs sur la Mer Noire au IVe sicle. Cette criture sinspire du grec pour les sons communs au grec et au gotique, avec quelques amnagements pour les sons propres au gotique.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 3

    8.1 Latin Lcriture latine est drive de lcriture grecque. On utilise prsent pour crire un grand nombre de langues dans le monde. Au cours de son adaptation, elle a subi diffrentes extensions. La plus courante est lajout de signes diacritiques. La cration de digrammes, de formes culbutes ou rflchies, et de caractres indits a galement enrichi lcriture latine. Lcriture latine scrit de gauche droite. Des espaces sparent les mots et permettent le plus souvent de couper les lignes. Pour la coupure de mots en fin de ligne, on emploie des traits dunion. Pour plus dinformation, consultez le Rapport technique dUnicode n 14, Line Breaking Properties , prsent sur le cdrom ou sur le site Internet du consortium Unicode pour une version tenue jour. Lcriture latine distingue les majuscules et les minuscules ; on parle donc dune criture bicamrale. Signes diacritiques. Leffet dun signe diacritique sur une lettre de base dpend de la langue qui lutilise. Certaines langues considrent cette combinaison comme une lettre part entire. Dautres, comme langlais, permettent que le mme mot scrive avec ou sans diacritique sans que le sens en soit affect. Dans la plupart des langues utilisant lcriture latine, on considre les lettres portant un signe diacritique comme une variante de la lettre de base, sans que cette combinaison ne forme une lettre supplmentaire et indpendante dans son alphabet. Le codage Unicode de lcriture latine est suffisamment souple pour que les mises en uvre puissent prendre en charge ces lettres conformment aux attentes des usagers, pour autant que la langue soit connue. Les caractres accentus les plus frquents existent sous la forme de caractres simples (prcomposs) afin de se conformer aux codages prexistants les plus rpandus. Toutes ces lettres accentues, ainsi que dautres encore, peuvent sexprimer laide dune suite de caractres combinatoires. Unicode prcise que les signes diacritiques doivent suivre le caractre de base auquel il se rapporte. Pour plus de dtails, consultez la sous-section Diacritiques dans la Section 8.9, Diacritiques et la Section 2.6, Caractres combinatoires. Normes. Les lettres latines Unicode jusqu' U+00FF correspondent dans lordre aux lettres de lISO/CEI 8859-1. Celle norme reprend elle-mme lordre de normes antrieures, parmi lesquelles ASCII (ANSI X3.4) identique ISO/CEI 646:1991-IRV. Comme lASCII, lISO/CEI 8859-1 inclut des lettres latines, des signes de ponctuation et des symboles mathmatiques ; lutilisation de ces caractres supplmentaires nest pas restreinte lcriture latine. Le Chapitre 6, Ponctuation, dcrit ces caractres. Caractres connexes. Pour les autres caractres latins ou drivs du latin, consultez les Symboles de type lettre (U+2100..U+214F), les Symboles montaires (U+20A0..U+20CF), les Symboles divers (U+2600..U+26FF), les Alphanumriques cercls (U+2460..U+24FF) et les Formes pleine chasse (U+FF21..U+FF5A).

    Lettres latines de base : U+0020 U+00BF Rares sont les langues rdiges avec lcriture latine qui ne scrivent quavec les 26 minuscules et majuscules latines de ce bloc. Les 26 paires des lettres de base forment lessentiel des alphabets utiliss par toutes ces langues. Un texte utilisant un de ces alphabets utilisera donc la fois des caractres du latin de base et des caractres dautres blocs latins. Certaines langues omettent quelques paires de lettres de base, comme litalien qui ne connat ni le j ni le w.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 4

    Variantes dil. La boucle ferme ou ouverte des lettres a et g en bas de casse constitue une variation typographique courante selon la police utilise. Des systmes de transcription phontique, comme lAPI, font la distinction entre ces diffrentes formes ( a et g par rapport et ) .

    Lettres du supplment latin-1 : U+00C0 U+00FF Le supplment latin-1 ajoute aux 26 paires de lettres de base de lASCII les lettres des principales langues dEurope occidentale (voir la liste au prochain paragraphe). Comme pour lASCII, le latin-1 inclut divers autres signes mathmatiques et de ponctuation. La ponctuation, les signes et les symboles qui ne sont pas inclus dans le bloc du latin de base ni le supplment latin-1 sont cods dans des blocs de caractres, commencer par le bloc de ponctuation gnrale. Langues. Le supplment latin-1 permet dcrire lallemand, le danois, lespagnol, le finnois, le froen, lirlandais, lislandais, litalien, le nerlandais, le norvgien, le portugais et le sudois. Nombres ordinaux. On peut reproduire 00AA INDICATEUR ORDINAL FMININ et U+00BA INDICATEUR ORDINAL MASCULIN accompagns dun soulign, toutefois plusieurs polices de caractres modernes les affichent simplement sous la forme dexposants, sans soulign. Ces caractres devraient tre considrs, pour le tri et le reprage, comme des quivalents faibles des caractres latins correspondants. Clones chasse des diacritiques. La norme ISO/CEI 8859-1 comprend huit caractres ambigus, car on ne sait prcisment sil sagit de caractres combinatoires (des diacritiques) ou de caractres part entire. Les points de code Unicode correspondants (U+005E ^ ACCENT CIRCONFLEXE, U+005F _TIRET BAS, U+0060 ` ACCENT GRAVE, U+007E ~ TILDE, U+00A8 TRMA, U+00AF MACRON, U+00B4 ACCENT AIGU et U+00B8 CDILLE) ne peuvent sutiliser quen tant que caractres chasse. Le standard Unicode prvoit une srie de caractres combinatoires univoques dans le bloc des signes diacritiques utiliss pour reprsenter des lettres latines accentues par le biais de squences de caractres composs. Certaines mises en uvre ISO/CEI 8859-1 utilisent parfois U+00B0 SYMBOLE DEGR de faon ambigu pour reprsenter un rond en chef chasse. Pour sa part, Unicode reprsente de manire univoque ce signe diacritique chasse par U+02DA ROND EN CHEF. U+007E ~ TILDE est utilis pour reprsenter un signe diacritique tilde chasse, un oprateur ou un signe de ponctuation ; il est alors gnralement centr en hauteur par rapport lil de la lettre. On reprsente sans ambigut un tilde chasse laide dun U+02DC PETIT TILDE.

    Latin tendu A : U+0100 U+017F Le bloc latin tendu A contient une collection de lettres qui, jointes aux lettres contenues dans les blocs du latin de base et du supplment latin-1, permettent la reprsentation de la plupart des langues europennes qui emploient lcriture latine. Ce bloc permet galement dcrire plusieurs autres langues. La plupart de ces caractres correspondent des combinaisons prcomposes dun caractre de base et dun signe diacritique. (Voir section 2.6, Caractres combinatoires.)

    Normes. Ce bloc reprend les caractres contenus dans la norme internationale ISO/CEI 8859 (2e partie, alphabet latin n 2 ; 3e partie, alphabet latin n 3 ; 4e partie, alphabet latin n 4 ; 9e partie 9, alphabet latin n 5). Plusieurs autres caractres de ces normes, tels que la ponctuation, les signes, les symboles et les signes diacritiques, sont dj cods dans le bloc supplment du latin-1. On retrouve dautres caractres provenant de ces parties de lISO/CEI 8859 au sein dautres blocs, principalement dans le bloc des lettres modificatives (U+02B0..U+02FF) ainsi que dans le bloc de ponctuation gnrale et dans ceux qui le suivent.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 5

    Langues. La plupart des langues supportes par ce bloc font appel des caractres contenus dans les blocs du latin de base et du supplment latin-1. Lorsque combin avec ces deux blocs, le bloc du latin tendu A permet dcrire lafrikaans, le basque, le breton, le catalan, le croate, lespranto, lestonien, le franais, le frison, le gallois, le groenlandais, le hongrois, le latin, le lapon (sm), le letton, le lituanien, le maltais, le polonais, le provenal, le rhto-roman, le roumain, le slovaque, le slovne, le sorabe, le tchque, le tsigane (romani), le turc et bien dautres. ils de remplacement. Certains caractres peuvent se dessiner de plusieurs faons tout en conservant le mme sens. Les tableaux de caractres prsentent un glyphe recommand, mme sil ne sagit pas de la forme utilise en toutes circonstances. La Figure 8-1 prsente quelques exemples de ces diffrents ils.

    Figure 8-1. Glyphes de remplacement

    6 4 5 7 8 9

    : ; < = ?

    @ A Y C 1_4 En typographie tchque, on prfre souvent la forme avec apostrophe des lettres U+010F LETTRE MINUSCULE LATINE D CARON et U+0165 LETTRE MINUSCULE LATINE T CARON celles qui utilisent un caron (hacek, hatchek) au-dessus de la lettre de base. En slovaque, cet usage sapplique U+013E LETTRE MINUSCULE LATINE L CARON. On utilise lapostrophe pour viter que la hampe de ces lettres ne se superpose aux signes de la ligne suprieure, pour obtenir une typographie plus lisible. Au contraire, dans des documents crits la main ou la machine, dans du matriel didactique ou pdagogique, on retrouve de manire prpondrante les formes caron. Il est possible que dautres langues que le tchque ou le slovaque utilisent systmatiquement les caractres avec caron. Une situation semblable se prsente avec la lettre lettonne U+0123 LETTRE MINUSCULE LATINE G CDILLE. La typographie lettonne fine utilise une virgule culbute au-dessus du g et non une cdille sous cette lettre, car il est peu esthtique de placer une cdille sous la boucle infrieure du g. Certaines polices de caractres lettonnes incompltes peuvent substituer un accent aigu la virgule culbute. On retrouve cependant la cdille sous le g minuscule dans certains manuscrits, voire certains imprims. La capitale utilise toujours la cdille puisque la forme arrondie de la partie infrieure du G est alors propice laccrochage de la cdille. Dautres lettres lettonnes, dont la forme ne se prte pas lajout dune cdille (U+0137 LETTRE MINUSCULE LATINE K CDILLE, U+0146 LETTRE MINUSCULE LATINE N CDILLE et U+0157 LETTRE MINUSCULE LATINE R CDILLE), utilisent invariablement une virgule flottante. En turc et en roumain, la cdille et la virgule souscrites sont interchangeables, selon la police utilise. Les lettres U+015F LETTRE MINUSCULE LATINE S CDILLE et U+0163 LETTRE MINUSCULE LATINE T CDILLE (ainsi que leurs homologues en capitales) ont t rptes sous la forme de U+0219 LETTRE MINUSCULE LATINE S VIRGULE SOUSCRITE et U+021B LETTRE

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 6

    MINUSCULE LATINE T VIRGULE SOUSCRITE. Ces caractres nexistent que pour se conformer des usages socio-politiques. Les jeux de caractres prexistants (dont lISO/CEI 8859-2) ne reprennent quune seule de ces deux formes. En gnral, les caractres dont la base est munie dune cdille ou dun ogonek sont sujets des usages typographiques varis, selon laccessibilit et la qualit des polices utilises, la technologie et la rgion. Divers crochets, virgules et autres fioritures peuvent remplacer la forme de rfrence de ces diacritiques souscrits ; la direction des crochets peut, de surcrot, tre inverse. Il faut donc se familiariser avec ces traditions typographiques particulires avant de prsumer que des caractres manquent ou sont mal reprsents dans les tableaux de caractres Unicode. Paires de casse remarquables. On considre que les caractres U+0130 LETTRE MAJUSCULE LATINE I POINT EN CHEF et U+0131 LETTRE MINUSCULE LATINE I SANS POINT (surtout utiliss en turc) ont respectivement pour casse inverse les caractres ASCII i et I . Ceci signifie que leur correspondance inverse dpend de la langue ; la mise en correspon-dance bijective (aller-retour) ncessite une attention spciale de la part du dveloppeur (se rapporter la Section 5.17, Tri et reprage). Voir le fichier SpecialCasing.txt sur le cdrom pour plus dinformation. Diacritiques placs sur le i et le j. Un i (normal) ou un j suivi dun signe chasse nulle en chef perd le point. Ainsi, dans le mot naf, le peut scrire laide dun i + trma. De la mme faon que le A cyrillique nest pas quivalent au A latin, un i nest pas quivalent un i turc sans point + un point en chef, pas plus quun i normal accentu nest quivalent un i sans point accentu (en dautres mots, i + + ). La mme rgle sapplique galement au j. Pour exprimer les formes baltes o le point demeure parfois sous laccent, on utilise i + point en chef + accent (voir Figure 8-2).

    Figure 8-2. Diacritiques sur i et j

    i + i + + 1

    j + 3 i + + 2

    Latin tendu B : U+0180 U+024F Le bloc du latin tendu B contient des caractres utiliss pour reprsenter des langues qui ne peuvent ltre laide du latin de base et du latin tendu A. Il contient galement des symboles phontiques qui ne sont pas inclus dans lalphabet phontique international (voir le bloc de lalphabet phontique international, U+0250..U+02AF). Normes. Ce bloc englobe, entre autres, les caractres de la norme ISO 6438 (Documentation, jeu de caractres africains cods pour l'change d'informations bibliographiques), ceux utiliss par la transcription latine pinyin conformment aux normes nationales de la Rpublique populaire de Chine GB 2312 et du Japon JIS X 0212, ainsi que les caractres lapons (smi) de la norme ISO/CEI 8859 : Technologies de l'information Jeux de caractres graphiques cods sur un seul octet Partie 10 : Alphabet latin n 6.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 7

    Agencement. Les caractres sont disposs dans lordre alphabtique habituel de leur caractre de base, suivi de quelques caractres forme latine. Les paires de bas de casse et de capitales sont places cte cte aussi souvent que possible ; il arrive cependant, dans bien des cas, que lautre forme de casse soit code ailleurs ; elle fait alors lobjet dun renvoi dans le tableau des caractres. Les variantes dune mme lettre se prsentent dans lordre suivant : culbute, rflchie, crosse ou hameon, trait prolong ou modifi, au style diffrent (cursive ou de ronde), petite capitale, forme de base modifie, ligature et enfin drive du grec. Digrammes croates correspondant aux lettres cyrilliques serbes. Le serbo-croate ne forme quune seule langue, mais il scrit laide dalphabets jumels : une criture latine (le croate) et une criture cyrillique (le serbe). Afin de permettre la translittration entre ces deux alphabets, Unicode fournit quelques digrammes. Chaque digramme se prsente sous deux formes de capitales possibles : la premire pour les capitales initiales (casse de titre), la deuxime pour les mots tout en capitales. Unicode code ces deux formes afin que les logiciels puissent passer de lune lautre sans devoir changer de polices de caractres. Un renvoi associ aux minuscules indique les numros de caractre des casses majuscules correspondantes. Pour plus dinformation sur les quivalences canoniques, voir le Chapitre 3, Conformit. Combinaison de voyelles et de diacritiques pinyins. La norme chinoise GB 2312, ainsi que la norme japonaise JIS X 0212, incluent une srie de codes pour le pinyin, systme de transcription latine du chinois mandarin. On retrouve la plupart des lettres utilises pour cette romanisation du mandarin (mme celles munies de signes diacritiques) dans les blocs latins prcdents. Les 16 caractres cods dans ce bloc compltent la srie de caractres pinyins dfinis dans les normes GB 2312 et JIS X 0212. Paires de casse. Parmi les caractres de ce bloc figurent des majuscules dont la minuscule est code ailleurs. Plusieurs de ces caractres proviennent de lalphabet phontique international ; ils ont acquis une forme majuscule lors de leur intgration des critures latines. loccasion, cependant, plusieurs formes capitales ont ainsi vu le jour. Des recherches ont dmontr que ces diffrentes majuscules ne sont parfois que des variantes dun mme caractre. Ces variantes ne possdent alors quune valeur Unicode, cest le cas du U+01B7 LETTRE MAJUSCULE LATINE EJ. Si ces recherches ont, par contre, tabli que les deux formes de capitales possdent des emplois distincts, chaque forme sest alors vue attribuer un numro de caractre diffrent, cest le cas pour U+018E LETTRE MAJUSCULE LATINE E RFLCHI et pour U+018F LETTRE MAJUSCULE LATINE SCHWA. La forme bas de casse commune a alors t ddouble afin de garantir une correspondance de casse univoque : U+01DD LETTRE MINUSCULE LATINE E CULBUT est donc synonyme U+0259 LETTRE MINUSCULE LATINE SCHWA. Pour des raisons de fait, les noms de certaines paires de casse diffrent. Ainsi, U+018E LETTRE MAJUSCULE LATINE E RFLCHI est la capitale de U+01DD LETTRE MINUSCULE LATINE E CULBUT et non de U+0258 LETTRE MINUSCULE LATINE E RFLCHI. (Pour la correspondance de casse par dfaut des caractres Unicode, voir le Chapitre 4, Proprits des caractres). Langues. Les tableaux de caractres fournissent pour la grande majorit des caractres des indications sur les langues qui les utilisent ainsi que dautres prcisions dutilisation.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 8

    Alphabet phontique international : U+0250 U+02AF Le bloc de lalphabet phontique international (API) contient principalement les symboles spcifiques de cet alphabet conu pour reprsenter graphiquement les sons du langage parl. Depuis son invention en 1886, son contenu et son utilisation furent modifis diverses reprises. Le standard Unicode comprend tous les symboles indpendants et les diacritiques de la dernire version de lAPI (publie en 1989), ainsi que quelques symboles utiliss prcdemment par lAPI. Quelques symboles employs par les sinologues, les amricanistes et dautres linguistes ont t ajouts ce bloc. Certains de ces signes, utiliss dans des contextes trangers lAPI, peuvent faire appel des caractres dautres blocs. Notons que le bloc du latin tendu B reprend quelques symboles phontiques dsuets ou hors normes. Une des caractristiques essentielles de lAPI est son recours frquent des diacritiques. Ces signes diacritiques de lAPI sont cods dans le bloc des diacritiques (U+0300..U+036F). LAPI permet la libre adjonction de signes diacritiques aux lettres de base afin de reprsenter les subtiles variations phontiques ncessaires une transcription fidle des langues. Normes. Les caractres de ce bloc proviennent de lalphabet phontique international, publi par lAssociation phontique internationale3 et rvis en 1989. Cette norme considre lAPI comme un alphabet indpendant, ainsi inclut-il lalphabet latin en bas de casse dans son intgralit (de a z), un certain nombre de lettres latines tendues comme U+0153 DIGRAMME SOUD MINUSCULE LATIN OE, quelques lettres grecques et dautres symboles. Unicode, par contre, ninclut dans le bloc consacr lAPI ni les lettres latines en bas de casse (de a z), ni les autres lettres latines ou grecques. Il est noter que, contrairement aux autres sources de caractres du standard Unicode, lAPI constitue un alphabet tendu et une norme de transcription phontique et non une norme de codage de caractres. Unifications. Autant que faire se peut, les signes API ont t unifis avec dautres lettres, mais non avec des symboles (qui ne sont pas des lettres) comme U+222B INTGRALE. De nombreuses langues utilisant une criture latine, dont certaines en Afrique, ont adopt des symboles API. Dans ce cas, il est alors vain dessayer de distinguer la transcription de lalphabet lui-mme. Cest pourquoi beaucoup de symboles de lAPI se retrouvent en dehors du bloc API. Un renvoi ces symboles figure en dbut de la liste des caractres du bloc API dans le tableau des caractres. Formes API quivalentes. Dans certains cas, la pratique de lAPI a produit, avec le temps, des formes quivalentes. Cest le cas, par exemple, pour U+0269 LETTRE MINUSCULE LATINE IOTA qui peut remplacer U+026A LETTRE LATINE PETITE CAPITALE I. Le standard Unicode propose sparment ces deux formes quivalentes, car les utilisateurs dAPI les distinguent habituellement sans que leur valeur phontique soit diffrente. Casse. LAPI ne connat pas de distinctions de casse ; tous ses symboles phontiques sont en effet en bas de casse. Lorsquun signe API est intgr un alphabet particulier et est utilis par une langue crite donne (ce qui sest produit, par exemple, en Afrique), il acquiert alors en rgle gnrale une forme majuscule. Ces capitales ntant pas, lorigine, des signes API, ils sont gnralement cods dans le bloc du latin tendu B (ou dans dautres blocs du latin tendu). Un renvoi indique la forme API associe. Variantes typographiques. LAPI inclut des variantes typographiques pour certaines lettres latines et grecques qui, dordinaire, seraient considres comme des variations de style de caractres et non comme des caractres ayant leur identit propre, comme cest le cas des lettres en petites capitales. On peut citer comme exemples une variante typographique de la lettre grecque phi , ainsi que la lettre emprunte au grec iota , qui possde une forme

    3

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 9

    capitale unique au latin. Ces formes sont codes dans le standard Unicode comme caractres indpendants, car ils possdent une smantique distincte. Ligatures de digrammes affriqus. Officiellement, lAPI reconnat six ligatures de digrammes utiliss dans la transcription des consonnes affriques (U+02A3..U+02A8). Les ligatures de ces digrammes API sont dfinies explicitement dans lAPI. Elles peuvent de surcrot possder une valeur smantique propre ce qui fait delles plus que de simples variantes typographiques. U+02A6 LETTRE MINUSCULE LATINE DIGRAMME TS peut galement tre transcrite en API sous la forme de ts U+0074 U+0073. Le choix de la ligature de digramme peut rsulter dune distinction dlibre effectue par le transcripteur relativement la nature phontique systmatique des consonnes affriques. Ce choix de ligature ne peut ds lors tre laiss un logiciel qui se baserait sur les polices de caractres disponibles. Lil de cette ligature diffre galement de celui de la ligature ts prsente dans certaines polices de caractres classiques. Agencement. Les caractres du bloc API sont tris dans lordre alphabtique de la lettre latine ressemblant au signe phontique correspondant. Cet ordre ne dpend donc pas des proprits phontiques de ces lettres.

    Latin tendu additionnel : U+1E00 U+1EFF Ce bloc est constitu dune srie de caractres latins prcomposs. Chacun des caractres de ce bloc peut tre reprsent par une lettre latine de base suivie par un ou plusieurs signes diacritiques. La forme canonique de ces diffrentes reprsentations est prcise au Chapitre 3, Conformit. Combinaisons dune voyelle vietnamienne et dun signe de ton. Une partie de ce bloc reprend les voyelles de lalphabet moderne vietnamien (qu c ng ) dotes des signes diacritiques reprsentant le ton phonmique de la syllabe. Lalphabet vietnamien moderne comprend 12 voyelles et cinq signes de tons (voir Figure 8-3).

    Figure 8-3. Lettres vietnamiennes et signe de ton

    a e i o u y

    Certaines mises en uvre vietnamiennes prfrent stocker les combinaisons dune voyelle et dun signe de ton sous la forme dun seul lment cod ; dautres, au contraire, codent la voyelle et le signe de ton sparment. Le premier type de mise en uvre utilise les caractres dfinis dans ce bloc avec les formes combines dfinies dans les blocs du supplment latin-1 et du latin tendu A ; le second utilise les voyelles de base des blocs du latin de base, du supplment latin-1 et du latin tendu A, ainsi que les caractres du bloc des signes diacritiques. Cette dernire mthode utilise les caractres U+0300 DIACRITIQUE ACCENT GRAVE, U+0309 DIACRITIQUE CROCHET EN CHEF, U+0303 DIACRITIQUE TILDE, U+0301 DIACRITIQUE ACCENT AIGU et U+0323 DIACRITIQUE POINT SOUSCRIT pour reprsenter les signes de ton vietnamiens. Les caractres U+0340 DIACRITIQUE MARQUE DE TON GRAVE et U+0341 DIACRITIQUE MARQUE DE TON AIGU ne doivent plus tre utiliss.

    Ligatures latines : U+FB00 U+FB06 Cette section du bloc des formes de prsentations alphabtiques (U+FB00..U+FB4F) contient plusieurs ligatures latines courantes, hrites de codages prexistants. De par sa conception, Unicode ne prvoit pas de mcanisme gnral qui permette dindiquer lendroit o une ligature

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 10

    devrait apparatre. En effet, la formation dune ligature dpend de rgles orthographiques et typographiques particulires chaque langue. Certaines langues interdisent les ligatures entre les mots. Dans ces cas, il est prfrable de stocker en mmoire des caractres non ligaturs et de prciser hors texte la couche de rendu o les ligatures peuvent avoir lieu.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 11

    8.2 Grec Grec : U+0370 U+03FF

    Lcriture grecque semploie pour crire le grec et (en tant que variante tendue) le copte. Linfluence de lcriture grecque sur le dveloppement des critures latines et cyrilliques fut dcisive. Le grec sest crit de gauche droite. Il emploie, loccasion, des signes chasse nulle. Les lettres grecques connaissent les deux casses habituelles : minuscules et majuscules, on dit que lcriture est bicamrale. Normes. Le codage Unicode du grec se fonde sur la norme ISO/CEI 8859-7, elle-mme quivalente la norme nationale grecque ELOT 928. Unicode met les caractres grecs aux mmes positions relatives que lISO/CEI 8859-7. Un certain nombre de variantes et de caractres proviennent de la norme bibliographique ISO 5428. Grec polytonique. On peut coder le grec polytonique, utilis en grec ancien (classique et byzantin), laide de suites de caractres combinatoires ou de caractres de base prcomposes auxquels sadjoignent des diacritiques. Pour plus de renseignements sur cette dernire mthode, consultez la sous-section suivante, Grec tendu : U+1F00 U+1FF. Signes chasse nulle. Plusieurs signes chasse nulle frquents en grec se trouvent parmi les signes diacritiques (voir Tableau 8-1).

    Tableau 8-1. Signes chasse nulle utiliss en grec

    Numro Nom ISO 10646 Noms optionnels

    U+0300 DIACRITIQUE ACCENT GRAVE varia U+0301 DIACRITIQUE ACCENT AIGU tonos, oxia U+0302 DIACRITIQUE ACCENT CIRCONFLEXE U+0303 DIACRITIQUE TILDE U+0304 DIACRITIQUE MACRON long U+0306 DIACRITIQUE BRVE vrakhy, brakhus U+0308 DIACRITIQUE TRMA dialytika, double point en chef U+0313 DIACRITIQUE VIRGULE EN CHEF esprit doux, psili U+0314 DIACRITIQUE VIRGULE RFLCHIE EN CHEF esprit rude, dasia grec U+0342 DIACRITIQUE GREC ACCENT CIRCONFLEXE tilde, prispomni U+0343 DIACRITIQUE GREC CORONIS crase, virgule en chef U+0345 DIACRITIQUE GREC IOTA SOUSCRIT ypoggrammni Puisque les caractres du bloc des diacritiques nont pas de sens particulier mais sont cods selon leur forme ; ils peuvent donc sutiliser au besoin en grec. Il faut toutefois viter dutiliser le caractre U+0344 DIACRITIQUE GREC DIALYTIKA TONOS. On reprsente plutt la combinaison dun dialytika et dun tonos laide de la suite U+0308 DIACRITIQUE TRMA + U+0301 DIACRITIQUE ACCENT AIGU.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 12

    On code les diffrents signes diacritiques adjoints un mme caractre de base en commenant par les diacritiques les plus proches de ce caractre pour coder ensuite les diacritiques qui en sont plus loigns ( codage centrifuge ). Voir les rgles gnrales dadjonction des signes chasse nulle dans la Section 2.6, Caractres combinatoires. Laccent grec de base, en grec moderne, est le tonos. Il est reprsent par un accent aigu (U+0301). Cet accent est gnralement plus inclin (les formes extrmes sont presque verticales) que celui utilis pour les lettres latines. Dans les versions prcdentes du standard Unicode, laccent fut malencontreusement reprsent par une ligne verticale au-dessus des voyelles. Le grec polytonique, quant lui, scrit laide de plusieurs accents ; laccent aigu sappelle oxia, alors que laccent grave se nomme varia. U+0342 DIACRITIQUE GREC ACCENT CIRCONFLEXE se reprsente soit par un accent circonflexe (^) soit un tilde (). Cette variation de forme explique que cet accent est cod indpendamment du U+0303 DIACRITIQUE TILDE. U+0313 DIACRITIQUE VIRGULE EN CHEF et U+0343 DIACRITIQUE GREC CORONIS prennent tous deux la forme dune virgule place au-dessus de la lettre de base. U+0343 DIACRITIQUE GREC CORONIS est inclus pour des raisons de compatibilit ; la forme U+0313 DIACRITIQUE VIRGULE EN CHEF est recommande dans lusage courant. Le signe chasse nulle iota souscrit (ypoggrammni) peut tre adjoint aux voyelles alpha, ta et omga afin de reprsenter des diphtongues historiques. Adjoint une voyelle initiale majuscule, liota prend alors habituellement la forme dun iota minuscule coll droite de la voyelle. On nomme cette forme un iota adscrit (prosggrammni). Dans des mots crits entirement en capitales, liota souscrit doit tre remplac par un iota adscrit majuscule. Voir le fichier SpecialCasing.txt sur le disque optique. Les reprsentations archaques de mots grecs (qui ne possdent ni bas de casse ni accents) utilisent un iota majuscule la suite de la voyelle pour ces diphtongues. Ces reprsentations archaques exigent une correspondance de casse particulire. Variantes glyphiques. U+03A5 LETTRE MAJUSCULE GRECQUE UPSILON possde deux formes courantes une ressemblant la capitale du Y latin et lautre deux branches symtriques rappelant les cornes dun blier . On a systmatiquement choisi la forme en Y dans les tableaux de caractres, la fois pour le grec monotonique et polytonique. La forme du glyphe en cornes de blier savre utile en mathmatique. LISO/CEI 8859-7 et lISO 5428 codent dautres variantes de formes de lettres grecques en tant que caractres indpendants. Unicode hrite de ces formes et les code sparment. Il sagit de U+03C2 LETTRE MINUSCULE GRECQUE SIGMA FINAL, de U+03D0 SYMBOLE GREC BTA ainsi que de formes supplmentaires de la lettre upsilon capitale possdant un crochet asymtrique par exemple U+03D2 SYMBOLE GREC UPSILON CROCHET. Lettres grecques utilises comme symboles. Pour des raisons de compatibilit, quelques lettres grecques sont codes sparment en tant que symboles dans dautres blocs de caractres. Par exemple, U+00B5 SYMBOLE MICRO se trouve dans le bloc de caractres du supplment latin-1 et U+2126 SYMBOLE OHM est plac dans le bloc des symboles de type lettre. Les lettres grecques sont couramment utilises comme oprateurs ou variables mathmatiques. Les caractres du bloc grec peuvent servir de tels symboles. Ponctuation. La distinction entre des caractres de ponctuation exclusivement grecs et ceux qui correspondent la ponctuation occidentale nest pas toujours clairement tablie. Le point dinterrogation grec U+037E POINT D'INTERROGATION GREC est cod dans ce bloc pour des raisons de compatibilit. On recommande plutt lemploi de U+003B ; POINT-VIRGULE.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 13

    Lettres historiques. Les lettres historiques grecques proviennent de lISO 5428. Lettres propres au copte. On considre habituellement lcriture copte comme une variante stylistique de lalphabet grec. Les lettres propres au copte forment un groupe la fin du bloc grec. Ces caractres sutilisent de pair avec les caractres grecs de base pour complter ainsi lalphabet copte. On peut rendre les textes coptes laide dune police qui reprsente les caractres communs au copte et au grec la manire copte. Les textes crits la fois en grec et en copte doivent employer des styles de polices appropris. Caractres connexes. Pour les symboles mathmatiques, voir les Oprateurs mathmatiques (U+2200..U+22FF). Pour des signes de ponctuation supplmentaires utiliss avec cette criture, voir Commandes C0 et latin de base (U+0000..U+007F).

    Grec tendu : U+1F00 U+1FFF Les caractres de ce bloc sont des combinaisons prcomposes de lettres grecques munies dun ou de plusieurs signes diacritiques. On y trouve, en outre, un certain nombre de signes diacritiques chasse. Ces lettres prcomposes facilitent la reprsentation de textes grecs polytoniques sans avoir recours aux signes combinatoires. Chacun des caractres de ce bloc peut galement tre reprsent laide dune lettre de base du bloc grec suivie dun ou de plusieurs signes diacritiques appartenant au bloc des diacritiques. Le Chapitre 3, Conformit, dfinit une forme canonique pour chaque alternative. Diacritiques avec chasse. Ce bloc comprend seize autres signes diacritiques chasse qui permettent de reprsenter des textes grecs polytoniques. Chacun de ces signes peut prendre une autre forme quon utilisera avec des systmes prenant en charge les signes chasse nulle. Unicode considre la forme chasse nulle comme la reprsentation canonique de linformation code par la forme chasse correspondante. Le Tableau 8-2 illustre ces diffrentes paires de diacritiques.

    Tableau 8-2. Paires grecques avec et sans chasse

    Forme avec chasse Forme sans chasse

    037A CARACTRE GREC IOTA SOUSCRIT 0345 DIACRITIQUE GREC IOTA SOUSCRIT 1FBD CORONIS 0313 DIACRITIQUE VIRGULE EN CHEF 1FBF ESPRIT DOUX 0313 DIACRITIQUE VIRGULE EN CHEF 1FC0 CIRCONFLEXE GREC 0342 DIACRITIQUE GREC ACCENT CIRCONFLEXE 1FC1 DIALYTIKA ET CIRCONFLEXE 0308 DIACRITIQUE TRMA + 0342 DIACRITIQUE GREC ACCENT CIRCONFLEXE 1FCD ESPRIT DOUX ET ACCENT GRAVE 0313 DIACRITIQUE VIRGULE EN CHEF + 0300 DIACRITIQUE ACCENT GRAVE 1FCE ESPRIT DOUX ET ACCENT AIGU 0313 DIACRITIQUE VIRGULE EN CHEF + 0301 DIACRITIQUE ACCENT AIGU 1FCF ESPRIT DOUX ET CIRCONFLEXE 0313 DIACRITIQUE VIRGULE EN CHEF + 0342 DIACRITIQUE GREC ACCENT CIRCONFLEXE 1FDD ESPRIT RUDE ET ACCENT GRAVE 0314 DIACRITIQUE VIRGULE RFLCHIE EN CHEF + 0300 DIACRITIQUE ACCENT GRAVE 1FDE ESPRIT RUDE ET ACCENT AIGU 0314 DIACRITIQUE VIRGULE RFLCHIE EN CHEF

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 14

    Forme avec chasse Forme sans chasse + 0301 DIACRITIQUE ACCENT AIGU

    1FDF ESPRIT RUDE ET CIRCONFLEXE 0314 DIACRITIQUE VIRGULE RFLCHIE EN CHEF + 0342 DIACRITIQUE GREC ACCENT CIRCONFLEXE 1FED DIALYTIKA ET ACCENT GRAVE 0308 DIACRITIQUE TRMA + 0300 DIACRITIQUE ACCENT GRAVE 1FEE DIALYTIKA ET ACCENT AIGU 0308 DIACRITIQUE TRMA + 0301 DIACRITIQUE ACCENT AIGU 1FEF ACCENT GRAVE GREC 0300 DIACRITIQUE ACCENT GRAVE 1FFD ACCENT AIGU GREC 0301 DIACRITIQUE ACCENT AIGU 1FFE ESPRIT RUDE 0314 DIACRITIQUE VIRGULE RFLCHIE EN CHEF Dcomposition des formes avec chasse. Lors de la dcomposition des formes chasse, on doit prendre en compte lusage quon en fera afin dtablir si le rsultat chasse ou non. moins dindication contraire, ces formes chasse se dcomposent en U+0020 ESPACE suivi de la forme chasse nulle quivalente apparaissant dans le Tableau 8-2. Dans les textes grecs archaques, U+0345 DIACRITIQUE GREC IOTA SOUSCRIT et les formes prcomposes qui le contiennent admettent une correspondance de casse particulire.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 15

    8.3 Cyrillique

    Cyrillique : U+0400 U+04FF Lcriture cyrillique fait partie de la famille des critures fortement influences par lcriture grecque. Historiquement, lalphabet cyrillique a t utilis pour transcrire diverses langues slaves, dont le russe est le plus important reprsentant. Aux XIXe et XXe sicles, lalphabet cyrillique servit galement transcrire des langues minoritaires non slaves de lex-Union sovitique. Le cyrillique scrit de gauche droite, il utilise loccasion des signes chasse nulle. Le cyrillique est une criture bicamrale. Normes. Le bloc Unicode de lcriture cyrillique repose sur lISO/CEI 8859-5. Unicode place les caractres cyrilliques aux mmes positions relatives que lISO/CEI 8859-5. Unifications. Les caractres latins comme le q et le w kurdes, faisant partie dalphabets o lon retrouve la fois des lettres latines et cyrilliques, ne sont pas recods en cyrillique. Lettres historiques. On considre les formes historiques de lalphabet cyrillique comme une variante de style de police par rapport au cyrillique moderne. En effet, ces formes historiques ressemblent non seulement aux formes modernes, mais certaines dentre elles sont encore utilises aujourdhui par des langues autres que le russe (ainsi U+0406 LETTRE MAJUSCULE CYRILLIQUE I BILORUSSE-UKRAINIEN semploie toujours en ukrainien et en bilorusse). Les caractres cyrilliques historiques Unicode (U+0460..U+0486) ne se prsentent que rarement dans les textes modernes, cest pourquoi ils apparaissent sous leur forme archaque dans les tableaux de caractres. Pour obtenir un jeu cyrillique archaque complet, il suffit de rendre toute la section de lalphabet cyrillique (cest--dire U+0400..U+0486) laide dune police de mme style. Cyrillique tendu. Font partie du cyrillique tendu les caractres propres aux langues minoritaires de lex-Union sovitique. Les critures de certaines de ces langues ont souvent t rvises par le pass. Unicode ninclut que les alphabets utiliss de nos jours et non les formes de lettres dsutes ou rejetes. Glagolitique. La gense et la gnalogie des critures slaves ne sont malheureusement pas documentes. Unicode ne considre pas le glagolitique comme une simple variation stylistique du cyrillique, mais bien comme une criture part entire. Ce refus se justifie dabord par la grande diffrence d'aspect et de propagation du glagolitique par rapport au cyrillique. lheure actuelle, Unicode ne prend pas en charge le glagolitique.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 16

    8.4 Armnien

    Armnien : U+0530 U+058F Lcriture armnienne sutilise principalement pour crire larmnien. Celui-ci scrit de gauche droite et nutilise gnralement pas de diacritiques (sauf pour les lettres modificatives mentionnes ci-dessous). Cette criture distingue des paires de bas de casse et de capitales, on parle alors dune criture bicamrale. Lettres modificatives. En typographie armnienne, les petits signes appartenant au groupe nomm lettres modificatives armniennes se placent au-dessus et la droite des autres lettres, occupant ainsi la place de lettres part entire. Ainsi, le signe daccentuation, le point dexclamation et le point dinterrogation se positionnent-ils la droite de la voyelle de la syllabe mise en relief. Lutilisation de ces lettres modificatives entrane souvent des modifications dapproche horizontale et verticale; il est donc prfrable de recourir aux mcanismes de crnage par paire de caractres dcrits la Section 5.15, Reprage des frontires dlment textuel. Ces lettres modificatives possdant gnralement une chasse (largeur) propre, Unicode les traite tout naturellement comme des lettres chasse plutt que des signes chasse nulle. Il semble que U+0559 LETTRE MODIFICATIVE ARMNIENNE DEMI-ROND GAUCHE ne soit pas utilise dans les textes armniens ; sa prsence dans ce bloc est donc probablement injustifie. Ponctuation. Larmnien utilise des nombreux signes de ponctuation provenant dautres blocs, comme U+002C , VIRGULE et U+00B7 POINT MDIAN. Dans un texte armnien, ces signes de ponctuation doivent safficher dans un style analogue celui des caractres armniens du texte. Outre U+055D VIRGULE ARMNIENNE, dont une forme apparat parmi les lettres modificatives, larmnien possde deux signes de ponctuation qui lui sont propres : U+058A TRAIT D'UNION ARMNIEN et U+0589 POINT ARMNIEN. Ce dernier caractre agit la manire dun U+00AD TRAIT D'UNION VIRTUEL. Il est utilis pour indiquer une coupure de ligne lgitime lintrieur dun mot armnien polysyllabique. Sa forme le distingue dun trait dunion virtuel. Ligatures. Le bloc des formes de prsentation alphabtiques (U+FB13..U+FB17) contient cinq ligatures armniennes. En effet, de par sa conception, le standard Unicode noffre pas de mcanisme pour indiquer o afficher une ligature. Pour les ponctuations supplmentaires utilises par cette criture, voir Commandes C0 et Ponctuation ASCII (U+0000..U+007F).

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 17

    8.5 Gorgien

    Gorgien : U+10A0 U+10FF Lcriture gorgienne sutilise principalement pour crire la langue gorgienne et ses diffrents dialectes. Elle semploie galement pour crire le svane, le mingrlien et, par le pass, labkhaze et dautres langues du Caucase. Styles dcriture. Lcriture gorgienne fit son apparition sous la forme dinscriptions appeles assomtavrouli ; elle volua pour devenir ensuite la forme manuscrite connue sous le nom de nouskhouri. Ces deux formes appartiennent la tradition ecclsiastique (khoutsouri). La forme nouskhouri ne sutilise plus habituellement dans des textes modernes, bien quelle se rencontre encore dans des textes liturgiques. Elle fut remplace, lhistoire est assez vague cet gard, par un alphabet militaire, le mkhdrouli, utilis dans presque tous les textes gorgiens modernes. Formes de casse. Lalphabet gorgien est foncirement unicamral et cest ainsi quil apparat dans la plupart des textes. Toutefois, sous linfluence probable dautres alphabets, le gorgien moderne comporte loccasion des lettres capitales. On utilise cet effet lassomtavrouli, alors que le mkhdrouli ou le nouskhouri reprsentent les minuscules. Cette rpartition historique concide avec celle de lalphabet latin o le style primitif monumental se transforma petit petit en nos majuscules alors que certains styles de lettres manuscrites vinrent reprsenter nos minuscules. Le codage Unicode du gorgien partage cette volution avec le latin : la srie U+10A0..U+10CF reprsentent les capitales (assomtavrouli), cependant que les lettres de base U+10D0..U+10FF reprsentent les minuscules (mkhdrouli ou nouskhouri). Dans des textes gorgiens en bas de casse (cest--dire unicamraux), le mkhdrouli ou le nouskhouri diffrent par leur style de la mme manire que le romain et litalique dans les textes latins en bas de casse.

    Style majuscules U+10A0..U+10CF

    minuscules U+10D0..U10FF

    Sculaire assomtavrouli mkhdrouli

    Ecclsiastique (khoutsouri) assomtavrouli nouskhouri

    Le gorgien tant foncirement unicamral, la Base de donnes des caractres Unicode ne dfinit pas de correspondance de casse implicite pour cette criture. Il nest pas recommand de convertir les textes mkhdrouli en assomtavrouli par une simple transformation de casse. Lorsquun logiciel considre les formes assomtavrouli comme des majuscules, la mise en minuscules devrait sappuyer sur des transformations de casse particulires, pour former un protocole de niveau suprieur. Sparateur de paragraphes gorgien. Le sparateur de paragraphes gorgien possde une reprsentation graphique distinctive ; il se retrouve donc cod part au U+10FB. Ce caractre, indication visuelle de la fin dun paragraphe, doit tre suivi dun caractre de passage la ligne pour mettre fin ce paragraphe. (Voir Rapport technique Unicode n 13, Unicode Newline Guidelines.) Autres signes de ponctuation. Le gorgien utilise le U+0589 POINT ARMNIEN ou U+002F / BARRE OBLIQUE pour indiquer le point final. Pour des signes de ponctuation supplmentaires utiliss par cette criture, consulter Commandes C0 et ponctuation ASCII (U+0000..U+007F) et Ponctuation gnrale (U+2000..U+206F).

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 18

    8.6 Runes

    Rune : U+16A0 U+16F0 Les runes sont les caractres dont se sont servies les tribus germaniques avant leur conversion au christianisme. On en retrouve, sous diverses formes, de lAutriche la Scandinavie en passant par lAngleterre et la Frise. Quelque 6000 inscriptions datant du Ier au XIXe sicle ont t rpertories. Elles constituent une source dinformation essentielle sur le dveloppement des langues germaniques.

    criture historique. Lcriture runique est lune des premires critures historiques ou mortes tre incorpore au standard Unicode. Aujourdhui, la seule utilisation importante des runes rside dans les travaux de recherche, universitaires ou amateurs, relatifs ces anciennes inscriptions et leur interprtation. Lcriture runique illustre plusieurs problmes techniques typiques de ce genre dcriture. Contrairement dautres critures vivantes du standard Unicode qui desservent principalement les besoins de communauts dutilisateurs modernes avec doccasionnelles incursions vers des formes historiques , le codage de lcriture runique tente de rpondre des besoins soulevs par des textes crits diffrentes poques par des socits isoles les unes des autres4. Directionalit. linstar dautres critures anciennes, les runes peuvent scrire de gauche droite (dextrograde), de droite gauche (sinistrograde), dans une direction puis dans lautre (boustrophdon), ou encore en un ruban qui suit le contour de lobjet portant linscription. Quelques fois, les caractres apparaissent culbuts, rflchis ou les deux la fois. Dans les textes universitaires modernes, les runes scrivent de gauche droite. Unicode attribue donc implicitement aux textes runiques cette directionalit. Lalphabet runique. Notre connaissance actuelle des runes demeure incomplte. Lensemble des graphmes runiques retrouvs exhibe une variation de forme plus importante que celle des critures modernes. La forme et le nombre de runes ont t modifis plusieurs reprises. Si on peut faire remonter la plupart des runes une capitale latine de mme apparence, ces lettres nont pas ncessairement la mme prononciation. Lordre alphabtique des runes diffre considrablement de celui de lalphabet latin. Lalphabet runique est connu sous le nom futhark, daprs la valeur de ces six premires lettres. Le premier futhark contenait 24 runes : On les translittre gnralement de la faon suivante : f u a r k g w h n i j p z s t b e m l d o En Angleterre et en Frise, on ajouta sept runes supplmentaires du Ve au IXe sicle. Dans les pays scandinaves, le futhark fut fondamentalement renouvel au VIIIe sicle. Ce nouvel alphabet ne se composait plus que de 16 runes, certaines runes avaient deux formes ( ramille ou branche). La forme branche longue est illustre ci-dessous :

    4 Unicode se base souvent sur la tradition typographique dune criture pour tablir son rpertoire de caractres, sa smantique et son utilisation

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 19

    f u o r k h n i a s t b m l Lusage des runes demeura vivant en Scandinavie tout au long du Moyen ge. cette poque, le futhark, sous linfluence de lalphabet latin, saccrut de nouvelles runes pour permettre une pleine correspondance entre les deux alphabets. Glyphes reprsentatifs. Les inscriptions connues comprennent de considrables variantes de formes, tel point quun amateur peut facilement mprendre une rune pour une autre. Certaines runes ne possdent pas de forme dominante, cest plus particulirement le cas pour les runes introduites par le systme anglo-frison et le systme norrois mdival. Lors de la transcription Unicode dune inscription runique, il faut donc viter de ne considrer que les glyphes de rfrence idaliss figurant dans les tableaux des caractres. Il est galement impratif didentifier parmi les quatre systmes runiques, celui auquel linscription appartient, et den connatre les variations de formes acceptes pour chaque systme. On a choisi les glyphes reprsentatifs afin de faciliter la distinction des runes appartenant un mme systme. En pratique, il est conseill dutiliser des polices de caractres diffrentes pour chaque systme runique. En particulier, le glyphe de rfrence pour U+16C4 LETTRE RUNIQUE GER est en fait une forme rare, car la forme la plus commune est dj utilise pour U+16E1 LETTRE RUNIQUE IOR. Unifications. Lorsquune rune, issue dun systme dcriture plus ancien, a volu pour se scinder en plusieurs runes diffrentes, lunification de lancienne rune avec les runes rcentes se fonde sur la ressemblance de graphiques plutt que la proximit phontique.Quand un changement radical de la forme graphique sest produit, lunification na pas t tente, mme si la continuit historique demeure indiscutable. On a attribu des numros de caractre diffrents aux runes de mme forme issues de systmes dcriture diffrents et de prononciations diffrentes. Longue branche et ramille. Neuf des seize runes du systme norrois mdival (lpoque Viking ) utilisaient deux formes graphiques radicalement diffrentes : celle longue branche et celle ramille. Bien qu'en rgle gnrale une seule forme se prsente dans une mme inscription, il existe dimportantes exceptions. Les deux formes ont t parfois utilises par la suite diffrentes fins. Cest pourquoi les deux formes ont t spares dans le standard Unicode. Runes sans hampe. Les runes sans hampe constituent la troisime forme de runes norroises, une sorte de stnographie runique. On nen connat quun nombre limit doccurrences, les formes graphiques de ces runes variant considrablement dune inscription lautre. Cest pourquoi on a unifi les runes sans hampe avec les autres runes norroises correspondantes. On utilisera donc les runes norroises correspondantes pour coder ces caractres, tout spcialement les caractres ramille lorsque les deux formes ( longue branche et ramille) existent. Ponctuation. Unicode na conserv que trois caractres de la thorie des signes de ponctuation runique, dont les nuances de sens demeurent largement inconnues, en se fondant sur les caractristiques graphiques communes ces signes. Tous les autres signes de ponctuation ont t unifis avec les signes de ponctuation dj prsents dans le standard Unicode. Nombres dor. On a longtemps utilis les runes dans les computs scandinaves, quil sagisse de symboles reprsentant les lettres dominicales ou comme nombres dor sur les btons-phmrides (rimstock en danois, rimur en norrois). Pour complter la suite des nombres dor de 1 19, Unicode inclut trois runes supplmentaires. On les trouve aprs les signes de ponctuation.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 20

    Codage. En tout, Unicode comprend 81 caractres de lcriture runique. Parmi ceux-ci, on compte 75 lettres runiques, 3 signes de ponctuation et trois nombres dor. Lordre de ces caractres suit lordre traditionnel du futhark ; les variantes et runes drives suivent directement leur anctre. Le nom des caractres runiques correspond le plus souvent possible aux noms traditionnels, souvent multiples, de chaque rune ; ce nom se termine par la translittration latine de la rune en question.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 21

    8.7 Ogam

    Ogam : U+1680 U+169F Logam est une criture alphabtique destine transcrire une forme trs ancienne de lirlandais. Elle consiste en un jeu dentailles pratiques partir dune arte de la pierre qui lui sert de support. On trouve de ces inscriptions de taille monumentale en Irlande, au pays de Galles, en cosse et sur lle de Man. Plusieurs inscriptions cossaises demeurent indchiffrables, il pourrait sagir de picte plutt que de galique. Il est probable que les premires inscriptions ogamiques fussent graves dans le bois. Logam classique , crit sur des pierres monumentales, connut son apoge aux Ve et VIe sicles de notre re. Ces inscriptions servaient surtout de bornes et de plaques commmoratives ; les exemples les plus anciens sont gravs sur des menhirs. lorigine, cette criture suivait les artes de la pierre sur laquelle elle tait grave. Ensuite, lorsquelle fut crite sur du papier, une ligne centrale continue joua le rle de cette arte. On appelle scolastiques les inscriptions graves sur le plat dune pierre plutt que le long de son arte. Elles sont postrieures au VIIe sicle. Jusquau XVIIe sicle, il tait courant de retrouver des notes manuscrites rdiges en ogam. Structure. Lalphabet ogamique se compose de 26 caractres distincts (feda), dont les 20 premiers forment les caractres de base, on considre les six derniers comme complmentaires (forfeda). Chaque signe porte le nom dun arbre ou arbuste, nom dont la liste initiale correspond la valeur phontique du signe ; cest ainsi que le signe qui note b sappelle beithe ( bouleau ) ou celui qui note d se nomme dour ( chne ). Lalphabet ogamique se divise en quatre sries principales nommes aicmi (pluriel de aicme, signifiant famille ). Chaque aicme porte, son tour, le nom de son premier caractre (Aicme Beithe, Aicme Uatha, signifie la famille B , la famille H , et ainsi de suite). Les noms des caractres pousent les noms irlandais modernes, lexception de la mutation de nGadal, voir U+168D LETTRE D'OGAM NGADAL, puisque lISO 10646 nadmet que des majuscules dans ses noms. Rendu. Les textes ogamiques se lisent du coin infrieur gauche de la pierre vers le haut pour redescendre du ct droit (pour de longues inscriptions). Logam monumental tait surtout taill de bas en haut, bien quil existe quelques exemples dinscriptions bilingues irlandais-latin crites de gauche droite. Logam manuscrit adopte la direction dextrograde (gauche droite) de lcriture latine, les voyelles sont rendues par des traits verticaux contrairement aux coches des inscriptions graves dans la pierre. Sur ordinateur, logam doit safficher de gauche droite et de bas en haut (jamais de haut en bas). Forfeda (caractres complmentaires). Les polices utilises dans la reprsentation des textes ogamiques imprims ou manuscrits sont habituellement conues avec une arte centrale, cette convention nest cependant pas essentielle. Le caractre U+1680 ESPACE D'OGAM doit conserver sa chasse habituelle et tre laiss vide (ne pas afficher dil), la manire de notre U+0020 ESPACE. On retrouve U+169B PLUME D'OGAM et U+169C PLUME RFLCHIE D'OGAM en dbut et en fin de texte, particulirement dans logam manuscrit. Parfois, on nemploie que la plume dogam afin dindiquer la direction du texte.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 22

    8.8 Lettres modificatives

    Lettres modificatives avec chasse : U+02B0 U+02FF Les lettres modificatives forment un jeu de petits signes qui, en rgle gnrale, indiquent des modifications apportes la lettre prcdente. Certains de ces signes peuvent modifier la lettre suivante, dautres peuvent loccasion servir de lettres part entire. Contrairement aux diacritiques, les lettres modificatives chassent. Celles-ci se distinguent des signes de ponctuation ou des symboles dapparence proche ou identique par leur inscabilit (on ne peut couper un mot avant ou aprs un de ces caractres). Les lettres modificatives possdent la proprit lettre (voir Chapitre 4, Proprits des caractres). La plupart de ces signes sont des lettres modificatives phontiques ; ils comprennent ceux ncessaires lalphabet phontique international (API). Usage phontique. Les lettres modificatives ont une interprtation phontique relativement bien dfinie. Elles modifient gnralement la prononciation dun son reprsent par une autre lettre ou apportent une nuance de ton ou daccentuation (stress). En phontique, on appelle parfois ces signes modificatifs des diacritiques puisquils modifient la lettre prcdente. Par contre, Unicode et lISO 10646 rservent le terme signe diacritique aux caractres chasse nulle, tandis que les codes de ce bloc spcifient des caractres qui chassent. La Section 15.1, Liste des noms de caractres indique les signes diacritiques Unicode auxquels correspondent les lettres modificatives de ce bloc. Principes de codage. Certains des caractres de ce bloc peuvent avoir plusieurs sens selon le contexte. Ce bloc comprend galement plusieurs caractres qui reprsentent une mme valeur smantique. Il nexiste donc pas de bijection entre sens et code. Unicode ne tente pas de clarifier ces variantes dutilisation ; il fournit nanmoins au dveloppeur un jeu de formes partir desquelles choisir. Ainsi, le coup de glotte (hamza) est-il reprsent dans les translittrations latines par les caractres U+02BC LETTRE MODIFICATIVE APOSTROPHE, U+02BE LETTRE MODIFICATIVE DEMI-ANNEAU DROITE ou U+02C0 LETTRE MODIFICATIVE COUP DE GLOTTE. Rciproquement, une apostrophe peut jouer plusieurs rles : voir U+02BC LETTRE MODIFICATIVE APOSTROPHE dans la liste des noms de caractres. La liste des emplois associe chaque lettre modificative nest pas exhaustive. Dans certains cas, les lettres modificatives API ont exactement la mme signification que les formes de diacritiques chasse nulle API. Elles ne diffrent alors que par leur chasse. Lettres latines suscrites. Certaines lettres phontiques modificatives sont surleves ou suscrites, dautres surbaisses ou souscrites, tandis que les autres sont centres verticalement. Unicode ne code que les formes utilises par lAPI et dautres systmes phontiques importants. Clone chasse des diacritiques. Certains standards propritaires codent les mmes signes diacritiques sous deux formes : avec ou sans chasse. Au besoin, Unicode alloue des numros de caractre pour ces deux formes. Un certain nombre de formes chasse est repris dans les blocs du latin de base et du supplment latin-1. Les six diacritiques europens courants qui ny sont pas cods figurent ici sous leur forme chasse. Ces formes peuvent appartenir des champs smantiques multiples, comme U+02D9 POINT EN CHEF, cinquime ton en chinois mandarin. Crochet de rhotacisme. Le caractre U+02DE LETTRE MODIFICATIVE CROCHET DE RHOTACISME est dfini dans lAPI comme une lettre modificative part entire. Toutefois, on le rencontre habituellement sous la forme dun crochet rattach une lettre de base. La suite

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 23

    U+0259 LETTRE MINUSCULE LATINE SCHWA + U+02DE LETTRE MODIFICATIVE CROCHET DE RHOTACISME peut donc tre considre comme quivalente U+025A LETTRE MINUSCULE LATINE SCHWA CROCHET. Signes de ton. Lintervalle U+02E5..U+02E9 comprend une srie de signes de ton de base dfinis dans lAPI et couramment utiliss dans les transcriptions tonales prcises des langues africaines notamment. Chaque signe de ton renvoie un des cinq niveaux identifiables de ton. Pour reprsenter un contour tonal, on assemble les signes de ton de base. La Figure 8-4 illustre un exemple de ces tons de contour, ceux-ci sont soumis un ensemble de rgles de ligature quUnicode ne prcise pas. Les glyphes de contour, considrs comme des ligatures, ne font pas partie dUnicode.

    Figure 8-4. Signes et contour de ton

    + = F

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 24

    8.9 Diacritiques

    Diacritiques : U+0300 U+036F Les signes diacritiques de ce bloc peuvent sutiliser avec nimporte quelle criture. Les signes diacritiques propres une criture sont cods dans le bloc correspondant cette criture. Les signes diacritiques utiliss habituellement avec des symboles sont dfinis dans le bloc Diacritiques destins aux symboles (U+20D0..U+20FF). Normes. Les signes diacritiques sont drivs de multiples sources, parmi lesquelles lAPI, lISO 5426 et lISO 6937. Ordre des diacritiques par rapport la lettre de base. Dans le codage de caractres Unicode, tout signe chasse nulle, y compris les diacritiques, suit le caractre de base. La suite des caractres Unicode U+0061 a LETTRE MINUSCULE LATINE A + U+0308 DIACRITIQUE TRMA + U+0075 u LETTRE MINUSCULE LATINE U reprsente donc sans ambigut u et non a . Cette convention, qui consiste placer les diacritiques la suite des caractres de base auxquels ils se rapportent, est conforme lordre logique des autres signes chasse nulle de la plupart des critures smitiques et indiennes. Elle se conforme galement la manire dont les polices de caractres modernes rendent les glyphes chasse nulle, ce qui simplifie la mise en correspondance de ces caractres. (Pour plus dinformation sur lutilisation des signes diacritiques, voir le Chapitre 2, Structure gnrale, et le Chapitre 3, Conformit). Diacritique chapeautant deux caractres de base. LAPI et quelques langues comme le tagalog (ou tagal) utilisent des diacritiques qui sadjoignent deux caractres de base. Ces signes sappliquent au caractre de base qui les prcde comme tout autre signe chasse nulle , tout en chapeautant la lettre suivante. La Figure 8-5 illustre la manire dont doivent safficher les deux caractres U+0360 DIACRITIQUE DOUBLE TILDE et U+0361 DIACRITIQUE DOUBLE BRVE RENVERSE.

    Figure 8-5. Diacritiques doubles o + o

    o + + o oo

    Ces diacritiques doubles se lient toujours de faon moins serre que tout autre signe chasse nulle, lexception de U+0345 iota souscrit, ils se trient prs de la fin dans les reprsentations canoniques. Le diacritique double saffiche au-dessus des autres diacritiques ( lexception des diacritiques englobants), comme lillustre la Figure 8-6.

    Figure 8-6. Positionnement des doubles diacritiques o + + + o + B

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 25

    o + + + o + B Afficher les diacritiques la faon des lettres modificatives. Par convention, on peut afficher un signe combinatoire de faon isole en ladjoignant U+0020 ESPACE ou U+00A0 ESPACE INSCABLE. Cette mthode peut sutiliser lorsque, par exemple, on souhaite parler du signe diacritique en tant que tel, plutt que de ladjoindre comme dhabitude un caractre de base. Lutilisation de U+0020 ESPACE, par opposition U+00A0 ESPACE INSCABLE, influence le comportement de coupures de lignes. Dans les tableaux et les illustrations de cette norme, la nature combinatoire de ces signes est illustre en leur adjoignant U+25CC CERCLE EN POINTILL. Unicode code sparment les clones des signes diacritiques europens les plus communs sous la forme de caractres chasse. Les renvois de la liste des noms de caractres (Chapitre 15) lient ces caractres apparents. Principes de codage. La grande varit demplois des caractres de ce bloc explique leur polysmie potentielle. Ainsi, U+0308 = trma = umlaut = driv double. linverse, plusieurs caractres Unicode peuvent avoir le mme sens : les variantes de la cdille regroupent au moins U+0312 DIACRITIQUE VIRGULE CULBUTE EN CHEF, U+0326 DIACRITIQUE VIRGULE SOUSCRITE et U+0327 DIACRITIQUE CDILLE. (Pour plus dinformation sur les diffrences entre les signes chasse nulle et diacritiques, voir Chapitre 2, Structure gnrale.) Variation glyphique. Rendus dans le contexte dune langue ou dune criture particulire, les diacritiques puvent tre, comme toute autre lettre, sujets des variations stylistiques systmatiques. Cest ainsi quen polonais, U+0301 DIACRITIQUE ACCENT AIGU apparat plus inclin quen franais. En grec, laccent aigu (oxia) est parfois presque vertical. U+030C DIACRITIQUE CARON est souvent rendu comme une apostrophe avec certaines formes de lettre. Adjoint un g minuscule, U+0326 DIACRITIQUE VIRGULE SOUSCRITE saffiche parfois sous la forme de U+0312 DIACRITIQUE VIRGULE CULBUTE EN CHEF, afin dviter les conflits avec sa boucle infrieure. Plusieurs polices de caractres ne distinguent pas nettement le U+0326 DIACRITIQUE VIRGULE SOUSCRITE de U+0327 DIACRITIQUE CDILLE. Les accents combinatoires placs au-dessus des glyphes de base sont habituellement ajusts en hauteur selon la casse du glyphe. En labsence de protocole destin aux polices, les diacritiques sont souvent conus pour sappliquer aux caractres de base typiques de cette police. Pour plus dinformation, voir la Section 5.14, Rendu des signes chasse nulle.

    Diacritiques destins aux symboles : U+20D0 U+20FF Les signes diacritiques destins aux symboles sont gnralement jumels des symboles mathmatiques ou techniques. Ils peuvent tre utiliss pour tendre la srie des symboles. U+20D3 DIACRITIQUE LIGNE VERTICALE COURTE COUVRANTE peut, par exemple, exprimer la ngation. Dans ce cas-l, son il peut sallonger ou sincliner. Ainsi, U+2261 IDENTIQUE suivi de U+20D3 DIACRITIQUE LIGNE VERTICALE COURTE COUVRANTE est quivalent U+2262 NON IDENTIQUE . Ici, Unicode prvoit dj une forme prcompose du symbole de ngation. Ce nest pas toujours vrai, car U+20D3 peut servir exprimer la ngation dautres symboles. Ainsi, U+2258 CORRESPOND suivi de U+20D3 DIACRITIQUE LIGNE VERTICALE COURTE

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 26

    COUVRANTE peut-il tre utilis pour exprimer ne correspond pas , sans que la forme prcompose ne fasse partie dUnicode. Il est peine besoin de mentionner que dautres caractres chasse nulle peuvent sutiliser dans des expressions mathmatiques. U+0304 DIACRITIQUE MACRON est de la sorte couramment utilis en calcul propositionnel pour dsigner la ngation logique. Diacritiques englobants. Ces caractres chasse nulle sont fournis des fins de compatibilit avec les normes existantes ; ils permettent de ceindre de diverses faons les caractres de base simples. U+2460 CHIFFRE UN CERCL peut, par exemple, tre exprim comme U+0031 1 CHIFFRE UN + U+20DD DIACRITIQUE CERCLE ENGLOBANT. Comme pour les autres diacritiques, ceux-ci peuvent produire des formes non prcomposes (la composition est ouverte); cest ainsi quon obtient la lettre alef cercle laide de la suite U+05D0 LETTRE HBRAQUE ALEF + U+20DD DIACRITIQUE CERCLE ENGLOBANT. Les diacritiques englobants ne peuvent tre utiliss pour englober plusieurs caractres de base la fois dans les textes bruts. Ainsi, NOMBRE ONZE ntant pas un caractre simple, il est impossible de reprsenter U+246A NOMBRE ONZE CERCL laide dun CERCLE ENGLOBANT sans faire appel un protocole de niveau suprieur.

    Demi-signes diacritiques : U+FE20 U+FE2F Ce bloc reprend une srie de formes de prsentation (glyphes) qui peuvent tre utilises pour reprsenter des signes diacritiques adjoints plusieurs lettres de base. Le but de ces caractres est de faciliter la prise en charge de diacritiques hrits de mises en uvre antrieures. Contrairement dautres caractres de compatibilit, ces caractres ne correspondent ni un caractre de rfrence simple ni mme une suite de caractres de rfrence ; une suite discontinue de ces moitis de diacritique correspond un diacritique complet, comme lillustre la Figure 8-7. Unicode recommande toutefois lutilisation des diacritiques doubles (U+0360 et U+0361).

    Figure 8-7. Demi-signes diacritiques Demi-signe diacritique

    n + + g + ng U+600E U+FE22 U+0067 U+FE23

    Signe diacritique complet

    n + + g ng U+600E U+0360 U+0067

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 27

    8.10 Italique

    Italique : U+10300 U+1032F Lcriture italique5 unifie un certain nombre dalphabets historiques apparents et originaires de la pninsule italienne. Quelques-uns furent utiliss pour crire des langues non indo-europennes (ltrusque et, probablement, le picnien septentrional) dautres servirent transcrire des langues indo-europennes appartenant au rameau italique (le falisque et les langues membres du groupe sabellique parmi lesquelles losque, lombrien et le picnien mridional). Ces alphabets de lItalie ancienne remontent tous au grec dEube utilis Ischia et Cumes dans la baie de Naples au VIIIe sicle av. J.-C. Malheureusement, aucun abcdaire grec du sud de lItalie na survcu. Le falisque, losque, lombrien, le picnien septentrional et mridional sont tous drivs de la forme trusque de lalphabet grec.

    Il existe des dizaines de milliers dinscriptions trusques. Ds le VIIIe sicle av. J.-C, poque laquelle remonte les inscriptions les plus anciennes, des variations locales apparaissent dans lalphabet. On distingue trois variations styliques importantes : ltrusque du Nord, ltrusque du Sud et celui de Caere/Veii. Lvolution de ltrusque, lie principalement des changements phonologiques, se divise en deux poques : lalphabet trusque archaque, utilis du VIIe au Ve sicle avant J.-C., et lalphabet no-trusque, utilis du IVe au Ier sicle av. J.-C. Les glyphes de huit lettres diffrent dune poque lautre ; le no-trusque avait par surcrot abandonn les lettres KA, KU et EKS.

    Lunification de ces alphabets en une seule criture italique implique lutilisation de polices de caractres propres aux diffrentes langues unifies, car les glyphes varient quelque peu en fonction de la langue.

    La plupart de langues ont ajout quelques caractres au rpertoire commun : ltrusque et le falisque ont adjoint la LETTRE EF ; losque, la LETTRE EF, la LETTRE et la LETTRE ; lombrien, la LETTRE EF, la LETTRE ERSE, et la LETTRE ; le picnien septentrional, la LETTRE et ladriatique, la LETTRE et la LETTRE .

    Lcriture latine remonte une criture trusque mridionale, probablement originaire de Caere ou de Veii, vers le milieu du VIIe sicle av. J.-C. Cependant les diffrences de forme, de directionalit et de rpertoire prsentes entre le latin et le falisque des VIIe et VIe sicles av. J.-C. justifient leur codage dans des blocs de caractres diffrents. Les polices de caractres destines reprsenter le latin archaque doivent utiliser les points de code correspondant aux majuscules (U+0041..U+005A). Lcriture alpine unifie, regroupant le vnte, le rhtique, le lpontique et le gaulois cisalpin, ne fait pas encore partie dUnicode ; on considre quelle diffre suffisamment de litalique pour mriter un bloc spar. On postule que lcriture alpine est la source des runes (U+16A0..U+16FF).

    Les noms des caractres italiques ne sont pas attests, ils sont le rsultat dune reconstitution effectue partir dune tude mene bien par Geoffrey Sampson6. Les noms des caractres grecs (alpha, bta, gamma) furent emprunts directement au phnicien et adapts la phonologie grecque. Les trusques, par contre, auraient abandonn les noms grecs au profit dune nomenclature phontique. Alors que les occlusives se prononaient avec un prolong, les liquides ou les sibilantes (qui peuvent se prononcer plus ou moins seules) taient prcdes dun son (ainsi [k] et [d] vinrent sappeler [ke:], [de:], alors que [I:] et [m:] portrent les noms de [l], [m].) Ces noms auraient t emprunts par les Romains lorsquils adoptrent lcriture trusque. 5 ne pas confondre avec les caractres italiques, penchs, d'Alde Manuce. 6 W. Schulze avait dj mis une hypothse similaire en 1904 pour le nom des lettres latines.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 28

    Directionalit. La plupart des textes trusques se lisent de droite gauche, ils sont donc sinistrogrades. partir du IIIe sicle av. J.-C., des textes crits de gauche droite firent leur apparition, dmontrant une influence latine. Losque, lombrien et le falisque ont aussi gnralement une directionalit droite--gauche. Le boustrophdon napparat que rarement et relativement tard (les inscriptions du Forum, par exemple, datent de 550 500 av. J.-C.). Malgr ce fait, pour des raisons de simplicit dans la mise en uvre, la plupart des philologues prfrent crire ces textes de gauche droite, car il sagit galement de la direction utilise quand ces textes sont transcrits en criture latine. Lcriture italique possde donc une directionalit implicite dextrograde (de gauche droite) pour Unicode. Rendu de droite gauche, on affiche les glyphes sous une forme rflchie (spculaire) par rapport aux glyphes de rfrence des tableaux de caractres.

    Ponctuation. Les inscriptions les plus anciennes sont crites en scriptio continua, cest--dire sans espaces entre les mots. Il existe plusieurs inscriptions trusques o des points servent sparer les mots, et ce depuis la moiti du VIIe sicle av. J.-C. Cette ponctuation sert parfois, mais rarement, sparer les syllabes plutt que les mots. partir du VIe sicle av. J.-C., les mots se sparaient souvent par un, deux voire trois points superposs.

    Numration. Les chiffres trusques ne sont pas bien attests dans les textes notre disposition, mais ils semployaient de la mme faon que les chiffres romains. On retrouve galement dautres chiffres, mais leur utilisation demeure incertaine. Ils ne font pas encore partie du standard Unicode.

    Glyphes. Les glyphes de rfrence utiliss dans les tableaux de caractres reprsentent les formes les plus frquentes de chaque lettre. La plupart dentre eux ressemblent aux lettres de labcdaire de Marsiliana (milieu du VIIe sicle av. J.-C.). Remarquez les valeurs phontiques de U+10317 LETTRE ITALIQUE IKS [ks] et U+10319 LETTRE ITALIQUE KH [] qui trahissent linfluence du grec occidental dEube alors que le grec oriental associe plutt des glyphes similaires les lettres U+03A7 LETTRE MAJUSCULE GRECQUE KHI [] et U+03A8 LETTRE MAJUSCULE GRECQUE PSI [ps].

    Figure 8-8. critures italiques

    Lpontique

    Gaulois cisalpin

    Rhte

    Vnte

    trusqueLangues

    sabelliquescentrales

    Osque

    Messapien

    Grec

    Sicule

    lymien

    Sicanien

    Falisque

    Latin (Rome)

    Volsque

    Ligure

    trusque

    Ombrien

    Picnien du S.

    Picnien du N.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 29

    La Figure 8-8, ci-dessus, illustre la distribution gographique de lcriture italique. Le blanc reprsente laire de distribution approximative des langues anciennes utilisant les alphabets italiques. Le gris symbolise les rgions o dautres critures dominaient, le nom de ces langues est crit en italique. Il est noter que les anciennes colonies grecques de lItalie mridionales et des ctes siciliennes (la Grande Grce ) scrivaient laide de lcriture grecque. Les langues septentrionales, comme le ligure ou le vnte, utilisaient des variantes de lcriture alpine. Rome apparat en gris, puisque le latin est cod dans un bloc spar, le bloc latin.

  • CRITURES EUROPENNES ALPHABTIQUES CHAPITRE 8

    UNICODE 3.1 ANNOT 30

    8.11 Gotique

    Gotique : U+10330 U+1034F Lvque des Goths Wulfila (311-383 apr. J.-C.) cra lcriture gotique au IVe sicle dans le but de fournir son peuple une langue crite utile, entre autres choses, pour lire sa propre traduction de la Bible. Les crits en gotique se limitent principalement des fragments de traduction de la Bible faite par Wulfila ; ces textes ont par ailleurs une grande importance pour ltude des textes notestamentaires. Le Codex Argenteus ou livre argent , conserv Uppsala, constitue le principal manuscrit ; il est partiellement crit en feuilles dor poses sur du parchemin mauve. Le gotique est le seul tmoin crit de la branche germanique orientale. Sa disparition confre aux textes gotiques une importance considrable en linguistique historique et comparative. Il semble que Wulfila sinspira de lcriture grecque, comme le dmontre lordre alphabtique de base. Certaines formes des caractres trahissent une influence runique ou latine, bien que cela puisse ntre que le fruit dune pure concidence. Diacritiques. Le U+0308 DIACRITIQUE TRMA sadjoint parfois la dixime lettre U+10339 LETTRE GOTIQUE I au dbut dun mot, dune syllabe ou comme deuxime membre dans des composs verbaux, comme lillustre lexemple ci-dessous :

    Figure 8-9. Utilisation du trma en gotique

    ??

    swe gameli st n esan praufetau comme il est crit dans Isae le prophte

    U+0305 DIACRITIQUE TIRET HAUT indique la contraction ou lomission de lettres. Numration. Les lettres gotiques, comme celles des premiers alphabets occidentaux, peuvent servir de lettres numrales ; deux caractres (90 et 900) ne servent que de chiffres. Pour indiquer la valeur numrale dune lettre, on place de chaque ct de la celle-ci un U+00B7 POINT MDIAN ou, encore, on fait suivre la lettre de U+0304 DIACRITIQUE MACRON et de U+0331 DIACRITIQUE MACRON SOUSCRIT. (Voir la Figure 8-10, ci-dessous.)

    Figure 8-10. Lettres numrales gotiques

    e ou H J = 5

    Ponctuation. Les manuscrits sont crits en scripto continua, cest--dire sans espaces entre les mots. En rgle gnrale, on spare les phrases ou les propositions laide de U+0020 ESPACE, U+00B7 POINT MDIAN ou de U+003A : DEUX-POINTS.

    Annonce-Unicode-5.0.pdfChapitre-8.pdf


Recommended