Upload
edith-vallee
View
102
Download
0
Embed Size (px)
Citation preview
L’ordinateur et les langues
Installation des languesCodage des caractèresRésolution des problèmes
Localisation et utilisation des langues
LOCALISATION DE L’ORDINATEUR
Matériel
Système
Localisation matérielle
Alimentation, type de prise
Clavier « japonais»
Localisation matérielle
Alimentation, type de prise
Clavier «arabe»
Localisation logicielle
Paramétrage linguistique de l’ordinateur
Menus des applications en langue du paysPlusieurs Versions de Windows
(environ 35 langues plus l’adaptation aux usages locaux):
Installation des langues
Paramétrage linguistique de
l’ordinateur« Options Régionales et
Linguistiques »
« Services de texte et langue d’entrée »
Utilisation des programmes bureautique
Basculement du clavier Fr Langue
Ecriture directe dans la langue souhaitée
mais:
Pas de correcteur orthographique
Attention au problème de tri alphabétique
Utilisation des programmes localisés différemment
Localisation = problème d’utilisation des logiciels étrangers!
Codage des caractères
répertoire de caractères
Un répertoire de caractères est un ensemble convenu, fini et non-ordonné de caractères que l’on considère comme étant complet pour une utilisation donnée
Codage des caractères
jeux de caractères codés
Un jeu de caractères codés est une application établissant une relation entre les éléments d’un répertoire de caractères et un ensemble d’entiers positifs : on assigne donc ainsi à chaque élément du répertoire un code numérique unique, sa position de codage (code numérique, élément de code, code, code point).Ex: a = U + 0061 LATIN SMALL LETTER A
Codage des caractères
formes d’encodage (Character Encoding Form – CEF)
Représenter les caractères d’un jeu de caractères codés en transformant leur code numérique en une séquence d’octets.
Dans le cas le plus simple, chaque caractère, par référence à une table de caractères, est mis en relation avec un entier compris entre 0 et 255 et cet entier est utilisé tel quel en représentation binaire sur un format d’un octet. Possible si répertoire restreint, comportant au maximum 256 éléments.
Codage des caractères
formes d’encodage pour Internet
Cas des navigateurs internet : choisir un jeu de caractères, un code caractères ou une forme d’encodage est présentée comme la possibilité de choisir une langue.
Codage des caractères
caractèresLe terme « caractère » désigne une notion abstraite : c’est une unité d’information qui permet d’organiser, de contrôler ou de représenter des données textuelles. Le caractère <lettre b minuscule> (pas de signification) b bb
glyphes forme abstraite représentant une ou plusieurs formes (typo)graphiques synonyme d’image (typo)graphique
police (fonte)collection de glyphes utilisée pour décrire visuellement des données caractères. Elle est associée à un ensemble de paramètres : taille, position, graisse…
Police de caractères
police (fonte)collection de glyphes utilisée pour décrire visuellement des données caractères. Elle est associée à un ensemble de paramètres : taille, position, graisse …
Les fontes Windows sont stockées dans le répertoire Windows / Fonts
Police de caractères
police (fonte)
Système True Type Open Type
PostScript
(Adobe, pour l’impression)
Codage des caractères
ASCII =128 caractères
0 à 9 , latin : A –Z a-z , signes de ponctuation.
ASCII étendu = 256 caractères
Codage des caractères
ANSI (pour Windows occidental)0 à 9, latin : A-Z a-z , signes de ponctuation,
+ caractères accentués, À Á Â Ã Å Æ Ç È É ….
Codage des caractères
ANSI (pour Windows cyrillique)0 à 9, latin : A-Z a-z , signes de ponctuation,
+ à la place des caractères accentués latin se trouve les caractères de la langue voulue
Codage des caractères
Unicode (avec Windows 2000, Xp, Vista)codage non-ambigu sur 16 bits (v 3.2), sur 20 bits
depuis la version 4, qui n’a pas besoin de séquences de contrôle. Il permet l’échange, le traitement et la visualisation des caractères utilisés par la plupart des langues vivantes: scripts latin (occidental, Europe centrale,scandinave, turc,viêtnamien), grec, cyrillique, arménien, géorgien, hébreu, arabe, devanagari, bengali, gurmukhi, gujarati, oriya, tamoul, télougou, kannada, malaysien, siamois, lao, tibétain, kana, hangul, CJK (ensemble unifié des caractères idéographiques chinois, japonais, coréens).
Codage Unicode
Problèmes liés aux codages des caractères
codage codage source visualisation
apparence du texte solution
KOИ 7 - ASCII q GOVOR@ PO RUSSKI transcodeur
DOS 866 - Win 1252 DOS 866 - Win 1251
ƒ®¢®à¨«¨, çâ® ¡¥ Ÿ £®¢®àî ¯®-àãá᪨
cyrillisateur DOS police 8 bits transcodeur
Win 1251 - Win1252 Win 1251 - Unicode
ß ãîâîðþ ïî-ðóññêè ß ãîâîðþ ïî-ðóññêè police cyrillique 8 bits transcodeurs + police 16 bits (Arial) KOI 8 - Win 1252 KOИ 8
- Win 1251ñ ÇÏ×ÏÒÀ ÐÏ-ÒÕÓÓËÉ с ЗПЧПТА РП-ТХУУЛЙ
police KOI 8 et/ou transcodeur
Мас Cyrillic - Win 1251 Мас Cyrillic - Win 1252
џ говорю по-русски Ÿ ãîâîðþ ïî-ðóññêè
transcodeur transcodeur+ police
Chiwriter - ASCII / ANSI W sjdjh : gj-heccrb macro complexe ou police spécifique
Unicode - ANSI ? ? ? ? ? ? ? ? ?- ? ? ? ? ? ?
texte définitivement perdu
Unicode - ANSI _ _____ __-______ système russe, sinon fichier inutilisable
Unicode - ANSI Я говорю по-русски police 8 bits
UNICODE - source text Я говорю по-руÑÑкР� �
Internet explorer
UNICODE - text HTML Word Я ; г ;о ; в ;о ;р ;;си ;
Internet Explorer ou macro Word
Problèmes liés aux codages des caractères
Problèmes liés aux codages des caractères
Codages des caractères: écritures du monde
Ecritures du monde
Ecritures du monde
Ecritures du monde
Récapitulatif des codages des caractères