Glossaire Unicode
À chasse fixe
On dira d'une police de
caractères qu'elle est à chasse fixe, ou monochasse, quand tous les
caractères
ont la même chasse, comme c'est le cas habituellement sur une machine à
écrire.
Antonyme : à chasse variable ou à espacement proportionnel.
Remarque : |
Ce glossaire correspond au glossaire PDF publié sur ce site à quelques exemples de glyphes près. Chaque terme défini possède un signet (une ancre) auquel on peut faire directement référence à partir d'autres pages Internet. Ces signets sont tous en minuscules (sauf pour les acronymes), les blancs sont remplacés par des tirets soulignés. Ainsi, pour insérer un lien vers "point de code complémentaire" dans votre page Internet, utilisez http://hapax.qc.ca/glossaire.htm#point_de_code_complementaire |
À chasse nulle
Caractéristique de
certaines espaces, de caractères de commande ou de formatage qui ne
consomment
pas de place le long de la ligne de base horizontale. Cf. Signe
à chasse nulle. Synonyme : sans chasse.
Accent
Signe placé au-dessus, en dessous ou à
côté d'un caractère, souvent afin d'altérer sa valeur phonétique. Cf.
également
Diacritique.
À éviter
Caractère codé fortement
déconseillé. Unicode conserve ce type de caractères mais ils doivent
être
évités. Voir la définition D7a à la section 3.3, Caractères et
représentations
codées. À distinguer de Désuet.
Alphabet
Ensemble de symboles qui, dans le
contexte d'une langue écrite particulière, sert à représenter les sons
de cette
langue. La correspondance entre les symboles et les sons peut être plus
ou moins
forte ; la plupart des alphabets ne présentent pas de correspondance
biunivoque
entre les sons distincts (phonèmes)
et
les symboles distincts (graphèmes).
Alphasyllabaire
Système d'écriture où
les voyelles sont représentées par des signes diacritiques
écrits au-dessus des consonnes ou à proximité de celles-ci.
À même le texte.
Cf. Dans le
texte.
Annotation
Association d’un contenu textuel
secondaire à un passage textuel principal. Contrairement au balisage, on
considère que la valeur de cette annotation fait partie du « contenu »
du texte.
Quelques exemples typiques : gloses, citations, ampliations, yomi
japonais, etc.
Anounâssika
Cf. Tchandrabindou.
Anousvâra
Terme sanscrit employé dans les
écritures dérivées de la brâhmî
pour
désigner des aspects de la nasalisation d'une voyelle sous l'influence
d'une
consonne nasale voisine, par un phénomène comparable à celui qu'on
observe en
français méridional (prononciation provençale de l'a dans année).
L'anousvâra
s'écrit en dévanâgarî à l'aide d'un point posé au-dessus du caractère
qu'il
modifie. C'est aussi généralement le cas dans les autres écritures
dérivées de
la brâhmî. On parle également de bindou.
ANSI
(1) Abréviation de l'organisme de
normalisation américain, l'American National Standards Institute. (2)
Nom
collectif donné par Microsoft à toutes les pages de code de Windows. Ce
nom est
quelque fois utilisé spécifiquement pour qualifier la page de code
1252, un
sur-ensemble d'ISO/CEI 8859-1.
Antiliant
Caractère invisible qui affecte la
liaison des caractères voisins lors du rendu. Voir la section 9.2,
Arabe et
« Liaison cursive » dans la section 14.2, Commandes de
disposition.
API
(1) Alphabet phonétique international. (2)
Association phonétique internationale responsable de la définition de
l'Alphabet
phonétique international et de sa mise à jour.
ASCII
Acronyme de American Standard Code for
Information Interchange, un code à 7 bits, qui est la variante
américaine de la
norme ISO/CEI 646. Officiellement, il s'agit de la norme américaine
ANSI X3.4.
Balise
Association d’attributs textuels ou
structurels à un passage textuel principal. En règle générale, on ne
considère
pas fasse qu’une balise fait partie du « contenu » textuel. SGML et XML
sont des
langages de balisage structurel, les étiquettes Unicode/ISO 10646 sont
des
balises linguistiques. Certaines balises indiquent également la police
à
utiliser pour un passage particulier.
Bas de casse
Synonyme de minuscule.
Cf. Casse.
Base de données des
caractères
Unicode
Ensemble de fichiers qui fournit des correspondances et des
propriétés normatives et informatives reliées aux caractères Unicode.
Cf. 4,
Propriétés des caractères, et le fichier UnicodeCharacterDatabase.html
sur le
disque accompagnant ce livre.
Bicaméral
Écriture qui distingue entre les
majuscules
et les minuscules.
Terme utilisé le plus souvent dans le contexte des alphabets européens.
Bidi
Abréviation de bidirectionnel. Utilisé pour
désigner un texte pouvant s'écrire de droite à gauche et de gauche à
droite.
Bloc
Regroupement de caractères apparentés au
sein de l'espace de codage d'Unicode. Un bloc peut comprendre des
positions non
attribuées qui sont alors réservées.
Bloc de caractères
Voir Bloc.
BNF
Abréviation de Forme de Backus-Naur, une
métasyntaxe formelle utilisée pour décrire des syntaxes hors-contexte.
Bopomofo
Transcription
alphabétique du chinois principalement utilisée à Taïwan (Formose),
utile pour
l'enseignement et la saisie de texte. Le bopomofo permet de transcrire
le
mandarin ainsi que certaines langues minoritaires. Chaque symbole
correspond aux
sons initiaux ou aux sons finaux de la syllabe. Le nom bopomofo est
dérivé du
nom des quatre premiers éléments. Cette écriture se nomme zhuyin
zimu ou
zhuyin fuhao en mandarin.
Boustrophédon
Type d'écriture (grec
archaïque, étrusque, etc.) dans lequel les lignes se succèdent dans
l'ordre où
l'on trace les sillons d'un champ, c'est-à-dire alternativement de
gauche à
droite et de droite à gauche. Les glyphes
utilisés dans une direction sont habituellement l'image miroir de ceux
utilisés
dans la direction opposée.
Brâhmî
Écriture historique de l'Inde. La brâhmî
a donné naissance à partir du IVe siècle aux écritures
indiennes
ultérieures (télougou, kannara, tamoul, malayalam, goudjarati, etc.).
Parmi les
écritures indiennes dérivées de la brâhmî, la nâgarî (ou dévanâgarî)
mérite une
place à part. Avec l'apparition de l'imprimerie, elle est devenue
l'écriture
principale du sanscrit. Elle sert également aujourd'hui à noter le
hindî.
Braille
Écriture constituée de points en
relief à l'usage des aveugles ou des mal voyants. Voir la section 13.9,
Braille.
Canonique
(1) Qui se conforme aux règles
générales de codage, c'est-à-dire ni compressé, ni compacté ni dans
toute autre
forme indiquée par un protocole
de plus haut niveau. (2) Caractéristique d'une transposition
normative et
d'une forme d'équivalence décrite dans 3, Conformité. Voir décomposition
canonique.
Capitale
Synonyme de majuscule. Cf. Casse.
Caractère
(1) Le plus petit élément d'une
langue écrite pourvu d'une valeur sémantique au niveau du sens ou de la
forme
abstraite plutôt que d'une forme particulière (Cf. également Glyphe), bien
que dans les tableaux de code il soit essentiel de se référer à une
représentation visuelle particulière pour que le lecteur reconnaisse le
caractère concerné. (2) Synonyme de caractère
abstrait. Voir la définition D3 à la section 3.3, Caractères et
représentations codées. (3) L'unité de base utilisée par le codage de
caractères
d'Unicode. (4) Le nom français des éléments idéophonographiques
d'origine
chinoise. Cf. Idéophonogramme.
Caractère abstrait
Unité
d'information utilisée pour organiser, commander ou représenter des
données
textuelles. Voir la définition D3 à la section 3.3, Caractères et
représentations codées.
Caractère attribué
Synonyme de caractère
codé.
Caractère codé
Caractère abstrait et sa
valeur scalaire Unicode associée (le numéro entier qui lui est
associé). Le
caractère abstrait seul n'a pas de valeur numérique, c'est le «
codage du
caractère » qui lui attribue une valeur scalaire Unicode. Cette
association
constitue un « caractère codé ».
Caractère combinatoire
Caractère qui se combine graphiquement avec le caractère
de base précédent. On dit que le caractère combinatoire est adjoint
à ce
caractère de base. Voir la définition D14 à la section 3.5,
Combinaison. Cf.
également Signe
à chasse nulle.
Caractère complémentaire
Caractère Unicode codé appartenant au plan
complémentaire.
Caractère composite
Cf. Caractère
décomposable.
Caractère de base
Caractère qui ne
se combine pas graphiquement avec les caractères précédents et qui
n'est ni un
caractère
de commande ni un caractère
de formatage. Voir la définition D13 à la section 3.5, Combinaison.
Caractère de
compatibilité
(1) Caractère codé uniquement à des fins de compatibilité avec les
normes de
codages de caractères préexistantes et de transcodage entre celles-ci
et
Unicode. (2) Un caractère qui possède une décomposition
de compatibilité, Voir la définition D21 à la section 3.6,
Décomposition.
Caractère décomposable
Caractère équivalant à une suite d'un ou plusieurs autres caractères,
selon
les correspondances de décomposition
précisées dans la liste des noms de la section 15.1, Liste des noms de
caractères. Également appelé Caractère précomposé ou Caractère
composite. Cf. la
définition D18 à la section 3.6, Décomposition.
Caractère de
description idéographique
Caractère graphique utilisé avec d'autres
caractères graphiques pour former une suite de description
idéographique (SDI).
Une telle suite peut être utilisée pour décrire un idéogramme
ne faisant pas partie d'Unicode. Une SDI décrit un idéogramme de façon
abstraite. Elle n'est pas interprétée comme une séquence composite et
n'entraîne
aucune forme de présentation particulière. Une SDI n'est pas un
caractère et par
conséquent ne fait pas partie du répertoire.
Caractère de remplacement
Caractère utilisé à la place d'un caractère non interprétable issu d'un
autre codage. Unicode utilise U+FFFD CARACTÈRE DE REMPLACEMENT à cet
effet.
Caractère du PMB
Caractère Unicode
codé appartenant au plan
multilingue de base.
Caractère graphique
(1) Caractère
typiquement associé à une représentation visible y compris n'importe
quel type
d'espace. Cf. également Glyphe. (2)
Tout caractère qui n'est pas avant tout associé à une fonction de commande
ou de formatage.
Caractère neutre
Caractère que l'on
peut écrire de droite à gauche ou de gauche à droite selon le contexte.
Voir la
section 3.12, Comportement bidirectionnel.
Caractère précomposé
Cf. Caractère
décomposable.
Caractères han
Écriture idéophonographique
chinoise. Elle est dérivée de 214 (ou 227 selon les dictionnaires) clés
ou
radicaux dont la présence dans un signe indique habituellement la
catégorie de
choses, d'idées, etc. représentée par le caractère. Syn. Sinogramme.
Casse
(1) Trait de certains alphabets
où
les lettres ont deux formes distinctes. À l'origine, la casse était une
boîte
plate divisée en compartiments (les cassetins). On distingue les
lettres du haut
de casse, ou capitales, ou encore majuscules, et les lettres de bas de
casse, ou
minuscules. Ces variantes peuvent différer sensiblement dans leur
aspect et
taille. (2) Propriété normative de caractères : majuscule,
minuscule,
casse de
titre (Lu, Ll et Lt). Voir la section
4.1, Casse
- normatif.
Casse de titre
Lettre initiale
majuscule, les autres lettres du mot étant en minuscules. Dans
certaines
langues, la lettre initiale en casse de titre peut avoir une forme de
glyphe
différente d'une lettre majuscule. Cf. Casse.
Casseau
Dans la typographie ancienne, moitié
de casse, à grands compartiments, servant de réserve pour différents
caractères.
Dans le cas d'Unicode, il s'agit d'un ensemble de caractères décoratifs
ou de
fantaisie.
Catégorie générale
Division des
caractères en classes principales telles que les lettres, la
ponctuation ou les
symboles et en sous-classes subséquentes pour chacune de ces classes
principales. Cf. la section 4.5, Catégorie générale - en partie
normatif.
Cédille
Un signe placé à l'origine sous la
lettre c en français, en portugais et en espagnol pour indiquer
que la
lettre doit être prononcée comme un s (cf. ação).
Diminutif désuet
espagnol de ceda, la lettre z.
Cellule
Dans la terminologie de l'ISO/CEI
10646, place dans une rangée à
laquelle un caractère isolé peut être affecté.
Cellule de rendu
Zone rectangulaire
sur le dispositif d'affichage au sein de laquelle un ou plusieurs glyphes sont
représentés.
Chiffres
Cf. Chiffres
arabes, Chiffres
européens, Chiffres
de l'Inde.
Chiffres arabes
Formes particulières
des chiffres
décimaux utilisés dans la plus grande partie du monde arabe (par
exemple
U+0660, U+0661, U+0662, U+0663). Bien que les chiffres
européens soient issus de ces formes, elles sont visuellement
distinctes et
sont codées séparément. On désigne parfois les chiffres arabes sous le
nom de
chiffres indiens, cette désignation entraîne cependant une ambigüité
inutile
avec les chiffres utilisés actuellement par les langues de l'Inde.
Unicode
désigne les chiffres arabes sous le nom de chiffres arabo-hindî. Des
variantes
de ces chiffres sont utilisées principalement en Iran et au Pakistan,
on leur
donne le nom de chiffres arabo-hindî orientaux.
Chiffres de l'Inde
Formes
particulières des chiffres décimaux utilisés par plusieurs écritures
d'origine
brâhmî (par
exemple, en dévanâgarî : U+0966, U+0967, U+0968, U+0969). Les chiffres
arabes
(et, par suite, les chiffres européens) dérivent de ces formes.
Chiffres décimaux
Chiffres qui
peuvent être utilisées dans les nombres à base dix.
Chiffres européens
Formes des
chiffres décimaux d'abord utilisées en Europe et aujourd'hui à
l'échelle
planétaire. Ces chiffres dérivent historiquement des chiffres arabes,
on les
appelle donc parfois « chiffres arabes », il y a lieu de
préférer la
forme chiffres européens qui ne porte pas à confusion avec les Chiffres
arabes d'Unicode.
Chu hán
Nom des caractères chinois au Viêt-nam
dérivés du hanzi.
Chu nôm
Mot vietnamien qui signifie écriture
populaire, démotique
ou vulgaire. Écriture en usage au Viêt-nam avant l'adoption de
l'écriture latine
au XIXe siècle. Le chu nôm est basé sur l'écriture chinoise
avec une
prononciation et une composition particulière au Viêt-nam.
CJC
Abréviation de chinois, japonais et coréen.
Une variante, le CJCV, représente le chinois, le japonais, le coréen et
le
vietnamien.
Classe combinatoire
Une valeur
numérique attribuée à chaque caractère Unicode qui précise les autres
caractères
combinatoires avec lequel ce caractère interagit au niveau
typographique.
Classe de caractères
Jeu de
caractères qui partage un ensemble précis de propriétés.
Classement
Tri des unités d'information
textuelle. Chaque langue possède habituellement un classement
particulier. On
parle également de tri alphabétique ou lexicographique. Le rapport
technique n°
10 Unicode Collation Algorithm définit un ordre déterminé,
complet et
univoque pour tous les caractères d'Unicode. Une norme ISO
correspondante
(14651) définit également un tel ordre.
Clé
Cf. Radical.
Code de glyphe
Une valeur de code qui
désigne un glyphe.
Habituellement, on identifie les glyphes contenus dans une police par leur
code de glyphe. Les codes de glyphe sont généralement propres à une
police
particulière, en d'autres termes, une police différente comprenant les
mêmes
glyphes utiliser probablement d'autres codes de glyphe.
Codes de commande
Les soixante-cinq
caractères des intervalles U+0000..U+001F et U+007F..U+009F. Également
appelés
caractères de commande.
Codes de formatage
Caractères
invisibles mais qui affectent la présentation des caractères voisins.
Combinaison braille
Une des 64
(pour le braille à 6 points) ou 256 (pour le braille à 8 points)
combinaisons
possibles de points tangibles.
Compatibilité
(1) Cohérence avec la
pratique courante ou antérieure des normes de codage de caractères. (2)
Caractéristique d'une transformation
normative et d'une forme d'équivalence précisée dans la section 3.6,
Décomposition.
Composition dynamique
Création,
à partir d'une suite de caractères, de formes composites, telles les
lettres
accentuées ou les syllabes hangûl
Conformité
Adhésion à un ensemble précis de
critères relatifs à l'utilisation d'une norme ou d'un standard.
Conjointe consonantique
D'ordinaire, forme de présentation ligaturée
d'un groupe consonantique. Ce terme s'applique plus particulièrement
aux
écritures d'origine brâhmî.
Consonne mi-formée
Également appelé
demi-forme. En dévanâgarî, et dans d'autres écritures indiennes de la
famille brâhmî, une
consonne dévoyellée
peut être représentée sous cette demi-forme. Cette consonne mi-formée
reprend la
forme du caractère-consonne mais sans sa hampe. Ce caractère déhampé ou
déhasté
peut alors servir à créer des formes conjointes,
il s'agit d'ailleurs de la forme traditionnellement utilisée.
Consonne morte
Une consonne des
écritures brâhmî
suivie d'un caractère virâma.
De ce
fait, la consonne perd sa voyelle
implicite. Cf. la section 10.1, Dévanâgarî.
Conversion par pivot
Utilisation
d'un troisième codage de caractères comme étape intermédiaire lors
d'une
conversion entre deux codages de caractères. Le standard Unicode est
fréquemment
utilisé comme pivot puisque son répertoire est un sur-ensemble de celui
de la
plupart des autres jeux
de caractères codés.
Correspondance de casses
Association des formes du haut
de
casse, bas de
casse et casse de
titre d'une lettre. Cf. la section 5.18, Correspondance de casses.
Crénage
Certains caractères ont un œil
débordant du
support - on dit que l'œil saille. Il peut se trouver dans le sens
vertical pour
placer un accent sur une capitale
ou
dans le sens latéral, pour certains caractères italiques par exemple,
pour
éviter des défauts d'approche trop évidents. Le crénage est le
processus
d'ajustement de l'approche de deux lettres adjacentes.
Cursif
Écriture où les lettres d'un mot se
rejoignent à la manière de l'écriture manuscrite usuelle.
Dans le texte
Informations codées à même
le texte à l’aide d’une syntaxe particulière qui permet de les repérer.
Les
informations à même le texte sont codées dans le même jeu de caractère
que le
reste du texte, elles parsèment le texte et l’accompagnent. Les
balisages XML et
HTML en sont deux exemples
DBCS
Cf. JC2O.
Décomposition
(1) Séparation ou analyse
d'un élément textuel en ces composants. Ces composants peuvent n'avoir
aucune
valeur fonctionnelle mais être uniquement des unités formelles,
c'est-à-dire des
formes
abstraites. (2) Cf. la définition D19 à la section 3.6,
Décomposition.
Décomposition canonique
V. Équivalent
canonique. Cf. la définition D23 à la section 3.6, Décomposition.
Décomposition de
compatibilité
V. Équivalent
en terme de compatibilité. Cf. la définition D20 à la section 3.6,
Décomposition.
Définition de jeu
de
caractères
Ensemble pour lequel on attribue à chaque caractère qui en
fait partie une valeur de code numérique appelée point de
code, valeur
scalaire ou plus simplement numéro
de caractère. Syn. Page de
code et Jeu
de caractères codés.
Demi-chasse
Un caractère à demi-chasse
est, grosso modo, deux fois moins large qu'un caractère similaire du
même jeu
ayant lui une chasse ordinaire. On dit alors que le caractère occupe
une demi-cellule
de rendu. Certains jeux de caractères, plus particulièrement ceux à
deux octets tels que le Shift-JIS, codent deux formes différentes
de
certains caractères. Ces caractères à demi-chasse sont parfois codés
sur un seul
octet dans les jeux à nombre variable d'octets alors que les caractères à
pleine chasse sont eux codés sur deux octets ; cette conception
serait due
aux premières adaptations de terminaux aux langues CJC, terminaux pour
lesquels
il existait une égalité stricte entre le nombre d'octets dans le flux
et la
chasse qu'ils occupaient à l'écran. Le terme japonais qui désigne ces
caractères
à demi-chasse est hankaku. Antonyme Zenkaku.
Désuet
Se dit d'un caractère qui ne s'utilise
plus. La désuétude d'un caractère dépend du contexte, la lettre grand
yousse est désuète en russe, mais est toujours utilisée en bulgare
moderne.
À distinguer de À éviter.
Dévoyellement
Perte d'une voyelle. C'est
la fonction du virâma qui crée
par son adjonction à un caractère brâhmî
une
consonne dévoyellée. Cf. halant et virâma.
Diacritique
(1) Signe graphique adjoint à
un symbole afin de créer un nouveau symbole qui représente une valeur
nouvelle
ou modifiée. (2) Signe adjoint à un symbole que celui-ci en change la
valeur ou
non. Dans ce cas, le diacritique représente habituellement une valeur
indépendante (par exemple, un accent, un ton ou une autre information
linguistique). Également appelé signe diacritique. Cf. également Caractère
combinatoire et Signe
à chasse nulle.
Diacritique à chasse
nulle
Signe diacritique qui est également un signe
à chasse nulle.
Digramme
Groupe de deux lettres employé pour
transcrire un phonème unique
ou un seul élément linguistique. L'orthographe française utilise de
nombreux
digrammes, par exemple : th, ch, qu, ph, etc. Ces deux lettres ne
constituent
pas toujours un digramme (cf. le qu dans les mots quand
et
quantum). On appelle trigramme un groupe de trois lettres ainsi
combinées
. Au-delà de trois, ces groupes sont habituellement appelés des
n-grammes.
Diphtongue
Voyelle complexe dont le timbre
se modifie au cours de son émission, par ex. [au] dans
l'allemand
Auge. Dans certains systèmes d'écriture, la diphtongue est
parfois
transcrite par un seul signe, parfois par plusieurs (par exemple par un
digramme).
Direction d'écriture
Direction
ou orientation des caractères écrits au sein de lignes textuelles d'un
système
d'écriture. Il existe trois directions habituelles dans les systèmes
d'écriture
moderne : gauche à droite, droite à gauche et de haut en bas.
Ductilité
Propriété d'une police cursive à
étirer ou à étrécir la ligne de base qui relie les lettres à des fins
de
justification.
EBDCIC
Acronyme de l'Extended Binary-Coded
Decimal Interchange Code. Un ensemble de jeux de caractères codés à
8 bits
utilisés par les macroordinateurs. Soixante-quatre positions de code
(x00 à x3F)
sont réservées aux codes de
commande, l'intervalle x41 à xFE est réservé aux caractères
graphiques. L'alphabet de base est constitué de deux segments
disjoints, les
majuscules se trouvent de 0xC1 à 0xC9, xD1 à D9, xE2 à xE9, et les
minuscules de
x81 à x89, x91 à x99 et xA2 à xA9.
Écriture
Ensemble de symboles utilisés pour
représenter des informations textuelles d'un ou plusieurs systèmes
d'écriture.
Écriture démotique
(1) Se dit d'une
écriture ou d'une forme d'écriture utilisée pour écrire la langue
populaire
d'une communauté linguistique. (2) Écriture cursive de l'ancienne
Égypte
(VIIe s. av. J.-C.-Ve s. av. J.-C.) dérivée de
l'écriture
hiératique, elle-même dérivée des hiéroglyphes monumentaux.
Élément textuel
L'unité textuelle
minimale sur laquelle opère une manipulation de texte particulière,
dans le
contexte d'un système d'écriture donné. En général, il existe une
correspondance
n-n entre les éléments textuels et les unités de stockage.
Équivalence
Dans le contexte de
manipulation de texte, relation de deux éléments qui sont identiques à
certains
égards. Cf. Équivalent
canonique et Équivalent
en terme de compatibilité.
Équivalent canonique
On dit que
deux suites de caractères sont des équivalents canoniques si leurs
décompositions canoniques complètes respectives sont identiques. Cf. Équivalent
en terme de compatibilité.
Équivalent en
terme de
compatibilité
On dit que deux suites de caractères sont équivalents en
terme de comptabilité si leurs décompositions de compatibilité
complètes sont
identiques. L'équivalence de compatibilité est plus lâche que l'équivalence
canonique, elle élimine par exemple des différences de formatage
entre des
caractères proches. Cf. la définition D22 à la section 3.6,
Décomposition.
Espace
En typographie, on désigne sous le nom
d'une espace le blanc placé entre les lettres ou les mots.
Espace de code
Le domaine des valeurs
numériques disponibles pour le codage des caractères.
Fichier binaire
Fichier qui contient
des données non textuelles.
Flottant (diacritique, accent, signe)
Cf. Signe
à chasse nulle.
Fonte
Cf. Police.
Formage
Opération de mise en forme des
caractères, par exemple le choix des glyphes
contextuels appropriés.
Format transformé
Correspondance
entre une suite de caractères
codés et une suite unique d'unités
de stockage.
Format transformé
d'Unicode (ou
du JUC)
Cf. la définition D29 à la section 3.8, Transformations, voir également
la
section C.3, Formats de transformation JUC.
Forme conjointe
Glyphe
correspondant à la combinaison de deux ou de plusieurs glyphes
représentant des
consonnes. La forme conjointe est un type de ligature qui apparaît dans
la
plupart des écritures brâhmî. En
Unicode, la conjointe est formée à l'aide de virâma qui éliminent les
voyelles
des caractères pour ne laisser que les consonnes, cf. Dévoyellement.
Ces consonnes mortes ou dévoyellées sont habituellement jointes à une
forme
consonantique subséquente pour former la conjointe. Les composants de
la forme
conjointe peuvent se lier horizontalement ou verticalement. Dans
certains cas,
on ne peut distinguer les composants dans la conjointe résultante.
Forme de présentation
Ligature ou
variante de glyphe codée comme un caractère à des fins de
compatibilité. Cf.
également Caractère de compatibilité (1).
Forme de stockage
Cf. forme
stockée des caractères.
Forme statique
Cf. Caractère
décomposable.
Forme stockée des
caractères
Correspondance entre les numéros
de caractère (ou points de code) d'une définition de jeu de
caractères et
les unités
de stockage (octet, seizet, etc.) utilisées pour coder ceux-ci.
FSS-UTF
Abréviation de File System Safe UCS
Transformation Format, format publié par la X/Open Company Ltd
destiné à
l'environnement Unix. Connu aujourd'hui sous le nom d'UTF-8.
Glyphe
(1) Stricto sensu, un trait gravé
en creux dont la répétition constitue un ornement, cf. l'écriture maya.
(2) Une
forme abstraite qui représente une ou plusieurs images de glyphes. (3)
Synonyme
d'image de glyphe ou d'œil. Lors de
l'affichage des caractères Unicode, un ou plusieurs glyphes peuvent
être
sélectionnés pour afficher un caractère particulier. Ces glyphes sont
sélectionnés par un moteur de rendu pendant les processus de
composition et de
disposition.
Glyphe de remplacement
Glyphe
utilisé pour rendre un caractère qui ne peut être rendu correctement
dans une
police particulière. Il s'agit souvent des rectangles blanc ou
noir.
Également appelé glyphe manquant. Cf. la section 5.3, Caractères
inconnus ou
manquants.
Glyphe manquant
Cf. Glyphe
de remplacement.
Graisse
Épaisseur des traits d'un caractère.
On parle également de tracés : maigre, normal, demi-gras, gras,
extra-gras
(noir), etc.
Gros-boutien
Architecture informatique où
l'octet le plus significatif des valeurs numériques multioctets est
stocké en
premier. L'image est empruntée des « Voyages de Gulliver » de Jonathan
Swift,
dans lequel les Gros-Boutiens, partisans de la théorie selon laquelle
il faut
casser un oeuf par le gros bout, s'opposent aux Petits-Boutiens qui,
eux,
soutiennent qu'il faut, au contraire, casser un oeuf par le petit bout.
Cf. Petit-boutien.
Graphème
(1) Plus petite unité distinctive et
significative de l'écriture. Pour les écritures idéographiques,
il peut représenter un concept. Dans l'écriture phonographique, il
représente un
élément de la réalisation phonique (syllabe, consonne, voyelle). Ainsi
dans
l'écriture alphabétique,
le graphème est communément appelé lettre. En français, p et s
sont des graphèmes distincts au sein du système d'écriture français
puisque les
mots pot et sot sont des mots différents. Par contre, a
et
a ne sont pas des graphèmes distincts puisque aucun mot ne
diffère sur la
base de ces deux formes différentes de cette même lettre. (2) Ce que
l'utilisateur considère être un caractère.
Groupe
Terme utilisé dans l'ISO/CEI 10646 pour
désigner une subdivision de l'espace de codage formée de 256 x 256 x
256 cellules. Tous
les caractères du JUC et d'Unicode
appartiennent au groupe 0.
Groupe consonantique
Suite de
caractères qui représente une ou plusieurs consonnes.
Halant
Terme hindî, provenant du sanscrit
halanta, il signifie « terminé par une consonne ». Ce terme
désigne la
fonction de dévoyellement
du caractère virâma. Cf. Virâma.
Hangûl
Nom de l'écriture coréenne. Cf. Jamo.
Hanja
Nom coréen des caractères dérivé du hanzi
(ou han-tseu).
Han-tseu
Cf. hanzi.
Hanzi
Le nom mandarin des caractères
han.
Harakat
Signes qui indiquent les voyelles ou
les autres modifications apportées aux consonnes dans l'écriture arabe.
Cf. Points-voyelles.
Haut de casse
Synonyme de majuscule, Cf.
Casse.
Hiragana
Une des deux séries de kana (48
signes syllabiques dont deux sortis de l'usage), l'autre étant le katakana. Les
hiragana (les kana sans angles)
servent à représenter les mots indigènes au japonais, les verbes
auxiliaires et
tous les éléments spécifiques, notamment les terminaisons, suffixes de
substantifs et d'adjectifs, et autres particules.
HTML
Acronyme anglais de Langage de balisage
hypertextuel. Langage de description textuel issu de SGML qui comporte
des balises de formatage textuel et du contenu textuel brut afin de
décrire du
texte formaté. HTML est le langage source omniprésent qui sert à
représenter les
pages sur la toile, pages dites « Web ». À partir de HTML
4.0, le jeu
de caractères de référence des données HTML est désormais l'ISO/CEI
10646. Cf.
également SGML.
Hors texte
Les informations hors texte
transmettent des renseignements supplémentaires sur un texte associé de
telle
sorte que le contenu de ce texte demeure intact (rien n’y est ajouté,
retranché
ou modifié). En règle générale, on utilise à cette fin une structure de
données
supplémentaires qui pointe vers le texte à annoter.
i18n
Cf. Internationalisation.
IANA
Acronyme de l'Internet Assigned Number
Authority.
Identificateur de glyphe
Similaire au code de glyphe,
l'identificateur de glyphe est une étiquette utilisée pour désigner un
glyphe
dans une police. Une
police peut employer à la fois des identificateurs de glyphe locaux et
globaux.
L'AFII (Association for Font Information and Interchange) a
défini un jeu
d'identificateurs de glyphe globaux ou universels.
Idéogramme
(1) On appelle idéogramme un caractère
graphique correspondant à une idée (concept, procès, qualité) mais
n'en
représentant pas le son. (2) Terme technique quelque peu imprécis pour
désigner
les caractères
han, encore couramment employé en parlant du chinois à la place de
idéophonogramme. Cf. Idéophonogramme.
Idéophonogramme
Caractère
correspondant à une notion (idéogramme) ou au son constituée par un mot
(phonogramme). Terme préféré à idéogramme pour désigner les caractères
han.
Image de glyphe
Image concrète de la
représentation d'un glyphe après son tramage ou son impression sur une
surface
d'affichage. Cf. Œil.
Indicateur d'ordre
des
octets
Caractère U+FEFF ESPACE INSÉCABLE SANS CHASSE quand il est
utilisé pour indiquer l'ordre des octets d'un texte. Cf. la section
2.7, Valeurs
de non-caractères et de caractères spéciaux, et la section 14.6,
Spéciaux.
Informatif
Information dans le standard
Unicode qui n'est pas impérative mais qui contribue à l'utilisation et
à la mise
en œuvre correctes de celui-ci.
Internationalisation
Technique
permettant à un programme de s'adapter correctement à différents
environnements
culturels sans nécessiter de ré-écriture. Elle consiste à rendre le
code source
du logiciel neutre en termes de culture (indépendance de la langue, du
jeu de
caractères, etc.) Le terme s'abrège souvent en i18n (i suivi de 18
lettres
suivies de n). On oppose souvent le terme à la localisation
(l10n).
IOO
Acronyme de Indicateur
d'ordre des octets.
IRG
Abréviation anglaise du Groupe rapporteur
idéographique, un sous-groupe de l'ISO/CEI JTC1/SC2/GT2.
Voir Annexe H, Historique de l'unification han.
ISCII
Acronyme de l'Indian Standard Code for
Information Interchange.
ISO
Organisation internationale de normalisation.
Il ne s'agit pas d'un acronyme, mais le sigle prend son origine dans le
mot grec
« iso » lequel signifie égal (cf. isocèle, isotherme). En
extrapolant,
on peut considérer que « iso » signifie uniforme, normalisé.
L'organisation internationale a choisi ce sigle pour sa valeur
internationale et
linguistiquement neutre.
Jamo
Nom coréen pour un des 40 éléments de base
de l'écriture hangûl. Le mot
signifie littéralement consonne ou voyelle. Les jamos n'apparaissent
jamais
isolément mais forment la base du syllabaire coréen.
JC1O
Abréviation de Jeu
de caractères à un octet.
JC2O
Abréviation de Jeu
de caractères à deux octets.
Jeu de caractères
Ensemble
d'éléments utilisés pour représenter de l'information textuelle.
Jeu de caractères à
deux
octets
Codage des caractères pour les langues orientales (chinois, japonais ou
coréen) qui permet la représentation des graphèmes à l'aide d'un ou
de deux
octets au sein d'un même flux de données. Exemple : JIS X 0208-1990.
Abréviation
: JC2O ou DBCS. Voir également jeu
de caractères multioctets.
Jeu de caractères à un
octet
Codage sur un octet, on oppose ce terme à JC2O
et JCMO.
Jeu de caractères codés
Ensemble pour lequel on attribue à chaque caractère qui en fait partie
une
valeur de code numérique appelée point
de
code, valeur
scalaire ou plus simplement numéro
de caractère. Souvent abrégé en jeu de caractères.
Jeu de caractères
multioctets
Jeu de caractères qui code chaque caractère sur un nombre
variable d'octets. Plusieurs jeux de caractères importants sont
multioctets afin
de permettre une stricte compatibilité avec le sous-jeu ASCII et
l'ISO/CEI 2022.
Abrégé en JCMO.
JTC1
Comité technique mixte n° 1 de
l'Organisation internationale de normalisation (ISO) et de la
Commission électrotechnique internationale. Ce comité est responsable
de la
normalisation dans le domaine des technologies de l'information.
JUC
Acronyme du jeu universel de caractères défini
dans la norme internationale ISO/CEI 10646.
Kachidé
Mot persan (tatouil étant
le terme arabe) qui désigne l'interlettrage utilisé pour rallonger les
lignes
afin de les composer, par exemple, en pavé. Le kachidé est un trait qui
prolonge
les liaisons entre les lettres.
Kana
Signes de l'écriture japonaise à valeur
syllabique formée des hiragana et
des katakana.
Kanji
Caractères
han tels qu'utilisés en japonais. Les kanji sont utilisés en
fonction de
leur sens, pour représenter les mots d'origine chinoise ou des mots
indigènes.
Katakana
Une des deux séries de kana qui
comporte
48 signes syllabiques dont 2 sortis de l'usage. Les katakana (kana
simples)
servent surtout à la transcription des mots étrangers.
l10n
Cf. Localisation.
Lettre
(1) Élément d'un alphabet. Au
sens large, comprend les éléments de syllabaires
et les idéophonogrammes.
(2) Propriété informative des caractères utilisés dans l'écriture de
mots.
Lettre modificative
(1) Catégorie
Lm dans la base de données de caractère Unicode. (2) Ensemble
dans le
bloc de lettres modificatives. Ressemble à une lettre ou à de la
ponctuation et
modifie la prononciation des autres lettres (similaires aux
diacritiques). Cf.
la section 8.8, Lettres modificatives.
Liant
Caractère invisible qui affecte la ligature
des
caractères voisins lors du rendu. Voir la section 9.2, Arabe et
« Liaison
cursive » dans la section 14.2, Commandes de disposition.
Ligature
Trait reliant deux lettres. Ensemble
de lettres liées qui forme un caractère unique (p.ex. æ en
français).
L'arrobe @ et la perluète & sont des ligatures historiques. Dans
certaines
langues, les ligatures de certaines lettres sont obligatoires. C'est le
cas de
la ligature lam-alif en arabe. La mise en œuvre de ce traitement
nécessite une
analyse contextuelle.
Locale
n.f., cf. profil
local.
Localisation
Adaptation régionale.
Adaptation d'un logiciel ou de données pour son utilisation dans une
culture
particulière. Un logiciel internationalisé sera plus facile à localiser
qu'un
logiciel que ne le serait pas. Le terme s'abrège souvent en l10n (l
suivi de 10
lettres suivies de n). On oppose souvent le terme à internationalisation
(i18n). En effet, un logiciel peut être localisé sans être
internationalisé : il
aura été adapté pour une langue en particulier et non en vue de
supporter toutes
les langues. Les localisations successives d'un même logiciel pour
différentes
locales peuvent entraîner des surcoûts importants dans la gestion de
projet et
dans l'effort à fournir (multiplication de versions différentes). Dans
le cas
d'un logiciel internationalisé, il n'existe qu'une seule version du
source du
logiciel pour toutes les langues : il a été conçu à cet effet.
LZW
Abréviation de Lempel-Ziv-Welch, un
algorithme fréquemment utilisé pour la compression de données.
Majuscule
Synonyme de haut de casse. Cf. Casse.
Manipulation de texte
Tout
traitement informatique effectué sur du texte : il peut s'agir
d'affichage pur
et simple, de repérage, de coupure de lignes, de traduction, de
transcodage,
etc. Il convient d'opposer le traitement
de texte (un logiciel d'usage restreint) à la manipulation de texte
qui
comprend tous les processus qui manipulent des données textuelles.
Matra
Voyelle dépendante dans les écritures brâhmî.
C'est
le nom des lettres voyelles qui suivent les lettres consonnes dans l'ordre
logique. Une matra a souvent un œil
complètement
différent de celui représentant la même voyelle phonologique utilisée
comme
voyelle indépendante.
Mécanisme
de
sérialisation de caractères
Une forme stockée de caractères et sa
sérialisation en octets. Il existe quatre mécanismes de sérialisation
de
caractères dans Unicode 3.0 : UTF-8,
UTF-16, UTF-16BE et
UTF-16LE.
Depuis la publication d'Unicode 3.0, le consortium Unicode a également
approuvé
UTF-32BE et
UTF32LE comme mécanismes de sérialisation.
Méthode d'entrée
Cf. Méthode
de saisie.
Méthode de saisie
Toute méthode
utilisée pour saisir du texte qui ne consiste pas à taper directement
les
caractères. C'est grâce à ces méthodes de saisie que l'on tape les
textes idéophonographiques
ou d'autres caractères phonétiques. La méthode de saisie analyse les
touches sur
lesquelles l'utilisateur a appuyé. Dans le cas du chinois (han-tseu) et
du kanji, un
éditeur de méthode de saisie effectue la conversion entre les frappes
de touche
et les idéogrammes (ou autres caractères), habituellement en effectuant
une
recherche guidée par l'utilisateur au sein d'un dictionnaire en-ligne.
Métriques de glyphe
Ensemble de
propriétés qui spécifie la taille relative, la position et d'autres
traits d'un
glyphe.
MIME
Acronyme anglais de Multipurpose Internet
Mail Extensions. Grâce à ce format standard, il est possible
d'imbriquer ou
de joindre des fichiers de type arbitraire aux messages de courrier
électronique
ou d'étiqueter les fichiers HTML
renvoyés au
fureteur.
Minuscule
Cf. Casse.
Monotonique
Grec moderne écrit avec
l'accent de base, le tonos. S'oppose à polytonique.
Nékoudot
Signes qui indiquent les voyelles et
autres modifications aux consonnes hébraïques. Cf. Harakat.
Nom de caractère
Nom donné à un
caractère codé. Les points de
code n'ont pas de nom à proprement parler.
Non affecté (non attribué)
Valeur de code
qui est réservée pour une normalisation ultérieure ou qui ne sera
jamais
utilisée.
Non-caractère
Point de
code réservé qui ne peut être utilisé que de façon interne et ne
peut jamais
être échangé avec un autre processus. Il s'agit des valeurs U+nFFFE
et
U+nFFFF, où n est compris entre 0 et 1016.
Normalisation
Transformation des données
dans une forme standardisée, par exemple afin d'en unifier
l'orthographe. Voir
la section 5.7, Normalisation.
Normatif
Requis pour se conformer au standard
Unicode. Cf. Informatif.
Numéro de caractère
Nombre entier
positif associé à un caractère
abstrait pour en faire un caractère codé. Cf. Valeur
scalaire Unicode et caractère
codé.
Octet de groupe
Les 8 bits les plus
significatifs d'une valeur UCS-4 à 4
octets. Identifie le groupe auquel
appartient un caractère.
Octet de plan
Octet qui identifie le plan auquel
appartient un caractère. Également appelé octet-P.
Œil
Dessin de la lettre qui apparaît à
l'impression. En typographie, l'œil reçoit l'encre, c'est l'élément
imprimant.
On dit également, en imitant l'américain et parfois pour éviter la
polysémie du
mot œil, image de
glyphe ou simplement glyphe. Le
pluriel d'œil au sens typographique est œils.
Ordre de rendu
Ordre dans lequel les
glyphes sont affichés lors du rendu
textuel.
Ordre logique
Ordre dans lequel le texte
est saisi au clavier. Généralement, l'ordre logique correspond à
l'ordre
phonétique. Voir section 2.2, Principes de conception d'Unicode.
Ordre visuel
Caractères triés dans
l'ordre où ils sont présentés à la lecture. À distinguer de l'ordre
logique.
Page de code
Synonyme de jeu
de caractères codés, désigne souvent un jeu de caractères utilisé
sur
ordinateur personnel. Ainsi la page de code 437 est-elle le jeu de
caractères
codés implicite des versions américaines du système d'exploitation DOS.
Paire de seizets
d'indirection
Représentation d'un caractère codé sous UTF-16
correspondant à un seul caractère abstrait qui consiste en une suite de
deux
unités de stockage valeurs Unicode où la première valeur de cette paire
est le
seizet supérieur et la seconde le seizet inférieur. Cf. la définition
D27 à la
section 3.7, Seizets d'indirection.
Permutation symétrique
Cf. Propriété
miroir.
Petit-boutien
Architecture informatique
où l'octet le moins significatif des valeurs numériques multioctets est
stocké
en premier. Cf. Gros-boutien.
Phonème
Plus petite unité du langage parlé,
dont la fonction est de constituer les signifiants et de les distinguer
entre
eux. Les sons interchangeables dans une langue sans changer le sens
d'un énoncé
ne forment qu'un seul phonème. Ainsi la consonne initiale du mot
français rail
est-elle transcrite par le seul phonème /r/ (notation phonologique),
mais
suivant la prononciation du locuteur, elle sera notée (notation
phonétique) [r]
ou [R]. Ces deux r ne forment qu'un seul phonème en français alors que
d'autres
langues les distingueront et il s'agira donc, dans ce contexte, de deux
phonèmes
distincts.
Pinyin
Romanisation du chinois normalisée par
la Chine, elle est fondée sur la prononciation pékinoise (mandarin du
Nord).
Plan
Terme qui correspond à une subdivision du
groupe, elle se compose de 256 x 256 cellules. Il s’agit donc d’un
intervalle
contigu de 65.536 points de code. On numérote les plans de 0 à 16 en
Unicode et
de 0 à 10 pour l’ISO/CEI 10646 (en hexadécimal donc). Le plan 0
correspond à
U+0000..U+FFFF, le plan 1 à U+10000..U+1FFFF et le plan 16 (1016) à
U+100000..U+10FFFF. Voir Plan multilingue de base et Plans
complémentaires.
Plan multilingue de base
Plan
défini par la Norme norme internationale ISO/CEI 10646 qui correspond
aux
valeurs de code 0000 à FFFF. Également appelé plan zéro.
Plans complémentaires
Dans
l’ISO/CEI 10646, plans admettant des caractères qui n'ont pas été
affectés au
plan multilingue de base.
Pleine chasse
Caractère des jeux de
caractères d'Extrême-Orient dont le glyphe occupe une cellule de rendu
au
complet. Dans les jeux de caractères historiques, les caractères à
chasse pleine
sont habituellement codés sur deux ou trois octets. Le terme japonais
pour ces
caractères à pleine chasse est zenkaku.
PMB
Abréviation de Plan multilingue de base.
Point de code
(1) Position dans une
table de codage utilisée pour coder un caractère. On dira plus
simplement numéro
de caractère. (2) Synonyme de valeur scalaire Unicode.
Point de code du PMB
Un point de
code situé entre U+0000 et U+FFFF.
Point de code
complémentaire
Un point de code situé entre U+10000 et U+10FFFF.
Points
(1) Voyelles sans chasse et autres
signes de l'hébreu écrit. (2) Une unité de mesures en typographie.
Points-voyelles
Signes diacritiques
ajoutés aux signes alphabétiques pour représenter les voyelles de
certaines
langues sémitiques. Cf. Points (1),
Voyellement,
Harakat et
Nékoudot.
Police
Assortiment complet de glyphes pour la
représentation des données de caractères. Une police possède un
ensemble de
propriétés (par exemple, un corps, une graisse, une posture, des
empattements ou
non). L'affectation de certaines valeurs à ces paramètres permet de
générer un
ensemble de glyphes affichables.
Polytonique
Ancien grec écrit à l'aide de
plusieurs accents distincts et d’autres diacritiques. Cf. Monotonique.
Profil local
Profil culturel particulier.
Ensemble de paramètres pour les objets sensibles à un profil culturel
donné ou à
unela culture ou à la langue. Par exemple, le format des dates, le
calendrier,
le symbole monétaire en cours, la langue et le jeu de caractères local.
Synonyme
(anglicisme) la locale.
Propriété alphabétique
Propriété informative des unités primaires des alphabets ou des
syllabaires. Cf. la section 4.9, Lettres et autres propriétés utiles.
Propriété de
directionalité
Propriété de chaque caractère graphique qui détermine son ordre
horizontal tel que précisé dans section 3.12, Comportement
bidirectionnel. Cf.
la définition D9 à la section 3.4, Propriétés simples.
Propriété de valeur
numérique
Propriété des caractères utilisés pour représenter les nombres. Cf. la
définition D10b à la section 3.4, Propriétés simples.
Propriété
idéophonographique
Propriété informative des caractères idéophonographiques. Cf. la
section
4.9, Lettres et autres propriétés utiles.
Propriété mathématique
Propriété informative des caractères utilisés comme opérateurs de
formules mathématiques.
Propriété miroir
Propriété des
caractères dont l'œil est réfléchi horizontalement, et qui représente
donc une
image miroir dans les textes disposés de droite à gauche par rapport à
leur œil
habituel rencontré dans les textes de gauche à droite. Cf. la
définition D10
dans la section 3.4, Propriétés simples. Cf. également 4.7, Caractères
miroirs –
normatif. On peut également parler de propriété spéculaire.
Propriétés de caractère
Ensemble de noms de propriété et de valeurs de propriété associé à un
caractère particulier. Cf. 4, Propriétés de caractères.
Protocole de niveau
supérieur
Tout accord sur l'interprétation des caractères Unicode qui dépasse la
portée de cette norme. Cet accord ne doit pas nécessairement être
annoncé de
manière formelle et explicite dans les données échangées, il peut être
implicite
à son utilisation dans un contexte donné. Cf. définition D8 à la
section 3.3,
Caractères et représentations codées.
Radical
Un groupe de traits dans l'écriture
han que l'on traite comme une unité à des fins de tri, de recherche et
de
classement. On parle aussi parfois de clé. Un caractère
idéophonographique (ou
idéographique) peut comprendre plus d'un élément que l'on pourra
considérer
comme radical. Cependant chaque caractère sera constitué d'un seul
élément, la
clé principale, qui sera utilisé lors du tri. Le radical principal
fournit
souvent une indication quant au sens général du caractère alors que les
autres
radicaux pourront indiquer la prononciation. Cf. également caractères
han.
Rangée
Pour l’ISO/CEI 10646, subdivision d'un
plan composée de 256 cellules.
Rendu
(1) Processus lié à la sélection et à la
disposition de glyphes afin de représenter des données textuelles. (2)
Fait de
rendre visible des glyphes sur une unité de visualisation.
Rendu bidirectionnel
Le processus
ou le résultat du mélange sur une même ligne de textes orientés de
droite à
gauche et de gauche à droite Cf. 3.12, Comportement bidirectionnel.
Répertoire
Cf. Répertoire de caractères.
Répertoire de caractères
Ensemble des caractères faisant partie d'un jeu de caractères
conventionnel, parfois qualifié d’abstrait, abstraitLe terme abstrait
signifie
que ces objets sont définis par convention, par exemple les 26 lettres
de
l’alphabet français, avec leursles formes minuscules et majuscules.
Représentation
codée de
caractère
Une suite ordonnée d'une ou plusieurs unités de stockage
associées à un caractère abstrait dans un répertoire de caractères
donné. Cf.
section 3.3, Caractères et représentations codées.
Représentation logique
Représentation en mémoire.
Réservé
Valeur de code non attribuée et
réservée aux versions ultérieures de la norme.
SACN
Abréviation de Signe à chasse nulle (ou sans
chasse).
Seizet
Suite de 16 éléments binaires (ou bits)
considérée et traitée comme une unité. Cf. Seizets d'indirection et
UTF-16.
Seizet d'indirection
inférieur
Dans le codage UTF-16, Code Unicodeunité de stockage dont la valeur se
situe entre U+0xDC00 et U+0xDFFF. Cf. la définition D26 à la section
3.7,
Seizets d'indirection.
Seizet d'indirection
supérieur
Dans le codage UTF-16, Code Unicodeunité de stockage dont la valeur se
situe entre U+0xD800 et 0xU+DBFF. Cf. la définition D25 dans la section
3.7,
Seizets d'indirection.
Séquence d'échappement
Une
suite d'octets utilisée pour étendre le code. Le premier octet de cette
suite
est échappement (hexa 1B).
Séquence équivalente
Cf. Équivalent
canonique.
Sérialisation en octets
L'ordre d'une suite d'octets déterminé par l'architecture informatique
d'une machine.
SGML
Acronyme anglais de Langage normalisé de
balisage généralisé. Norme internationale visant à décrire un document
sous sa
forme logique. Le balisage se réfère à la structure du texte et définit
la place
de chaque partie du texte dans l'ensemble. Le balisage est descriptif,
il ne
s'agit pas d'instructions de traitement. Grâce à cela, les types de
document
décrits sont indépendants de toute plate-forme. HTML et XML sont deux
langages
de balisage utilisés sur la toile, il s’agit d’applications de SGML. Le
balisage
permet de décrire complètement un texte de fantaisie à l'aide d'un flux
de
données textuelles brutes. Cf. également HTML,
XML et Texte
enrichi.
Signature Unicode
Balise implicite
qui signale qu'un fichier contient du texte Unicode sous une forme
codée
particulière. Un indicateur d'ordre des octets (IOO) peut servir de
signature
Unicode.
Signe à chasse nulle
Un caractère
combinatoire dont l'emplacement lors du rendu dépend du caractère de
base. Ce
caractère ne chasse habituellement pas, c'est-à-dire qu'il ne consomme
pas de
lui-même d'espace le long de la ligne de base visuelle. Cf. la
définition D15 à
la section 3.5, Combinaison. Cf. également Caractère
combinatoire.
Signe avec chasse
Un caractère
combinatoire qui n'est pas un signe à chasse nulle. Cf. Signe
à chasse nulle.
Signe de cantilation
Diacritique
utilisé pour indiquer de quelle manière le texte doit être psalmodié ou
chanté.
Ces diacritiques sont utilisés en hébreu.
Signe de ton
Diacritique ou signe sans
chasse qui représente un ton phonémique. On rencontre de nombreuses
langues à
tons en Extrême-Orient, en Afrique ou en Europe (p.ex., serbo-croate,
suédois).
Les tons sont le plus souvent écrits à l'aide de signes
fonctionnellement
indépendants associés à un symbole vocalique car ils s'appuient
toujours sur une
voyelle (le noyau syllabique). Toutefois, certaines écritures comme le
thaï
placent les tons sur les symboles consonnes; le chinois s'écrit sans
signe de
ton (sauf lorsqu'on l'écrit phonémiquement).
Signe de voyelle
Dans de nombreuses
écritures, signe utilisé pour représenter une voyelle ou la qualité
d'une
voyelle.
Sous-ensemble
L'ISO/CEI 10646 définit
des sous-ensembles de caractères graphiques codés utilisés lors d'un
échange par
des dispositifs de réception et d’émission. Deux types de
sous-ensembles peuvent
être définis : les sous-ensembles limités et les sous-ensembles
sélectionnés. Un
sous-ensemble adopté peut comprendre l'un des deux ou une combinaison
de ces
deux types. Unicode ne définit pas de sous-ensemble, les applications
qui s’y
conforment doivent traiter correctement tous les caractères du
standard.
Sous-ensemble limité
Sous-ensemble défini par une liste de caractères (noms ou numéros).
Sous-ensemble sélectionné
Sous-ensemble défini par une liste de collections, certaines de ces
collections pouvant être ouvertes (c’est-à-dire susceptible de contenir
des
points de code réservés)
Suite de caractères
Cf. les
définitions D4 (suite de caractères abstraits) et D7 (suite de
caractères codés)
à la section 3.3, Caractères et représentations codées.
Suite codée de
caractères
codés
Suite ordonnée de représentations codées de caractère. Cf. la
définition D7 à la section 3.3, Caractères et représentations codées.
Suite de
caractères
combinatoires
Cf. la définition D17 à la section 3.5, Combinaison.
Suite de caractères
composés
Cf. la définition D17 à la section 3.5, Combinaison.
Suite de caractères
composites
Cf. Suite
de caractères combinatoires.
Suite
défectueuse de caractères combinatoires
Suite de caractères
combinatoires qui ne commence pas par un caractère de base. Cf. la
définition
D17a à la section 3.5, Combinaison.
Suite illégale
d’unités de
stockage
Cf. la définition D31 dans la section 3.8, Transformations.
Suite
irrégulière
d’unités de stockage
Cf. la définition D32 de la section 3.8,
Transformations.
Suite mal
formée
d’unités de stockage
Cf. la définition D30 dans la section 3.8,
Transformations.
Syllabaire
Ensemble de caractères qui dont
chacun représente une syllabe, par exemple une consonne C suivie d'une
voyelle
V. V. C'est le cas des kana japonais qui sont des syllabes
fondamentales (à
l'exception du « n » final) ; dans le cas du syllabaire coréen, dit
hangûl, les
syllabes sont formées de jamos et peuvent prendre les formes CV, CVC et
rarement
CVCC. Il existe aussi un signe représentant une consonne initiale
muette qui
permet les formes V et VC. Le cri et l'inuktitut s'écrivent également à
l'aide
de leur propre syllabaire. Les écritures dérivées de la brâhmî, comme
par
exemple la dévanâgarî, sont intermédiaires entre alphabet et
syllabaire, et sont
parfois appelées alphasyllabaires.
Syllabe
(1) Élément d'un syllabaire. (2) Unité
d'articulation fondamentale qui se prononce en une émission de la voix.
Système d'écriture
Ensemble de
règles régissant l'utilisation d'une ou plusieurs écritures pour
transcrire une
langue particulière. Exemples : le système d'écriture français, le
système
d'écriture anglais et le système d'écriture japonais.
Taquet
Butée réglable utilisée pour arrêter les
retours de chariot. On parle également de taquer des caractères pour
les
positionner àau mettre à l’emplacementniveaux désiré. Opération
désignée sous le
nom de taquage. Unicode définit une série de flèches partant ou menant
à un
taquet.
Tchandrabindou
L'anounâssika ou
tchandrabindou (lune-point) est un signe diacritique placé au-dessus
des
voyelles hindî nasalisées. Si la voyelle dépendante est placée
au-dessus de la
ligne de tête, il ne reste plus alors de place que pour le bindou (le
point).
TEX
Langage informatique conçu pour la composition
mathématique et d'autres ouvrages techniques. Selon son inventeur D.
Knuth, TEX
se prononce comme teck, car le X final représente un khi grec et non un
iks.
Texte brut
Texte informatique qui ne
comprend que des suites d’unités de stockage d'une norme donnée sans
contenir
d'autres informations de formatage ou de structure. On utilise
fréquemment
l'échange de texte brut entre ordinateurs qui ne partagent pas un même
protocole
de niveau supérieur. Cf. également Texte
enrichi.
Texte de fantaisie
Cf. Texte
enrichi.
Texte enchâssé
(1) Texte brut entouré
d'information de formatage. (2) Texte recodé afin de passer à travers
un canal
de transmission étroit ou pour se conformer à un protocole de
communication.
Texte enrichi
Également connu sous le
nom de texte de fantaisie. Résultat de l'adjonction d'information
supplémentaire
au texte brut. Exemples d'information supplémentaire : la police, la
couleur, du
formatage, des annotations phonétiques, du texte interlinéaire, etc. Le
standard
Unicode, pas plus que l'ISO/CEI 10646, n'aborde la représentation des
textes
enrichis. On s'attend à ce que des applications mettent en œuvre des
formes
propriétaires de texte de fantaisie. Certaines formes publiques de
textes de
fantaisie existent (par exemple, ODA, HTML et SGML). Quand un texte
enrichi est
entièrement dépouillé de tout sauf de son contenu essentiel, il ne
reste plus
que le texte brut.
Texte formaté
Cf. Texte
de fantaisie.
Texteur
Cf. Traitement de texte
Traitement de texte
Logiciel qui
permet de créer et de manipuler des textes, il est l’équivalent
informatique de
la machine à écrire. Également appelé texteur.
Transcodage
Transformation d'un signifiant
d'un système de codage à un autre, idéalement sans modification du
signifié.
Exemples : transcoder du texte de CP437 à ISO-LATIN-1, transcoder du
son de
µ-law ? m-law, transcoder un signal vidéo de NTSC à SECAM.
Translittération
Opération par
laquelle on passe d'un alphabet utilisé pour l'écriture d'une langue à
un autre
alphabet en transposant les mots lettre pour lettre. Exemples : la
translittération des caractères cyrilliques russes en caractères latins
français, des caractères arabes en norme ISO. Cependant on parle de la
transcription du chinois en pinyin, en système E.F.E.O (École française
d'Extrême-Orient) ou en Wade. Cf. Transcription.
Transcription
Système de représentation
de la parole qui se préoccupe de rendre compte les sons réellement
prononcés et
non les lettres utilisées dans le système d’écriture de cette langue
pour
représenter ces sons. Cf. Translittération.
Tréma
Signe constitué de deux points juxtaposés
que l'on met sur les voyelles. Unicode ne distingue pas au niveau
typographique
le tréma de l'umlaut, ce qui ne signifie évidemment pas que les
fonctions du
tréma et de l’umlaut soient les mêmes. Cf. Umlaut.
Tri alphabétique
Cf. Classement.
Triangulation
Cf. Conversion
par pivot.
UCS-2
Forme de stockage de l'ISO/CEI 10646, Jeu
universel de caractères codé sur deux octets. Cf. annexe C, Comparaison
entre
ISO/CEI 10646 et Unicode.
UCS-4
Forme de stockage de l'ISO/CEI 10646, Jeu
universel de caractères codé sur quatre octets. Cf. annexe C,
Comparaison entre
ISO/CEI 10646 et Unicode.
Umlaut
Tréma allemand, voir Köpfe. Cf.
également Tréma.
Unicaméral
Écriture sans distinction de
casse. Terme utilisé le plus souvent dans le contexte d'alphabets
européens.
Unification
Le processus qui consiste à
identifier les caractères communs parmi des systèmes d'écriture
différents.
Unification han
Processus de sélection
de sous-ensembles de caractères han utilisés par le chinois, le
japonais, le
coréen et le vietnamien et, qui pour chacun des caractères jugés
communs lui
attribue un seul élément de code. Les critères de sélection de ces
sous-ensembles sont basés sur des similarités de représentation
graphique
abstraite indépendants de tout signifié ou de variations dans les
traits
utilisés pour représenter ces caractères. Cf. Annexe H, Unification
han,
Unité de stockage
Entier d’une
largeur variable (exemples : octet ou seizet) qui sert d’unité de base
pour
l’expression des points de code dans la mémoire d’un ordinateur. Cf.
Forme
stockée des caractères.
Usage privé
Les valeurs scalaires Unicode
(points de code) allant de U+E000 à U+F8FF, de U+F0000 à U+FFFFD et de
U+100000
à U+10FFFD sont réservés à l'usage privé. Cf. la définition D12 à la
section
3.4, Propriétés simples. Désigne les valeurs de code et les zones de la
norme
dont l'interprétation n'est pas spécifiée précisée par la norme et dont
l'utilisation peut être déterminée de gré à gré entre des utilisateurs
qui
coopèrent.
UTF
Abréviation anglaise de Unicode (ou UCS)
Transformation format. Cf. Format
transformé d’Unicode (ou du JUC).
UTF-7
Format transformé d’Unicode (ou du JUC),
forme de stockage sur 7 bits, spécifié dans le RFC 2152.
UTF-8
Format transformé d’Unicode (ou du JUC),
forme de stockage sur 8 bits. UTF-8 sérialise une valeur scalaire
Unicode (ou
point de code) en une suite de 1 à 4 octets, tel qu'illustré au tableau
3-1,
Distribution UTF-8 des bits. Cf. la définition D36 à la section 3.8,
Transformations.
UTF-16
Format transformé d’Unicode (ou du JUC),
forme de stockage dont l’unité de codage a 16 bits. UTF-16 exprime
une valeur scalaire Unicode sous la forme d'un ou deux seizets. S’il y
a
sérialisation, chaque seizet devient deux octets, transmis sous le
format
petit-boutien ou gros-boutien. Cf. la définition D35 à la section 3.8,
Transformations.
UTF-16BE
Format transformé d’Unicode (ou du
JUC) qui sérialise une unité de stockage sous la forme d'un seizet
gros-boutien. Un seizet initial correspondant à U+FEFF est interprété
comme une
espace insécable sans chasse. Cf. la définition D33 à la section 3.8,
Transformations.
UTF-16LE
Format transformé d’Unicode (ou du
JUC) qui sérialise une unité de stockage sous la forme d'un seizet
petit-boutien. Un seizet initial correspondant à U+FEFF est interprété
comme une
espace insécable sans chasse. Cf. la définition D33 à la section 3.8,
Transformations.
UTF-32
Format transformé d’Unicode (ou du JUC)
qui représente une valeur scalaire Unicode sous la forme d’une valeur
de 32
bits. Les unités de stockage d’UTF-32 appartiennent à l’intervalle
U+0x00000000..U+0x0010FFFF.
Valeur de code
La combinaison binaire
minimale qui permet de représenter une unité de texte codé pour le
traitement ou
l'échange. Cf. la définition D5 à la section 3.3, Caractères et
représentations
codées. Cf. Unité de
stockage.
Valeur de code attribuée
Valeur de code pour laquelle il existe une sémantique définie et
interopérable.
Valeur scalaire
Cf. Valeur
scalaire Unicode.
Valeur scalaire Unicode
Nombre
N de 0 à 10FFFF16, numéro associé au caractère pour en faire un
caractère codé.
défini par l'application de l'algorithme de la définition D28. V. la
section
3.7, Seizets d'indirection Également appelé point de code.
Variante contextuelle
Un élément
textuel qui peut posséder une forme de présentation qui dépendant du
contexte
textuel dans lequel cet élément est rendu. Cette forme de
représentation est
connue sous le nom de variante contextuelle.
Variante de compatibilité
Caractère qui peut en remplacer un autre sans perte d'information autre
que celle liée au formatage.
Virâma
Mot sanscrit signifiant arrêt. Nom d'un
symbole utilisé dans les écritures brâhmî pour indiquer que : (1) la
voyelle
implicite ne s'applique pas, fonction appelée dévoyellement ; (2) le
début d'une
nouvelle syllabe ; (3) le début d'un nouveau mot. Certaines de ces
utilisations
sont mutuellement incompatibles. En Unicode, un virâma est utilisé pour
dévoyeller une syllabe, dans ce sens, halant est plus approprié. Il ne
reste
donc plus que la consonne dite, dans ce cas, morte. Celle-ci se joint
normalement à la consonne de base suivante pour former une forme
conjointe ou
composée. Quand le virâma n'est pas résorbé en une forme conjointe, il
est alors
traité comme une espace ou non, selon l'écriture employée. En
dévanâgarî, c'est
un signe à chasse nulle, mais en tamoul il s'agit d'une espace.
Visarga
Terme sanscrit employé pour désigner
une prononciation particulière de l’s final, de nature telle que
l’arrêt brusque
du courant d’air qui accompagne l’émission de la voyelle précédente
donne à
l’oreille l’impression d’une aspirée sourde. Dénoté en dévanâgarî à
l’aide de
U+0903 symbole dévanâgarî visarga : , ce signe se transcrit
généralement h
point souscrit.
Voyelle dépendante
Symbole ou signe
qui représente une voyelle et qui est associé ou combiné à un autre
symbole,
habituellement une consonne. Dans les systèmes d'écriture basés sur le
brâhmî,
l'arabe ou l'hébreu, les voyelles sont normalement représentées par des
signes
de voyelles dépendantes. Cf. Matra.
Voyelle implicite
Dans les systèmes
d'écriture dérivés de l'écriture brâhmî, une voyelle implicite est
habituellement associée aux symboles consonnes, sauf indication
contraire. La
valeur de cette voyelle diffère selon les langues écrites avec ces
systèmes
d'écriture. La voyelle implicite peut être supprimée soit par
l'utilisation
explicite d'une autre voyelle ou d'un virâma créant de la sorte une
consonne
morte (dévoyellée).
Voyelle indépendante
Dans les
écritures d’origine brâhmî, on dessine certaines voyelles à l'aide de
lettres
indépendantes détachées des autres lettres. C'est souvent le cas quand
un mot
commence par une voyelle ou n'est constitué que d'une voyelle.
Voyellement
Signes placés au-dessus, en
dessous ou à l'intérieur d'une consonne qui représentent des voyelles
ou
d'autres aspects de la prononciation. Une caractéristique des écritures
du
Moyen-Orient. Cf. Points-voyelles.
wchar_t
ANSI ISO C définit un type wide
character (caractère large), habituellement codé sur 16 ou 32 bits. La
norme
ANSI spécifie que wchar_t est un type entier et que le jeu de
caractères source
du langage C y correspond par une simple extension (extension signée ou
à l'aide
de zéros).
XML
Abréviation anglaise de Langage de balisage
extensible. Un sous-ensemble de SGML qui constitue un métalangage de
balisage de
texte particulier pour l'échange de données structurées. L’ISO/CEI
10646 est le
jeu de caractères de référence pour le contenu XML. Cf. également SGML
et Texte
de fantaisie. XML est une marque déposée du W3C.
Zenkaku
Cf. Pleine
chasse.