Description du format du fichier UnicodeData 4.0Remarque: L'information dans ce fichier n'est fournie qu'à titre indicatif et ne décrit pas complètement l'utilisation et l'interprétation des propriétés et comportement des caractères Unicode. Elle doit s'utiliser conjointement aux données des autres fichiers de la Base de donnée Unicode. Cette information dépend également de notations et définitions définies dans le standard Unicode. Table des matièresFormat du fichier
|
Nom
(<reserved>) |
S | N | (1) Ces noms correspondent exactement à ceux publiés dans l'ISO/CEI 10646 (F). Les noms des syllabes hangûl sont omis ; voir jamo.txt | ||||||
Catégorie générale (Cn) | E | N | (2) Ce champ fournit diverses informations sur le genre de caractère associé à cette position, les mises en œuvre peuvent s'en servir comme informations catégorielles inhérentes. Pour plus d'informations sur les valeurs de propriétés définies, consulter Valeurs de catégorie générale. | ||||||
Classe combinatoire canonique (0) | N | N | (3) Ces classes sont utilisées par l'algorithme de mise en ordre canonique défini par le standard Unicode. Pour plus d'informations sur les noms des valeurs de propriétés associés aux différentes valeurs numériques de ces classes consulter Valeurs des classes combinatoires canoniques. | ||||||
Classe Bidi (L, AL, R) | E | N | (4) Il s'agit des catégories nécessaires à
l'algorithme bidirectionnel défini par le standard Unicode. Pour plus
de détails sur les valeurs de propriétés, consulter Valeurs de la classe bidi.
Pour plus d'information, voir les Écritures du
Moyen-Orient.
La valeur de propriété par défaut dépend du numéro de caractère :
|
||||||
Type de
décomposition
(aucun) Décomposition (=) |
E S |
N | (5) Ce champ comprend les deux valeurs, le type étant entre chevrons. Les décompositions doivent correspondre précisément avec les décompositions publiées en regard des noms de caractères dans le standard Unicode. Pour plus d'information, voir Correspondances de décomposition de caractère. | ||||||
Type
numérique (aucun) Valeur numérique (pas un nombre) |
E N |
N | (6) Si le caractère est affecté de la propriété nombre, chiffre décimal, la valeur de ce nombre est représenté par une valeur entière dans les champs 6, 7 et 8. | ||||||
E N |
N | (7) Si le caractère est affecté de la propriété nombre, mais n'est pas un nombre, chiffre décimal, alors la valeur de ce nombre est représentée à l'aide d'une valeur entière dans les champs 7 et 8. Ceci inclut les chiffres qui nécessite un traitement spécial comme les nombres en exposant de compatibilité.. | |||||||
E N |
N | (8) Si le caractère est affecté de la
propriété numérique, la valeur de ce caractère est représentée
dans ce champ à l'aide d'un nombre entier ou rationnel positif ou
négatif. C'est également le cas des fractions, « 1/5 »
représente, par
exemple, U+2155 FRACTION UN CINQUIÈME.
La propriété de certains caractères dépend de valeurs définies dans le fichier de données Unihan. |
|||||||
Réflexion bidi (N) | B | N | (9) Si le caractère a été identifiée comme
un caractère « miroir » dans un texte bidirectionnel, ce champ a la
valeur « Y », sinon « N ». La liste des caractères est également
imprimée dans le Chapitre
4
du standard. Ne pas confondre cette
propriété avec celle nommée "glyphe miroir bidi" (Bidi_Mirroring_Glyph). Cette propriété est booléenne elle indique si ce caractère doit être affiché réfléchi en contexte DàG. Glyphe miroir bidi (Bidi_Mirroring_Glyph) est une propriété à valeur chaîne qui précise quel caractère est une image miroir acceptable de ce caractère. Par ex., U+0029 ) est la valeur de Bidi_Mirroring_Glyph pour U+0028 (. Il existe des caractères qui ont la propriété de réflexion bidi mais qui n'ont pas de valeur de Bidi_Mirroring_Glyph, cf. BidiMirroring.txt. |
||||||
Nom Unicode 1.0 (<none>) | S | I | (10) Il s'agit de l'ancien nom de ce
caractère publié dans Unicode 1.0. Ce nom n'est fourni que lorsqu'il
diffère fortement du nom actuel anglais du caractère. La valeur du
champ 10 des caractères de commande ne correspond pas aux noms
Unicode 1.0, le champ contient alors les noms ISO 6429 des fonctions de
commande correspondantes. |
||||||
Commentaire ISO (<none>) |
S |
I | (11) Il s'agit du champ commentaire de l'ISO 10646 (F). Il apparaît entre parenthèses de la liste des noms 10646 ou est annoté d'un astérisque pour signaler une remarque à son sujet dans l'Annexe P. | ||||||
Correspondance majuscule simple (=) | S | N | (12) Correspondance
majuscule simple (résultat d'un seul caractère). Si le caractère
fait partie d'un alphabet qui distingue la casse et qu'il existe une
majuscule simple équivalente, ce champ contient ce caractère majuscule. Voir les explications ci-dessous sur les différences de casse. Les correspondances simples n'ont pour résultat qu'un seul caractère, alors que des correspondances complètes peuvent fournir plusieurs caractères. Note : La majuscule simple peut être omise dans ce fichier si la majuscule correspondante est égale au caractère considéré. |
||||||
Correspondance minuscule simple (=) | S | N | (13) Correspondance minuscule simple
(résultat d'un seul caractère). Similaire à la correspondance
majuscule.
Note : La minuscule simple peut être omise dans ce fichier si la minuscule correspondante est égale au caractère considéré. |
||||||
Correspondance en casse de titre simple (=) | S | N | Similaire à la correspondance majuscule.
Note : La casse de titre simple peut être omise dans ce fichier si le caractère en casse de titre correspondant est égal au caractère considéré. |
On trouvera ci-dessous un résumé des valeurs de certaines propriétés. D'autres valeurs de propriétés sont définies ailleurs. Ainsi la propriété de coupure de ligne se retrouve documentés dans le UAX n° 14.
Les valeurs de ce champ sont des abréviations dont la description est fournie ci-dessous. Pour plus d'information, consulter le standard Unicode.
Note : Le standard Unicode n'associe pas d'information aux caractères de commande (sauf rares exceptions). Les mises en œuvre attribueront habituellement des catégories de propriétés à certains caractères, notamment le retour de chariot et le passage à la ligne.
Abr. |
Description |
---|---|
Lu | Lettre, majuscule |
Ll | Lettre, minuscule |
Lt | Lettre, casse de titre |
Lm | Lettre, modificateur |
Lo | Lettre, autre |
Mn | Marque, à chasse nulle |
Mc | Marque, combinatoire avec chasse |
Me | Marque, englobante |
Nd | Nombre, chiffre décimal |
Nl | Nombre, lettre |
No | Nombre, autre |
Pc | Ponctuation, connecteur |
Pd | Ponctuation, tiret |
Ps | Ponctuation, début |
Pe | Ponctuation, fin |
Pi | Ponctuation, guillemet initial (se comporte comme Ps ou Pe selon l'usage) |
Pf | Ponctuation, guillemet final (se comporte comme Ps ou Pe selon l'usage) |
Po | Ponctuation, autre |
Sm | Symbole, mathématique |
Sc | Symbole, devise monétaire |
Sk | Symbole, modificateur |
So | Symbole, autre |
Zs | Séparateur, espace |
Zl | Séparateur, lignes |
Zp | Séparateur, paragraphes |
Cc | Autre, commande |
Cf | Autre, formatage |
Cs | Autre, seizet d'indirection |
Co | Autre, usage privé |
Cn | Autre, non affecté (aucun caractère dans ce fichier n'a cette propriété |
Note : Le terme « L& » désigne dans les commentaires les lettres majuscules, minuscules et de casse de titre (Lu, Ll ou Lt).
Veuillez consulter le Chapitre 3.12
pour des explications sur l'algorithme bidirectionnelle et une
description détaillée du sens attribué à ces catégories. Une version
plus complète retrouve au Chapitre 9.
Type |
Description |
---|---|
L | Gauche-à-droite |
LRE | Enchâssement gauche-à-droite |
LRO | Forçage gauche-à-droite |
R | Droite-à-gauche |
AL | Droite-à-gauche arabe |
RLE | Enchâssement droite-à-gauche |
RLO | Forçage droite-à-gauche |
Dépilement de formatage bidirectionnel | |
EN | Nombre européen |
ES | Séparateur de nombres européens |
ET | Terminateur de nombres européens |
AN | Nombre arabe |
CS | Séparateur commun de chiffres |
NSM | Signe à chasse nulle |
BN | Sans effet directionnel |
B | Séparateur de paragraphes |
S | Séparateur de segments |
WS | Blanc |
ON | Autres neutres |
Ces balises mentionnées dans certaines correspondances de
décompositions indiquent en règle générale des informations de
formatage. En l'absence d'une balise de ce type, la correspondance est
canonique. Inversement, la présence d'une balise de formatage indique
une correspondance de compatibilité (donc non canonique). En
l'absence d'autre information dans une correspondance de
compatibitilité, la balise sert à distinguer cette correspondance des
correspondances canoniques.
Parfois, une correspondance canonique ou de compatibilité consiste en un seul caractère. Dans le cas d'une correspondance canonique, ceci signifie que le caractère est l'équivalent canonique d'un autre caractère. Dans le cas d'une correspondance de compatibilité, ceci signifie que le caractère est l'équivalent de compatibilité d'un autre caractère.
Le tableau ci-dessous décrit les différentes balises de formatage et de compatibilité.
Balise anglaise |
Balise française |
Description |
---|---|---|
<font> | <police> | Variante de polices (par ex. une forme gothique). |
<noBreak> | <insécable> | Version insécable d'une espace ou d'un trait d'union.. |
<initial> | <initiale> | Forme de présentation arabe initiale. |
<medial> | <médiale> | Forme de présentation arabe médiale. |
<final> | <finale> | Forme de présentation arabe finale. |
<isolated> | <isolée> | Forme de présentation arabe isolée. |
<circle> | <cerclée> | Caractère entouré d'un cercle. |
<super> | <exp> | Forme suscrite (en
chef). |
<sub> | <souscrite> | Forme souscrite (en
indice). |
<vertical> | <verticale> | Forme de présentation à composition verticale. |
<wide> | <large> | Caractère de compatibilité de pleine chasse (zenkakou). |
<narrow> | <étroite> | Caractère de compatibilité de demi-chasse (hankakou). |
<small> | <petite> | Une petite variante de forme (compatibilité CNS). |
<square> | <enCarré> | Une variante de forme CJC écrite dans une seule cellule de rendu. |
<fraction>
|
<fraction> |
Forme de fraction dite vulgaire (p. ex. ¼, ½). |
<compat> | <compat> |
Autre caractère de compatibilité non spécifié. |
Rappel : Il existe une différence entre une décomposition et une correspondance de décomposition. UnicodeData définit les correspondances de décomposition alors que les décompositions (parfois nommée « décomposition complète ») utilisent les correspondances de décomposition de manière récursive.
Valeur |
Description |
---|---|
0: | Avec chasse, scindées, englobantes, antéposées et subjointes tibétaines |
1: | Couvrantes et intérieures |
7: | Nouktas |
8: | Signes de voisement kana |
9: | Viramas |
10: | Début des classes à position fixe |
199: | Fin des classes à position fixe |
200: | Jointes en bas à gauche |
202: | Jointes en bas |
204: | Jointes en bas à droite |
208: | Antéposées et jointes à gauche (d'un seul car de base) |
210: | Jointes à droite |
212: | Jointes en haut à gauche |
214: | Jointes en haut |
216: | Jointes en haut à droite |
218: | Souscrites à gauche |
220: | Souscrites |
222: | Souscrites à droite |
224: | Adscrites à gauche (d'un seul car de base) |
226: | Adscrites à droite |
228: | Suscrites à gauche (en chef à gauche) |
230: | Suscrites |
232: | Suscrites à droite (en
chef à droite) |
233: | Doubles souscrites |
234: | Doubles suscrites (en
chef) |
240: | Souscrite (iota souscrit) |
Note : certaines de ces classes combinatoires sont actuellement vides, elles ne sont définies ici qu'afin d'être complet.
D'autres fichiers Unicode comprenant des noms de caractères ou
d'écritures sont également disponibles avec les noms français de
l'ISO/CEI 10646.
Blocks.txt
énumère les noms de blocs. Il s'agit
de noms arbitraires attribués à des intervalles de
positions de code.
Jamo.txt
précise les noms abrégés des
jamos à partir desquels sont formés le nom des syllabes hangûl, comme
les définit le Chapitre
3.