UnicodeData 5.0 avec les noms français de l'ISO/CEI 10646(F)
 

Description du format du fichier UnicodeData 4.0


Remarque: L'information dans ce fichier n'est fournie qu'à titre indicatif et ne décrit pas complètement l'utilisation et l'interprétation des propriétés et comportement des caractères Unicode. Elle doit s'utiliser conjointement aux données des autres fichiers de la Base de donnée Unicode. Cette information dépend également de notations et définitions définies dans le standard Unicode. 

Table des matières


Format du fichier

Chaque ligne du fichier est composée de plusieurs champs séparés par des points-virgules. On numérote les champs en commençant par zéro. Les positions des caractères s'expriment à l'aide de chiffres hexadécimaux composés de quatre à six chiffres. Ils s'écrivent sans « U+ ». Les espaces au début ou à la fin d'un champ ne sont pas significatifs.

Le premier champ (0) de chaque ligne correspond au numéro du caractère (sa position). Les autres champs (1..n) représentent des propriétés associées à ce position dans le code.

La valeur de propriété inhérente (« par défaut ») est indiquée dans le tableau ci-dessous entre parenthèses et après le nom de la propriété. Un « = » indique que cette valeur est égale au numéro de caractère.

Le tableau ci-dessous décrit ces propriétés. La première colonne du tableau énumère les propriétés du fichier. La deuxième indique le type de valeur de propriété : S (chaîne), N (nombre), É (énumération, non binaire) ou B (binaire). La troisième colonne indique l'état (Normatif ou Informatif) et la quatrième colonne décrit cette propriété.

Nom (<reserved>)
S N (1) Ces noms correspondent exactement à ceux publiés dans l'ISO/CEI 10646 (F). Les noms des syllabes hangûl sont omis ; voir jamo.txt
Catégorie générale (Cn) E N (2) Ce champ fournit diverses informations sur le genre de caractère associé à cette position, les mises en œuvre peuvent s'en servir comme informations catégorielles inhérentes. Pour plus d'informations sur les valeurs de propriétés définies, consulter  Valeurs de catégorie générale.
Classe combinatoire canonique (0) N N (3) Ces classes sont utilisées par l'algorithme de mise en ordre canonique défini par le standard Unicode.  Pour plus d'informations sur les noms des valeurs de propriétés  associés aux différentes valeurs numériques de ces classes consulter Valeurs des classes combinatoires canoniques.
Classe Bidi (L, AL, R) E N (4) Il s'agit des catégories nécessaires à l'algorithme bidirectionnel défini par le standard Unicode. Pour plus de détails sur les valeurs de propriétés, consulter Valeurs de la classe bidi. Pour plus d'information, voir les Écritures du Moyen-Orient

La valeur de propriété par défaut dépend du numéro de caractère :

R

U+0590..U+05FF, U+07C0..U+08FF, U+FB1D..U+FB4F, U+10800..U+10FFF

(Pour Unicode 4.0.0, ceci comprend les blocs hébreu et du syllabaire chypriote, ainsi que les positions réservées  U+07C0..U+08FF, U+FB1D..U+FB4F, U+10840..U+10FFF)

AL

U+0600..U+07BF, U+FB50..U+FDCF, U+FDF0..U+FDFF, U+FE70..U+FEFE

(Pour Unicode 4.0.0, ceci comprend les blocs arabe, syriaque, thâna, formes A de présentation arabes et formes B de présentation arabes, ainsi que les positions réservées U+0750..U+077F, moins les non-caractères U+FDD0..U+FDEF et l'IOO (BOM) U+FEFF)

L

Autrement

Type de décomposition (aucun)
   Décomposition (=)
E
S
N (5) Ce champ comprend les deux valeurs, le type étant entre chevrons. Les  décompositions doivent correspondre précisément avec les décompositions publiées en regard des noms de caractères dans le standard Unicode.  Pour plus d'information, voir Correspondances de décomposition de caractère.
Type numérique (aucun)
Valeur numérique (pas un nombre)
E
N
N (6) Si le caractère est affecté de la propriété  nombre, chiffre décimal, la valeur de ce nombre est représenté par une valeur entière dans les champs 6, 7 et 8.
E
N
N (7) Si le caractère est affecté de la propriété nombre, mais n'est pas un nombre, chiffre décimal, alors la valeur de ce nombre est représentée à l'aide d'une valeur entière dans les champs 7 et 8. Ceci inclut les chiffres qui nécessite un traitement spécial comme les nombres en exposant de compatibilité..
E
N
N (8) Si le caractère est affecté de la propriété numérique, la valeur de ce caractère est représentée dans ce champ à l'aide d'un nombre entier ou rationnel positif ou négatif. C'est également le cas des fractions, « 1/5 » représente, par exemple, U+2155 FRACTION UN CINQUIÈME.

La propriété de certains caractères dépend de valeurs définies dans le fichier de données Unihan.

Réflexion bidi (N) B N (9) Si le caractère a été identifiée comme un caractère « miroir » dans un texte bidirectionnel, ce champ a la valeur « Y », sinon « N ». La liste des caractères est également imprimée dans le Chapitre 4 du standard. Ne pas confondre cette propriété avec celle nommée "glyphe miroir bidi" (Bidi_Mirroring_Glyph).

Cette propriété est booléenne elle indique si ce caractère doit être affiché réfléchi en contexte DàG.

Glyphe miroir bidi (Bidi_Mirroring_Glyph) est une propriété à valeur chaîne qui précise quel caractère est une image miroir acceptable de ce caractère. Par ex., U+0029 ) est la valeur de Bidi_Mirroring_Glyph pour U+0028 (. Il existe des caractères qui ont la propriété de réflexion bidi mais qui n'ont pas de valeur de Bidi_Mirroring_Glyph, cf. BidiMirroring.txt.
Nom Unicode 1.0 (<none>) S I (10) Il s'agit de l'ancien nom de ce caractère publié dans Unicode 1.0. Ce nom n'est fourni que lorsqu'il diffère fortement du nom actuel anglais du caractère. La valeur du champ 10 des caractères de commande ne correspond pas  aux noms Unicode 1.0, le champ contient alors les noms ISO 6429 des fonctions de commande correspondantes.
Commentaire ISO (<none>)

S

I (11) Il s'agit du champ commentaire de l'ISO 10646 (F). Il apparaît entre parenthèses de la liste des noms 10646 ou est annoté d'un astérisque pour signaler une remarque à son sujet dans l'Annexe P.
Correspondance majuscule simple (=) S N (12) Correspondance majuscule simple (résultat d'un seul caractère). Si le caractère fait partie d'un alphabet qui distingue la casse et qu'il existe une majuscule simple équivalente, ce champ contient ce caractère majuscule.

Voir les explications ci-dessous sur les différences de casse. Les correspondances simples n'ont pour résultat qu'un seul caractère, alors que des correspondances complètes peuvent fournir plusieurs caractères.

Note : La majuscule simple peut être omise dans ce fichier si la majuscule correspondante est égale au caractère considéré.

Correspondance minuscule simple (=) S N (13) Correspondance minuscule simple (résultat d'un seul caractère). Similaire à la correspondance majuscule.

Note : La minuscule simple peut être omise dans ce fichier si la minuscule correspondante est égale au caractère considéré.

Correspondance en casse de titre simple (=) S N Similaire à la correspondance majuscule.

Note : La casse de titre simple peut être omise dans ce fichier si le caractère en casse de titre correspondant est égal au caractère considéré.


 Valeurs des propriétés

On trouvera ci-dessous un résumé des valeurs de certaines propriétés. D'autres valeurs de propriétés sont définies ailleurs. Ainsi la propriété de coupure de ligne se retrouve documentés dans le UAX n° 14.

Valeurs de catégorie générale

Les valeurs de ce champ sont des abréviations dont la description est fournie ci-dessous. Pour plus d'information, consulter le standard Unicode.

Note : Le standard Unicode n'associe pas d'information aux caractères de commande (sauf rares exceptions). Les mises en œuvre attribueront habituellement des catégories de propriétés à certains caractères, notamment le retour de chariot et le passage à la ligne.

Abr.

Description

Lu Lettre, majuscule
Ll Lettre, minuscule
Lt Lettre, casse de titre
Lm Lettre, modificateur
Lo Lettre, autre
Mn Marque, à chasse nulle
Mc Marque, combinatoire avec chasse
Me Marque, englobante
Nd Nombre, chiffre décimal
Nl Nombre, lettre
No Nombre, autre
Pc Ponctuation, connecteur
Pd Ponctuation, tiret
Ps Ponctuation, début
Pe Ponctuation, fin
Pi Ponctuation, guillemet initial (se comporte comme Ps ou Pe selon l'usage)
Pf Ponctuation, guillemet final (se comporte comme Ps ou Pe selon l'usage)
Po Ponctuation, autre
Sm Symbole, mathématique
Sc Symbole, devise monétaire
Sk Symbole, modificateur
So Symbole, autre
Zs Séparateur, espace
Zl Séparateur, lignes
Zp Séparateur, paragraphes
Cc Autre, commande
Cf Autre, formatage
Cs Autre, seizet d'indirection
Co Autre, usage privé
Cn Autre, non affecté (aucun caractère dans ce fichier n'a cette propriété
Note : Le terme « L& » désigne dans les commentaires les lettres majuscules, minuscules et de casse de titre  (Lu, Ll ou Lt).

Valeurs de la classe bidi

Veuillez consulter le Chapitre 3.12 pour des explications sur l'algorithme bidirectionnelle et une description détaillée du sens attribué à ces catégories. Une version plus complète retrouve au Chapitre 9.

Type

Description

L Gauche-à-droite
LRE Enchâssement gauche-à-droite
LRO Forçage gauche-à-droite
R Droite-à-gauche
AL Droite-à-gauche arabe
RLE Enchâssement droite-à-gauche
RLO Forçage droite-à-gauche
PDF Dépilement de formatage bidirectionnel
EN Nombre européen
ES Séparateur de nombres européens
ET Terminateur de nombres européens
AN Nombre arabe
CS Séparateur commun de chiffres
NSM Signe à chasse nulle
BN Sans effet directionnel
B Séparateur de paragraphes
S Séparateur de segments
WS Blanc
ON Autres neutres

 

Correspondances de décomposition de caractère

Ces balises mentionnées dans certaines correspondances de décompositions indiquent en règle générale des informations de formatage. En l'absence d'une balise de ce type, la correspondance est canonique. Inversement, la présence d'une balise de formatage indique une correspondance de compatibilité (donc non canonique).  En l'absence d'autre information dans une correspondance de compatibitilité, la balise sert à distinguer cette correspondance des correspondances canoniques.

Parfois, une correspondance canonique ou de compatibilité consiste en un seul caractère. Dans le cas d'une correspondance canonique, ceci signifie que le caractère est l'équivalent canonique d'un autre caractère. Dans le cas d'une correspondance de compatibilité, ceci signifie que le caractère est l'équivalent de compatibilité d'un autre caractère.

Le tableau ci-dessous décrit les différentes balises de formatage et de compatibilité.

Balise anglaise
Balise française

Description

<font>   <police> Variante de polices (par ex. une forme gothique).
<noBreak>   <insécable> Version insécable d'une espace ou d'un trait d'union..
<initial>   <initiale> Forme de présentation arabe initiale.
<medial>   <médiale> Forme de présentation arabe médiale.
<final>   <finale> Forme de présentation arabe finale.
<isolated>   <isolée> Forme de présentation arabe isolée.
<circle>   <cerclée> Caractère entouré d'un cercle.
<super>   <exp> Forme suscrite (en chef).
<sub>   <souscrite> Forme souscrite (en indice).
<vertical>   <verticale> Forme de présentation à composition verticale.
<wide>   <large> Caractère de compatibilité de pleine chasse (zenkakou).
<narrow>   <étroite> Caractère de compatibilité de demi-chasse (hankakou).
<small>   <petite> Une petite variante de forme (compatibilité CNS).
<square>   <enCarré> Une variante de forme CJC écrite dans une seule cellule de rendu.
<fraction> 
<fraction>
Forme de fraction dite vulgaire (p. ex. ¼, ½).
<compat> <compat>
Autre caractère de compatibilité non spécifié.
Rappel : Il existe une différence entre une décomposition et une correspondance de décomposition. UnicodeData définit les correspondances de décomposition alors que les décompositions (parfois nommée « décomposition complète »)  utilisent les correspondances de décomposition de manière récursive.
  • On obtient la décomposition canonique d'un caractère en appliquant de manière récursive les correspondances canoniques, puis l'algorithme de mise en ordre canonique.
  • On obtient la décomposition canonique d'un caractère en appliquant de manière récursive les correspondances canonique et de compatibilité, puis l'algorithme de mise en ordre canonique.

Valeurs des classes combinatoires canoniques

Valeur

Description

0: Avec chasse, scindées, englobantes, antéposées et subjointes tibétaines
1: Couvrantes et intérieures
7: Nouktas
8: Signes de voisement kana
9: Viramas
10: Début des classes à position fixe
199: Fin des classes à position fixe
200: Jointes en bas à gauche
202: Jointes en bas
204: Jointes en bas à droite
208: Antéposées et jointes à gauche (d'un seul car de base)
210: Jointes à droite
212: Jointes en haut à gauche
214: Jointes en haut
216: Jointes en haut à droite
218: Souscrites à gauche
220: Souscrites
222: Souscrites à droite
224: Adscrites à gauche (d'un seul car de base)
226: Adscrites à droite
228: Suscrites à gauche  (en chef à gauche)
230: Suscrites
232: Suscrites à droite (en chef à droite)
233: Doubles souscrites
234: Doubles suscrites (en chef)
240: Souscrite (iota souscrit)
Note : certaines de ces classes combinatoires sont actuellement vides, elles ne sont définies ici qu'afin d'être complet.

Autres fichiers de la base de données Unicode traduits

D'autres fichiers Unicode comprenant des noms de caractères ou d'écritures sont également disponibles avec les noms français de l'ISO/CEI 10646.

   Blocks.txt énumère les noms de blocs. Il s'agit de noms arbitraires attribués  à des  intervalles de positions de code.

    Jamo.txt  précise les noms abrégés des jamos à partir desquels sont formés le nom des syllabes hangûl, comme les définit le Chapitre 3.



Commentaires ? Erreurs ? Suggestions ? Contactez-nous plume.jpg - 1334 Byteswebmestre <arrobe> hapax <point> qc <point> ca