BCP 47 : Identifiant de langue
Un identifiant de langue BCP 47 est une chaîne de caractères qui définit précisément une langue humaine en indiquant la langue de base, mais aussi éventuellement le système d'écriture et le dialecte. Par exemple, fr désigne le français, mais fr-FR et fr-CA précisent respectivement le français de France et le français du Canada.
Les identifiants de langue BCP 47 sont utilisés partout sur la plateforme web où une fonctionnalité a été conçue pour produire des résultats différents selon la langue définie, permettant la prise en charge de l'internationalisation.
Exemples :
- L'attribut HTML
lang - L'élément HTML
<track> - L'objet JavaScript
Temporal - La propriété API
CanvasRenderingContext2D.lang - Les API Translator et Language Detector
Syntaxe BCP 47
La syntaxe complète de BCP 47 est définie dans le RFC 5646. Elle permet d'identifier des dialectes de langue extrêmement précis, mais la plupart des usages sont bien plus simples.
Un identifiant de langue est composé de sous-étiquettes séparées par des tirets, où chaque sous-étiquette indique une propriété de la langue. Les trois sous-étiquettes les plus courantes sont :
- Sous-étiquette de langue
-
Un code de 2 ou 3 caractères qui définit la langue de base, généralement écrit en minuscules. Par exemple, le code de langue pour l'anglais est
en, et celui du badeshi estbdz. - Sous-étiquette d'écriture Facultatif
-
Cette sous-étiquette définit le système d'écriture utilisé pour la langue, et comporte toujours 4 caractères, avec la première lettre en majuscule. Par exemple, le français en braille s'écrit
fr-Braiet le japonais écrit en katakana s'écritja-Kana.Note : Si la langue est écrite de façon très typique, comme l'anglais en alphabet latin, il n'est pas nécessaire d'utiliser cette sous-étiquette.
- Sous-étiquette de région Facultatif
-
Cette sous-étiquette définit un dialecte de la langue de base pour un lieu particulier et se compose soit de deux lettres majuscules correspondant à un code pays, soit de trois chiffres correspondant à une zone non nationale. Par exemple,
es-ESdésigne l'espagnol tel qu'il est parlé en Espagne, etes-013l'espagnol d'Amérique centrale. « Espagnol international » s'écrit simplementes.
La sous-étiquette d'écriture précède la sous-étiquette de région si les deux sont présentes — ru-Cyrl-BY désigne le russe, écrit en alphabet cyrillique, tel qu'il est parlé en Biélorussie.
Voir aussi
- Liste des principales sous-étiquettes de langue
- RFC 5646 : Étiquettes pour l'identification des langues (angl.) : où les identifiants de langue BCP 47 sont spécifiés.
- Choisir une étiquette de langue (angl.) : guide W3C pour choisir la bonne étiquette de langue.
- Recherche de sous-étiquettes BCP 47 (angl.) : rechercher les codes de sous-étiquette pour une langue.