Iquique, Mirage du Chili

Vincent et moi avons parcouru près de 400 kilomètres dans le désert d’Atacama depuis Calama pour arriver sur une ville tout à fait improbable, Iquique.

Avec un casino, la zona franca (centre d’achat duty free) et moins de 2,5 mm de pluie par an, ça rappelle forcément Las Vegas. Sauf que Iquique a des plages, de très longues plages, un attrait considérable, selon moi.

Et cette ville a l’air d’un mirage. Peu importe la photo, quand on l’a voit entre le désert, le ciel et l’océan, ça n’a jamais l’air vrai. Mon seul regret est de ne pas avoir eu le temps de trouver un mirador et de prendre de belles photos.

Avoir eu plus de temps, on aurait aussi pu faire du parapente ou pour les adeptes, du sandboard sur son immense dune de sable devant le plateau.

 

 

L’humour contre la bêtise humaine

charlie

Création de Joachim Roncin, du magazine Stylist

Toute la journée, je me suis demandé comment réagir à cet attentat répugnant.

Et après avoir entendu toutes sortes de qualificatifs comme « acte de guerre » ou « atteinte à la liberté d’expression », j’aime toutefois penser que c’est tout simplement un acte insensé perpétré par trois dégénérés fanatiques.

La meilleure chose à faire, c’est de les attraper et de continuer de se moquer des extrémismes, toutes confessions confondues.

Mais attention de ne pas généraliser! Je parle bien d’extrémisme. Je ne peux m’empêcher de penser que la généralisation est un réflexe extrêmement pernicieux qui ne peut qu’envenimer la situation lorsque celle-ci est déjà explosive.

Voilà. Mes pensées vont aux victimes, qui ont eu le courage de ne pas reculer devant un intégrisme de plus en plus ridicule et dangereux.

Yellowstone National Park, Wyoming, USA

Depuis mon voyage en Islande, j’ai la piqûre des phénomènes géothermiques tels que les volcans et les geysers. Un jour ou l’autre, je devais donc aboutir à Yellowstone, là où ces phénomènes sont les plus nombreux. Mais il n’y a pas que des phénomènes géothermiques à Yellowstone.

Vous trouverez une galerie d’images plus bas et vous pourrez aussi visionner des vidéos de sources chaudes, de geysers, de chutes et d’animaux que j’ai ajoutées sur youTube.

Firehole River

La Firehole River avec ses couleurs d’automne et les nombreuses sources chaudes qui la bordent dans le Upper Geyser Basin

Sans vouloir réduire les attractions du parc à la liste ci-dessous, voici mes coups de coeur :

  • Le Grand Canyon de Yellowstone : tout simplement grandiose.
  • Les élans (wapitis) : en période de rut, les élans mâles sont prêts à tout pour conserver leur harem. Nous en avons vu charger et frapper les véhicules qui ralentissaient un peu trop à leur goût.
  • Les couleurs de l’automne : à Yellowstone, les couleurs ne sont pas dans les arbres, mais dans l’herbe au sol. Le sentier de Mystic Falls m’a particulièrement impressionné pour cette raison.
  • Les geysers : la quantité, la variété et la taille des geysers est unique au monde.
  • Le ciel étoilée : un soir de nouvelle lune sans nuage et sans pollution lumineuse. Enfin!

Vue d’ensemble du parc

Lower Falls de la rivière Yellowstone

Lower Falls dans le Grand Canyon de Yellowstone

Le nom du parc devient évident quand on voit le Grand Canyon creusé par la rivière Yellowstone. Les parois du Canyon sont principalement jaunes, quoiqu’on y trouve toutes sortes de couleurs à certains endroits.
Le parc est sur un haut plateau situé en moyenne à 2 400 mètres d’altitude au coeur des montagnes rocheuses. On ne voit pas de volcans à Yellowstone, car la moitié du parc est elle-même dans un volcan qui après avoir fait éruption il y a 640 000 ans, se serait effondré sur lui-même pour former ce qu’on appelle une caldera. Dans le cas de Yellowstone, ce serait une caldera de 48 km par 72 km.

Par ailleurs, la caldera est encore bien active, la preuve étant que la moitié des phénomènes géothermiques de la planète se trouvent à Yellowstone, dont le deux tiers des geysers. La dernière éruption mineure a eu lieu il y a 70 000 ans.

Premier parc national au monde

Le parc est si particulier qu’il est devenu le premier parc national au monde en 1872, un peu moins de 5 ans après la confédération canadienne. À titre de comparaison, Rockfeller fondait la Standard Oil Company moins de 2 ans auparavant et en Europe, la guerre franco-allemande de 1870 venait de se terminer.

À cette époque, les scientifiques ne pouvaient pas s’aventurer dans cette région sans être escortés par l’armée américaine à cause des conflits en cours avec les Amérindiens. De leur côté, les Amérindiens fréquentaient déjà la région depuis plus de 10 000 ans…

Les sources chaudes (hot springs)

Grand Prismatic Spring

Grand Prismatic Spring dans le Midway Geyser Basin

Une source chaude est une source d’eau chauffée par le magma sous-jacent. L’eau peut être en dessous du point d’ébullition ou en ébullition constante.

Les sources chaudes prennent toutes sortes de couleurs selon la température de l’eau et les organismes qui les habitent. Comme les autres phénomènes de Yellowstone, chaque source est unique.

Pour voir Punch Bowl Spring en ébullition sur mon canal youTube, cliquer ici.

Les organismes thermophiles (Heat-living microscopic organisms)

Organismes thermophiles

Des organismes thermophiles

Les couleurs autour des sources chaudes sont pour la plupart des micro-organismes qui vivent de la chaleur de ces sources. Ce sont des champignons, des algues ou des bactéries et on les trouve partout dans les sources ou dans les eaux qui s’écoulent des sources.

Certains de ces organismes peuvent même vivre dans de l’eau en ébullition…

Les geysers

Le Lion

Lion Geyser et un arc-en-ciel

Le mot geyser provient du nom du geyser islandais Geysir dont l’origine est le verbe geysa qui signifie jailliren vieux norrois. Un geyserest une source chaude dont le conduit qui mène à la surface est particulièrement étroit.

En 1846, le chimiste allemand Robert Bunsen, fournit la première explication acceptée du fonctionnement d’un geyser, qu’il arriva même à reproduire en laboratoire.

Vous pouvez voir un de mes geysers préférés, Fountain Geyser, en éruption sur mon canal youTube.

Galerie d’images

Voici une galerie d’images du Grand Canyon, de sources chaudes, de geyers, d’animaux, etc. Cliquez sur une image pour lancer la galerie.

N’hésitez pas à m’écrire ou à me poser des questions si vous planifiez aller à Yellowstone. Pour les questions pointues sur les phénomènes géothermiques, mieux vaut demander à Google…

Le Grand Cahier : exercice de claudication

Le Grand Cahier est un roman unique. À mon humble avis, peu de romans contiennent autant de génie en aussi peu de mots.

Pour les non-initiés, Le Grand Cahier est un roman d’apprentissage qui décrit l’enfance de deux frères jumeaux dans un pays en guerre. Les jumeaux vivent chez leur grand-mère, une vieille femme avare, cruelle et indépendante. Au fil d’une séquence de saynètes sordides, qui les confronte à la bassesse et à la bêtise humaine, les deux enfants développent un sang-froid et une insensibilité déconcertante.

Pour se « perfectionner », les jumeaux s’imposent des « exercices », ayant pour but de les rendre plus endurant physiquement et psychologiquement. Parmi ceux-ci, il y a les exercices d’immobilité, de cécité et de surdité, de jeûne, de cruauté, etc. Il y a même un exercice d’écriture : Le Grand Cahier lui-même.

Il y a quelques années – dans un élan de motivation insoupçonné –, je me suis soumis à un petit exercice. J’ai écrit, en m’efforçant de respecter la forme et le fond du Grand Cahier, un nouvel exercice : un exercice de claudication. Le voici, ci-dessous.


Exercice de claudication

Deux bouts de bois enserrent notre jambe droite. Pour les faire tenir, nous utilisons de vieux morceaux de linges qui ligotent notre jambe jusqu’à ce qu’elle s’engourdisse. Maintenant, nous ne pouvons plus plier notre jambe.

Un matin, nous attendons le facteur. Lorsqu’il s’approche, nous allons en claudiquant dans sa direction.
Il dit :
— Vous vous moquez de moi, petits merdeux!
Nous disons :
— Non monsieur, c’est un exercice. Nous nous exerçons à claudiquer à cause des bombes.
— À cause des bombes?
— Oui. Quand les bombes tombent, elles peuvent nous couper une jambe.
— Vous n’avez qu’à vous mettre à l’abri lors des alertes!
— Nous ne nous occupons pas des alertes. Nous devons travailler et étudier.
En hochant la tête, il sort la lettre de notre Mère de son sac et nous la remet.
Il dit :
— Vous finirez tous les deux en enfer, c’est moi qui vous le dis.
Nous ne disons pas merci et nous signons le papier. Le facteur retourne vers la route en hochant encore la tête.

Nous allons jusqu’au jardin en boitant.

Pour cueillir les pommes, nous avons confectionné une perche qui nous permet de détacher les pommes de l’arbre. L’un de nous manie la perche, tandis que l’autre attrape les pommes qui ne doivent pas s’abîmer par terre.
Grand-Mère arrive avec sa brouette. Elle nous dit :
— Plus vite, fainéants!

Nous disons :
— Nous ne pouvons pas aller plus vite, Grand-Mère.
— Pourquoi? Enlevez ces bouts de bois et vous irez plus vite!
— Nous ne pouvons pas marcher sans ces bouts de bois.
Grand-Mère marmonne quelque chose et pose sa brouette. Elle demande :
— Vous ne voulez plus ramasser les pommes? Vous voulez ma perte, fils de chienne!
— Non ce n’est pas ça, Grand-Mère. Notre jambe est complètement engourdie. Voici toutes les pommes que vous emporterez aujourd’hui.
Grand-Mère prend les pommes et soulève sa brouette, elle pleure :
— Mais qu’est-ce que je leur ai fait? Une pauvre vieille comme moi, je n’ai plus rien à vendre, je suis perdue…
Nous disons :
— Ne vous en faites pas, Grand-Mère. À l’aide de notre perche, nous pouvons maintenant aller chercher les pommes les plus hautes de l’arbre. Dorénavant, il y aura plus de pommes.
Grand-Mère dit très vite :
— Bien! Dans ce cas, ramassez-les toutes! Et ne les abîmer pas!
Grand-Mère ricane et part en direction de la ville avec sa brouette.

Nous regardons Grand-Mère s’éloigner et nous allons nous asseoir sur le banc devant la chambre de l’officier. Nous enlevons les morceaux de linges et les bouts de bois qui enserrent notre jambe et nous les dissimulons dans l’herbe sous le banc. Nous nous levons. Debout sur une jambe, nous attendons que le sang revienne dans notre jambe. Lorsque les fourmillements cessent, nous entrons dans la maison.

La fois suivante, nous exerçons l’autre jambe.


Transit de Vénus 2012

Magnifique.

Nous avons eu tout juste le temps de trouver un endroit dégagé, d’assembler le téléscope et d’observer un soleil complètement nu avant de voir Vénus s’engager sur le disque solaire.

Crédit : Frederik J. Sand, Helsingborg, Suède

Puis des nuages… mais tout à coup une éclaircie et Vénus est apparue bien nette, à l’intérieur du disque solaire. Pendant cinq minutes, une demi-douzaine de personnes ont pu en profiter de notre côté.

En comparaison de la photosphère, c’est-à-dire la surface visible du soleil, la taille de Vénus est époustouflante, considérant que Vénus est presque aussi grande que la Terre.

D’épais nuages ont ensuite couvert le ciel, jusqu’au coucher du soleil.

Ce fut la première et la dernière fois, car le prochain transit aura lieu en 2117.

Pour plus d’information : Vénus devant le Soleil – Juin 2012

Projet de loi 78

Il aura fallu une loi spéciale pour sortir de mon mutisme : Loi permettant aux étudiants de recevoir l’enseignement dispensé par les établissements de niveau postsecondaire qu’ils fréquentent.

La CAQ et le PLQ viennent d’appuyer le projet de loi qui va réorganiser le calendrier scolaire de la session d’hiver et de la session d’automne en plus de mettre en oeuvre des mesures pour faire respecter les injonctions.

Disons toutefois que la CAQ appuie la loi à reculons, après avoir réussi quelques amendements :

  1. Le concept de « groupe » est passé de 10 à 50…
  2. Il n’y aura pas de diplômes à rabais : les étudiants devront compléter au moins 75% de leurs sessions.

Bien que les voies de communications soient toujours ouvertes – indirectement – au sujet de la hausse des droits de scolarité, les relations sont maintenant irrémédiablement entachées.

Quant aux nouvelles obligations imposées aux « groupes » de manifestants, TOUTES causes confondues, on peut difficilement s’empêcher d’être cynique sachant que les prochaines élections ne sont pas très loin.

Que l’on soit pour ou contre la hausse, le gouvernement n’aura pas fait d’efforts soutenus pour encourager un dialogue – de bon ton et avec retenu – et élaborer une sortie de crise durable et acceptable.

Force est de constater que j’ai vu plus d’effort et de retenu du côté de Léo Bureau-Blouin que du côté de la ministre et du PM.

Définitivement, le tout est un gâchis.

Et malgré l’énorme désagrément que cette loi vient d’ajouter dans le débat houleux des droits de scolarité, j’ose espérer que la plupart d’entre nous ne succomberons pas à la bêtise.

Encore plus de jeux de caractères : ISO/CEI 10646 et Unicode?

Dans les deux articles précédents, Jeux de caractères : Morse, ASCII, ISO/CEI 646? et Encore des jeux de caractères : ISO 8859-1, MacRoman, CP1252?, nous avons survolé deux normes ISO pour l’encodage de l’alphabet latin : l’ISO/CEI 646 (sur 7 bits) et l’ISO/CEI 8859 (sur 8 bits).

Pour chacune de ces normes, nous avons vu qu’il existait plusieurs variantes en partie incompatibles entre elles, et que si nous avions considéré les caractères grecs, arabes ou japonais, nous aurions probablement perdu le peu de sens commun qui nous guidait jusque-là.

Heureusement, à la fin des années 80, des travaux ont été entâmés pour définir un standard universel. Autrement dit, un seul et unique jeu de caractères qui comprendrait tous les caractères qui existent!

Seul hic, deux organismes ont entrepris à peu près à la même époque de définir ce nouveau jeu de caractères… l’Organisation internationale de normalisation (ISO) et le Consortium Unicode.

Cependant, pour le bien commun, les deux organismes collaborent étroitement entre elles et elles définissent exactement le même jeu de caractères (correspondances entre les versions). Malgré tout, il reste que la confusion est encore grande entre les deux, mais nous pouvons retenir que l’ISO/CEI 10646 et l’Unicode sont des standards qui vont bien au-delà du jeu de caractères universel.

De toute manière, dans notre survol, nous regarderons seulement les principes communs aux deux normes.

Le Consortium Unicode

Le Consortium Unicode est un organisme à but non-lucratif incorporé en Californie en 1991. Le président et cofondateur est Mark Davis (à l’époque chez Apple, puis chez IBM et maintenant chez Google…) qui tient un site Web au nom original pour les amateurs de café : http://www.macchiato.com/.

Le consortium compte parmi ses membres tous les grands noms des technologies informatiques, notamment, depuis sa fondation, Apple, Microsoft et IBM.

Le nom « Unicode » fait référence à un jeu de caractères universel, uniforme et unique.

Le jeu de caractères universel (Universal Character Set ou UCS)

Contrairement aux autres jeux de caractères, les normes ISO/CEI 10646 et Unicode apportent une innovation simple mais extrêmement intéressante : elles séparent le jeu de caractères universel de son implémentation.

Effectivement, nous avons vu précédemment que les jeux de caractères avaient pour but d’associer chaque caractère à une forme prédéterminée, que ce soit un nombre binaire sur 7 bits, 8 bits ou plus (une séquence de 8 bits est appelée un octet).

Au contraire, le jeu de caractères universel a pour mission d’assigner un numéro unique, appelé point de code, à tous les caractères qui existent, peu importe la forme d’encodage utilisée en pratique, que ce soit l’UTF-8, l’UTF-16 ou l’UTF-32, que nous verrons plus loin. Aussi, un point de code ne peut pas être retiré une fois qu’il a été assigné, peu importe la version de la norme.

Ainsi, chaque caractère de l’UCS est officiellement défini par son point de code (en hexadécimal, c.-à-d. en base 16 plutôt qu’en base 10) et une description (pourquoi définit-on les points de code en hexadécimal et non en décimal? voir l’annexe : Notation hexadécimale).

Par exemple, voici la définition de la lettre minuscule « e » : 0065   e   LATIN SMALL LETTER E

D’ailleurs, nous pouvons noter que 6516 est aussi le code ASCII du caractère « e », car les 256 premiers points de code de l’UCS sont ceux de l’ISO-8859-1 (lui-même compatible avec l’ASCII).

Notes importantes sur la définition d’un caractère :

  1. Un point de code est normalement noté en ajoutant « U+ » devant. Par exemple, le point de code du caractère « e » est U+0065. Voici une autre charte des points de code.
  2. Le caractère « e » est une entité abstraite, c.-à-d. qu’il est indépendant de la police et du style. L’UCS n’encode pas les glyphes qui composent les polices de caractères, car ceux-ci relèvent de la présentation du caractère et non de sa signification. Donc, « e » , « e » et « e » sont tous équivalents. Par contre, il différencie les lettres majuscules des lettres minuscules.
  3. Le caractère « e » est défini comme un caractère « latin », car les caractères de l’UCS sont regroupés par langues, ou par scripts, selon la terminologie de l’Unicode.

Les plans de l’UCS et le plan multilingue de base

Le jeu de caractères universel est découpé en 17 plans, de 0 à 16, de 65536 caractères possibles, c.-à-d. de 16 bits chacun. Puisque les points de code sont assignés en hexadécimal, nous devons en déduire que le plan 0 comprend les codes 000016 à FFFF16, le plan 1, les codes 1000016 à 1FFFF16 et ainsi de suite jusqu’au plan 16 de 10000016 à 10FFFF16 (rappelons-nous que 10 en hexadécimal est égal à 16 en décimal).

La plupart des langues courantes se trouvent dans le plan 0, couramment appelé plan multilingue de base (PMB). Il est donc possible de représenter ce plan en entier sur 16 bits (donc 2 octets).

Les formes d’encodage de l’UCS : UTF-8, UTF-16 et UTF-32

L’UCS peut être encodé dans des formes diverses, c.-à-d. avec un nombre d’octets fixe ou variable.

Voici les formes (Universal Transformation Format ou UTF) possibles :

Forme Encodage Caractéristiques principales
UTF-8 sur 1 à 4 octets Les 128 premiers caractères sont encodés sur 1 octet. Cette forme est donc compatible avec l’US-ASCII. Au-delà, les caractères sont encodés sur 2, 3 ou 4 octets.
UTF-16 sur 2 ou 4 octets Tous les points de code qui tiennent sur 2 octets, c.-à-d. les caractères du plan multiling de base – à l’exception de la plage U+D800 à U+DFFF -, sont encodés sur 2 octets.
UTF-32 sur 4 octets Forme la plus simple mais qui consomme le plus d’espace disque. Bien que 3 octets seraient suffisants pour encoder tous les caractères jusqu’à 10FFFF16, les 4 octets permettront un jour d’étendre l’UCS au-delà de cette limite.

À noter que bien que les points de code de l’UCS soient compatibles avec l’ISO-8859-1, aucune des formes d’encodage n’est compatible avec celui-ci, sauf l’UTF-8, qui est seulement compatible avec la portion US-ASCII.

Jeu de caractères Caractère « é »
(en hexadécimal / point de code)
Caractère « é » encodé
(en hexadécimal)
ISO-8859-1 E9 E9
UTF-8 U+00E9 C3A9
UTF-16 U+00E9 00E9
UTF-32 U+00E9 0000 00E9

Forme composée et forme décomposée

Un principe de l’unicode qui peut être une source de confusion est la composition de caractère. Avec l’unicode, il est possible d’encoder certains caractères de plusieurs façons, indépendamment de la forme d’encodage.

Par exemple, nous pouvons encoder le caractère « è », soit en encodant le caractère directement, soit en encodant le « e » puis le « ` » séparément :

  • Forme composée : « è » => U+00E8
  • Forme décomposée : « e » + « ` » => U+0065 U+0300

Les accents ou diacritiques les plus communs se trouvent sur la plage U+0300 à U+036F (Combining Diacritical Marks).

À noter que la forme décomposée est souvent utilisée dans certains composants de MacOS X, tels que le client WebDAV. Cette utilisation a même donné naissance à ce qu’on appelle le UTF8-MAC.

Pour les programmeurs Java, mentionnons que depuis Java 1.6, la classe java.text.Normalizer permet de composer et de décomposer du texte Unicode.

Support et affichage de l’UCS/Unicode

Bien qu’il soit assez bien supporté par les plateformes les plus populaires, ce n’est pas tous les caractères de l’Unicode, même du plan multilingue de base, qui sont supportés. L’affichage de certains scripts peut dépendre du système d’exploitation et du navigateur utilisé.

N’oublions pas que l’UCS définit seulement la table des caractères abstraits et de leurs points de code respectifs. Pour afficher un caractère, il faut au moins une police de caractères qui le contienne.

Lorsqu’un caractère n’est pas supporté, on peut voir le rectangle ouvert, un rectangle contenant son point de code (entre autres sous Firefox) ou le caractère de remplacement de l’UCS (U+FFFD, �).

D’ailleurs, le rectangle ouvert n’est pas un caractère comme le caractère de remplacement « � », car si vous copiez un rectangle ouvert, vous copiez bien le caractère original et son point de code, alors que si vous copiez le caractère de remplacement, vous ne copiez pas le caractère qu’il remplace…

Pour de l’information sur l’affichage de l’UCS/Unicode : http://fr.wikipedia.org/wiki/Aide:Unicode

Annexe : Notation hexadécimale

Binaire (base 2) Décimal (base 10) Hexadécimal (base 16)
0 0 0
1 1 1
10 2 2
11 3 3
100 4 4
101 5 5
110 6 6
111 7 7
1000 8 8
100 4 4
1001 9 9
1010 10 A
1011 11 B
1100 12 C
1101 13 D
1110 14 E
1111 15 F
10000 16 10
10001 17 11
10010 18 12

Pourquoi définit-on les points de code en hexadécimal et non en décimal?

Pour la même raison que nous préférons normalement manipuler, en décimal, des chiffres ronds comme 10, 100, 1000, etc.

En effet, alors que le nombre binaire 1,0000,0000,0000,00002 peut être considéré comme un chiffre « rond » pour un ordinateur, il représente 6553610 en décimal… mais 1000016 en hexadécimal.

En bout de ligne, notons que la seule différence d’une base à l’autre, que ce soit 2, 8, 10 ou 16, c’est le nombre de caractères avec lequel on compte :

  • En binaire, on utilise les deux caractères 0 et 1.
  • En décimal, on utilise dix caractères de 0 à 9.
  • En hexadécimal, on utilise seize caractères de 0 à 9 puis de A à F.

Finalement, les avantages de la notation hexadécimale sont :

  1. Concision : F16 = 15
  2. Proximité avec la notation binaire comme on l’a vu ci-haut.
  3. Conversion en binaire beaucoup plus simple qu’à partir de la notation décimale
 

Réf. :

  1. Qu’est ce qu’Unicode? (en français)
  2. Introduction technique à l’Unicode
  3. Glossaire des termes de l’Unicode
  4. Autre introduction en français au standard Unicode
  5. MySQL – Jeux de caractères et collation
  6. Endianness et BOM (Byte Order Mark)
  7. Saut de ligne et Unicode
  8. HTML et Unicode
  9. Unicode Character Search
  10. Équivalence et normalisation Unicode
  11. Caractères « privés » (Private Use Characters) et le logo d’Apple (U+F8FF)

Un soir d’été pas comme les autres

À 19h15, tous les appareils électriques s’éteignirent brusquement.

Panne d’électricité.

Deux secondes plus tard, un coup de tonnerre gronda et de grosses gouttes de pluie commencèrent à tomber tranquillement. Après quelques minutes, la grêle envahit soudainement ce qui restait de silence.

Sans électricité, nous n’avions d’autre choix que de jouir du spectacle.

Après un bref moment, la pluie cessa et les voisins entreprirent de sortir pour investiguer l’état des lieux. Quelques-uns constatèrent que certains avaient encore de l’électricité, à en juger par quelques lumières au bout de la rue, si bien que des expéditions de sinistrés se formèrent pour aller circonscrire l’étendue de leur malchance.

Entre-temps, certains philosophaient, par des remarques plus ou moins bien senties, sur notre vulnérabilité et sur notre énergivoracité, tandis que d’autres se contentaient d’éructer des grossièretés pour bien marquer leur impuissance.

Pour ma part, j’étais content de me libérer de mes obligations, faute d’électricité. L’idée de passer une soirée tranquille et dénuée de stimuli m’arrangeait, même si l’idée de prendre une douche à la chandelle me contrariait quelque peu…

Quand la noirceur s’installa, nous nous étions résignés à cette état de choses déroutant et de joyeuses clameurs animèrent les trottoirs et les balcons pendant quelque temps jusqu’à ce que la nuit les emporte complètement.

Puis soudainement, vers 2h15, je me réveillai et tous les appareils électriques se ranimèrent en même temps. La jubilation de tous ces appareils était si grande qu’on aurait cru le démarrage d’une soucoupe volante. Avec autant d’enthousiasme, je fus même surpris que la toilette elle-même ne se soit pas manifestée par un glougloutement de joie ou deux…

À nouveau, la vie avait repris son tic-tac si familier.

Encore des jeux de caractères : ISO 8859-1, MacRoman, CP1252?

Dans la première partie, Jeux de caractères : Morse, ASCII, ISO/CEI 646?, nous avons survolé les origines d’une longue tradition de jeux de caractères aux noms tous plus effrayants les uns que les autres.

Exemple de jeux de caractères dans Chrome

Nous nous sommes attardés à des jeux de caractères sur 7 bits seulement et nous avons vu que la norme ISO/CEI 646 permettait de définir des variantes nationales pour pallier au manque flagrant de caractères tels que les caractères accentués.

Malheureusement, l’ajout d’un bit n’a pas réglé le problème. Avec 8 bits, on peut seulement représenter 256 caractères. Pour cette raison, plusieurs jeux de caractères ont encore été créés et pas seulement par l’ISO… des entreprises tels que Microsoft, Apple et IBM se sont mises de la partie.

L’EBCDIC et les pages de code

Une page de code est tout simplement un synonyme de jeu de caractères et le terme aurait été introduit par IBM avec l’EBCDIC, un encodage de caractères sur 8 bits aussi vieux que l’ASCII et de plus, incompatible avec lui.

Pour bien apprécier le degré d’absurdité de certaines pages de code, il suffit de comparer les variantes nord-américaine (037) et britannique (285) de l’EBCDIC. Elles sont presqu’en tout point semblables à l’exception de quelques caractères seulement. Parmi ceux-ci, à la position hexadécimal 5B, il y a le symbole de dollar « $ » dans l’une et le symbole de la livre sterling « £ » dans l’autre.

Par conséquent, si on prend pour acquis que les nord-américains et les britanniques utilisaient leurs variantes respectives, il est facile d’imaginer que si les américains inscrivaient des montants en dollars dans un document, puis que les britanniques ouvraient le même document, tous les montants s’affichaient en livres sterling…

Conversion radicale des deux devises, mais à la portée de tous. Vous prenez une efface, vous supprimez le symbole de dollar puis vous écrivez le symbole de la livre sterling.

L’ISO/CEI 8859, une extension 8 bits de l’US-ASCII

Le jeu de caractères sur 8 bits de l’ISO, soit l’ISO/CEI 8859, reprend les caractères imprimables de l’US-ASCII en excluant les caractères de contrôle sur les plages 0 à 31. Elle utilise donc le huitième bit, c.-à-d. la plage 128 à 255, pour ajouter de nouveaux caractères. Cependant, pour une raison pas bien claire, la norme n’assigne aucun caractère sur la plage 127 à 159.

L’ISO 8859 a pour but de définir des jeux de caractères basés sur l’alphabet latin. Il existe 16 jeux de caractères ISO 8859, de l’ISO 8859-1 à l’ISO 8859-16, et chaque partie contient les caractères d’une ou plusieurs langues groupées selon la région.

L’ISO/CEI 8859-1 (Latin-1) et les langues d’Europe occidentale

En ce qui nous concerne, l’anglais et le français font partie du premier jeu de caractères, soit l’ISO 8859-1, qui représente les langues d’Europe occidentale. Parmi les langues « d’Europe occidentale », on trouve l’anglais, le français, l’allemand, l’italien, l’espagnol, l’islandais, le danois, etc.

Pour ces langues, les grands systèmes d’exploitation avaient aussi leur propre jeux de caractère, plus ou moins équivalents. Sous Windows, c’est la page de code 1252 (CP-1252), sous Mac, c’est le Mac Roman et sous DOS, c’est la page de code 437. Tous ces jeux de caractères ont au moins la décence d’être compatible avec l’ASCII.

« Ÿ » est un caractère français?

L’ISO 8859-1 ne contient pas tous les caractères français, car il n’inclut pas les caractères « œ », « Œ » et « Ÿ » – ce dernier étant apparemment utilisé dans certains noms propres tels que Moÿ-de-l’Aisne et Faÿ-lès-Nemours. En fait, le caractère minuscule « ÿ » existe dans la norme, mais pas la lettre majuscule, qui est nécessaire si on veut écrire ces noms en lettres majuscules.

Pour cette raison, l’ISO 8859-15, aussi connu sous Latin-9 (%$#!???), a éventuellement été créé pour ajouter des caractères manquants en échange de quelques autres moins populaires.

Différences entre l’ISO 8859-1 et l’ISO 8859-15
Position décimale 164 166 168 180 184 188 189 190
ISO 8859-1 ¤ ¦ ¨ ´ ¸ ¼ ½ ¾
ISO 8859-15 Š š Ž ž Œ œ Ÿ

Malgré cette mise à jour, l’ISO 8859-1 est toujours resté la variante prédominante – en effet, personnellement, je n’utilise pas beaucoup le « Ÿ »…

Dernière remarque concernant l’ISO 8859-1 : retenons que l’ISO 8859-1 n’est pas le même chose que l’ISO-8859-1 (il y a un tiret supplémentaire %$#?!!!). En plus du tiret supplémentaire, l’ISO-8859-1 inclut des caractères de contrôles aux positions inutilisées de la version originale. Ne me demandez pas pourquoi…

Windows-1252 (malheureusement appelé ANSI à l’occasion)

Cette page de code est celle qui vient encore aujourd’hui avec Windows dans les langues « d’Europe occidentale » selon la classification ISO. Son succès repose sur le fait qu’elle est non seulement une extension d’ASCII, mais une extension de l’ISO 8859-1.

Souvenons-nous que dans l’ISO 8859-1, la plage 128 à 159 est inutilisée et que dans l’ISO-8859-1, elle contient des caractères de contrôle. Le Windows-1252 a utilisé cette plage pour y insérer les caractères manquants en français (Œ, œ, Ÿ) et en finnois (Š, š, Ž, ž) ainsi que d’autres caractères tels que le symbole de l’Euro « € ». Cette fois-ci, Microsoft a fait ce que l’ISO aurait dû faire au point de départ selon moi.

Ainsi, il contient tous les caractères qui ont été ajoutés avec l’ISO 8859-15 tout en restant compatible avec l’ISO 8859-1, ce qui n’est pas vrai avec l’ISO 8859-15… Grâce à cette compatibilité et à la popularité de Windows, les navigateurs, jusqu’à ce jour, affichent carrément l’ISO-8859-1 en Windows-1252.

MacRoman

Bien que Mac OS utilise l’UTF-8 depuis Mac OS X, il utilisait auparavant le MacRoman, compatible avec l’ASCII, mais sans plus. Il contient la grande majorité des caractères de l’ISO 8859-1 mais dans un ordre complètement différent. Par contre, il n’y a pas de plage inutilisée, ainsi il peut représenter plus de caractères que l’ISO 8859-1.

Le MacRoman contient les caractères français « Œ », « œ » et « Ÿ » mais non les caractères finnois « Š », « š », « Ž » et « ž ». Il n’encode pas non plus les caractères islandais « ð », « Ð », « þ », « Þ », « ý » et « Ý ».

Pour les Islandais, il y avait le MacIceland!

Et maintenant?

Ensuite, il y a l’unicode et spécialement l’UTF-8. L’unicode est un nouveau chapitre qui vise enfin à unifier la représentation de tous les caractères dans une même norme. Et pour une fois, la norme porte bien son nom.

Voyons maintenant si j’aurai le courage de perpétuer cette litanie du diable sur les horreurs du passé, du présent et du futur, en parlant de l’unicode…

Mais si vous me connaissez déjà, vous savez que ma curiosité est plus forte que l’ennui.

Réf. :

  1. Introduction aux jeux de caractères

Jeux de caractères : Morse, ASCII, ISO/CEI 646?

À bien des égards, les jeux de caractères trônent bien près du sommet de la pyramide de l’horreur. Tout le monde a vu, un jour ou l’autre, un caractère ind�sirable dans un courriel ou sur une page web à cause d’un problème d’encodage de caractères.

Bien que ces problèmes aient été autrement plus pénible à une certaine époque, je ne peux m’empêcher de ressentir, en tant que mortel, un serrement à l’estomac à chaque fois que j’en entends parler. À force de voir des Latin1, ISO-8859-1, CP-1252, ANSI, ISO/CEI 8859-15, US-ASCII, UTF-8 et UTF-16BE, le temps est venu de mettre un peu d’ordre dans ce ß°®}$%?#&*~{!

Qu’est-ce que l’encodage de caractères? Qu’est-ce qu’on a fait pour mériter ça?

Pour un signal électrique, un disque magnétique ou une onde électromagnétique, un caractère ne signifie rien. Afin de transmettre un caractère ou de le stocker sur un support numérique, il faut le convertir en quelque chose de plus simple. Par exemple, le code morse : chaque caractère est converti en une séquence d’impulsions courtes ou longues. Ainsi, avec un seul son, tantôt court, tantôt long, on pourrait communiquer un roman en entier, puis à la fin du processus, halluciner des bips des jours durant.

Jeux de caractères Caractères
En décimal (et hexadécimal)
a é
ASCII 97 (61) Inexistant
MacRoman 97 (61) 142 (8E)
ISO 8859-1 97 (61) 233 (E9)
UTF-8 97 (61) 195 169 (C3A9)
deux octets

En informatique, il n’y a pas de bips mais des bits. Le bit a deux valeurs possibles : 1 ou 0. Par conséquent, il faut une façon d’encoder les caractères en 1 et en 0, ou autrement dit, de les encoder en binaire.

Entrent en scène les jeux de caractères : chacun d’entre eux représente une façon d’encoder les caractères en binaire. C’est tout simplement une table de correspondance entre chaque caractère et sa valeur binaire. Par exemple, en ASCII, le caractère ‘a’ correspond à 01100001.

Pour des raisons évidentes de concision, nous utiliserons les nombres décimaux plutôt que les nombres binaires ou hexadécimaux – oui, je sais, c’est la pénible ascension de l’Affreux. En décimal, 01100001 est égal à 97.

Comme on peut le voir dans le tableau ci-dessus, le caractère ‘a’ correspond à 97 dans la plupart des jeux de caractères. Par contre, le caractère ‘é’ change dans chaque jeu de caractères…

Qu’est-ce qu’un problème d’encodage? C’est pourtant juste des foutus caractères, non?

Quand un logiciel manipule un fichier texte, il doit savoir dans quel jeu de caractères l’interpréter.

Prenons un logiciel A utilisant l’ISO 8859-1 et un logiciel B utilisant l’UTF-8 :

  • Le logiciel A écrit le caractère ‘é’ (en ISO 8859-1) dans un fichier et le sauvegarde.
  • Donc, le fichier contient le nombre 233.
  • Le logiciel B ouvre le fichier et interprète le nombre 233 (en UTF-8).
  • Puisque le nombre 233 ne représente pas un caractère en UTF-8, il affiche ‘�’.

Notons que le problème ne se poserait pas si le caractère était ‘a’, car l’ISO 8859-1 et l’UTF-8 encodent le caractère ‘a’ de la même manière, soit le nombre 97. C’est parce qu’ils sont compatibles au jeu de caractères ASCII.

Et je vous jure que l’ASCII, c’est certainement le truc le plus intéressant après le 120 volts…

ASCII (sur 7 bits)

L’ASCII a été développé aux États-Unis au début des années 60 pour les téléscripteurs. Les 7 bits de l’ASCII permettent seulement d’encoder 128 caractères (de 0 à 127).

Les 95 caractères ASCII affichables.

Les 95 caractères ASCII affichables.

L’ASCII contient 95 caractères affichables (sur la plage 32 à 126) et 33 caractères de contrôle (de 0 à 31 et le 127). Parmi ces derniers, on compte l’espace (SP), le saut de ligne (LF), le retour de chariot (CR), la touche « Escape » (ESC), etc.

N’oublions pas que l’ASCII a été conçu pour les télécommunications préhistoriques, donc on trouve des caractères tels que la fin de transmission (EOT), l’accusé de réception (ACK) et l’annulation (CAN) – en effet, il fut une époque déroutante où les protocoles de communication et les jeux de caractères ne faisaient qu’un!

Par contre, l’ASCII reste un standard américain. Entre autres, il ne contient aucun caractère accentué… Ainsi, pour éviter la prolifération chaotique des jeux de caractères en fonction des besoins de chaque langue et pour assurer une certaine compatibilité, l’ISO a créé l’ISO/CEI 646 – qui personnellement, me laisse encore aujourd’hui un goût particulièrement amer dans la bouche…

ISO/CEI 646 (sur 7 bits)

Le principal problème de l’ISO/CEI 646 reste qu’il utilise, tout comme l’ASCII, seulement 7 bits. Il est donc limité à 128 caractères. Bien que ce soit plus de caractères qu’il n’en faut pour écrire des SMS (lol), ces 7 bits sont nettement insuffisants pour représenter tous les caractères. Alors, l’ISO/CEI 646 a défini un jeu de caractères presqu’en tout point équivalent à l’ASCII sauf que la norme permet de remplacer certains caractères pour créer des variantes nationales.

Voici les 12 caractères variants de l’ISO/CEI 646 par rapport à l’ASCII : # $ @ [ \ ] ^ ` { | } ~

Avec cette avancée – quelque peu douteuse -, l’ASCII est devenu la variante américaine de l’ISO/CEI 646 (ISO-646-US ou US-ASCII) puis d’autres variantes sont apparues. Entre autres, soulignons qu’il existait une variante canadienne dans laquelle des caractères tels que @, [, et ] étaient remplacés par à, â et ê pour que l’on puisse écrire en français et enfin assouvir nos pulsions obesessionnelles et compulsives.

Enfin, avec l’avènement des jeux de caractères sur 8 bits, l’ISO/CEI 646 est tout simplement tombé en désuétude, pour céder la place à une nouvelle génération d’absurdités…

Suite : Encore des jeux de caractères : ISO 8859-1, MacRoman, CP1252?