Goopilation: [Google] L’Unicode (UTF-8) utilisé sur presque 50% du Web !

jan 29th, 2010 | Category: Google, Informatique, Moteur de recherche, Techno

Il y a environ 18 mois, nous avons publié un graphique montrant que l’ Unicode (ou UTF-8 ) venait de détrôner tous les autres encodages sur le Web. Depuis, la croissance a été exponentielle. Les pages Web peuvent utiliser différents protocoles d’encodages de caractères, comme ASCII , Latin-1 , Windows 1252 ou Unicode . La plupart des encodages ne peuvent représenter que quelques langues, sauf l’Unicode qui peut en représenter des milliers : de l’arabe au chinois en passant par le zoulou.  Nous utilisons depuis longtemps l’Unicode en interne pour tous les textes que nous recherchons : tous les autres encodages sont d’abord convertis en Unicode avant d’être traités. Ce graphe a été produit par Google, basé sur les pages que nous indexons, et pourraient donc varier par rapport aux données d’autres moteurs de recherche.  Cependant, la tendance est plutôt claire, et la croissance de l’Unicode rend le traitement des langues que nous prenons en charge encore plus facile. A la recherche de « nancials » ? L’Unicode est non seulement de plus en plus utilisé, mais couvre aussi de plus en plus de caractères. Nous avons récemment procédé à la mise à jour vers la dernière version d’Unicode, la version 5.2 (via ICU et CLDR ). Cette nouvelle version ajoute 6600 nouveaux caractères : certains sont réservés à la recherche, comme les hiéroglyphes égyptiens, mais de nombreux autres font parti de langues bien vivantes. Nous améliorions constamment notre prise en charge des caractères existants. Par exemple, les caractères « fi » peuvent soit représenter deux lettres (« f » et « i »), ou bien un affichage spécial de « fi ». Une recherche Google sur les termes [financials] et [office] ne considérait pas les deux « fi » de la même façon — le logiciel les interprétait comme *nancials et of*ce. Il y a des milliers de caractères comme celui ci, et on les retrouve dans énormément de pages, surtout sur les documents PDF générés. Mais plus maintenant — après plusieurs phases de test, nous prenons finalement en charge ce type de caractères ; vos recherches pourront maintenant trouver ces documents. Une étape de plus dans notre mission d’organiser les informations mondiales et les rendre universellement accessibles et utiles. Et nous sommes prêts à faire la fête dès que l’Unicode aura atteint les 50% ! Par Mark Davis, architecte logiciel international sénior Partagez cet article avec vos amis : ® Goopilation , 2010. | Lien vers l’article | Un commentaire Publier sur : del.icio.us , Facebook , Twitter

Read more here:
[Google] L’Unicode (UTF-8) utilisé sur presque 50% du Web !

Popularity: unranked [?]

Partager et découvrir :
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • BlogMemes Fr
  • NewsVine
  • Pownce
  • Scoopeo
  • StumbleUpon
  • Wikio FR
  • Technorati
  • Wikio
  • BlogMemes
  • Blogsvine
  • LinkedIn
  • Ma.gnolia
  • Ping.fm
  • Reddit
  • Slashdot

Articles en relation

Tags: , ,

Leave Comment

Get Adobe Flash playerPlugin by wpburn.com wordpress themes