Wybór standardu kodowania do używania na niusach i w poczcie elektronicznej
Biorąc pod uwagę, że Internet jest międzynarodowym forum, niezbędne jest używanie możliwie popularnych standardów kodowania. Można oprzeć się np. na zestawie standardów dopuszczonych przez Iana.
Dostępne kodowania można podzielić zasadniczo na dwie grupy:
- unikodowe - nowoczesne, oparte na Unikodzie, obejmujące znaki używane na całym świecie
- stronicowane - przestarzałe, ograniczone do pewnego, zwykle 256 bajtowego, podzbioru Unikodu
Wśród najpopularniejszych i umożliwiających zapisanie tekstów w języku polskim są kodowania:
- unikodowe (głównie Utf-8)
- ISO-8859 (podzbiór 2-gi)
- strony kodowe Windows (strona 1250)
- inne takie jak IBM852, które tutaj pominiemy
Choć wszystkie spełniają podstawowe założenia to różnią się znacznie. Wyboru standardu dokonuje się biorąc pod uwagę:
- potrzeby są zupełnie standardowe:
- głównie jest to możliwość użycia znaków narodowych
- w znacznie mniejszym stopniu jednoczesnego używania znaków innych krajów
- jeszcze mniejszym, znaków przestankowych np. specyficznych dla danego kraju cudzysłowiów
- możliwości
- polskie znaki zawiera każdy z trzech następujących standardów (inne narodowości mają analogiczny zestaw):
- windows-1250
- iso-8859-2
- unikod (np. Utf-8)
- znaki innych krajów używane jednocześnie,
- znaki przestankowe i inne pomocnicze
- Windows-1250 tylko w zakresie polskiego cudzysłowia itp
- iso-8859-2 zupełny brak
- unikod, tysiące znaków używanych na całym świecie, między innymi cudzysłowa otwierające
- koszt
- czytelność
- Windows-1250, standard sprawia problemy użytkownikom systemów innych niż Windows
- Iso-8859-2, standard sprawia problemy głównie użytkownikom systemów nieunixowych
- unikod, standard może sprawiać problemy użytkownikom różnych systemów
W praktyce każdy ze standardów utrudnia życie mniej więcej jednakowej grupie użytkowników, bierze się to z faktu różnej popularności czytników. Trzy najpopularniejsze produkujące gdzieś 90% wszystkich artykułów radzą sobie ze wszystkimi standardami.
- zwiększony rozmiar przesyłek
- Windows-1250, każdy znak jest kodowany na 1 bajcie
- Iso-8859, jw
- unikod, każdemu znakowi przypisany jest 16-bitowy, czyli 2-bajtowy kod, w praktyce najczęściej używa się kodowania utf-8, którego cechą jest zmienna długość kodu, m.in. dla znaków łacińskich równa jednemu bajtowi, efektem użycia utf-8 dla języka polskiego jest około 5% przyrost objętości w stosunku do dotychczas używanych standardów stronicowanych, w których każdy znak jest kodowany na jednym bajcie
Narzuca się oczywiste rozwiązanie w postaci powszechnego użycia nowoczesnego Unikodu. I tak rzeczywiście jest. Stał się on standardem kodowania, na którym bazują wszystkie nowoczesne protokoły czy języki programowania. Rzecz jasna nie wyklucza to użycia dotychczas dostępnych, stronicowanych standardów kodowania. Oznacza jedynie, że nie jest celowe dalsze ich używanie kiedy czytnik radzi sobie z Unikodem.
Wybór prawidłowego standardu nie wystarcza by czytniki odbierające artykuły lub pocztę nie miały kłopotu z ich pokazaniem. Czytnik musi zostać skonfigurowany tak, by produkował w standardowy sposób oznaczone przesyłki. O konfiguracji różnych czytników pod tym kątem można przeczytać w
innej publikacji.
Wszelkie prawa zastrzeżone © Piotr Trzcionkowski 1999-2005