Еще раз о кодировках.

Linux-admin.net.ru / Шрифты, кодировки и русификация. / Еще раз о кодировках.

Еще раз о кодировках.

"Прочитал Вашу статью "Откуда пошли русские кодировки?". Хорошая статья, понятная и, что главное, информативная. Но есть одно но: в ней ничего не рассказывается о других кодировках, которые тоже имеют место быть в Интернете. Так, я неоднократно скачивал текстовые файлы в казалось бы совершенно непонятной кодировке. Потом (после того, как я установил замечательный текстовый редактор Aditor) стало ясно, что файлы были закодированы какой-то MAC-кодировкой. Другие файлы (тоже текстовые), как-то раз подвернувшиеся мне под руку, были представлены в кодировке ISO. Очень хотелось бы подробнее узнать, каковы "родословные" этих кодировок. Роман".

Действительно, в Сети помимо таких широко распространенных кодировок, как KOI8 и CP1251(Win), вам могут встретиться некоторые гораздо более редкие русские кодировки. Откуда они взялись и почему они столь редки?

Extended ASCII (она же ISO 8859-1, она же Latin-1) — это расширенная таблица ASCII. В ней снова восстановлен в правах 8-й бит. Благодаря этому в кодировке Latin-1 появилось место для всех диакретических знаков основных европейских алфавитов. Поэтому, например, для французского и испанского языков применяются не несколько кодировок, а одна. Однако же русский алфавит очень сильно отличается от английского или французского. Как, например, и греческий. Для таких языков пришлось придумывать отдельные таблицы. Именно такая русская кодовая таблица называется ISO 8859-5. Буквы ISO (International Standards Organization — Международная организация по стандартизации) говорят о том, что кодировка признана стандартной, однако же признание это оказалось чисто номинальным — никто об этой кодировке теперь почти и не вспоминает. Почему? Потому что с появлением MS DOS место русских букв в кодовой таблице оказалось занятым — туда поместили псевдографику. Те, кто пользовался DOS в этот период, возможно, помнят мешанину непонятных значков вместо русских текстов. В результате борьбы с таким явлением и получилась кодировка CP866(DOS), сочетавшая в себе и русские буквы, и псевдографику.

Кодировка Mac (CP10007), как можно догадаться по ее названию, — кодировка для компьютеров Macintosh. Расположением строчных букв она похожа на CP1251(Win), однако же прописные — совершенно на другом месте. Почему же ничего не слышно о проблемах с русскими кодировками у пользователей Mac’ов? Скорее всего потому, что число таких пользователей гораздо меньше, чем пользователей Windows и Unix-подобных систем, и погоды они не делают, тем более что KOI8 и CP1251 настолько утвердились в Рунете, что волей-неволей и Mac’овцам пришлось приспособиться. Да и вообще, вы слышали когда-нибудь о том, чтобы пользователи Mac’ов ввязывались в войны между unixоидами и поклонниками Windows? Они, как всегда, спокойно продолжают делать свое дело.

Кодировка Unicode представляет собой универсальную 2-байтовую (16-битовую) кодировку. Почему универсальную? Потому что 2 байта, отведенные на каждый символ, позволяют описать все распространенные мировые алфавиты в одной кодовой таблице. Что это значит? Ну, скажем, пользуясь KOI8, Лев Толстой не смог бы отсылать издателям отрывки из "Войны и мира" по e-mail — ведь в KOI8 нет средств для отображения специфических символов французского алфавита. А вот пользуясь Unicode — смог бы. И не только на французском могла бы говорить Наташа Ростова, а могла бы сражать кавалеров и китайским, и итальянским, и хинди…
Но пока эта кодировка, несмотря на все ее прекрасные качества и прогнозируемое блестящее будущее, не получила широкого распространения. Что ж, поживем — увидим.

Ссылки по теме

"Откуда пошли русские кодировки" — статья о проблемах русских кодировок в Сети
Unicode Home Page — официальный сайт кодировки Unicode
Заметки об извращениях — подробно о русских кодировках
Почтовый декодер Арт. Лебедева — расшифровывает письма, пришедшие в неизвестных науке кодировках
"Крестоносцы" — статья "КомпьюТерры" о проблемах с кодировками