Кодовые страницы или почему текст иногда нельзя прочитать.

Тематика:

Статьи/Обзоры:

В компьютере вся информация храниться в цифровом виде. Компьютер не понимает больше ничего кроме цифр. Картинки, музыка, видео и текст, программы, игры и даже вирусы для компьютера не что иное, как набор цифр. Цифры и только цифры. При нажатии клавиши на клавиатуре в компьютер попадает цифровой код, соответствующий данной клавише. Так как на клавише нарисованы буквы, цифры или что-то другое, то можно сказать, что определенный цифровой код соответствует определенной букве или символу. При выводе на экран компьютер рисует букву или символ в зависимости от цифрового кода. То есть если цифровой код соответствует букве W, то компьютер её и рисует. Если соответствие символов цифровому коду записать в таблицу, то получим кодовую страницу. Кодовая страница – это таблица, связывающая цифровые (двоичные) коды символов или знаков, используемые приложениями, с клавишами на клавиатуре или с отображением знаков на экране. Кодовые страницы обеспечивают поддержку разных языков. У каждой кодовой страницы существует свой номер. Например, у кодовой страницы для знаков арабского языка номер ср1256, а у кириллицы – ср1251. Обычно можно использовать только одну кодовую страницу в данный момент времени. Если надо сменить язык, то надо менять и кодовую страницу. Это связано с ограниченным объёмом таблицы. Теперь, если текст набирался с использованием одной кодовой страницы (или в одной кодировке), а прочитать его попытаются с использованием другой кодовой страницы (или в другой кодировке), то скорее всего ничего не выйдет, потому что цифровым кодам будут соответствовать совсем другие символы или знаки и совсем не похожие на те первоначальные. В результате мы видим абракадабру или что-то вроде этого. Из всего этого получается простое правило, что читать надо, используя ту же кодовую страницу, что использовалась при вводе читаемого текста. Или использовать программу, которая могла бы перекодировать из одной кодировки в другую. Сейчас это могут делать большинство текстовых редакторов, а например, в обозревателе Microsoft Internet Explorer кодировку можно изменить, щёлкнув правой кнопкой мышки и выбрав пункт – «Кодировка». Для снятия ограничения на количество языковых знаков в кодовой странице консорциумом Unicode был разработан стандарт кодировки знаков, который позволяет представить в одном наборе знаков почти все языки мира. И этот стандарт постепенно начинают использовать все больше и больше.

Языки => Cтандарты кодировки

Многоязыковый/ Юникод/ Прочий набор знаков => UCS-2 little-endian и big-endian, UTF-8, UTF-7 Арабский => Windows 1256, ASMO 708 Китайский (упрощенное письмо) => GB2312, GBK, EUC-CN, ISO-2022-CN, HZ Китайский (традиционное письмо) => BIG5, EUC-TW, ISO-2022-TW Кириллица => Windows 1251, KOI8-R, KOI8-RU, ISO8859-5, DOS 866 Английский/Западноевропейский/Прочий латинский набор знаков => Windows 1250, 1252-1254, 1257, ISO8859-x Греческий => Windows 1253 Иврит => Windows 1255 Японский => Shift-JIS, ISO-2022-JP (JIS), EUC-JP Корейский => Wansung, Johab, ISO-2022-KR, EUC-KR Тайский => Windows 874 Вьетнамский => Windows 1258 Индийские языки => ISCII (Indian Script Code for Information Interchange)

2006-02-02
http://www.firsthand.ru/