Кодировка кириллицы
Мы не будем много говорить о своеобразии русского алфавита и о том, что
русификация символики в технологиях веб-дизайна определённо представляет
некоторую сложность. В мире существует немало языковых систем, где задачи
несравнимо сложнее; например, представьте себе иероглифическое письмо восточных
языковых групп (китайский, японский, корейский и др. языки) или арабскую «вязь».
Вообще, на данный момент существует несколько в той или иной степени
«прижившихся» кодировок, способных корректно передавать русскоязычную символику
(забегая немного вперёд, отметим, что методика анализа сайта ненавязчиво
рекомендует использовать Windows 1251 или Unicode UTF-8)1:
KOI8-R
Windows 1251
DOS
Unicode UTF-8
ISO
MAC
Несмотря на агрессивно насаждаемую популярность кодировки Windows 1251 (мы
опять-таки не будем детально рассматривать причины данного явления, которые, в
общем-то, и без того ясны), в технологиях веб-дизайна успешно применяются и
иные. Опишем эти важные мелочи в нескольких словах, чтобы у вас появилось
представление, с чем вам придётся иметь дело.
KOI8-R
Самая первая из корректных русскоязычных кодировок, разработанная ещё в 1974
году. Кодировка восьмибитная. Для ПЭВМ «из-за бугра» типа IBM.х86 и
Unix-совместимых операционных систем, появлявшихся в СССР в восьмидесятые
(добавим: и валом хлынувших в Россию с началом перестройки), естественно стала
основным средством русификации. Надёжным средством, надо сказать.
Широко используется до сих пор, являясь даже кодировкой «по умолчанию» при
отсылке и приёме сообщений электронной почты (если вы видите в почтовом
сообщении непривычно узкие рамки функциональности, т.е. нет цвета и прочих
излишеств — это, скорее всего, и есть кодировка KOI8).
Кроме того, является основным стандартом для HTTP-серверов, работающих на
технологии веб-дизайна Unix-совместимых операционных систем (например,
популярного сервера Apache). Буква R в обозначении кодировки декларирует именно
русскоязычную раскладку.
Windows 1251
Специалисты из гиганта «Майкрософт» предложили совершенно иную систему языковых
кодировок — единую, если можно так выразиться, для любого из языков планеты:
идея заключается в том, что для работы с конкретной символикой определена некая
страница языкового кода, так называемая «code page». Таким образом, для перехода
на иную языковую кодировку вполне достаточно просто ввести числовое значение,
соответствующее номеру кодовой страницы в наборе кодировок Windows (для русского
языка это страница 1251).
Откровенно говоря, очень здравая идея, призванная именно упорядочить все
разномастные стандарты кодировок.
Обе описанные кодировки: KOI8 и Windows 1251 являются стандартом, минимально
допустимым количеством кодировок, которые должны поддерживаться в диалоге
«сервер-клиент».
DOS
DOS (кодировка платформ МS-DOS и OS/2) является кодировкой морально и технически
устаревших операционных систем. Полным аналогом этой кодировке служит страница
code page 866 из набора кодировок Windows. Методикой анализа сайта настоятельно
к использованию не рекомендуется (хотя ещё и используется).
UTF-8
Весьма неплохая идея кодировок (вернее, единой кодировки), которая была
предложена ещё в 90-х. Поскольку задачу перед собой разработчики ставили
прямо-таки глобальную, а именно — объединить ВСЕ существующие символьные
кодировки в одну-единственную, название ей дали соответствующее: Unicode.
Не смешивайте понятия единой кодировки Unicode и единой системы кодировок,
использующейся Windows. Это разные вещи.
Нам весьма импонирует идея сведения различных стандартов в единую систему. В
сущности, неважно, какая из систем стала бы стандартом; лишь бы отказаться от
использования нескольких разнородных, абсолютно несовместимых друг с другом
технологий.
МАС
Кодировка, использующаяся в машинах производства Apple (Macintosh, используется
операционная система MacOS). Достаточно редкая для России ПЭВМ, а
соответственно, и технология: это мощные и отлично снаряженные компьютеры, а
следовательно — гораздо более дорогие, чем привычные нам IBM-совместимые.
Кроме упомянутых выше, существуют и другие методики представления кириллицы; об
одной из них, именующейся «транслит», вы можете прочесть в отдельной заметке по
ссылке.
Примечания:
1 ...Windows 1251 или Unicode UTF-8... — Методикой анализа качества сайта
действительно рекомендуется использование одной из этих кодировок. Надо
полагать, Б. Линсдей рассчитывает на перспективу (что и произойдёт когда-нибудь
в будущем, если к тому времени не придумают нечто более рациональное).
Вернуться
к тексту
Статья: |
Кодировка кириллицы |
Опорные темы: |
Терминология технологий веб-дизайна |
|