Информатика

© Христо Тужаров, 2007

КОДИРАНЕ НА СИМВОЛИ

[Home] [Асеневци] [Инфопедия] [За проекта] [Начало на книгата] [Карта на книгата]

 ДАННИ

КОДИРАНЕ НА ДАННИ

КОДИРАНЕ НА СИМВОЛИ 

КОДИРАНЕ НА СЛОЖНИ ДАННИ

ШИФРИРАНЕ НА ДАННИ 

 

 

Символите се преобразуват в двоични комбинации чрез кодови таблици.

 

Кодова таблица - съглашение за присвояване на всеки символ конкретен двоичен код. В зависимост от броя битове, в които се преобразува всеки символ, кодовите таблици могат да бъдат няколко варианта.

Кодова таблица

Символите в съвременните компютри се представят с уникална последователност от 7, 8 или 16 бита  чрез  кодовите таблици, показани по - долу.

 

Американски стандартен код за обмен на информация

 

ASCII (American standart code for information interchange )

 

 ASCII кодова таблица   

 

7-разрядна кодова таблица ASCII

            Съдържа 128 символа с десетични кодове от 0 до 127. ASCII е спецификация, която се използва не само в компютрите, но и в много други електронни устройства, както и в протоколите за предаване на данни.

 

 

8 - разрядна кодова таблица ASCII

Състои се от две части ASCII /128 символа/ и разширение на ASCII/128символа/.

 

ASCII разширението не е стандартизирано и се използва за различни цели,  в зависимост от предназначението и страната, където ще се използва компютъра. Примерно и схематично раз­пре­деление на символите  е дадено в показаната таблица.

 

 

 

Универсален набор от символи

 

Уникод  (Unicode) е разработен да реши проблемите с наличието на много съществуващи еднобайтови набори от символи (кодировки), използвани при писане на текст на различни езици.

 

Той съдържа в себе си всеки символ, използван при писане на който и да е език (включително и много “мъртви” езици), както и други символи, използвани в математиката и инженерните науки. Всеки един набор символи може без загуба да бъде преобразуван към уникод.

 

Всеки знак или символ отговаря на определен номер в кодовата таблица. Тъй като символите са няколко десетки хиляди и не е възможно да се представят в един байт, по специални правила (UTF) номерата на символите се трансформират в един, два, три или четири байта, за да могат да се ползват от компютрите, както следва:

  • Обикновената латинска азбука, цифрите и основните препинателни знаци се изобразяват с един байт.

  • ·Повечето диакритични латински букви, кирилицата, гръцката, арменската, еврейската, арабската и др. азбуки и някои знаци се представят с два байта.

  • Други азбуки (африкански, азиатски, американски) и някои специални знаци се кодират с три или четири байта.

Характеристики

  • Всеки един от досегашните набори от символи, кодирани с един байт, може без загуба да бъде преобразуван към Уникод. Обратното преобразуване, от Уникод към някоя от еднобайтовите кодировки, е еднозначно и безспорно за тези знаци, които съществуват в целевата кодировка.

  • Не е възможно коректно кодиране за смесени текстове.

  • Дължината на текстовете, поради кодирането на всеки знак с един до четири байта (вместо само с един) е по-голяма.

Уникод кодирания


Уникод присвоява уникален номер, уникод-код на всеки символ, чрез който той може да бъде адресиран. Най-разпространените Уникод кодирания се означават с UTF-n, където:

UTF означава Уникод Формат за Трансформация;

n - число определящо броя битове в основната единица, използвана от кодирането.

 

Видове

Две много разпространени кодирания са UTF-16 и UTF-8.

 

UTF-16 - използва се от съвременните версии на Microsoft Windows, където всеки символ е представен от една или две 16-битови (двубайтови) думи.

 

UTF-8 – използва се от Юникс-подобните операционни системи, включително и Линукс, които използват друга схема на кодиране, където Уникод символ е представен като един или повече байтове (общо до четири).