Числовая и текстовая информация


Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т.д.) для обработки на компьютере должна быть преобразована в числовую форму. 


Сходство в кодировании числовой и текстовой информации состоит в следующем: чтобы можно было сравнивать данные этого типа, у разных чисел (как и у разных символов) должен быть различный код. Основное отличие числовых данных от символьных заключается в том, что над числами кроме операции сравнения производятся разнообразные математические операции: сложениеумножениеизвлечение корнявычисление логарифма и пр. Правила выполнения этих операций в математике подробно разработаны для чисел, представленных в позиционной системе счисления.

Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.


Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

Код — это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий.




Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Двои́чный код — это способ представления данных в виде кода, в котором каждый разряд принимает одно из двух возможных значений, обычно обозначаемых цифрами 0 и 1. Разряд в этом случае называется двоичным разрядом.

Любой алфавит можно заменить двоичным алфавитом. Прежде всего, присвоим каждому символу рассматриваемого алфавита порядковый номер. Номер представим с помощью двоичного алфавита. Полученный двоичный код будем считать кодом исходного символа.

Правило получения двоичных кодов для символов алфавита мощностью больше двух можно представить схемой 
рис.1

Двоичные символы (0,1) здесь берутся в заданном алфавитном порядке и размещаются слева направо. Двоичные коды (цепочки символов) читаются сверху вниз. Все цепочки (кодовые комбинации) из двух двоичных символов позволяют представить четыре различных символа произвольного алфавита:



Цепочки из трёх двоичных символов получаются дополнением двухразрядных двоичных кодов справа символом 0 или 1. В итоге кодовых комбинаций из трёх двоичных символов получается 8 — вдвое больше, чем из двух двоичных символов:


Соответственно, четырёхразрядный двоичный код позволяет получить 16 кодовых комбинаций, пятиразрядный — 32, шестиразрядный — 64 и т. д.

Длину двоичной цепочки — количество символов в двоичном коде — называют разрядностью двоичного кода.

Обратите внимание, что:
4 = 2+2,
8=2+2+2,
16 = 2+2+2+2,
32 = 2+2+2+2+2 и т. д.
Здесь количество кодовых комбинаций представляет собой произведение некоторого количества одинаковых множителей, равного разрядности двоичного кода.
Если количество кодовых комбинаций обозначить буквой N(мощность алфавита), а разрядность двоичного кода — буквой i, то выявленная закономерность в общем виде будет записана так:
N = 2 i.

Если, например, i=2, то можно построить 4 двухразрядные комбинации из 0 и 1, т.е. закодировать 4 символа.
При i=3 существует трехразрядных комбинаций 0 и 1(кодируется 8 символов):
При вводе текстовой информации с помощью клавиатуры компьютера, каждый вводимый символ подвергается кодированию, т.е. преобразуется в числовой код. 

Традиционно для кодирования одного символа используется количество информации равное 1 байту. Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. (28= 256). Кодирование заключается в том, что каждому символу ставится в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).

🔺В двоичном коде каждая двоичная цифра несет одну единицу информации, которая называется 1 бит.

Бит - является основной единицей измерения информации.
Более крупной, чем бит, единицей измерения информации является байт: 1 байт = 8 битов.
Помимо бита и байта, для измерения информации используются и более крупные единицы:

1 Кб (килобайт) = 210 байтов = 1024 байта; 
1 Мб (мегабайт) = 210 Кб = 1024 Кбайта
1 Гб (гигабайт) = 210 Мб = 1024 Мбайта
1 Тб (терабайт) = 210 Гб = 1024 Гбайта.

Пример 1 
Вождь племени Мульти поручил своему министру разработать двоичный код и перевести в него всю важную информацию. Двоичный код какой разрядности потребуется, если алфавит, используемый племенем Мульти, содержит 16 символов? Выпишите все кодовые комбинации.
Дано:
Решение:
N=2i
N=16
16=2
2=2i  =>i=4 бита
Найти:
i - ?
Чтобы выписать все кодовые комбинации из четырёх 0 и 1, воспользуемся схемой на рис.1
0000, 0001, 0010, 0011, 0100, 0101, 0110, 0111,1000,1001,1010,1011,1100,1101,1110,1111.
Ответ: 16 символов в этом алфавите
Пример 2
Определите мощность алфавита, если вес одного символа равен 8 бит.

Дано:
Решение:

i=8 бит

N=2i

N=2=256
Найти:
N - ?

Ответ: 256 символов в этом алфавите
Длина двоичного кода, с помощью которого кодируется символ алфавита, называется информационным весом символа. Информационный объем текста в памяти компьютера измеряется в байтах. Он равен количеству символов в записи текста.
Итак, если — информационный вес символа алфавита, а К — количество символов в тексте, записанном с помощью этого алфавита, то информационный объем текста выражается формулой:

I = К *  i (битов).

Для определения информационного веса символа полезно знать ряд целых степеней двойки. Вот как он выглядит в диапазоне от 21 до 210:

Поскольку мощность N алфавита может не являться целой степенью двойки, информационный вес символа алфавита мощности N определяется следующим образом. Находится ближайшее к N значение во второй строке таблицы, не меньшее чем N.

Соответствующее значение i в первой строке будет равно информационному весу символа.

Пример 3
Определим информационный вес символа алфавита, включающего в себя все строчные и прописные русские буквы (66); цифры (10); знаки препинания, скобки, кавычки (10). Всего получается 86 символов.


Поскольку 26 < 86 < 27, информационный вес символов данного алфавита равен 7 битам. Это означает, что все 86 символов можно закодировать семиразрядными двоичными кодами.

Пример 4
Информационное сообщение объёмом 720 битов состоит из 180 символов. Какова мощность алфавита, с помощью которого записано это сообщение?

Дано:
Решение:
I=720бит  
N=2; I= K  * i; i = I/K    
K = 180
i = 720/180 = 4 (бита);

N = 24 = 16 (символов)
Найти:
N - ?

Ответ: 16 символов в этом алфавите

Пример 5 Сообщение, записанное буквами 32-символьного алфавита, содержит 140 символов. Какое количество информации оно несёт?

Пример 6 Информационное сообщение объёмом 720 битов состоит из 180 символов. Какова мощность алфавита, с помощью которого записано это сообщение?

Пример 7 Информационное сообщение объёмом 4 Кбайта состоит из 4096 символов. Каков информационный вес символа используемого алфавита? Сколько символов содержит алфавит, с помощью которого записано это сообщение?


Пример 8  Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке длиной в 20 символов, первоначально записанного в 2-байтном коде Unicode, в 8-битную кодировку КОИ-8. На сколько бит уменьшилась длина сообщения?

Дано:
Решение:
K=20
i1=2 байта
i2=8 бит 
I1=2 байта * 20=40 байт = 320 бит
I2=8 бит * 20=160 бит
I1- I2=320 бит -160 бит=160 бит
Таким образом, длина сообщения уменьшилась на 160 бит
Найти:
I1-?
I2-? 
Ответ: на 160 бит.



Комментариев нет:

Отправить комментарий