Презентация «Кодирование символьной информации»
Тема урока: Кодирование символьной информации
Для обработки текстовой информации на компьютере необходимо представить ее в двоичной знаковой системе. Для кодирования каждого знака требуется количество информации, равное 8 битам, т. е. длина двоичного кода знака составляет восемь двоичных знаков. Каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала от 00000000 до 11111111 (в десятичном коде от 0 до 255 Человек различает знаки по их начертанию, а компьютер - по их двоичным кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение знака преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код знака). Код знака хранится в оперативной памяти компьютера, где занимает одну ячейку. В процессе вывода знака на экран компьютера производится обратное перекодирование, т. е. преобразование двоичного кода знака в его изображение. Различные кодировки знаков. Присваивание знаку конкретного двоичного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. В существующих кодовых таблицах первые 33 кода (десятичные коды с 0 по 32) соответствуют не знакам, а операциям (перевод строки, ввод пробела и т. д.).
ASCII — базовая кодировка текста для латиницы Первоначально для персональных компьютеров был взят за основу так называемый ASCII-код разработанный и стандартизированный в США в 1963 г. (American Standard Code for Information Interchange). Этот код содержит 7 бит информации и в нем можно представить 128 различных комбинаций для кодирования символов. Этого вполне достаточно для того, чтобы закодировать заглавные и строчные буквы латинского алфавита, цифры, знаки препинания и ряд специальных и управляющих символов. Информация в Internet до сих пор передается в 7 битном коде. Затем к 7-ми битному добавили еще один – восьмой бит, что позволило закодировать еще 128 символов (всего 256), которые предназначались для символов псевдографики и национальных шрифтов, которые опять-таки могут иметь в своей основе латиницу, кириллицу (напр. Болгарский, Русский) или другое (напр. Греческое) начертание символов – расширенный ASCII-код. Присвоение символу конкретного двоичного кода – это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 32 кода (с 0 до 31) Символы с номерами от 0 до 31 принято называть управляющими. Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п. Коды от 32 до 127. Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы. Символ 32 - пробел, т.е. пустая позиция в тексте. Все остальные отражаются определенными знаками. Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы. Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита. К сожалению, в настоящее время существует более 6 различных кодовых таблиц для русских букв, поэтому тексты созданные в одной кодировке, не будут правильно отображаться в другой.
КОИ-8 Хронологически одним из первых стандартов кодирования русских букв на компьютерах был код КОИ – 8 («Код обмена информационный – 8 битный»). KOI-8 — это восьмибитная кодовая страница, совместимая с ASCII. Разработана для кодирования букв кириллических алфавитов. Была широко распространена как основная русская кодировка в Unix-совместимых ОС и в электронной почте, однако к концу 2010 г. с распространением Юникода, постепенно вышла из употребления.
2. CP 866 Для работы в среде операционной системы MS-DOS используется «альтернативная» кодировка, в терминологии фирмы Microsoft – кодировка CP 866. (Code Page 866). Данная кодировка является расширением кодировки ASCII
3. Windows-1251 Windows-1251 (CP 1251) («CP» означает «Code Page»). Все Windows – приложения, работающие с русским языком, поддерживают эту кодировку. Представляет собой набор символов и кодов, является стандартной 8-битной кодировкой для русских версий Microsoft Windows до 10-й версии. В прошлом пользовалась довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990—1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft. В современных приложениях отдается предпочтение Юникоду (UTF-8). На 7 июля 2016 лишь на 1.8% всех веб-страниц используется Windows-1251.
4. MacCyrillic (MAC) Кодировка MacCyrillic используется только на компьютерах "Макинтош". Благодаря отсутствию псевдографики и "верхних" управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков.
5. ISO 8859-5 Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859 – 5. ISO 8859-5 — 8-битная кодовая страница из семейства кодовых страниц стандарта ISO-8859 для представления кириллицы. Имеются буквы многих языков, использующих кириллицу, однако в целом ISO 8859-5 — не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др. Порядок символов этой кодовой страницы использовался при размещении букв кириллицы в наборе символов Unicode (со сдвигом вверх на 864 позиции). Применение ISO 8859-5 широко применяется в Сербии и иногда в Болгарии на юниксоподобных системах.
6. UNICODE Юникод (Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (Unicode Consortium, Unicode Inc.). Стандарт отводит на каждый символ не один байт, а два, и поэтому с его помощью можно закодировать не 256 символов, 216=65 536 различных символов. Эту кодировку поддерживает платформа Microsoft Windows и Microsoft Office (вставка символов). Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц. Стандарт состоит из двух основных разделов: 1. универсальный набор символов (UCS, universal character set) 2. семейство кодировок (UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.
РАЗЛИЧНЫЕ ФОРМАТЫ ТЕКСТОВЫХ ФАЙЛОВ Формат файла или тип файла определяет способ кодирования информации в файле (перевода в двоичный код). В текстовом файле помимо кодировки символов кодируются операции, обеспечивающие форматирование текста. В различных текстовых редакторах символы форматирования кодируются по разному, документы различных текстовых редакторов имеют разный формат (тип).
ОСНОВНЫЕ ФОРМАТЫ ТЕКСТОВЫХ ФАЙЛОВ TXT (Text Only). Это старейший текстовый формат, аналоги современного блокнота были еще на первых ПК. Является наиболее универсальным. Документы txt открываются текстовыми редакторами, работающими в любой операционной системе. Формат очень простой и не содержит ничего, кроме текста. Форматирование не поддерживается — сохраняются только абзацы, отступ и заглавные буквы. Поэтому файлы-txt отличаются маленькими размерами. Формат устойчив к повреждениям. При повреждении части файла можно восстановить или обработать остальную часть документа. 2. DOC (Document) Формат редактора MS Word 97-2003. Использует кодировку UNICODE. Сегодня формат doc предоставляет огромные возможности по обработке текста и вставке в документ различных изображений, диаграмм, таблиц, ссылок. Может включать в себя сценарии и макросы. Но формат является закрытым, многие документы в этом формате корректно отображаются только в самой программе MS Word. 3. RTF (Rich Text Format). Специально разработан программистами компаний Microsoft и Adobe для обмена файлами между пользователями. Может быть открыт и обработан на любой платформе. Поддерживается многими приложениями. Документы rtf поддерживает сложное форматирование. Помимо текста может содержать различные рисунки, таблицы, вставки и сноски. В нем могут использоваться несколько видов шрифтов. Формат устойчив к повреждению файлов. Так как в rtf не используются макросы, он считается более безопасным чем формат doc.
4. HTM, HTML (Hyper Text Markup Language). Формат разметки Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста. 5. DOCX Формат редактора Microsoft Office 2007 и следующих версиях. Впервые был применен в MS Word 2007. Его главное отличие от формата doc — использование zip-компрессии для уменьшения объема файла. Представляет собой архив с данными, содержащий помимо текста в формате XML, изображения, стили текста, форматирование и другие данные. Причем текстовые файлы и графика хранятся в отдельных документах. Чтобы увидеть содержимое docx-файла можно изменить его расширение на zip и открыть в любом архиваторе. Чтобы открыть документ-docx в ранних версиях Word, необходимо скачать и установить «Пакет обеспечения совместимости Microsoft Office для форматов файлов Word, Excel и PowerPoint»