Кодировка символов ascii. Кодирование текстовой информации

29.07.2019

Для того, чтобы грамотно использовать ASCII , необходимо расширить знания в данной сфере и о возможностях кодирования.

Что это такое?

ASCII представляет собой кодировочную таблицу печатных символов (см. скриншот №1), набираемых на компьютерной клавиатуре, для передачи информации и некоторых кодов. Иными словами происходит кодирование алфавита и десятичных цифр в соответствующие символы, представляющие и несущие в себе необходимую информацию.

Кодировка ASCII была разработана в Америке, поэтому стандартная кодировочная таблица обычно включает в себя английский алфавит с цифрами, что в общей сложности составляет около 128 символов. Но тогда возникает справедливый вопрос: что делать, если необходима кодировка национального алфавита?

Для решения подобных вопросов были разработаны другие версии таблицы ASCII . Например, для языков с иноязычной структурой были или убраны буквы английского алфавита, или к ним добавлялись дополнительные символы в виде национального алфавита. Так, в кодировке ASCII могут присутствовать русские буквы для национального использования (см. скриншот №2).

Где применяется система кодировки ASCII?

Данная кодировочная система необходима не только для набора текстовой информации на клавиатуре. Она также используется в графике. Например, в программе ASCII Art Maker графические изображения различных расширений состоят из спектра символов кодировки ASCII (см. скриншот №3).


Как правило, подобные программы можно разделить на те, что выполняют функцию графических редакторов, инвертируя изображение в текст, и на те, что конвертируют изображение в ASCII -графику. Всем известный смайлик (или как его еще называют «улыбающееся человеческое лицо ») тоже является примером кодировочного символа.

Данный метод кодировки также может быть востребован во время написания или создания документа HTML. Например, вы вводите определённый и необходимый вам набор знаков, а при просмотре самой страницы на экран будет выведен символ, соответствующий данному коду.

Кроме всего прочего данный вид кодировки необходим при создании многоязычного сайта, потому что знаки, которые не входят в ту или иную национальную таблицу, нужно будет заменить ASCII кодами. Если читатель непосредственно связан с информационно-коммуникативными технологиями (ИКТ), то ему будет полезно ознакомиться и с такими системами как:

  • Переносимый набор символов;
  • Управляющие символы;
  • EBCDIC;
  • VISCII;
  • YUSCII;
  • Юникод;
  • ASCII art;
  • КОИ-8.
  • Свойства таблицы ASCII

    Как и любая систематизированная программа, ASCII обладает своими характерными свойствами. Так, например, десятеричная система исчисления (цифры от 0 до 9) преобразуется в двоичную систему исчисления (т.е. каждая десятеричная цифра преобразуется в двоичную 288=1001000 соответственно).

    Буквы, располагающиеся в верхних и нижних колонках, отличаются друг от друга лишь битом, что существенно снижает уровень сложности проверки и редактирование регистра.

    При всех этих свойствах кодировка ASCII работает как восьми битная, хотя изначально предусматривалась как семи битная.

    Применение ASCII в программах Microsoft Office:

    В случае необходимости данный вариант кодирования информации может быть использован в Microsoft Notepad и Microsoft Office Word. В рамках этих приложений документ может быть сохранен в формате ASCII , но в этом случае при наборе текста невозможно будет использование некоторых функций.

    В частности, будет недоступно выделение жирным и полужирным шрифтом, потому что кодирование сохраняет лишь смысл набранной информации, а не общий вид и форму. Добавить такие коды в документ вы можете с помощью следующих программных приложений:

    • Microsoft Excel;
    • Microsoft FrontPage;
    • Microsoft InfoPath;
    • Microsoft OneNote;
    • Microsoft Outlook;
    • Microsoft PowerPoint;
    • Microsoft Project.

    При этом стоит учитывать, что набирая код ASCII в этих приложениях необходимо удерживать нажатой клавиатурную клавишу ALT.

    Конечно, все необходимые коды требует более длительного и обстоятельного изучения, но это выходит за пределы нашей сегодняшней статьи. Надеюсь, что она оказалась для Вас действительно полезной.

    До новых встреч!

    Хорошо Плохо

    Excel для Office 365 Word для Office 365 Outlook для Office 365 PowerPoint для Office 365 Publisher для Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio профессиональный 2019 Visio стандартный 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio профессиональный 2016 Visio стандартный 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 2007 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Стандартный 2007 Visio стандартный 2010 Меньше

    В этой статье Вставка символа ASCII или Юникода в документ

    Если вам нужно ввести только несколько специальных знаков или символов, можно использовать или сочетания клавиш. Список символов ASCII см. в следующих таблицах или статье Вставка букв национальных алфавитов с помощью сочетаний клавиш .

    Примечания:

    Вставка символов ASCII

    Чтобы вставить символ ASCII, нажмите и удерживайте клавишу ALT, вводя код символа. Например, чтобы вставить символ градуса (º), нажмите и удерживайте клавишу ALT, затем введите 0176 на цифровой клавиатуре.

    Для ввода чисел используйте цифровую клавиатуру , а не цифры на основной клавиатуре. Если на цифровой клавиатуре необходимо ввести цифры, убедитесь, что включен индикатор NUM LOCK.

    Вставка символов Юникода

    Чтобы вставить символ Юникода, введите код символа, затем последовательно нажмите клавиши ALT и X. Например, чтобы вставить символ доллара ($), введите 0024 и последовательно нажмите клавиши ALT и X. Все коды символов Юникода см. в .

    Важно: Некоторые программы Microsoft Office, например PowerPoint и InfoPath, не поддерживают преобразование кодов Юникода в символы. Если вам необходимо вставить символ Юникода в одной из таких программ, используйте .

    Примечания:

      Если после нажатия клавиш ALT+X отображается неправильный символ Юникода, выберите правильный код, а затем снова нажмите ALT+X.

      Кроме того, перед кодом следует ввести "U+". Например, если ввести "1U+B5" и нажать клавиши ALT+X, отобразится текст "1µ", а если ввести "1B5" и нажать клавиши ALT+X, отобразится символ "Ƶ".

    Использование таблицы символов

    Таблица символов - это программа, встроенная в Microsoft Windows, которая позволяет просматривать символы, доступные для выбранного шрифта.

    С помощью таблицы символов можно копировать отдельные символы или группу символов в буфер обмена и вставлять их в любую программу, поддерживающую отображение этих символов. Открытие таблицы символов

      В Windows 10 Введите слово "символ" в поле поиска на панели задач и выберите таблицу символов в результатах поиска.

      В Windows 8 Введите слово "символ" на начальном экране и выберите таблицу символов в результатах поиска.

      В Windows 7 нажмите кнопку Пуск , последовательно выберите Все программы , Стандартные , Служебные и щелкните Таблица символов .

    Символы группируются по шрифту. Щелкните список шрифтов, чтобы выбрать подходящий набор символов. Чтобы выбрать символ, щелкните его, затем нажмите кнопку Выбрать . Чтобы вставить символ, щелкните правой кнопкой мыши нужное место в документе и выберите Вставить .

    Коды часто используемых символов

    Полный список символов см. в на компьютере, таблице кодов символов ASCII или таблицах символов Юникода, упорядоченных по наборам .

    Глиф

    Глиф

    Денежные единицы

    Юридические символы

    Математические символы

    Дроби

    Знаки пунктуации и диалектные символы

    Символы форм

    Коды часто используемых диакритических знаков

    Полный список глифов и соответствующих кодов см. в .

    Глиф

    Глиф

    Непечатаемые управляющие знаки ASCII

    Знаки, используемые для управления некоторыми периферийными устройствами, например принтерами, в таблице ASCII имеют номера 0–31. Например, знаку перевода страницы/новой страницы соответствует номер 12. Этот знак указывает принтеру перейти к началу следующей страницы.

    Таблица непечатаемых управляющих знаков ASCII

    Десятичное число

    Знак

    Десятичное число

    Знак

    Освобождение канала данных

    Начало заголовка

    Первый код управления устройством

    Начало текста

    Второй код управления устройством

    Конец текста

    Третий код управления устройством

    Конец передачи

    Четвертый код управления устройством

    пятиконечная

    Отрицательное подтверждение

    Подтверждение

    Синхронный режим передачи

    Звуковой сигнал

    Конец блока передаваемых данных

    Горизонтальная табуляция

    Конец носителя

    Перевод строки/новая строка

    Символ замены

    Вертикальная табуляция

    превышать

    Перевод страницы/новая страница

    Двенадцат

    Разделитель файлов

    Возврат каретки

    Разделитель групп

    Сдвиг без сохранения разрядов

    Разделитель записей

    Сдвиг с сохранением разрядов

    пятнадцат

    Разделитель данных

    Наложение символов

    Благодаря символу BS (возврат на шаг) на принтере можно печатать один символ поверх другого. В ASCII было предусмотрено добавление таким образом диакритики к буквам, например:

    • a BS " → á
    • a BS ` → à
    • a BS ^ → â
    • o BS / → ø
    • c BS , → ç
    • n BS ~ → ñ

    Примечание : в старых шрифтах апостроф " рисовался с наклоном влево, а тильда ~ была сдвинута вверх, так что они как раз подходили на роль акута и тильды сверху.

    Если на символ накладывается тот же символ, то получается эффект жирного шрифта, а если на символ накладывается подчёркивание, то получается подчёркнутый текст.

    • a BS a → a
    • a BS _ → a

    Примечание : это используется, например, в справочной системе man .

    Национальные варианты ASCII

    Стандарт ISO 646 (ECMA-6) предусматривает возможность размещения национальных символов на месте @ [ \ ] ^ ` { | } ~ . В дополнение к этому, на месте # может быть размещён £ , а на месте $ - ¤ . Такая система хорошо подходит для европейских языков, где нужны лишь несколько дополнительных символов. Вариант ASCII без национальных символов называется US-ASCII, или «International Reference Version».

    Впоследствии оказалось удобнее использовать 8-битные кодировки (кодовые страницы), где нижнюю половину кодовой таблицы (0-127) занимают символы US-ASCII, а верхнюю (128-255) - дополнительные символы, включая набор национальных символов. Таким образом, верхняя половина таблицы ASCII до повсеместного внедрения Юникода активно использовалась для представления локализированных символов, букв местного языка. Отсутствие единого стандарта размещения кириллических символов в таблице ASCII доставляло множество проблем с кодировками (КОИ-8 , Windows-1251 и другие). Другие языки с нелатинской письменностью тоже страдали из-за наличия нескольких разных кодировок.

    .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. A. B. C. D. E. F.
    NUL SOM EOA EOM EQT WRU RU BELL BKSP HT LF VT FF CR SO SI
    DC 0 DC 1 DC 2 DC 3 DC 4 ERR SYNC LEM S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
    BLANK ! " # $ % & " ( ) * + , - . /
    0 1 2 3 4 5 6 7 8 9 : ; < = > ?
    @ A B C D E F G H I J K L M N O
    P Q R S T U V W X Y Z [ \ ]
    a b c d e f g h i j k l m n o
    p q r s t u v w x y z ESC DEL

    На тех компьютерах, где минимально адресуемой единицей памяти было 36-битное слово, поначалу использовали 6-битные символы (1 слово = 6 символов). После перехода на ASCII на таких компьютерах в одном слове стали размещать либо 5 семибитных символов (1 бит оставался лишним), либо 4 девятибитных символа.

    ASCII-коды используются также для определения нажатой клавиши при программировании. Для стандартной QWERTY-клавиатуры таблица кодов выглядит следующим образом:

    Множество символов, с помощью которых записывается текст, называется алфавитом .

    Число символов в алфавите – это его мощность .

    Формула определения количества информации: N = 2 b ,

    где N – мощность алфавита (количество символов),

    b – количество бит (информационный вес символа).

    В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

    Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

    Единице измерения 8 бит присвоили название 1 байт:

    1 байт = 8 бит.

    Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

    Каким же образом текстовая информация представлена в памяти компьютера?

    Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

    Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

    Понятно, что это дело условное, можно придумать множество способов кодировки.

    Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

    Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

    Для разных типов ЭВМ используются различные таблицы кодировки.

    Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

    Таблица кодов ASCII делится на две части.

    Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

    Структура таблицы кодировки ASCII
    Порядковый номер Код Символ
    0 - 31 00000000 - 00011111

    Символы с номерами от 0 до 31 принято называть управляющими.
    Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

    32 - 127 00100000 - 01111111

    Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
    Символ 32 - пробел, т.е. пустая позиция в тексте.
    Все остальные отражаются определенными знаками.

    128 - 255 10000000 - 11111111

    Альтернативная часть таблицы (русская).
    Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
    Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

    Первая половина таблицы кодов ASCII

    Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

    Для букв русского алфавита также соблюдается принцип последовательного кодирования.

    Вторая половина таблицы кодов ASCII

    К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

    Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

    От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").

    Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

    Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

    Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

    С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode . Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

    Попробуем с помощью таблицы ASCII представить, как будут выглядеть слова в памяти компьютера. Внутреннее представление слов в памяти компьютера

    Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать - на экране монитора видна какая-то "абракадабра". Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.

    Каждый компьютер имеет свой набор символов, который он реализует. Такой набор содержит 26 заглавных и строчных букв, цифры и специальные символы (точка, пробел и тд). Символы при переводе в целые числа имеют название кодами. Были разработаны стандарты, что бы компьютеры имели одинаковые наборы кодов.

    Стандарт ASCII

    ASCII (American Standart Code for Inmormation Interchange) — американский стандартный код для обмена информацией. Каждый символ ASCII имеет 7 битов, поэтому максимальное число символов — 128 (таблица 1). Коды от 0 до 1F являются управляющими символами, которые не печатаются. Множество непечатных символов ASCII нужны для передачи данных. К примеру послание может состоять из символа начала заголовка SOH, самого заголовка и символа начала текста STX, самого текста и символа конца текста ETX, и символ конца передачи EOT. Однако данные по сети передаются в пакетах, которые сами отвечают за начало передачи и конец. Так что непечатные символы почти не используются.

    Таблица 1 — таблица кодов ASCII

    Число Команда Значение Число Команда Значение
    0 NUL Пустой указатель 10 DLE Выход из системы передачи
    1 SOH начало заголовка 11 DC1 Управление устройством
    2 STX Начало текста 12 DC2 Управление устройством
    3 ETX Конец текста 13 DC3 Управление устройством
    4 EOT Конец передачи 14 DC4 Управление устройством
    5 ACK Запрос 15 NAK Неподтверждение приема
    6 BEL Подтверждение приема 16 SYN Простой
    7 BS Символ звонка 17 ETB Конец блока передачи
    8 HT Отступ назад 18 CAN Отмета
    9 LF Горизонтальная табуляция 19 EM Конец носителя
    A VT Перевод строки 1A SUB Подстрочный индекс
    B FF Вертикальная табуляция 1B ESC Выход
    C CR Перевод страницы 1C FS Разделитель файлов
    D SO Возврат каретки 1D GS Разделитель группы
    E SI Переключение на дополнительный регистр 1E RS Разделитель записи
    SI Переключение на стандартный регистр 1F US Разделитель модуля
    Число Символ Число Символ Число Символ Число Символ Число Символ Число Символ
    20 пробел 30 0 40 @ 50 P 60 . 70 p
    21 ! 31 1 41 A 51 Q 61 a 71 q
    22 32 2 42 B 52 R 62 b 72 r
    23 # 33 3 43 C 53 S 63 c 73 s
    24 φ 34 4 44 D 54 T 64 d 74 t
    25 % 35 5 45 E 55 И 65 e 75 и
    26 & 36 6 46 F 56 V 66 f 76 v
    27 37 7 47 G 57 W 67 g 77 w
    28 ( 38 8 48 H 58 X 68 h 78 x
    29 ) 39 9 49 I 59 Y 69 i 70 y
    2A 3A ; 4A J 5A Z 6A j 7A z
    2B + 3B ; 4B K 5B [ 6B k 7B {
    2C 3C < 4C L 5C \ 6C l 7C |
    2D 3D = 4D M 5D ] 6D m 7D }
    2E 3E > 4E N 5E 6E n 7E ~
    2F / 3F g 4F O 5F _ 6F o 7F DEL
    Стандарт Unicode

    Предыдущая кодировка отлично подходит для английского языка, однако для других языков она не удобная. К примеру в немецком языке есть умляуты, а в французском надстрочные знаки. Некоторые языки имеют совершенно разные алфавиты. Первой попыткой расширения ASCII был IS646, который расширял предыдущую кодировку еще на 128 символов. Добавлены были латинские буквы со штрихами и диакритическими знаками, и получил название — Latin 1. Следующая попытка была IS 8859 — которые содержал кодовую страницу. Были еще попытки расширений, но это все было не универсальным. Была создана кодировка UNICODE (is 10646). Идея кодировка в том, что бы приписать каждому символу единое постоянное 16-битное значение, которое называется — указателем кода . Всего получается 65536 указателей. Для экономии места использовали Latin-1 для кодов 0 -255, легко изменяя ASII в UNICODE. Такой стандарт решил много проблем, однако не все. В связи с поступлением новых слов, к примеру для японского языка нужно увеличивать количество терминов где-то на 20 тыс. Также нужно включить шрифт брайля.

    Похожие статьи