Подскажите — кодировка ANSI и windows-1251 одно и то же?
-
Вопрос задан
-
5239 просмотров
Пригласить эксперта
ANSI — это институт стандартов. По сути, не существует такой кодировки. Часто под ANSI понимают однобайтную кодировку, выбранную в данный момент в системе пользователя. Но надеяться на то, что на машине пользователя будут точно те же региональные настройки, не стоит.
-
Показать ещё
Загружается…
08 окт. 2023, в 23:50
5000 руб./за проект
08 окт. 2023, в 21:59
1000 руб./в час
08 окт. 2023, в 20:00
10000 руб./за проект
Минуточку внимания
Reg.ru: домены и хостинг
Крупнейший регистратор и хостинг-провайдер в России.
Более 2 миллионов доменных имен на обслуживании.
Продвижение, почта для домена, решения для бизнеса.
Более 700 тыс. клиентов по всему миру уже сделали свой выбор.
Перейти на сайт->
Бесплатный Курс «Практика HTML5 и CSS3»
Освойте бесплатно пошаговый видеокурс
по основам адаптивной верстки
на HTML5 и CSS3 с полного нуля.
Начать->
Фреймворк Bootstrap: быстрая адаптивная вёрстка
Пошаговый видеокурс по основам адаптивной верстки в фреймворке Bootstrap.
Научитесь верстать просто, быстро и качественно, используя мощный и практичный инструмент.
Верстайте на заказ и получайте деньги.
Получить в подарок->
Бесплатный курс «Сайт на WordPress»
Хотите освоить CMS WordPress?
Получите уроки по дизайну и верстке сайта на WordPress.
Научитесь работать с темами и нарезать макет.
Бесплатный видеокурс по рисованию дизайна сайта, его верстке и установке на CMS WordPress!
Получить в подарок->
*Наведите курсор мыши для приостановки прокрутки.
Кодировки: полезная информация и краткая ретроспектива
Данную статью я решил написать как небольшой обзор, касающийся вопроса кодировок.
Мы разберемся, что такое вообще кодировка и немного коснемся истории того, как они появились в принципе.
Мы поговорим о некоторых их особенностях а также рассмотрим моменты, позволяющие нам работать с кодировками более осознанно и избегать появления на сайте так называемых кракозябров, т.е. нечитаемых символов.
Итак, поехали…
Что такое кодировка?
Упрощенно говоря, кодировка — это таблица сопоставлений символов, которые мы можем видеть на экране, определенным числовым кодам.
Т.е. каждый символ, который мы вводим с клавиатуры, либо видим на экране монитора, закодирован определенной последовательностью битов (нулей и единиц). 8 бит, как вы, наверное, знаете, равны 1 байту информации, но об этом чуть позже.
Внешний вид самих символов определяется файлами шрифтов, которые установлены на вашем компьютере. Поэтому процесс вывода на экран текста можно описать как постоянное сопоставление последовательностей нулей и единиц каким-то конкретным символам, входящим в состав шрифта.
Прародителем всех современных кодировок можно считать ASCII.
Эта аббревиатура расшифровывается как American Standard Code for Information Interchange (американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов).
Это однобайтовая кодировка, в которую изначально заложено всего 128 символов: буквы латинского алфавита, арабские цифры и т.д.
Позже она была расширена (изначально она не использовала все 8 бит), поэтому появилась возможность использовать уже не 128, а 256 (2 в 8 степени) различных символов, которые можно закодировать в одном байте информации.
Такое усовершенствование позволило добавлять в ASCII символы национальных языков, помимо уже существующей латиницы.
Вариантов расширенной кодировки ASCII существует очень много по причине того, что языков в мире тоже немало. Думаю, что многие из вас слышали о такой кодировке, как KOI8-R — это тоже расширенная кодировка ASCII, предназначенная для работы с символами русского языка.
Следующим шагом в развитии кодировок можно считать появление так называемых ANSI-кодировок.
По сути это были те же расширенные версии ASCII, однако из них были удалены различные псевдографические элементы и добавлены символы типографики, для которых ранее не хватало «свободных мест».
Примером такой ANSI-кодировки является всем известная Windows-1251. Помимо типографических символов, в эту кодировку также были включены буквы алфавитов языков, близких к русскому (украинский, белорусский, сербский, македонский и болгарский).
ANSI-кодировка — это собирательное название. В действительности, реальная кодировка при использовании ANSI будет определяться тем, что указано в реестре вашей операционной системы Windows. В случае с русским языком это будет Windows-1251, однако, для других языков это будет другая разновидность ANSI.
Как вы понимаете, куча кодировок и отсутствие единого стандарта до добра не довели, что и стало причиной частых встреч с так называемыми кракозябрами — нечитаемым бессмысленным набором символов.
Причина их появления проста — это попытка отобразить символы, закодированные с помощью одной кодировочной таблицы, используя другую кодировочную таблицу.
В контексте веб-разработки, мы можем столкнуться с кракозябрами, когда, к примеру, русский текст по ошибке сохраняется не в той кодировке, которая используется на сервере.
Разумеется, это не единственный случай, когда мы можем получить нечитаемый текст — вариантов тут масса, особенно, если учесть, что есть еще база данных, в которой информация также хранится в определенной кодировке, есть сопоставление соединения с базой данных и т.д.
Возникновение всех этих проблем послужило стимулом для создания чего-то нового. Это должна была быть кодировка, которая могла бы кодировать любой язык в мире (ведь с помощью однобайтовых кодировок при всем желании нельзя описать все символы, скажем, китайского языка, где их явно больше, чем 256), любые дополнительные спецсимволы и типографику.
Одним словом, нужно было создать универсальную кодировку, которая решила бы проблему кракозябров раз и навсегда.
Юникод — универсальная кодировка текста (UTF-32, UTF-16 и UTF-8)
Сам стандарт был предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (Unicode Consortium, Unicode Inc.), и первым результатом его работы стало создание кодировки UTF-32.
Кстати, сама аббревиатура UTF расшифровывается как Unicode Transformation Format (Формат Преобразования Юникод).
В этой кодировке для кодирования одного символа предполагалось использовать аж 32 бита, т.е. 4 байта информации. Если сравнивать это число с однобайтовыми кодировками, то мы придем к простому выводу: для кодирования 1 символа в этой универсальной кодировке нужно в 4 раза больше битов, что «утяжеляет» файл в 4 раза.
Очевидно также, что количество символов, которое потенциально могло быть описано с помощью данной кодировки, превышает все разумные пределы и технически ограничено числом, равным 2 в 32 степени. Понятно, что это был явный перебор и расточительство с точки зрения веса файлов, поэтому данная кодировка не получила распространения.
На смену ей пришла новая разработка — UTF-16.
Как очевидно из названия, в этой кодировке один символ кодируют уже не 32 бита, а только 16 (т.е. 2 байта). Очевидно, это делает любой символ вдвое «легче», чем в UTF-32, однако и вдвое «тяжелее» любого символа, закодированного с помощью однобайтовой кодировки.
Количество символов, доступное для кодирования в UTF-16 равно, как минимум, 2 в 16 степени, т.е. 65536 символов. Вроде бы все неплохо, к тому же окончательная величина кодового пространства в UTF-16 была расширена до более, чем 1 миллиона символов.
Однако и данная кодировка до конца не удовлетворяла потребности разработчиков. Скажем, если вы пишете, используя исключительно латинские символы, то после перехода с расширенной версии кодировки ASCII к UTF-16 вес каждого файла увеличивался вдвое.
В результате, была предпринята еще одна попытка создания чего-то универсального, и этим чем-то стала всем нам известная кодировка UTF-8.
UTF-8 — это многобайтовая кодировка с переменной длинной символа. Глядя на название, можно по аналогии с UTF-32 и UTF-16 подумать, что здесь для кодирования одного символа используется 8 бит, однако это не так. Точнее, не совсем так.
Дело в том, что UTF-8 обеспечивает наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Для кодирования одного символа в UTF-8 реально используется от 1 до 4 байт (гипотетически можно и до 6 байт).
В UTF-8 все латинские символы кодируются 8 битами, как и в кодировке ASCII. Иными словами, базовая часть кодировки ASCII (128 символов) перешла в UTF-8, что позволяет «тратить» на их представление всего 1 байт, сохраняя при этом универсальность кодировки, ради которой все и затевалось.
Итак, если первые 128 символов кодируются 1 байтом, то все остальные символы кодируются уже 2 байтами и более. В частности, каждый символ кириллицы кодируется именно 2 байтами.
Таким образом, мы получили универсальную кодировку, позволяющую охватить все возможные символы, которые требуется отобразить, не «утяжеляя» без необходимости файлы.
C BOM или без BOM?
Если вы работали с текстовыми редакторами (редакторами кода), например Notepad++, phpDesigner, rapid PHP и т.д., то, вероятно, обращали внимание на то, что при задании кодировки, в которой будет создана страница, можно выбрать, как правило, 3 варианта:
— ANSI
— UTF-8
— UTF-8 без BOM
Сразу скажу, что выбирать всегда стоит именно последний вариант — UTF-8 без BOM.
Итак, что же такое BOM и почему нам это не нужно?
BOM расшифровывается как Byte Order Mark. Это специальный Unicode-символ, используемый для индикации порядка байтов текстового файла. По спецификации его использование не является обязательным, однако если BOM используется, то он должен быть установлен в начале текстового файла.
Не будем вдаваться в детали работы BOM. Для нас главный вывод следующий: использование этого служебного символа вместе с UTF-8 мешает программам считывать кодировку нормальным образом, в результате чего возникают ошибки в работе скриптов.
Поэтому, при работе с UTF-8 используйте именно вариант «UTF-8 без BOM». Также лучше не используйте редакторы, в которых в принципе нельзя указать кодировку (скажем, Блокнот из стандартных программ в Windows).
Кодировка текущего файла, открытого в редакторе кода, как правило, указывается в нижней части окна.
Обратите внимание, что запись «ANSI as UTF-8» в редакторе Notepad++ означает то же самое, что и «UTF-8 без BOM». Это одно и то же.
В программе phpDesigner нельзя сразу точно сказать, используется BOM, или нет. Для этого нужно кликнуть правой кнопкой мыши по надписи «UTF-8», после чего во всплывающем окне можно увидеть, используется ли BOM (опция Save with BOM).
В редакторе rapid PHP кодировка UTF-8 без BOM обозначается как «UTF-8*».
Как вы понимаете, в разных редакторах все выглядит немного по-разному, однако главную идею вы поняли.
После того, как документ сохранен в UTF-8 без BOM, нужно также убедиться, что верная кодировка указана в специальном метатэге в секции head вашего html-документа:
<meta charset = "utf-8" />
Соблюдение этих простых правил уже позволит вам избежать многих пробелем с кодировками.
На этом все, надеюсь, что данный небольшой экскурс и пояснения помогли вам лучше понять, что такое кодировки, какие они бывают и как работают.
Если вам интересна эта тема с более прикладной точки зрения, то рекомендую вам изучить мой видеоурок Полный UTF-8: чеклист для начинающих.
Дмитрий Науменко.
P.S. Присмотритесь к премиум-урокам по различным аспектам сайтостроения, а также к бесплатному курсу по созданию своей CMS-системы на PHP с нуля. Все это поможет вам быстрее и проще освоить различные технологии веб-разработки.
Понравился материал и хотите отблагодарить?
Просто поделитесь с друзьями и коллегами!
Смотрите также:
|
PHP: Получение информации об объекте или классе, методах, свойствах и наследовании |
CodeIgniter: жив или мертв? |
|
Функции обратного вызова, анонимные функции и механизм замыканий |
|
Применение функции к каждому элементу массива |
|
Слияние массивов. Преобразование массива в строку |
|
|
Деструктор и копирование объектов с помощью метода __clone() |
Эволюция веб-разработчика или Почему фреймворк — это хорошо? |
|
Магические методы в PHP или методы-перехватчики (сеттеры, геттеры и др.) |
|
PHP: Удаление элементов массива |
|
Ключевое слово final (завершенные классы и методы в PHP) |
|
|
50 классных сервисов, программ и сайтов для веб-разработчиков |
Наверх
Прежде чем отвечать на вопрос о том, что же такое кодировка ANSI Windows, ответим сначала на другой вопрос: «Что же такое кодировка вообще?»
У каждого компьютера, в каждой системе используется определенный набор символов, зависящий от языка, используемого пользователем, от его профессиональных компетенций и личных предпочтений.
Общее определение кодировки
Так, в русском языке используется 33 символа для обозначения букв, в английском – 26. Также используется 10 цифр для счета (0; 1; 2; 3; 4; 5; 6; 7; 8; 9) и некоторые специальные символы, в том числе запятая, минус, пробел, точка, процент и так далее.
Каждому из этих символов при помощи кодовой таблицы присваивается порядковый номер. К примеру, букве «A» может быть присвоен номер 1; «Z» — 26 и так далее.
Собственно, номер, представляющий символ как целое число, считается кодом символа, а кодировка — это, соответственно, набор символов в такой таблице.
Богатство разнообразия кодовых таблиц
На данный момент существует довольно большое количество кодировок и кодовых таблиц, используемых разными специалистами: это и ASCII, разработанная в 1963 году в Америке, и Windows-1251, совсем недавно еще бывшая популярной благодаря Microsoft, KOI8-R и Guobiao — и многие, многие другие, причем процесс их появления и отмирания происходит и по сей день.
Среди этого огромного списка совершенно особо держится так называемая кодировка ANSI.
Дело в том, что в свое время компания Microsoft создала целый набор кодовых страниц:
Windows — 874 | Тайский |
Windows-1250 | Центральноевропейский |
Windows-1251 | Кириллический (все символы русского языка + символы близких языков) |
Windows-1252 | Западноевропейский |
Windows-1253 | Греческий |
Windows-1254 | Турецкий |
Windows-1255 | Еврейский |
Windows-1256 | Арабский |
Windows-1257 | Балтийский |
Windows-1258 | Вьетнамский |
Все они получили общее название таблицы кодировки ANSI, или кодовой страницы ANSI.
Интересный факт: одной из первых кодовых таблиц стала ASCII, в 1963 году созданная American National Standards Institute (Американским национальным институтом стандартов), сокращенно называвшимся именно ANSI.
Помимо всего прочего, эта кодировка содержит и непечатные символы, так называемые «Управляющие последовательности», или ESC, уникальные для всех таблиц символов, зачастую несовместимые между собой. При умелом использовании, однако, они позволяли скрывать и восстанавливать курсор, переводить его с одного положения в тексте на другое, устанавливать табуляцию, стирать часть окна терминала, в котором велась работа, изменять форматирование текста на экране и менять цвет (или даже рисовать и подавать звуковые сигналы!). В 1976 году, кстати, это было довольно неплохим подспорьем для программистов. Кстати, терминал — это устройство, требующееся для ввода и вывода информации. В те далекие времена он представлял собой монитор и клавиатуру, подсоединенные к ЭВМ (электронной вычислительной машине).
Некорректное отображение символов
К сожалению, в дальнейшем подобная система вызвала многочисленные сбои в системах, выводя вместо желаемых стихов, лент новостей или описаний любимых компьютерных игр так называемые кракозябры — бессмысленные, нечитаемые наборы символов. Появление этих вездесущих ошибок было вызвано всего лишь попыткой отображать символы, закодированные в одной кодовой таблице, при помощи другой.
Чаще всего с последствиями неверного чтения этой кодировки мы сталкиваемся в Интернете до сих пор, когда наш браузер по какой-то причине не может достаточно точно определить, какая именно из Windows-**** кодировок используется в данный момент, из-за указания веб-мастером общей кодировки ANSI либо изначально неверной кодировки, к примеру, 1252 вместо 1521. Ниже представлена точная таблица кодировок.
Кириллическая таблица ANSI-кодировок, Windows-1251
№ П/п.
HEX
СИМВОЛ
№ П/п.
HEX
СИМВОЛ
№ П/п.
HEX
СИМВОЛ
000
00
NOP
086
56
V
171
AB
«
001
01
SOH
087
57
W
172
AC
¬
002
02
STX
088
58
X
173
AD
003
03
ETX
089
59
Y
174
AE
®
004
04
EOT
090
5A
Z
175
AF
Ї
005
05
ENQ
091
5B
[
176
B0
°
006
06
ACK
092
5C
\
177
B1
±
007
07
BEL
093
5D
]
178
B2
І
008
08
BS
094
5E
^
179
B3
і
009
09
TAB
095
5F
_
180
B4
ґ
010
0A
LF
096
60
`
181
B5
µ
011
0B
VT
097
61
a
182
B6
¶
012
0C
FF
098
62
b
183
B7
·
013
0D
CR
099
63
c
184
B8
Е
014
0E
SO
100
64
d
185
B9
№
015
0F
SI
101
65
e
186
BA
Є
016
10
DLE
102
66
f
187
BB
»
017
11
DC1
103
67
g
188
BC
ј
018
12
DC2
104
68
h
189
BD
Ѕ
019
13
DC3
105
69
i
190
BE
Ѕ
020
14
DC4
106
6A
j
191
BF
Ї
021
15
NAK
107
6B
k
192
C0
А
022
16
SYN
108
6C
l
193
C1
Б
023
17
ETB
109
6D
m
194
C2
В
024
18
CAN
110
6E
n
195
C3
Г
025
19
EM
111
6F
o
196
C4
Д
026
1A
SUB
112
70
p
197
C5
Е
027
1B
ESC
113
71
q
198
C6
Ж
028
1C
FS
114
72
r
199
C7
З
029
1D
GS
115
73
s
200
C8
И
030
1E
RS
116
74
t
201
C9
Й
031
1F
US
117
75
u
202
CA
К
032
20
Пробел
118
76
v
203
CB
Л
033
21
!
119
77
w
204
CC
М
034
22
«
120
78
x
205
CD
Н
035
23
#
121
79
y
206
CE
О
036
24
$
122
7A
z
207
CF
П
037
25
%
123
7B
{
208
D0
Р
038
26
&
124
7C
|
209
D1
С
039
27
‘
125
7D
}
210
D2
Т
040
28
(
126
7E
~
211
D3
У
041
29
)
127
7F
212
D4
Ф
042
2A
*
128
80
Ђ
213
D5
Х
043
2B
+
129
81
Ѓ
214
D6
Ц
044
2C
,
130
82
‚
215
D7
Ч
045
2D
—
131
83
ѓ
216
D8
Ш
046
2E
.
132
84
„
217
D9
Щ
047
2F
/
133
85
…
218
DA
Ъ
048
30
0
134
86
†
219
DB
Ы
049
31
1
135
87
‡
220
DC
Ь
050
32
2
136
88
€
221
DD
Э
051
33
3
137
89
‰
222
DE
Ю
052
34
4
138
8A
Љ
223
DF
Я
053
35
5
139
8B
‹
224
E0
а
054
36
6
140
8C
Њ
225
E1
б
055
37
7
141
8D
Ќ
226
E2
в
056
38
8
142
8E
Ћ
227
E3
г
057
39
9
143
8F
Џ
228
E4
д
058
3A
:
144
90
Ђ
229
E5
е
059
3B
;
145
91
‘
230
E6
ж
060
3C
<
146
92
’
231
E7
з
061
3D
=
147
93
“
232
E8
и
062
3E
>
148
94
”
233
E9
й
063
3F
?
149
95
•
234
EA
к
064
40
@
150
96
–
235
EB
л
065
41
A
151
97
—
236
EC
м
066
42
B
152
98
237
ED
н
067
43
C
153
99
™
238
EE
о
068
44
D
154
9A
љ
239
EF
п
069
45
E
155
9B
›
240
F0
р
070
46
F
156
9C
њ
241
F1
с
071
47
G
157
9D
ќ
242
F2
т
072
48
H
158
9E
ћ
243
F3
у
073
49
I
159
9F
џ
244
F4
ф
074
4A
J
160
A0
245
F5
х
075
4B
K
161
A1
Ў
246
F6
ц
076
4C
L
162
A2
ў
247
F7
ч
077
4D
M
163
A3
Ј
248
F8
ш
078
4E
N
164
A4
¤
249
F9
щ
079
4F
O
165
A5
Ґ
250
FA
ъ
080
50
P
166
A6
¦
251
FB
ы
081
51
Q
167
A7
§
252
FC
ь
082
52
R
168
A8
Е
253
FD
э
083
53
S
169
A9
©
254
FE
ю
084
54
T
170
AA
Є
255
FF
я
085
55
U
Более того, в 1986 году ANSI была существенно расширена, благодаря Яну Э. Дэвису, написавшему пакет The Draw, позволяющий не просто использовать базовые, с нашей точки зрения, функции, но и полноценно (или почти полноценно) рисовать!
Подводя итоги
Таким образом, можно видеть, что кодировка ANSI, по сути, хоть и была довольно спорным решением, сохраняет свои позиции.
Со временем с легкой руки энтузиастов древний терминал ANSI перекочевал даже на телефоны!
Открыл Notepad++. Там есть возможность преобразовать в ANSI. Непонятно, что в этой программе подразумевается под кодировкой ANSI, ведь такой кодировки вроде как несуществует. Насколько я знаю ANSI — это неофициальное обобщенное название кодировок windows 1251, windows 1252, ascii(7bit).
Так в какую кодировку будет преобразован текст ?
0xdb
51.5k198 золотых знаков59 серебряных знаков239 бронзовых знаков
задан 20 июл 2015 в 2:01
Павел ИгоревПавел Игорев
1,9314 золотых знака23 серебряных знака35 бронзовых знаков
1
В Windows под ANSI codepage обычно понимается «системная» кодировка. Она используется для не-юникодных программ (и кажется для не-юникодных файловых систем). Для стандартной американской версии это CP 1252, для русской — CP 1251.
Хотя название и ссылается на стандарт ANSI, реально оно ничего общего со стандартом не имеет.
Чаще всего это однобайтная кодировка, но для некоторых систем (например, японской) это MBCS.
Следует различать ANSI-кодировку (используемую для не-юникодных Windows-программ) и OEM-кодировку (используемую для не-юникодных DOS-программ, в случае русской Windows это CP 866).
ответ дан 20 июл 2015 в 7:36
VladDVladD
206k28 золотых знаков290 серебряных знаков526 бронзовых знаков
Посмотрите ответ на ваш вопрос в официальной документации.
ответ дан 20 июл 2015 в 7:12
Насколько я знаю ANSI — это неофициальное обобщенное название кодировок windows 1251, windows 1252, ascii(7bit). Так в какую кодировку будет преобразован текст ?
Насколько я помню, там подразумевается общая их часть. Т. е. однобайтовая кодировка, со всеми кодами до 128. Всё, что вне этой области, превратится в вопросы.
ответ дан 20 июл 2015 в 10:48
Qwertiy♦Qwertiy
121k24 золотых знака123 серебряных знака296 бронзовых знаков
Прежде чем отвечать на вопрос о том, что же такое кодировка ANSI Windows, ответим сначала на другой вопрос: «Что же такое кодировка вообще?»
У каждого компьютера, в каждой системе используется определенный набор символов, зависящий от языка, используемого пользователем, от его профессиональных компетенций и личных предпочтений.
Общее определение кодировки
Так, в русском языке используется 33 символа для обозначения букв, в английском – 26. Также используется 10 цифр для счета (0; 1; 2; 3; 4; 5; 6; 7; 8; 9) и некоторые специальные символы, в том числе запятая, минус, пробел, точка, процент и так далее.
Каждому из этих символов при помощи кодовой таблицы присваивается порядковый номер. К примеру, букве «A» может быть присвоен номер 1; «Z» — 26 и так далее.
Собственно, номер, представляющий символ как целое число, считается кодом символа, а кодировка — это, соответственно, набор символов в такой таблице.
Богатство разнообразия кодовых таблиц
На данный момент существует довольно большое количество кодировок и кодовых таблиц, используемых разными специалистами: это и ASCII, разработанная в 1963 году в Америке, и Windows-1251, совсем недавно еще бывшая популярной благодаря Microsoft, KOI8-R и Guobiao — и многие, многие другие, причем процесс их появления и отмирания происходит и по сей день.
Среди этого огромного списка совершенно особо держится так называемая кодировка ANSI.
Дело в том, что в свое время компания Microsoft создала целый набор кодовых страниц:
Windows — 874 | Тайский |
Windows-1250 | Центральноевропейский |
Windows-1251 | Кириллический (все символы русского языка + символы близких языков) |
Windows-1252 | Западноевропейский |
Windows-1253 | Греческий |
Windows-1254 | Турецкий |
Windows-1255 | Еврейский |
Windows-1256 | Арабский |
Windows-1257 | Балтийский |
Windows-1258 | Вьетнамский |
Все они получили общее название таблицы кодировки ANSI, или кодовой страницы ANSI.
Интересный факт: одной из первых кодовых таблиц стала ASCII, в 1963 году созданная American National Standards Institute (Американским национальным институтом стандартов), сокращенно называвшимся именно ANSI.
Помимо всего прочего, эта кодировка содержит и непечатные символы, так называемые «Управляющие последовательности», или ESC, уникальные для всех таблиц символов, зачастую несовместимые между собой. При умелом использовании, однако, они позволяли скрывать и восстанавливать курсор, переводить его с одного положения в тексте на другое, устанавливать табуляцию, стирать часть окна терминала, в котором велась работа, изменять форматирование текста на экране и менять цвет (или даже рисовать и подавать звуковые сигналы!). В 1976 году, кстати, это было довольно неплохим подспорьем для программистов. Кстати, терминал — это устройство, требующееся для ввода и вывода информации. В те далекие времена он представлял собой монитор и клавиатуру, подсоединенные к ЭВМ (электронной вычислительной машине).
Некорректное отображение символов
К сожалению, в дальнейшем подобная система вызвала многочисленные сбои в системах, выводя вместо желаемых стихов, лент новостей или описаний любимых компьютерных игр так называемые кракозябры — бессмысленные, нечитаемые наборы символов. Появление этих вездесущих ошибок было вызвано всего лишь попыткой отображать символы, закодированные в одной кодовой таблице, при помощи другой.
Чаще всего с последствиями неверного чтения этой кодировки мы сталкиваемся в Интернете до сих пор, когда наш браузер по какой-то причине не может достаточно точно определить, какая именно из Windows-**** кодировок используется в данный момент, из-за указания веб-мастером общей кодировки ANSI либо изначально неверной кодировки, к примеру, 1252 вместо 1521. Ниже представлена точная таблица кодировок.
Кириллическая таблица ANSI-кодировок, Windows-1251
№ П/п.
HEX
СИМВОЛ
№ П/п.
HEX
СИМВОЛ
№ П/п.
HEX
СИМВОЛ
000
00
NOP
086
56
V
171
AB
«
001
01
SOH
087
57
W
172
AC
¬
002
02
STX
088
58
X
173
AD
003
03
ETX
089
59
Y
174
AE
®
004
04
EOT
090
5A
Z
175
AF
Ї
005
05
ENQ
091
5B
[
176
B0
°
006
06
ACK
092
5C
\
177
B1
±
007
07
BEL
093
5D
]
178
B2
І
008
08
BS
094
5E
^
179
B3
і
009
09
TAB
095
5F
_
180
B4
ґ
010
0A
LF
096
60
`
181
B5
µ
011
0B
VT
097
61
a
182
B6
¶
012
0C
FF
098
62
b
183
B7
·
013
0D
CR
099
63
c
184
B8
Е
014
0E
SO
100
64
d
185
B9
№
015
0F
SI
101
65
e
186
BA
Є
016
10
DLE
102
66
f
187
BB
»
017
11
DC1
103
67
g
188
BC
ј
018
12
DC2
104
68
h
189
BD
Ѕ
019
13
DC3
105
69
i
190
BE
Ѕ
020
14
DC4
106
6A
j
191
BF
Ї
021
15
NAK
107
6B
k
192
C0
А
022
16
SYN
108
6C
l
193
C1
Б
023
17
ETB
109
6D
m
194
C2
В
024
18
CAN
110
6E
n
195
C3
Г
025
19
EM
111
6F
o
196
C4
Д
026
1A
SUB
112
70
p
197
C5
Е
027
1B
ESC
113
71
q
198
C6
Ж
028
1C
FS
114
72
r
199
C7
З
029
1D
GS
115
73
s
200
C8
И
030
1E
RS
116
74
t
201
C9
Й
031
1F
US
117
75
u
202
CA
К
032
20
Пробел
118
76
v
203
CB
Л
033
21
!
119
77
w
204
CC
М
034
22
«
120
78
x
205
CD
Н
035
23
#
121
79
y
206
CE
О
036
24
$
122
7A
z
207
CF
П
037
25
%
123
7B
{
208
D0
Р
038
26
&
124
7C
|
209
D1
С
039
27
‘
125
7D
}
210
D2
Т
040
28
(
126
7E
~
211
D3
У
041
29
)
127
7F
212
D4
Ф
042
2A
*
128
80
Ђ
213
D5
Х
043
2B
+
129
81
Ѓ
214
D6
Ц
044
2C
,
130
82
‚
215
D7
Ч
045
2D
—
131
83
ѓ
216
D8
Ш
046
2E
.
132
84
„
217
D9
Щ
047
2F
/
133
85
…
218
DA
Ъ
048
30
0
134
86
†
219
DB
Ы
049
31
1
135
87
‡
220
DC
Ь
050
32
2
136
88
€
221
DD
Э
051
33
3
137
89
‰
222
DE
Ю
052
34
4
138
8A
Љ
223
DF
Я
053
35
5
139
8B
‹
224
E0
а
054
36
6
140
8C
Њ
225
E1
б
055
37
7
141
8D
Ќ
226
E2
в
056
38
8
142
8E
Ћ
227
E3
г
057
39
9
143
8F
Џ
228
E4
д
058
3A
:
144
90
Ђ
229
E5
е
059
3B
;
145
91
‘
230
E6
ж
060
3C
<
146
92
’
231
E7
з
061
3D
=
147
93
“
232
E8
и
062
3E
>
148
94
”
233
E9
й
063
3F
?
149
95
•
234
EA
к
064
40
@
150
96
–
235
EB
л
065
41
A
151
97
—
236
EC
м
066
42
B
152
98
237
ED
н
067
43
C
153
99
™
238
EE
о
068
44
D
154
9A
љ
239
EF
п
069
45
E
155
9B
›
240
F0
р
070
46
F
156
9C
њ
241
F1
с
071
47
G
157
9D
ќ
242
F2
т
072
48
H
158
9E
ћ
243
F3
у
073
49
I
159
9F
џ
244
F4
ф
074
4A
J
160
A0
245
F5
х
075
4B
K
161
A1
Ў
246
F6
ц
076
4C
L
162
A2
ў
247
F7
ч
077
4D
M
163
A3
Ј
248
F8
ш
078
4E
N
164
A4
¤
249
F9
щ
079
4F
O
165
A5
Ґ
250
FA
ъ
080
50
P
166
A6
¦
251
FB
ы
081
51
Q
167
A7
§
252
FC
ь
082
52
R
168
A8
Е
253
FD
э
083
53
S
169
A9
©
254
FE
ю
084
54
T
170
AA
Є
255
FF
я
085
55
U
Более того, в 1986 году ANSI была существенно расширена, благодаря Яну Э. Дэвису, написавшему пакет The Draw, позволяющий не просто использовать базовые, с нашей точки зрения, функции, но и полноценно (или почти полноценно) рисовать!
Подводя итоги
Таким образом, можно видеть, что кодировка ANSI, по сути, хоть и была довольно спорным решением, сохраняет свои позиции.
Со временем с легкой руки энтузиастов древний терминал ANSI перекочевал даже на телефоны!
полезная информация и краткая ретроспектива
- Главная
- ->
- Материалы
- ->
- Кодировки: полезная информация и краткая ретроспектива
Reg.ru: домены и хостинг
Крупнейший регистратор и хостинг-провайдер в России.
Более 2 миллионов доменных имен на обслуживании.
Продвижение, почта для домена, решения для бизнеса.
Более 700 тыс. клиентов по всему миру уже сделали свой выбор.
Перейти на сайт->
Бесплатный Курс «Практика HTML5 и CSS3»
Освойте бесплатно пошаговый видеокурс
по основам адаптивной верстки
на HTML5 и CSS3 с полного нуля.
Начать->
Фреймворк Bootstrap: быстрая адаптивная вёрстка
Пошаговый видеокурс по основам адаптивной верстки в фреймворке Bootstrap.
Научитесь верстать просто, быстро и качественно, используя мощный и практичный инструмент.
Верстайте на заказ и получайте деньги.
Получить в подарок->
Бесплатный курс «Сайт на WordPress»
Хотите освоить CMS WordPress?
Получите уроки по дизайну и верстке сайта на WordPress.
Научитесь работать с темами и нарезать макет.
Бесплатный видеокурс по рисованию дизайна сайта, его верстке и установке на CMS WordPress!
Получить в подарок->
*Наведите курсор мыши для приостановки прокрутки.
Назад
Вперед
Кодировки: полезная информация и краткая ретроспектива
Данную статью я решил написать как небольшой обзор, касающийся вопроса кодировок.
Мы разберемся, что такое вообще кодировка и немного коснемся истории того, как они появились в принципе.
Мы поговорим о некоторых их особенностях а также рассмотрим моменты, позволяющие нам работать с кодировками более осознанно и избегать появления на сайте так называемых кракозябров, т.е. нечитаемых символов.
Итак, поехали…
Что такое кодировка?
Упрощенно говоря, кодировка — это таблица сопоставлений символов, которые мы можем видеть на экране, определенным числовым кодам.
Т.е. каждый символ, который мы вводим с клавиатуры, либо видим на экране монитора, закодирован определенной последовательностью битов (нулей и единиц). 8 бит, как вы, наверное, знаете, равны 1 байту информации, но об этом чуть позже.
Внешний вид самих символов определяется файлами шрифтов, которые установлены на вашем компьютере. Поэтому процесс вывода на экран текста можно описать как постоянное сопоставление последовательностей нулей и единиц каким-то конкретным символам, входящим в состав шрифта.
Прародителем всех современных кодировок можно считать ASCII.
Эта аббревиатура расшифровывается как American Standard Code for Information Interchange (американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов).
Это однобайтовая кодировка, в которую изначально заложено всего 128 символов: буквы латинского алфавита, арабские цифры и т.д.
Позже она была расширена (изначально она не использовала все 8 бит), поэтому появилась возможность использовать уже не 128, а 256 (2 в 8 степени) различных символов, которые можно закодировать в одном байте информации.
Такое усовершенствование позволило добавлять в ASCII символы национальных языков, помимо уже существующей латиницы.
Вариантов расширенной кодировки ASCII существует очень много по причине того, что языков в мире тоже немало. Думаю, что многие из вас слышали о такой кодировке, как KOI8-R — это тоже расширенная кодировка ASCII, предназначенная для работы с символами русского языка.
Следующим шагом в развитии кодировок можно считать появление так называемых ANSI-кодировок.
По сути это были те же расширенные версии ASCII, однако из них были удалены различные псевдографические элементы и добавлены символы типографики, для которых ранее не хватало «свободных мест».
Примером такой ANSI-кодировки является всем известная Windows-1251. Помимо типографических символов, в эту кодировку также были включены буквы алфавитов языков, близких к русскому (украинский, белорусский, сербский, македонский и болгарский).
ANSI-кодировка — это собирательное название. В действительности, реальная кодировка при использовании ANSI будет определяться тем, что указано в реестре вашей операционной системы Windows. В случае с русским языком это будет Windows-1251, однако, для других языков это будет другая разновидность ANSI.
Как вы понимаете, куча кодировок и отсутствие единого стандарта до добра не довели, что и стало причиной частых встреч с так называемыми кракозябрами — нечитаемым бессмысленным набором символов.
Причина их появления проста — это попытка отобразить символы, закодированные с помощью одной кодировочной таблицы, используя другую кодировочную таблицу.
В контексте веб-разработки, мы можем столкнуться с кракозябрами, когда, к примеру, русский текст по ошибке сохраняется не в той кодировке, которая используется на сервере.
Разумеется, это не единственный случай, когда мы можем получить нечитаемый текст — вариантов тут масса, особенно, если учесть, что есть еще база данных, в которой информация также хранится в определенной кодировке, есть сопоставление соединения с базой данных и т.д.
Возникновение всех этих проблем послужило стимулом для создания чего-то нового. Это должна была быть кодировка, которая могла бы кодировать любой язык в мире (ведь с помощью однобайтовых кодировок при всем желании нельзя описать все символы, скажем, китайского языка, где их явно больше, чем 256), любые дополнительные спецсимволы и типографику.
Одним словом, нужно было создать универсальную кодировку, которая решила бы проблему кракозябров раз и навсегда.
Юникод — универсальная кодировка текста (UTF-32, UTF-16 и UTF-8)
Сам стандарт был предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (Unicode Consortium, Unicode Inc.), и первым результатом его работы стало создание кодировки UTF-32.
Кстати, сама аббревиатура UTF расшифровывается как Unicode Transformation Format (Формат Преобразования Юникод).
В этой кодировке для кодирования одного символа предполагалось использовать аж 32 бита, т.е. 4 байта информации. Если сравнивать это число с однобайтовыми кодировками, то мы придем к простому выводу: для кодирования 1 символа в этой универсальной кодировке нужно в 4 раза больше битов, что «утяжеляет» файл в 4 раза.
Очевидно также, что количество символов, которое потенциально могло быть описано с помощью данной кодировки, превышает все разумные пределы и технически ограничено числом, равным 2 в 32 степени. Понятно, что это был явный перебор и расточительство с точки зрения веса файлов, поэтому данная кодировка не получила распространения.
На смену ей пришла новая разработка — UTF-16.
Как очевидно из названия, в этой кодировке один символ кодируют уже не 32 бита, а только 16 (т.е. 2 байта). Очевидно, это делает любой символ вдвое «легче», чем в UTF-32, однако и вдвое «тяжелее» любого символа, закодированного с помощью однобайтовой кодировки.
Количество символов, доступное для кодирования в UTF-16 равно, как минимум, 2 в 16 степени, т.е. 65536 символов. Вроде бы все неплохо, к тому же окончательная величина кодового пространства в UTF-16 была расширена до более, чем 1 миллиона символов.
Однако и данная кодировка до конца не удовлетворяла потребности разработчиков. Скажем, если вы пишете, используя исключительно латинские символы, то после перехода с расширенной версии кодировки ASCII к UTF-16 вес каждого файла увеличивался вдвое.
В результате, была предпринята еще одна попытка создания чего-то универсального, и этим чем-то стала всем нам известная кодировка UTF-8.
UTF-8 — это многобайтовая кодировка с переменной длинной символа. Глядя на название, можно по аналогии с UTF-32 и UTF-16 подумать, что здесь для кодирования одного символа используется 8 бит, однако это не так. Точнее, не совсем так.
Дело в том, что UTF-8 обеспечивает наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Для кодирования одного символа в UTF-8 реально используется от 1 до 4 байт (гипотетически можно и до 6 байт).
В UTF-8 все латинские символы кодируются 8 битами, как и в кодировке ASCII. Иными словами, базовая часть кодировки ASCII (128 символов) перешла в UTF-8, что позволяет «тратить» на их представление всего 1 байт, сохраняя при этом универсальность кодировки, ради которой все и затевалось.
Итак, если первые 128 символов кодируются 1 байтом, то все остальные символы кодируются уже 2 байтами и более. В частности, каждый символ кириллицы кодируется именно 2 байтами.
Таким образом, мы получили универсальную кодировку, позволяющую охватить все возможные символы, которые требуется отобразить, не «утяжеляя» без необходимости файлы.
C BOM или без BOM?
Если вы работали с текстовыми редакторами (редакторами кода), например Notepad++, phpDesigner, rapid PHP и т.д., то, вероятно, обращали внимание на то, что при задании кодировки, в которой будет создана страница, можно выбрать, как правило, 3 варианта:
— ANSI
— UTF-8
— UTF-8 без BOM
Сразу скажу, что выбирать всегда стоит именно последний вариант — UTF-8 без BOM.
Итак, что же такое BOM и почему нам это не нужно?
BOM расшифровывается как Byte Order Mark. Это специальный Unicode-символ, используемый для индикации порядка байтов текстового файла. По спецификации его использование не является обязательным, однако если BOM используется, то он должен быть установлен в начале текстового файла.
Не будем вдаваться в детали работы BOM. Для нас главный вывод следующий: использование этого служебного символа вместе с UTF-8 мешает программам считывать кодировку нормальным образом, в результате чего возникают ошибки в работе скриптов.
Поэтому, при работе с UTF-8 используйте именно вариант «UTF-8 без BOM». Также лучше не используйте редакторы, в которых в принципе нельзя указать кодировку (скажем, Блокнот из стандартных программ в Windows).
Кодировка текущего файла, открытого в редакторе кода, как правило, указывается в нижней части окна.
Обратите внимание, что запись «ANSI as UTF-8» в редакторе Notepad++ означает то же самое, что и «UTF-8 без BOM». Это одно и то же.
В программе phpDesigner нельзя сразу точно сказать, используется BOM, или нет. Для этого нужно кликнуть правой кнопкой мыши по надписи «UTF-8», после чего во всплывающем окне можно увидеть, используется ли BOM (опция Save with BOM).
В редакторе rapid PHP кодировка UTF-8 без BOM обозначается как «UTF-8*».
Как вы понимаете, в разных редакторах все выглядит немного по-разному, однако главную идею вы поняли.
После того, как документ сохранен в UTF-8 без BOM, нужно также убедиться, что верная кодировка указана в специальном метатэге в секции head вашего html-документа:
<meta charset = "utf-8" />
Соблюдение этих простых правил уже позволит вам избежать многих пробелем с кодировками.
На этом все, надеюсь, что данный небольшой экскурс и пояснения помогли вам лучше понять, что такое кодировки, какие они бывают и как работают.
Если вам интересна эта тема с более прикладной точки зрения, то рекомендую вам изучить мой видеоурок Полный UTF-8: чеклист для начинающих.
Дмитрий Науменко.
P.S. Присмотритесь к премиум-урокам по различным аспектам сайтостроения, а также к бесплатному курсу по созданию своей CMS-системы на PHP с нуля. Все это поможет вам быстрее и проще освоить различные технологии веб-разработки.
Понравился материал и хотите отблагодарить?
Просто поделитесь с друзьями и коллегами!
Смотрите также:
Наверх
Таблица кодов символов Windows-1251
Windows-1251 — набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Данная кодировка пользуется довольно большой популярностью в восточно-европейских странах. Windows-1251 выгодно отличается от других 8-битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в традиционной русской типографике для обычного текста (отсутствует только знак ударения). Кириллические символы идут в алфавитном порядке.
Windows-1251 также содержит все символы для близких к русскому языку языков: белорусского, украинского, сербского, македонского и болгарского.
На практике этого оказалось достаточно, чтобы кодировка Windows-1251 закрепилась в интернете вплоть до распространения UTF-8.
Dec | Hex | Символ | Dec | Hex | Символ | |
---|---|---|---|---|---|---|
000 | 00 | NOP | 128 | 80 | Ђ | |
001 | 01 | SOH | 129 | 81 | Ѓ | |
002 | 02 | STX | 130 | 82 | ‚ | |
003 | 03 | ETX | 131 | 83 | ѓ | |
004 | 04 | EOT | 132 | 84 | „ | |
005 | 05 | ENQ | 133 | 85 | … | |
006 | 06 | ACK | 134 | 86 | † | |
007 | 07 | BEL | 135 | 87 | ‡ | |
008 | 08 | BS | 136 | 88 | € | |
009 | 09 | TAB | 137 | 89 | ‰ | |
010 | 0A | LF | 138 | 8A | Љ | |
011 | 0B | VT | 139 | 8B | ‹ | |
012 | 0C | FF | 140 | 8C | Њ | |
013 | 0D | CR | 141 | 8D | Ќ | |
014 | 0E | SO | 142 | 8E | Ћ | |
015 | 0F | SI | 143 | 8F | Џ | |
016 | 10 | DLE | 144 | 90 | ђ | |
017 | 11 | DC1 | 145 | 91 | ‘ | |
018 | 12 | DC2 | 146 | 92 | ’ | |
019 | 13 | DC3 | 147 | 93 | “ | |
020 | 14 | DC4 | 148 | 94 | ” | |
021 | 15 | NAK | 149 | 95 | • | |
022 | 16 | SYN | 150 | 96 | – | |
023 | 17 | ETB | 151 | 97 | — | |
024 | 18 | CAN | 152 | 98 | ||
025 | 19 | EM | 153 | 99 | ™ | |
026 | 1A | SUB | 154 | 9A | љ | |
027 | 1B | ESC | 155 | 9B | › | |
028 | 1C | FS | 156 | 9C | њ | |
029 | 1D | GS | 157 | 9D | ќ | |
030 | 1E | RS | 158 | 9E | ћ | |
031 | 1F | US | 159 | 9F | џ | |
032 | 20 | SP | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | « | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | ‘ | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Ё | |
041 | 29 | ) | 169 | A9 | © | |
042 | 2A | * | 170 | AA | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | AC | ¬ | |
045 | 2D | — | 173 | AD | | |
046 | 2E | . | 174 | AE | ® | |
047 | 2F | / | 175 | AF | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | ё | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | BA | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | BC | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | BE | ѕ | |
063 | 3F | ? | 191 | BF | ї | |
064 | 40 | @ | 192 | C0 | А | |
065 | 41 | A | 193 | C1 | Б | |
066 | 42 | B | 194 | C2 | В | |
067 | 43 | C | 195 | C3 | Г | |
068 | 44 | D | 196 | C4 | Д | |
069 | 45 | E | 197 | C5 | Е | |
070 | 46 | F | 198 | C6 | Ж | |
071 | 47 | G | 199 | C7 | З | |
072 | 48 | H | 200 | C8 | И | |
073 | 49 | I | 201 | C9 | Й | |
074 | 4A | J | 202 | CA | К | |
075 | 4B | K | 203 | CB | Л | |
076 | 4C | L | 204 | CC | М | |
077 | 4D | M | 205 | CD | Н | |
078 | 4E | N | 206 | CE | О | |
079 | 4F | O | 207 | CF | П | |
080 | 50 | P | 208 | D0 | Р | |
081 | 51 | Q | 209 | D1 | С | |
082 | 52 | R | 210 | D2 | Т | |
083 | 53 | S | 211 | D3 | У | |
084 | 54 | T | 212 | D4 | Ф | |
085 | 55 | U | 213 | D5 | Х | |
086 | 56 | V | 214 | D6 | Ц | |
087 | 57 | W | 215 | D7 | Ч | |
088 | 58 | X | 216 | D8 | Ш | |
089 | 59 | Y | 217 | D9 | Щ | |
090 | 5A | Z | 218 | DA | Ъ | |
091 | 5B | [ | 219 | DB | Ы | |
092 | 5C | \ | 220 | DC | Ь | |
093 | 5D | ] | 221 | DD | Э | |
094 | 5E | ^ | 222 | DE | Ю | |
095 | 5F | _ | 223 | DF | Я | |
096 | 60 | ` | 224 | E0 | а | |
097 | 61 | a | 225 | E1 | б | |
098 | 62 | b | 226 | E2 | в | |
099 | 63 | c | 227 | E3 | г | |
100 | 64 | d | 228 | E4 | д | |
101 | 65 | e | 229 | E5 | е | |
102 | 66 | f | 230 | E6 | ж | |
103 | 67 | g | 231 | E7 | з | |
104 | 68 | h | 232 | E8 | и | |
105 | 69 | i | 233 | E9 | й | |
106 | 6A | j | 234 | EA | к | |
107 | 6B | k | 235 | EB | л | |
108 | 6C | l | 236 | EC | м | |
109 | 6D | m | 237 | ED | н | |
110 | 6E | n | 238 | EE | о | |
111 | 6F | o | 239 | EF | п | |
112 | 70 | p | 240 | F0 | р | |
113 | 71 | q | 241 | F1 | с | |
114 | 72 | r | 242 | F2 | т | |
115 | 73 | s | 243 | F3 | у | |
116 | 74 | t | 244 | F4 | ф | |
117 | 75 | u | 245 | F5 | х | |
118 | 76 | v | 246 | F6 | ц | |
119 | 77 | w | 247 | F7 | ч | |
120 | 78 | x | 248 | F8 | ш | |
121 | 79 | y | 249 | F9 | щ | |
122 | 7A | z | 250 | FA | ъ | |
123 | 7B | { | 251 | FB | ы | |
124 | 7C | | | 252 | FC | ь | |
125 | 7D | } | 253 | FD | э | |
126 | 7E | ~ | 254 | FE | ю | |
127 | 7F | DEL | 255 | FF | я |
Описание специальных (управляющих) символов
Первоначально управляющие символы таблицы ASCII (диапазон 00-31, плюс 127) были разработаны для того, чтобы управлять устройствами аппаратных средств, таких как телетайп, ввод данных на перфоленту и др.
Управляющие символы (кроме горизонтальной табуляции, перевода строки и возврата каретки) не используются в HTML-документах.
Код | Описание |
---|---|
NUL, 00 | Null, пустой |
SOH, 01 | Start Of Heading, начало заголовка |
STX, 02 | Start of TeXt, начало текста |
ETX, 03 | End of TeXt, конец текста |
EOT, 04 | End of Transmission, конец передачи |
ENQ, 05 | Enquire. Прошу подтверждения |
ACK, 06 | Acknowledgement. Подтверждаю |
BEL, 07 | Bell, звонок |
BS, 08 | Backspace, возврат на один символ назад |
TAB, 09 | Tab, горизонтальная табуляция |
LF, 0A | Line Feed, перевод строки Сейчас в большинстве языков программирования обозначается как \n |
VT, 0B | Vertical Tab, вертикальная табуляция |
FF, 0C | Form Feed, прогон страницы, новая страница |
CR, 0D | Carriage Return, возврат каретки Сейчас в большинстве языков программирования обозначается как \r |
SO, 0E | Shift Out, изменить цвет красящей ленты в печатающем устройстве |
SI, 0F | Shift In, вернуть цвет красящей ленты в печатающем устройстве обратно |
DLE, 10 | Data Link Escape, переключение канала на передачу данных |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 |
Device Control, символы управления устройствами |
NAK, 15 | Negative Acknowledgment, не подтверждаю |
SYN, 16 | Synchronization. Символ синхронизации |
ETB, 17 | End of Text Block, конец текстового блока |
CAN, 18 | Cancel, отмена переданного ранее |
EM, 19 | End of Medium, конец носителя данных |
SUB, 1A | Substitute, подставить. Ставится на месте символа, значение которого было потеряно или испорчено при передаче |
ESC, 1B | Escape Управляющая последовательность |
FS, 1C | File Separator, разделитель файлов |
GS, 1D | Group Separator, разделитель групп |
RS, 1E | Record Separator, разделитель записей |
US, 1F | Unit Separator, разделитель юнитов |
DEL, 7F | Delete, стереть последний символ. |
Смотрите также:
URL коды символов ACSII
URL коды символов UTF-8 диапазон от U+0400 до U+04FF
HTML Кодирование URL
Таблица кодов символов кирилицы UTF-8
Коды различных РЗ по стандартам ANSI
1 | Master Element | — |
2 | Time-delay Starting or Closing Relay | Задержка включения или отключения реле |
3 | Checking or Interlocking Relay | Контроль или блокировка реле |
4 | Master Contactor | — |
5 | Stopping Device | Остановка устройства |
6 | Starting Circuit Breaker | Включение выключателя |
7 | Rate of Change Relay | Защита по скорости нарастания |
8 | Control Power Disconnecting Device | Устройство отключения питания управления |
9 | Reversing Device | Устройство реверса |
10 | Unit Sequence Switch | — |
11 | Multifunction Device | — |
12 | Overspeed Device | Защиты от повышенной скорости вращения |
13 | Synchronous-Speed Device | — |
14 | Underspeed Device | Защиты от пониженной скорости вращения |
15 | Speed or Frequency Matching Device | Устройство для измерения скорости или частоты |
16 | Data Communications Device | — |
17 | Shunting or Discharge Switch | Шунтирующий или разгрузочный выключатель |
18 | Accelerating or Decelerating Device | Ускоряющее или замедляющее устройство |
19 | Starting-to-Running Transition Contactor | Стартер двигателя / пусковой контактор перехода |
20 | Electrically-Operated Valve | Электрический клапан |
21 | Distance Relay | Дистанционная защита |
21G | Ground Distance | Защита от снижения сопротивления |
21P | Phase Distance | Дистанционная защита фазная |
21FL | — | Определение места повреждения |
22 | Equalizer circuit breaker | — |
23 | Temperature control device | Устройство контроля температуры |
24 | Volts per hertz relay | Защита от перевозбуждения (контроль насыщения) |
25 | Synchronizing or synchronism-check device | Контроль синхронизма |
26 | Apparatus thermal device | Термореле |
27 | Undervoltage relay | ЗМН (защита минимального напряжения) |
27D | — | Защита минимального напряжения ПП |
27P | Phase Undervoltage | Защита минимального фазного напряжения |
27S | DC undervoltage relay | — |
27TN | Third Harmonic Neutral Undervoltage | Защита минимального напряжения НП 3-ей гармоники |
27R | — | Защита минимального напряжения НП (остаточного напряжения) |
27TN/59N | 100% Stator Earth Fault | 100% защита статора на землю |
27X | Auxiliary Undervoltage | — |
27 AUX | Undervoltage Auxiliary Input | — |
27/27X | Bus/Line Undervoltage | — |
27/50 | Accidental Generator Energization | — |
28 | Flame Detector | Детектор пламени |
29 | Isolating Contactor | Изолирующий контактор |
30 | Annunciator Relay | Сигнальное реле |
31 | Separate Excitation Device | Отдельное устройство возбуждения |
32 | Directional Power Relay | Направленная защита по мощности |
32L | Low Forward Power | Защита по минимальной мощности |
32N | Wattmetric Zero-Sequence Directional | Направленная защита по мощности НП (ваттметрическая) |
32P | Directional Power | Направленная защита по активной мощности |
32R | Reverse Power | Защита по обратной мощности |
33 | Position Switch | Переключатель положения |
34 | Master Sequence Device | Устройство Master Sequence |
35 | Brush-Operating or Slip-ring Short Circuiting Device | Устройство для короткого замыкания с помощью кисти или скользящего кольца |
36 | Polarity or Polarizing Voltage Device | Полярность или поляризационное напряжение |
37 | Undercurrent or Underpower Relay | Минимальная токовая защита в фазах |
37P | Underpower | Направленная защита минимальной активной мощности |
38 | Bearing Protective Device / Bearing Rtd | Устройство защиты подшипника |
39 | Mechanical Condition Monitor | Монитор механического состояния |
40 | Field Relay / Loss of Excitation | Защита от асинхронного режима с потерей возбуждения |
41 | Field Circuit Breaker | Полевой автоматический выключатель |
42 | Running Circuit Breaker | Запуск автоматического выключателя |
43 | Manual Transfer or Selector Device | Устройство ручного переноса или выбора |
44 | Unit Sequence Starting Relay | Исходное реле последовательной последовательности |
45 | Atmospheric Condition Monitor | Монитор атмосферного состояния |
46 | Reverse-Phase or Phase Balance Current Relay or Stator Current Unbalance | МТЗ ОП |
47 | Phase-Sequence or Phase Balance Voltage Relay | Защита максимального напряжения ОП |
48 | Incomplete Sequence Relay / Blocked Rotor | Затянувшийся пуск / Блокировка ротора |
49 | Machine or Transformer Thermal Relay / Thermal Overload | Тепловая защита |
49RTD | RTD Biased Thermal Overload | — |
50 | Instantaneous Overcurrent Relay | — |
50BF | Breaker Failure | УРОВ |
50DD | Current Disturbance Detector | — |
50EF | End Fault Protection | — |
50G | Ground Instantaneous Overcurrent | — |
50IG | Isolated Ground Instantaneous Overcurrent | — |
50LR | Acceleration Time | — |
50N | Neutral Instantaneous Overcurrent | — |
50NBF | Neutral Instantaneous Breaker Failure | Часть функции УРОВ |
50P | Phase Instantaneous Overcurrent | — |
50SG | Sensitive Ground Instantaneous Overcurrent | — |
50SP | Split Phase Instantaneous Current | — |
50Q | Negative Sequence Instantaneous Overcurrent | — |
50/27 | Accidental Energization | Защита генератора от ошибочного включения |
50/51 | Instantaneous / Time-delay Overcurrent relay | Трехфазная МТЗ |
50Ns/51Ns | Sensitive earth-fault protection | МТЗ по току НП |
50/74 | Ct Trouble | — |
50/87 | Instantaneous Differential | — |
51 | AC Time Overcurrent Relay | — |
51 | Overload | — |
51G | Ground Time Overcurrent | — |
51LR | AC inverse time overcurrent (locked rotor) protection relay | Защита заклинивания ротора |
51N | Neutral Time Overcurrent | — |
51P | Phase Time Overcurrent | Фазная МТЗ |
51R | Locked / Stalled Rotor | — |
51V | Voltage Restrained Time Overcurrent | МТЗ с коррекцией по напряжению с выдержкой времени |
51Q | Negative Sequence Time Overcurrent | — |
52 | AC circuit breaker | Переключатель |
52a | AC circuit breaker position (contact open when circuit breaker open) | — |
52b | AC circuit breaker position (contact closed when circuit breaker open) | — |
53 | Exciter or Dc Generator Relay | — |
54 | Turning Gear Engaging Device | — |
55 | Power Factor Relay | Защита от асинхронного режима с потерей возбуждения |
56 | Field Application Relay | — |
57 | Short-Circuiting or Grounding Device | — |
58 | Rectification Failure Relay | — |
59 | Overvoltage Relay | Защита максимального напряжения |
59B | Bank Phase Overvoltage | — |
59P | Phase Overvoltage | Защита максимального фазного напряжения |
59N | Neutral Overvoltage | Защита максимального напряжения НП |
59NU | Neutral Voltage Unbalance | — |
59P | Phase Overvoltage | Защита максимального фазного напряжения |
59X | Auxiliary Overvoltage | — |
59Q | Negative Sequence Overvoltage | — |
60 | Voltage or Current Balance Relay | — |
60N | Neutral Current Unbalance | Ток нейтрали небаланса |
60P | Phase Current Unbalance | Фазный ток небаланса |
61 | Density Switch or Sensor | Переключатель плотности или датчик |
62 | Time-Delay Stopping or Opening Relay | Устройство задержки остановки или старта |
63 | Pressure Switch Detector | Контроль давления |
64 | Ground Protective Relay | Защита от замыкания на землю статора |
64F | Field Ground Protection | — |
64R | Rotor earth fault | Защита от знз обмотки ротора |
64REF | Restricted earth fault differential | Импедансная защита |
64S | Stator earth fault | Защита от знз статора |
64S | Sub-harmonic Stator Ground Protection | Защита статора от знз по 3-ей гармонике |
64TN | 100% Stator Ground | 100% защита статора от знз |
65 | Governor | Регулятор |
66 | Notching or Jogging Device/Maximum Starting Rate/Starts Per Hour/Time Between Starts | Ограничение количества пусков двигателя |
67 | AC Directional Overcurrent Relay | Направленная МТЗ |
67G | Ground Directional Overcurrent | Направленная МТЗ от ЗНЗ, измеряемая ТТНП |
67N | Neutral Directional Overcurrent | Направленная МТЗ от ЗНЗ, вычисляемая 3ТТ |
67Ns | Earth fault directional | — |
67P | Phase Directional Overcurrent | Направленная МТЗ фазная |
67SG | Sensitive Ground Directional Overcurrent | Направленная МТЗ от ЗНЗ, измеряемая чувствительным ТТНП |
67Q | Negative Sequence Directional Overcurrent | — |
68 | Blocking Relay / Power Swing Blocking | Контроль за бросками тока |
69 | Permissive Control Device | Устройство разрешающее управление |
70 | Rheostat | Реостат |
71 | Liquid Switch | Переключатель уровня |
72 | DC Circuit Breaker | Переключатель |
73 | Load-Resistor Contactor | Нагрузочный резисторный контактор |
74 | Alarm Relay | Реле контроля |
74TCS | — | Контроль цепи отключения |
75 | Position Changing Mechanism | Механизм изменения положения |
76 | DC Overcurrent Relay | Защита от повышения постоянного тока |
77 | Telemetering Device | Телеметрическое устройство |
78 | Phase Angle Measuring or Out-of-Step Protective Relay | Контроль синхронной работы синхронных машин |
78V | Loss of Mains | Потеря сети |
79 | AC Reclosing Relay / Auto Reclose | АПВ |
80 | Liquid or Gas Flow Relay | Переключатель потока |
81 | Frequency Relay | Защита по частоте |
81O | Over Frequency | Защита максимальной частоты |
81R | Rate-of-Change Frequency | Защита по скорости изменения частоты (df/dt) |
81RAV | — | Контроль средней скорости изменения частоты |
81RF | — | Защита по скорости изменения частоты с контролем по частоте |
81U | Under Frequency | Защита минимальной частоты |
82 | DC Reclosing Relay | Повторное включение |
83 | Automatic Selective Control or Transfer Relay | — |
84 | Operating Mechanism | Исполнительный механизм |
85 | Pilot Communications, Carrier or Pilot-Wire Relay | Обмен сигналами защиты |
86 | Lock-Out Relay, Master Trip Relay | Запоминание выходных реле |
87 | Differential Protective Relay | Дифференциальная защита |
87N | — | Дифференциальная защита, высокоимпедансная от замыкания на землю |
87B | Bus Differential | Дифференциальная защита сборных шин |
87G | Generator Differential | Дифференциальная защита генератора |
87GT | Generator/Transformer Differential | Дифференциальная защита генератора/трансформатора |
87L | Segregated Line Current Differential | Дифференциальная защита линии |
87LG | Ground Line Current Differential | Дифференциальная защита |
87M | Motor Differential | Дифференциальная защита двигателя |
87O | Overall Differential | — |
87PC | Phase Comparison | — |
87RGF | Restricted Ground Fault | — |
87S | Stator Differential | — |
87S | Percent Differential | — |
87T | Transformer Differential | Дифференциальная защита транформатора |
87V | Voltage Differential | — |
88 | Auxiliary Motor or Motor Generator | Вспомогательное устройство |
89 | Line Switch | Линейный переключатель |
90 | Regulating Device | Регулирующее устройство |
91 | Voltage Directional Relay | Реле напряжения |
92 | Voltage And Power Directional Relay | Реле напряжения и мощности |
93 | Field-Changing Contactor | Контактор шунтирования обмотки возбуждения |
94 | Tripping or Trip-Free Relay | Реле свободного расцепления или отключающее реле |
95-99 | For specific applications where other numbers are not suitable | Для специального использования, где другие номера не подходят |
Таблица кодирования символов в URL
В URL некоторые символы должны кодироваться, в PHP для этого применяется функция urlencode()
. По её алгоритму все символы, кроме латинских букв, -
, _
, .
заменяются знаком процента (%
), за которым идут два шестнадцатеричных числа (поэтому результат зависит от кодировки), пробелы заменяются на знак сложения (+
).
Так же есть функция rawurlencode()
, которая выполняет туже роль, но с минимальным различием – символ ~
остается без изменяя.
Таблица URL-кодирования:
Символ | UTF-8 | ANSI |
---|---|---|
~ | %7E | %7E |
` | 60% | 60% |
‘ | 27% | 27% |
« | 22% | 22% |
@ | 40% | 40% |
? | %3F | %3F |
! | 21% | 21% |
# | 23% | 23% |
№ | %E2%84%96 | %B9 |
$ | 24% | 24% |
% | 25% | 25% |
^ | %5E | %5E |
& | 26% | 26% |
+ | %2B | %2B |
* | %2A | %2A |
: | %3A | %3A |
, | %2C | %2C |
( | 28% | 28% |
) | 29% | 29% |
{ | %7B | %7B |
} | %7D | %7D |
[ | %5B | %5B |
] | %5D | %5D |
< | %3C | %3C |
> | %3E | %3E |
/ | %2F | %2F |
%5C | %5C | |
А | %D0%90 | %C0 |
а | %D0%B0 | %E0 |
Б | %D0%91 | %C1 |
б | %D0%B1 | %E1 |
В | %D0%92 | %C2 |
в | %D0%B2 | %E2 |
Г | %D0%93 | %C3 |
г | %D0%B3 | %E3 |
Д | %D0%94 | %C4 |
д | %D0%B4 | %E4 |
Е | %D0%95 | %C5 |
е | %D0%B5 | %E5 |
Ё | %D0%81 | %A8 |
ё | %D1%91 | %B8 |
Ж | %D0%96 | %C6 |
ж | %D0%B6 | %E6 |
З | %D0%97 | %C7 |
з | %D0%B7 | %E7 |
И | %D0%98 | %C8 |
и | %D0%B8 | %E8 |
Й | %D0%99 | %C9 |
й | %D0%B9 | %E9 |
К | %D0%9A | %CA |
к | %D0%BA | %EA |
Л | %D0%9B | %CB |
л | %D0%BB | %EB |
М | %D0%9C | %CC |
м | %D0%BC | %EC |
Н | %D0%9D | %CD |
н | %D0%BD | %ED |
О | %D0%9E | %CE |
о | %D0%BE | %EE |
П | %D0%9F | %CF |
п | %D0%BF | %EF |
Р | %D0%A0 | %D0 |
р | %D1%80 | %F0 |
С | %D0%A1 | %D1 |
с | %D1%81 | %F1 |
Т | %D0%A2 | %D2 |
т | %D1%82 | %F2 |
У | %D0%A3 | %D3 |
у | %D1%83 | %F3 |
Ф | %D0%A4 | %D4 |
ф | %D1%84 | %F4 |
Х | %D0%A5 | %D5 |
х | %D1%85 | %F5 |
Ц | %D0%A6 | %D6 |
ц | %D1%86 | %F6 |
Ч | %D0%A7 | %D7 |
ч | %D1%87 | %F7 |
Ш | %D0%A8 | %D8 |
ш | %D1%88 | %F8 |
Щ | %D0%A9 | %D9 |
щ | %D1%89 | %F9 |
Ъ | %D0%AA | %DA |
ъ | %D1%8A | %FA |
Ы | %D0%AB | %DB |
ы | %D1%8B | %FB |
Ь | %D0%AC | %DC |
ь | %D1%8C | %FC |
Э | %D0%AD | %DD |
э | %D1%8D | %FD |
Ю | %D0%AE | %DE |
ю | %D1%8E | %FE |
Я | %D0%AF | %DF |
я | %D1%8F | %FF |
ANSI и Unicode — Основы программирования
Windows поддерживает две кодировки: ANSI и Unicode. В кодировке ANSI (American National Standard Institute) каждый символ кодируется однобайтным кодом. Коды от 0 до 127 совпадают с кодами ASCII, коды от 128 до 255 могут означать разные символы различных языков в зависимости от выбранной кодовой страницы. Кодовые страницы позволяют уместить многочисленные символы различных языков в однобайтный код, но при этом можно работать только с одной кодовой страницей, т.е. с одним языком. Неверно выбранная кодовая страница приводит к появлению непонятных символов (в Интернете их обычно называют «кракозябрами») вместо осмысленного текста.
В кодировке Unicode используется 2 байта на символ, что даёт возможность закодировать 65 536 символов. Этого хватает для символов латиницы и кириллицы, греческого алфавита, китайских иероглифов, арабских и еврейских букв, а также многочисленных дополнительных (финансовых, математических и т. п.) символов. Кодовых страниц в Unicode нет.
Примечание
Кодовая страница русского языка в ANSI имеет номер 1251. Кодировка символов в ней отличается от принятой в DOS так называемой альтернативной кодировки. В целях совместимости для DOS-программ, а также для консольных приложений Windows использует альтернативную кодировку. Именно поэтому при выводе русского текста в консольных приложениях получаются те самые «кракозябры». Чтобы избежать этого, следует перекодировать символы из кодировки ANSI в DOS при выводе, и наоборот — при вводе. Это можно сделать с помощью функций CharToOem и OemToChar.
Windows NT/2000/XP поддерживает ANSI и Unicode в полном объеме. Это значит, что любая функция, работающая со строками, представлена в двух вариантах: для ANSI и для Unicode. Windows 9x/МЕ в полном объеме поддерживает только ANSI. Unicode-варианты в этих системах есть у относительно небольшого числа функций. Каждая страница MSDN, посвященная функции, работающей со строками (или со структурами, содержащими строки), в нижней части содержит надпись, показывающую, реализован ли Unicode-вариант этой функции только для NT/2000/XP или для всех платформ.
Примечание
В качестве примера рассмотрим функции вывода текста на экран. Unicode-версию на всех платформах имеют только две из них TextOut и ExtTextOut. Функции DrawText и DrawTextEx имеют Unicode-варианты только в Windows NT/2000/XP. Если же смотреть функции для работы с окнами, то среди них нет ни одной, которая имела бы Unicode-вариант в Windows 9х/МЕ. Следует отметить, что с относительно недавнего времени Microsoft предоставляет расширение для Windows 9x/МЕ которое позволяет добавить полную поддержку Unicode в эти системы. Это расширение называется MSLU (Microsoft Layer for Unicode), его можно скачать с официального сайта Microsoft.
Рассмотрим, как сосуществуют два варианта на примере функции RegisterWindowMessage. Согласно справке, она экспортируется библиотекой user32.dll. Однако если посмотреть список функций, экспортируемых этой библиотекой (это можно сделать, например, при помощи утилиты TDump.exe, входящей в состав Delphi), то там этой функции не будет, зато будут функции RegisterWindowMessageA и RegisterWindowMessageW. Первая из них — это ANSI-вариант функции, вторая — Unicode-вариант (буква W означает Wide — широкий; символы кодировки Unicode часто называются широкими из-за того, что на один символ приходится не один, а два байта).
Сначала разберемся с тем, как используются два варианта одной функции в Microsoft Visual C++. В стандартных заголовочных файлах учитывается наличие макроопределения UNICODE. Есть два символьных типа — CHAR для ANSI и WCHAR для Unicode. Если макрос UNICODE определен, тип TCHAR соответствует типу WCHAR, если не определен — типу CHAR (после этого производные от TCHAR типы, такие как LPCTSTR автоматически начинают соответствовать кодировке, определяемой наличием или отсутствием определения UNICODE). В заголовочных файлах импортируются оба варианта функции, а также определяется макрос RegisterWindowMessage. Его смысл также зависит от макроса UNICODE: если он определен, RegisterWindowMessage эквивалентен RegisterWindowMessageW, если не определен — RegisterWindowMessageA. Все функции, поддерживающие два варианта кодировки, импортируются точно так же. Таким образом, вставляя или убирая макроопределение UNICODE, можно, не меняя ни единого символа в программе, компилировать ее ANSI- или Unicode-версию.
Разработчики Delphi не стали полностью копировать этот механизм, видимо, этому помешала существующая в Delphi раздельная компиляция модулей, из-за которой невозможно определением одного символа заставить все модули перекомпилироваться (тем более что часть из них может не иметь исходных кодов). Поэтому в Delphi нет типа, аналогичного TCHAR.
Рассмотрим, как та же функция RegisterWindowMessage импортируется модулем Windows (листинг 1.19).
Листинг 1.19. Импорт функции RegisterWindowMessage
interface
…
function RegisterWindowMessage (lpString: PChar): UINT; stdcall;
function RegisterWindowMessageA (lpString: PAnsiChar): UINT;
stdcall; function RegisterWindowMessageW (lpString: PWideChar): UINT; stdcall;
…
implementation
…
function RegisterWindowMessage;
external user32 name ‘RegisterWindowMessageA’;
function RegisterWindowMessageA;
external user32 name ‘RegisterWindowMessageA’;
function RegisterWindowMessageW;
external user32 name ‘RegisterWindowMessageW’;
Видно, что функция RegisterWindowMessageA импортируется дважды: один раз под своим настоящим именем, а второй раз — под именем RegisterWindowMessage. Любое из этих имен подходит для вызова ANSI-варианта этой функции (напоминаю, что типы PChar и PAnsiChar эквивалентны). Чтобы вызвать Unicode-вариант функции, потребуется функция RegisterWindowMessageW.
Структуры, содержащие строковые данные, также имеют ANSI- и Unicode-вариант. Например, структура WNDCLASS в модуле Windows представлена типами TWndClassA (с синонимами WNDCLASSA и tagWNDCLASSA) и TWndClassW (с синонимами WNDCLASSW и tagWHDCLASSW). Тип TWndClass (и его синонимы WNDCLASS и tagWNDCLASS) эквивалентен типу TWndClassA. Соответственно, при вызове функций RegisterClassA и RegisterClassExA используется тип TWndClassA, при вызове RegisterClassW и RegisterClassExW — тип TWndClassW.
Что такое кодировка текста? Юникод и кодировки Utf-8, ANSI, Windows-1251
Charsets
Часто в веб-программировании и вёрстке html-страниц приходится думать о кодировке редактируемого файла — ведь если кодировка выбрана неверная, то есть вероятность, что браузер не сможет автоматически её определить и в результате пользователь увидит т.н. «кракозябры».
Возможно, вы сами видели на некоторых сайтах вместо нормального текста непонятные символы и знаки вопроса. Всё это возникает тогда, когда кодировка html-страницы и кодировка самого файла этой страницы не совпадают.
Вообще, что такое кодировка текста? Это просто набор символов, по-английски «charset » (character set). Нужна она для того, чтобы текстовую информацию преобразовывать в биты данных и передавать, например, через Интернет.
Собственно, основные параметры, которыми различаются кодировки — это количество байтов и набор спец.символов, в которые преобразуется каждый символ исходного текста.
Краткая история кодировок:
Одной из первых для передачи цифровой информации стало появление кодировки ASCII — American Standard Code for Information Interchange — Американская стандартная кодировочная таблица, принятая Американским национальным институтом стандартов — American National Standards Institute (ANSI).
В этих аббревиатурах можно запутаться
Для практики же важно понимать, что исходная кодировка создаваемых текстовых файлов может не поддерживать все символы некоторых алфавитов (к примеру, иероглифы), потому идёт тенденция к переходу к т.н. стандарту Юникод (Unicode), который поддерживает универсальные кодировки — Utf-8, Utf-16, Utf-32 и др.
Самая популярная из кодировок Юникода — кодировка Utf-8. Обычно в ней сейчас верстаются страницы сайтов и пишутся разные скрипты. Она позволяет без проблем отображать различные иероглифы, греческие буквы и прочие мыслимые и немыслимые символы (размер символа до 4-х байт). В частности, все файлы WordPress и Joomla пишутся именно в этой кодировке. А также некоторые веб-технологии (в частности, AJAX) способны нормально обрабатывать только символы utf-8.
Установка кодировок текстового файла при создании его обычным блокнотом. Кликабельно
В Рунете же ещё можно встретить сайты, написанные с расчётом на кодировку Windows-1251 (или cp-1251). Это специальная кодировка, предназначенная специально для кириллицы.
Почему вообще необходимо иметь представление о разных кодировках? Дело в том, что нередко на том же WordPress можно встретить, например, в Footer’е знаки вопроса вместо нормального текста. Это просто говорит о том, что php-файл Footer’а сохранён в одной кодировке, а в заголовке html-страницы указана совсем другая кодировка. Прочитайте — как сменить кодировку файла и что в этом поможет.
Loading…
HTML Windows-1252 Ссылка
Символ | Номер | Название организации | Описание |
---|---|---|---|
0-31 | Управляющие символы (см. Ниже) | ||
32 | пробел | ||
! | 33 | восклицательный знак | |
« | 34 | » | кавычка |
# | 35 | цифровой знак | |
$ | 36 | знак доллара | |
% | 37 | знак процента | |
& | 38 | & amp; | амперсанд |
‘ | 39 | апостроф | |
( | 40 | левая скобка | |
) | 41 | правая скобка | |
* | 42 | звездочка | |
+ | 43 | плюс | |
, | 44 | запятая | |
— | 45 | дефис-минус | |
. | 46 | полная остановка | |
/ | 47 | солидус | |
0 | 48 | ноль | |
1 | 49 | цифра один | |
2 | 50 | цифра два | |
3 | 51 | цифра три | |
4 | 52 | цифра четыре | |
5 | 53 | цифра пять | |
6 | 54 | цифра шесть | |
7 | 55 | цифра семь | |
8 | 56 | цифра восемь | |
9 | 57 | цифра девять | |
58 | двоеточие | ||
; | 59 | точка с запятой | |
< | 60 | & lt; | знак «меньше» |
= | 61 | знак равенства | |
> | 62 | & gt; | знак «больше» |
? | 63 | вопросительный знак | |
@ | 64 | коммерческий в | |
A | 65 | Заглавная латинская буква A | |
B | 66 | Заглавная латинская буква B | |
C | 67 | Заглавная латинская буква C | |
D | 68 | Заглавная латинская буква D | |
E | 69 | Latin заглавная буква E | |
F | 70 | Заглавная латинская буква F | |
G | 71 | Заглавная латинская буква G | |
H | 72 | Заглавная латинская буква H | |
I | 73 | Латинская заглавная буква I | |
J | 74 | Заглавная латинская буква J | |
K | 75 | Заглавная латинская буква K | |
L | 76 | Заглавная латинская буква L | |
M | 77 | Заглавная латинская буква M | |
N | 78 | Заглавная латинская буква N | |
O | 79 | Заглавная латинская буква O | |
P | 80 | Заглавная латинская буква P | |
Q | 81 | Заглавная латинская буква Q | |
R | 82 | Заглавная латинская буква R | |
S | 83 | Заглавная латинская буква S | |
T 90 015 | 84 | Заглавная латинская буква T | |
U | 85 | Заглавная латинская буква U | |
V | 86 | Заглавная латинская буква V | |
W | 87 | Заглавная латинская буква W | |
X | 88 | Заглавная латинская буква X | |
Y | 89 | Заглавная латинская буква Y | |
Z | 90 | Заглавная латинская буква Z | |
[ | 91 | левая квадратная скобка | |
\ | 92 | обратный солидус | |
] | 93 | правый квадрат кронштейн | |
^ | 94 | циркумфлекс акцент | |
_ | 95 | нижняя строка | |
` | 96 | могильный акцент | |
a | 97 | Строчная латинская буква a | |
b | 98 | Строчная латинская буква b | |
c | 99 | Строчная латинская буква c | |
d | 100 | Строчная латинская буква d | |
e | 101 | Строчная латинская буква e | |
f | 102 | Строчная латинская буква f | |
g | 103 | Строчная латинская буква g | |
h | 104 | Строчная латинская буква h | |
i | 105 | Строчная латинская буква i | |
j | 106 | Строчная латинская буква j | |
k | 107 | Строчная латинская буква k | |
l | 108 | Латинская строчная буква l | |
m | 109 | строчная латинская буква m | |
n | 110 | строчная латинская буква n | |
o | 111 | строчная латинская буква o | |
p | 112 | Строчная латинская буква p | |
q | 113 | Строчная латинская буква q | |
r | 114 | Строчная латинская буква r | |
s | 115 | Строчная латинская буква s | |
116 | Строчная латинская буква t | ||
u | 117 | Строчная латинская буква u | |
v | 118 | Строчная латинская буква v | |
w | 119 | Строчная латинская буква w | |
x | 120 | Строчная латинская буква x | |
y | 121 | Строчная латинская буква y | |
z | 122 | Строчная латинская буква z | |
{ | 123 | левая фигурная скобка | |
| | 124 | вертикальная линия | |
} | 125 | правая фигурная скобка | |
~ | 126 | тильда | |
127 | Управляющий символ (см. ниже) | ||
€ | 128 | и евро; | знак евро |
129 | НЕ ИСПОЛЬЗУЕТСЯ | ||
‚ | 130 | & sbquo; | одинарная кавычка с малым числом 9 |
ƒ | 131 | & fnof; | Строчная латинская буква f с крючком |
„ | 132 | & bdquo; | двойная кавычка с малым числом 9 |
… | 133 | & hellip; | эллипс по горизонтали |
† | 134 | & кинжал; | кинжал |
‡ | 135 | и кинжал; | двойной кинжал |
ˆ | 136 | & circ; | модификатор буквы с циркумфлексом с ударением |
‰ | 137 | & permil; | знак промилле |
Š | 138 | & Scaron; | Заглавная латинская буква S с кароном |
‹ | 139 | & lsaquo; | одинарная кавычка, указывающая влево |
Œ | 140 | & OElig; | Латинская заглавная лигатура OE |
141 | НЕ ИСПОЛЬЗУЕТСЯ | ||
& Zcaron; | 142 | и Zcaron; | Заглавная латинская буква Z с кароном |
143 | НЕ ИСПОЛЬЗУЕТСЯ | ||
144 | НЕ ИСПОЛЬЗУЕТСЯ | ||
‘ | 145 | & lsquo; | левая одинарная кавычка |
’ | 146 | & rsquo; | правая одинарная кавычка |
“ | 147 | & ldquo; | левая двойная кавычка |
” | 148 | & rdquo; | правая двойная кавычка |
• | 149 | & bull; | пуля |
— | 150 | & ndash; | en тире |
— | 151 | & mdash; | длинное тире |
~ | 152 | & тильда; | маленькая тильда |
™ | 153 | & trade; | знак товарного знака |
š | 154 | & scaron; | Строчная латинская буква s с кароном |
› | 155 | & rsaquo; | одинарная кавычка с прямым углом |
œ | 156 | & oelig; | Строчная латинская лигатура oe |
157 | НЕ ИСПОЛЬЗУЕТСЯ | ||
& zcaron; | 158 | & zcaron; | Строчная латинская буква z с кароном |
Ÿ | 159 | & Yuml; | Заглавная латинская буква Y с тремой |
160 | & nbsp; | непрерывное пространство | |
¡ | 161 | & iexcl; | перевернутый восклицательный знак |
¢ | 162 | & cent; | центов знак |
£ | 163 | & фунт; | знак фунта |
¤ | 164 | & curren; | знак валюты |
¥ | 165 | и иен; | знак йены |
¦ | 166 | & brvbar; | сломанный стержень |
§ | 167 | & sect; | знак раздела |
¨ | 168 | & uml; | диэрезис |
© | 169 | & копия; | знак авторского права |
ª | 170 | & ordf; | женский порядковый указатель |
« | 171 | »; | двойные угловые кавычки, указывающие влево |
¬ | 172 | & not; | не подписывать |
173 | & shy; | мягкий перенос | |
® | 174 | & reg; | зарегистрированный знак |
¯ | 175 | & macr; | макрон |
° | 176 | & deg; | знак градуса |
± | 177 | & plusmn; | знак плюс-минус |
² | 178 | & sup2; | верхний индекс два |
³ | 179 | & sup3; | тройной верхний индекс |
´ | 180 | и острый; | острый акцент |
µ | 181 | & микро; | микроподпись |
¶ | 182 | и пара; | вывеска Pilcrow |
· | 183 | & middot; | средняя точка |
¸ | 184 | & cedil; | седилла |
¹ | 185 | & sup1; | верхний индекс один |
º | 186 | & ordm; | мужской порядковый указатель |
» | 187 | & raquo; | двойные угловые кавычки, указывающие вправо |
¼ | 188 | & frac14; | вульгарная фракция одна четверть |
½ | 189 | & frac12; | вульгарная фракция половина |
¾ | 190 | & frac34; | вульгарная фракция три четверти |
¿ | 191 | & iquest; | перевернутый вопросительный знак |
À | 192 | & Agrave; | Заглавная латинская буква A с могилой |
Á | 193 | & Aacute; | Заглавная латинская буква A с острым ударением |
 | 194 | & Acirc; | Заглавная латинская буква A с циркумфлексом |
à | 195 | & Atilde; | Заглавная латинская буква A с тильдой |
Ä | 196 | & Auml; | Заглавная латинская буква A с диэрезисом |
Å | 197 | & Aring; | Заглавная латинская буква A с кольцом сверху |
Æ | 198 | & AElig; | Заглавная латинская буква AE |
Ç | 199 | & Ccedil; | Заглавная латинская буква C с седилем |
È | 200 | & Egrave; | Заглавная латинская буква E с могилой |
É | 201 | & Eacute; | Заглавная латинская буква E с острым ударением |
Ê | 202 | & Ecirc; | Заглавная латинская буква E с циркумфлексом |
Ë | 203 | & Euml; | Заглавная латинская буква E с тремой |
Ì | 204 | & Igrave; | Заглавная латинская буква I с могилой |
Í | 205 | & Iacute; | Заглавная латинская буква I с острым ударением |
Î | 206 | & Icirc; | Заглавная латинская буква I с циркумфлексом |
Ï | 207 | & Iuml; | Заглавная латинская буква I с тремой |
ì | 208 | & ETH; | Заглавная латинская буква Eth |
Ñ | 209 | & Ntilde; | Заглавная латинская буква N с тильдой |
Ò | 210 | & Ograve; | Заглавная латинская буква O с могилой |
Ó | 211 | & Oacute; | Заглавная латинская буква O с острым ударением |
Ô | 212 | & Ocirc; | Заглавная латинская буква O с циркумфлексом |
Õ | 213 | & Otilde; | Заглавная латинская буква O с тильдой |
Ö | 214 | & Ouml; | Заглавная латинская буква O с тремой |
× | 215 | & раз; | знак умножения |
Ø | 216 | & Oslash; | Заглавная латинская буква O со штрихом |
Ù | 217 | & Ugrave; | Латинская заглавная буква U с могилой |
Ú | 218 | & Uacute; | Заглавная латинская буква U с острым ударением |
Û | 219 | & Ucirc; | Заглавная латинская буква U с циркумфлексом |
Ü | 220 | & Uuml; | Заглавная латинская буква U с тремой |
Ý | 221 | & Yacute; | Заглавная латинская буква Y с острым ударением |
Þ | 222 | & THORN; | Заглавная латинская буква Шип |
ß | 223 | & szlig; | Строчная латинская буква с острым концом s |
à | 224 | & agrave; | Строчная латинская буква а с могилой |
á | 225 | & aacute; | Строчная латинская буква А с острым ударением |
â | 226 | & acirc; | Строчная латинская буква a с циркумфлексом |
ã | 227 | & atilde; | Строчная латинская буква а с тильдой |
ä | 228 | & auml; | Строчная латинская буква а с тремой |
å | 229 | & aring; | Строчная латинская буква а с кружком сверху |
æ | 230 | & aelig; | Строчная латинская буква ae |
ç | 231 | & ccedil; | Строчная латинская буква c с седилем |
è | 232 | & egrave; | Строчная латинская буква е с тупым ударением |
é | 233 | & eacute; | Строчная латинская буква e с острым ударением |
ê | 234 | & ecirc; | Строчная латинская буква e с циркумфлексом |
ë | 235 | & euml; | Строчная латинская буква e с тремой |
ì | 236 | & igrave; | Строчная латинская буква i с надписями |
í | 237 | & iacute; | Строчная латинская буква i с острым ударением |
î | 238 | & icirc; | Строчная латинская буква i с циркумфлексом |
ï | 239 | & iuml; | Строчная латинская буква i с тремой |
ð | 240 | & eth; | Строчная латинская буква eth |
— | 241 | & ntilde; | Строчная латинская буква n с тильдой |
ò | 242 | & ograve; | Строчная латинская буква o с могилой |
ó | 243 | & oacute; | Строчная латинская буква o с острым ударением |
ô | 244 | & ocirc; | Строчная латинская буква o с циркумфлексом |
х | 245 | & otilde; | Строчная латинская буква o с тильдой |
ö | 246 | & ouml; | Строчная латинская буква o с тремой |
÷ | 247 | & div; | разделительный знак |
ø | 248 | & oslash; | Строчная латинская буква o со штрихом |
ù | 249 | & ugrave; | Строчная латинская буква u с могилой |
ú | 250 | & uacute; | Строчная латинская буква u с острым ударением |
û | 251 | & ucirc; | Строчная латинская буква u с циркумфлексом |
ü | 252 | & uuml; | Строчная латинская буква u с тремой |
ý | 253 | & yacute; | Строчная латинская буква y с острым ударением |
þ | 254 | & thorn; | Строчная латинская буква шип |
ÿ | 255 | & yuml; | Строчная латинская буква y с тремой |
9001 4: 9 0014 t
.
Кодировка HTML
Чтобы правильно отображать HTML-страницу, веб-браузер должен знать
какой набор символов использовать.
Из ASCII в UTF-8
ASCII был первым стандартом кодировки символов. ASCII определяет 128 различных символов, которые могут использоваться в Интернете: цифры (0-9), английские буквы (A-Z) и некоторые специальные
персонажи нравятся! $ + — () @ <>.
ISO-8859-1 был набором символов по умолчанию для HTML 4. Этот набор символов
поддерживаются 256 различных кодов символов.HTML 4 также поддерживает UTF-8.
ANSI (Windows-1252) был исходным набором символов Windows. ANSI идентичен
согласно ISO-8859-1, за исключением того, что ANSI содержит 32 дополнительных символа.
Набор символов по умолчанию для HTML5 — UTF-8, который охватывает почти все
персонажи и символы в мире!
Атрибут кодировки HTML
Чтобы правильно отображать HTML-страницу, веб-браузер должен знать набор символов, используемый на странице.
Это указано в теге
:
Различия между наборами символов
В следующей таблице показаны различия между наборами символов, описанными выше:
9 0047 *
900 47 7
900 47 Заглавная латинская буква G
90 047 W
]
900 кинжал
90 045
900 47
9 0047 микро знак
Число | ASCII | ANSI | 8859 | UTF-8 | Описание |
---|---|---|---|---|---|
32 | пространство | ||||
33 | ! | ! | ! | ! | восклицательный знак |
34 | « | » | « | » | кавычка |
35 | # | # | # | # | цифровой знак |
36 | $ | $ | $ | $ | Знак доллара |
37 | % | % | % | % | Знак процента |
38 | & | & | и | и | амперсанд |
39 | ‘ | ‘ | ‘ | ‘ | апостроф |
40 | ( | ( | ( | ( | левая скобка |
41 | ) | ) | ) | ) | правая скобка |
42 | * | * | * | звездочка | |
43 | + | + | + | + | знак плюса |
44 | , | , | , | , | запятая |
45 | — | — | — | — | дефис минус |
46 | . | . | . | . | полная остановка |
47 | / | / | / | / | солидус |
48 | 0 | 0 | 0 | 0 | нулевая цифра |
49 | 1 | 1 | 1 | 1 | 1 цифра |
50 | 2 | 2 | 2 | 2 | 2 цифра |
51 | 3 | 3 | 3 | 3 | цифра три |
52 | 4 | 4 | 4 | 4 | цифра четыре |
53 | 5 | 5 | 5 | 5 | цифра пять |
54 | 6 | 6 | 6 | 6 | цифра шесть |
55 | 7 | 7 | 7 | цифра семь | |
56 | 8 | 8 | 8 | 8 | цифра восемь |
57 | 9 | 9 | 9 | 9 | цифра девять |
58 | : | : | : | : | двоеточие |
59 | ; | ; | ; | ; | точка с запятой |
60 | < | < | < | < | знак «меньше» |
61 | = | = | = | = | знак равенства |
62 | > | > | > | > | Знак «больше» |
63 | ? | ? | ? | ? | вопросительный знак |
64 | @ | @ | @ | @ | коммерческий в |
65 | A | A | A | A | Заглавная латинская буква A |
66 | B | B | B | B | Заглавная латинская буква B |
67 | C | C | C | C | Заглавная латинская буква C |
68 | D | D | D | D | Заглавная латинская буква D |
69 | E | E | E | E | Заглавная латинская буква E |
70 | F | F | F | F | Заглавная латинская буква F |
71 | G | G | G | G | |
72 | H | H | H | H | Заглавная латинская буква H |
73 | I | I | I | I | Заглавная латинская буква I |
74 | J | J | J | J | Заглавная латинская буква J |
75 | K | K | K | K | Заглавная латинская буква K |
76 | L | L | L | L | Заглавная латинская буква L |
77 | M | M | M | M | Заглавная латинская буква M |
78 | N | N | N | N | Заглавная латинская буква N |
79 | O | O | O | O 90 048 | Заглавная латинская буква O |
80 | P | P | P | P | Заглавная латинская буква P |
81 | Q | Q | Q | Q | Латинская заглавная буква буква Q |
82 | R | R | R | R | Заглавная латинская буква R |
83 | S | S | S | S | Заглавная латинская буква S |
84 | T | T | T | T | Заглавная латинская буква T |
85 | U | U | U | U | Заглавная латинская буква U |
86 | V | V | V | V | Заглавная латинская буква V |
87 | W | W | W | Заглавная латинская буква W | |
88 | X | X | X | X | Заглавная латинская буква X |
89 | Y | Y | Y | Y | Заглавная латинская буква Y |
90 | Z | Z | Z | Z | Заглавная латинская буква Z |
91 | [ | [ | [ | [ | левая квадратная скобка |
92 | \ | \ | \ | \ | обратный солидус |
93 | ] | ] | ] | ] | правая квадратная скоба |
94 | ^ | ^ | ^ | ^ | Акцент с циркумфлексом |
95 | _ | _ | _ | _ 900 48 | low line |
96 | ` | ` | ` | ` | Grave Accent |
97 | a | a | a | a | Строчная латинская буква a |
98 | b | b | b | b | Строчная латинская буква b |
99 | c | c | c | c | Строчная латинская буква c |
100 | d | d | d | d | Строчная латинская буква d |
101 | e | e | e | e | Строчная латинская буква e |
102 | f | f | f | f | Строчная латинская буква f |
103 | g | g | g | g | Строчная латинская буква le tter g |
104 | h | h | h | h | Строчная латинская буква h |
105 | i | i | i | i | Строчная латинская буква i |
106 | j | j | j | j | Строчная латинская буква j |
107 | k | k | k | k | Строчная латинская буква k |
108 | l | l | l | l | Строчная латинская буква l |
109 | m | m | m | m | Строчная латинская буква m |
110 | n | n | n | n | Строчная латинская буква n |
111 | o | o | o | o | Строчная латинская буква tter o |
112 | p | p | p | p | Строчная латинская буква p |
113 | q | q | q | q | Строчная латинская буква q |
114 | r | r | r | r | Строчная латинская буква r |
115 | s | s | s | s | Строчная латинская буква s |
116 | t | t | t | t | Строчная латинская буква t |
117 | u | u | u | u | Строчная латинская буква u |
118 | v | v | v | v | Строчная латинская буква v |
119 | w | w | w | w | Строчная латинская буква tter w |
120 | x | x | x | x | Строчная латинская буква x |
121 | y | y | y | y | Строчная латинская буква y |
122 | z | z | z | z | Строчная латинская буква z |
123 | { | { | { | { | левая фигурная скобка |
124 | | | | | | | | | вертикальная линия |
125 | } | } | } | } | правая фигурная скобка |
126 | ~ | ~ | ~ | ~ | тильда |
127 | DEL | ||||
128 | € | евро знак | |||
129 | НЕ ИСПОЛЬЗУЕТСЯ | ||||
130 | ‚ | одинарная кавычка с малым числом 9 | |||
131 | ƒ | Строчная латинская буква f с крючком | |||
132 | „ | двойные кавычки low-9 | |||
133 | … | многоточие по горизонтали | |||
134 | † | кинжал | |||
135 | ‡ | ||||
136 | ˆ | модификатор буквы с циркумфлексом акцент | |||
137 | ‰ | знак промилле | |||
138 | Š | Заглавная латинская буква S с кароном | |||
139 | ‹ | одинарная кавычка с левым углом | |||
140 | Œ | Латиница c апитальная лигатура OE | |||
141 | НЕ ИСПОЛЬЗУЕТСЯ | ||||
142 | Ž | Заглавная латинская буква Z с кароном | |||
143 | НЕ ИСПОЛЬЗУЕТСЯ | ||||
144 | НЕ ИСПОЛЬЗУЕТСЯ | ||||
145 | ‘ | левая одинарная кавычка | |||
146 | ’ | правая одинарная кавычка | |||
147 | “ | левая двойная кавычка | |||
148 | ” | правый двойная кавычка | |||
149 | • | пуля | |||
150 | — | en тире | |||
151 | — | длинное тире | |||
152 | ˜ | маленькая тильда | |||
153 | ™ | знак товарного знака | |||
154 | š | Строчная латинская буква s с кароном | |||
155 | › | одинарная кавычка с прямым углом | |||
156 | œ | Латинская маленькая лигатура oe | |||
157 | НЕ ИСПОЛЬЗУЕТСЯ | ||||
158 | ž | Строчная латинская буква z с кароном | |||
159 | Ÿ | Заглавная латинская буква Y с диэрезисом | |||
160 | без перерыва | ||||
161 | ¡ | ¡ | ¡ | перевернутый восклицательный знак | |
162 | ¢ | ¢ | ¢ | знак центов | |
163 | £ | £ | £ | знак фунта | |
164 | ¤ | ¤ | ¤ | знак валюты | |
165 | ¥ | ¥ | ¥ | Йен знак | |
166 | ¦ | ¦ | ¦ | сломанный стержень | |
167 | § | § | § | знак раздела | |
168 | ¨ | ¨ | ¨ | диэрезис | |
169 | © | © | © | знак авторского права | |
170 | ª | ª | ª | женский порядковый указатель | |
171 | « | « | « | левый двойной угол кавычки | |
172 | ¬ | ¬ | ¬ | без подписи | |
173 | мягкий дефис | ||||
174 | ® | ® | ® | зарегистрированный знак | |
175 | ¯ | ¯ | ¯ | макрон | |
176 | ° | ° | ° | знак градуса | |
177 | ± | ± | ± | знак плюс-минус | |
178 | ² | ² | ² | верхний индекс два | |
179 | ³ | ³ | ³ | три верхних индекса | |
180 | ´ | ´ | ´ 900 острый акцент | ||
181 | µ | µ | µ | ||
182 | ¶ | ¶ | ¶ | знак пилкроу | |
183 | · | · | · | средняя точка | |
184 | ¸ | ¸ | ¸ | седилла | |
185 | ¹ | ¹ | ¹ | верхний индекс | |
186 | º | º | º 900 мужской порядковый номер | ||
187 | » | » | » | двойная угловая кавычка, указывающая вправо | |
188 | ¼ | ¼ | ¼ | вульгарная дробь одна четверть | |
189 | ½ | ½ | ½ | vulga r дробь одна половина | |
190 | ¾ | ¾ | ¾ | вульгарная фракция три четверти | |
191 | ¿ | ¿ | ¿ | перевернутый вопросительный знак | |
192 | À | À | À | Заглавная латинская буква A с тупым ударением | |
193 | Á | Á | Á | Заглавная латинская буква A с острым ударением | |
194 | Â | Â | Â | Заглавная латинская буква A с циркумфлексом | |
195 | Ã | Ã | Ã | Заглавная латинская буква A с тильдой | |
196 | Ä | Ä | Ä | Заглавная латинская буква A с тремой | |
197 | Å | Å | Å | Заглавная латинская буква A с кольцом выше | |
198 | Æ | Æ | Æ | Заглавная латинская буква AE | |
199 | Ç | Ç | Ç | Заглавная латинская буква C с седилем | |
200 | È | È | È | Заглавная латинская буква E с могилой | |
201 | É | É | É | Заглавная латинская буква E с острым ударением | |
202 | Ê | Ê | Ê | Заглавная латинская буква E с циркумфлексом | |
203 | Ë | Ë | Ë | Заглавная латинская буква E с тремой | |
204 | 9 0048 | Ì | Ì | Ì | Заглавная латинская буква I с надстрочным знаком |
205 | Í | Í | Í | Заглавная латинская буква I с острым ударением | |
206 | Î | Î | Î | Заглавная латинская буква I с циркумфлексом | |
207 | Ï | Ï | Ï | Заглавная латинская буква I с диэрезисом | |
208 | 48 | ì | ì | Заглавная латинская буква Eth | |
209 | Ñ | Ñ | Ñ | Заглавная латинская буква N с тильдой | |
210 | Ò | Ò | Ò | Латинская заглавная буква O с тупым упором | |
211 | Ó | Ó | Ó | Заглавная латинская буква O с острым ударением | |
212 | Ô | Ô | Ô | Заглавная латинская буква O с циркумфлексом | |
213 | Õ | Õ | Õ | Латинская заглавная буква O с тильдой | |
214 | Ö | Ö | Ö | Латинская заглавная буква O с диэрезисом | |
215 | × | × | × | знак умножения | |
216 | Ø | Ø | Ø | Заглавная латинская буква O со штрихом | |
217 | Ù | Ù | Ù | Заглавная латинская буква U со штрихом | |
218 | Ú | Ú | Ú | Латинская заглавная l etter U с острым углом | |
219 | Û | Û | Û | Заглавная латинская буква U с циркумфлексом | |
220 | Ü | Ü | Ü | Заглавная латинская буква U с диэрезисом | |
221 | Ý | Ý | Ý | Заглавная латинская буква Y с острым ударением | |
222 | Þ | Þ | Þ | Заглавная латинская буква Thorn | |
223 | ß | ß | ß | Строчная латинская буква s | |
224 | à | à | à | Строчная латинская буква a с тупым шрифтом | |
225 | á | á | á | Строчная латинская буква а с острым ударением | |
â | â | â | Строчная латинская буква a с циркумфлексом | ||
227 | ã | ã | ã | Строчная латинская буква a с тильдой | |
228 | ä | ä | ä | Строчная латинская буква a с диэрезисом | |
229 | å | å | å | Строчная латинская буква a с кольцом над ним | |
230 | æ | æ | æ | Строчная латинская буква ae | |
231 | ç | ç | ç | Строчная латинская буква c с седилем | |
232 | è | è | è | Строчная латинская буква e с тупым ударением | |
233 | é | é | é | Строчная латинская буква e с острым ударением | |
234 | ê | ê | ê | Латинская строчная буква e с циркумфлексом | |
235 | ë | ë | ë | Строчная латинская буква e с тремой | |
236 | ì | ì | ì | Строчная латинская буква i с тупым шрифтом | |
237 | í | í | í | Строчная латинская буква i с острым углом | |
238 | î | î | î | Строчная латинская буква i с циркумфлексом | |
239 | ï | ï | ï | Строчная латинская буква i с тремой | |
240 | ð | ð | ð | Строчная латинская буква eth | |
241 | ñ | ñ | ñ | Строчная латинская буква n с тильдой | |
242 | ò | ò | ò | Строчная латинская буква o с могилой | |
243 | — | — | — | Строчная латинская буква o с острым ударением | |
244 | ô | ô | ô | Строчная латинская буква o с циркумфлекс | |
245 | x | x | x | Строчная латинская буква o с тильдой | |
246 | ö | ö | ö | Строчная латинская буква o с диэрезисом | |
247 | ÷ | ÷ | ÷ | делительный знак | |
248 | ø | ø | ø | Строчная латинская буква o со штрихом | |
249 | ù | ù | ù | Строчная латинская буква u со штрихом | |
250 | ú | ú | ú | Строчная латинская буква u с острым ударением | |
251 | û | û | û | Строчная латинская буква с циркумфлексом | |
252 | ü | ü | ü | Строчная латинская буква u с диэрезисом | |
253 | ý | ý | ý | Строчная латинская буква y с острым ударением | |
254 | þ | þ | þ | Строчная латинская буква шип | |
255 | ÿ | ÿ | ÿ | Строчная латинская буква y с тремой |
47 900 47 226
Набор символов ASCII
ASCII использует значения от 0 до 31 (и 127) для управляющих символов.
ASCII использует значения от 32 до 126 для букв, цифр и символов.
ASCII не использует значения от 128 до 255.
Набор символов ANSI (Windows-1252)
ANSI идентичен ASCII для значений от 0 до 127.
ANSI имеет собственный набор символов для значений от 128 до 159.
ANSI идентичен UTF-8 для значений от 160 до 255.
Набор символов ISO-8859-1
ISO-8859-1 идентичен ASCII для значений от 0 до 127.
ISO-8859-1 не использует значения от 128 до 159.
ISO-8859-1 идентичен UTF-8 для значений от 160 до 255.
Набор символов UTF-8
UTF-8 идентичен ASCII для значений от 0 до 127.
UTF-8 не использует значения от 128 до 159.
UTF-8 идентичен ANSI и 8859-1 для значений от 160 до 255.
UTF-8 продолжает значение 256 с более чем 10 000 различных
символы.
Для более детального ознакомления ознакомьтесь с полным справочником по набору символов HTML.
.
HTML ASCII Ссылка
ASCII был первым использованным набором символов (стандартом кодирования)
между компьютерами в Интернете.
И ISO-8859-1 (по умолчанию в HTML 4.01), и UTF-8 (по умолчанию в
HTML5), построены на ASCII.
Набор символов ASCII
ASCII означает «Американский стандартный код обмена информацией».
Он был разработан в начале 60-х годов как стандартный набор символов для компьютеров.
и электронные устройства.
ASCII — это 7-битный набор символов, содержащий 128 символов.
Содержит цифры от 0 до 9, прописные и строчные буквы английского алфавита.
от А до Я и некоторые специальные символы.
Наборы символов, используемые в современных компьютерах, в HTML и в Интернете,
все основаны на ASCII.
В следующих таблицах перечислены 128 символов ASCII и их эквиваленты.
количество.
Печатные символы ASCII
симв. | Число | Описание |
---|---|---|
0–31 | Управляющие символы (см. Ниже) | |
32 | место | |
! | 33 | восклицательный знак |
« | 34 | кавычка |
# | 35 | номерной знак |
$ | 36 | знак доллара |
% | 37 | знак процента |
и | 38 | амперсанд |
‘ | 39 | апостроф |
( | 40 | левая скобка |
) | 41 | правая скобка |
* | 42 | звездочка |
+ | 43 | знак плюс |
, | 44 | запятая |
– | 45 | дефис |
. | 46 | период |
/ | 47 | слэш |
0 | 48 | цифра 0 |
1 | 49 | цифра 1 |
2 | 50 | цифра 2 |
3 | 51 | цифра 3 |
4 | 52 | цифра 4 |
5 | 53 | цифра 5 |
6 | 54 | цифра 6 |
7 | 55 | цифра 7 |
8 | 56 | цифра 8 |
9 | 57 | цифра 9 |
: | 58 | толстая кишка |
; | 59 | точка с запятой |
< | 60 | менее |
= | 61 | равно |
> | 62 | больше |
? | 63 | вопросительный знак |
@ | 64 | на знаке |
А | 65 | прописные буквы A |
B | 66 | прописная B |
С | 67 | прописные буквы C |
D | 68 | прописная D |
E | 69 | прописная E |
F | 70 | прописная F |
г | 71 | прописная G |
H | 72 | прописная H |
Я | 73 | прописные буквы I |
Дж | 74 | прописная J |
К | 75 | прописная K |
л | 76 | прописная L |
млн | 77 | прописная M |
№ | 78 | прописная N |
O | 79 | заглавная O |
п. | 80 | заглавная P |
Q | 81 | прописная Q |
R | 82 | заглавная R |
S | 83 | прописная S |
т | 84 | заглавная T |
U | 85 | прописная U |
В | 86 | прописные буквы V |
Вт | 87 | заглавная W |
х | 88 | прописные буквы X |
Y | 89 | прописная Y |
Z | 90 | заглавная Z |
[ | 91 | левая квадратная скоба |
\ | 92 | обратная косая черта |
] | 93 | Кронштейн квадратный правый |
^ | 94 | каретка |
_ | 95 | подчеркивание |
` | 96 | могильный акцент |
a | 97 | строчная |
б | 98 | строчная b |
c | 99 | строчная c |
г | 100 | строчная d |
e | 101 | строчная e |
f | 102 | строчная f |
г | 103 | строчная g |
ч | 104 | строчная h |
я | 105 | строчная i |
j | 106 | строчная j |
к | 107 | строчная k |
л | 108 | строчная l |
м | 109 | строчная m |
n | 110 | строчная n |
или | 111 | строчная o |
п | 112 | строчная |
q | 113 | строчная q |
r | 114 | строчная r |
с | 115 | строчная s |
т | 116 | строчная t |
u | 117 | строчная u |
в | 118 | строчная v |
Вт | 119 | строчная w |
х | 120 | строчные x |
y | 121 | строчная y |
z | 122 | строчная z |
{ | 123 | фигурная скобка левая |
| | 124 | вертикальная штанга |
} | 125 | фигурная скобка правая |
~ | 126 | тильда |
Символы управления устройством ASCII
Управляющие символы ASCII (диапазон 00–31 плюс 127) были разработаны для управления
аппаратные устройства.
Управляющие символы (кроме горизонтальной табуляции, перевода строки и возврата каретки)
нечего делать внутри HTML-документа.
симв. | Число | Описание |
---|---|---|
NUL | 00 | нулевой символ |
SOH | 01 | начало заголовка |
STX | 02 | начало текста |
ETX | 03 | конец текста |
EOT | 04 | конец передачи |
ENQ | 05 | запрос |
ACK | 06 | признать |
БЕЛ | 07 | звонок (кольцо) |
BS | 08 | возврат |
HT | 09 | горизонтальный язычок |
LF | 10 | перевод строки |
VT | 11 | вертикальный язычок |
FF | 12 | подача формы |
CR | 13 | возврат каретки |
SO | 14 | сдвиг |
SI | 15 | смена |
DLE | 16 | выход канала передачи данных |
DC1 | 17 | устройство управления 1 |
DC2 | 18 | Устройство управления 2 |
DC3 | 19 | Устройство управления 3 |
DC4 | 20 | Устройство управления 4 |
НАК | 21 | отрицательное подтверждение |
SYN | 22 | синхронизировать |
ЭТБ | 23 | блок передачи конца |
CAN | 24 | отменить |
EM | 25 | конец среднего |
ПОД | 26 | аналог |
ESC | 27 | побег |
ФС | 28 | разделитель файлов |
GS | 29 | разделитель групп |
RS | 30 | разделитель записей |
США | 31 | блок сепаратора |
DEL | 127 | удалить (рубут) |
.
HTML-коды — Таблица символов и символов ascii
Стандартный набор ASCII, имена объектов HTML, ISO 10646, ISO 8879, ISO 8859-1 Латинский алфавит № 1 |
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
|
||||||||||||||||||
HTML 4.01, ISO 10646, ISO 8879, расширенная латиница A и B, |
||||||||||||||||||
|
||||||||||||||||||
|
.