UTF-8 (от — формат преобразования Юникода) — в настоящее время распространённая
кодировка, реализующая представление
Юникода, совместимое с
8-битным кодированием текста.Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст
ASCII. И наоборот, в тексте UTF-8 любой
байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байтов (реально только до 4 байт, поскольку использование кодов больше 221 не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.
Продолжение на Wikipedia.οrg...