UTF-8(8
位元 Universal Character Set/Unicode Transformation Format)是針對
Unicode 的一種可變長度字元編碼。它可以用來表示
Unicode 標準中的任何字元,而且其編碼串流中的第一個位元組仍與
ASCII 兼容,令原來處理 ASCII 字符的
軟件無需或只作少量改動後,便可繼續使用。因此,它逐漸成為
電子郵件、
網頁及其他儲存或傳送文字的應用中,優先採用的編碼。UTF-8 使用一至四個位元組為每個字符編碼:128 個 US-ASCII 字符只需一個位元組編碼(Unicode 範圍由 U+0000 至 U+007F)。帶有
變音符號的
拉丁文、
希臘文、
西里爾字母、
亞美尼亞語、
希伯來文、
阿拉伯文、敘利亞文及
它拿字母需要二個位元組編碼(Unicode 範圍由 U+0080 至 U+07FF)。其他
基本多文種平面(BMP)中的字元(這包含了大部分常用字)使用三個位元組編碼。其他極少使用的 Unicode
輔助平面的字符使用四位元組編碼。對上述提及的第四種字符而言,UTF-8 使用四個位元組來編碼似乎太耗費資源了。但 UTF-8 對所有常用的字符都可以用三個位元組表示,而且它的另一種選擇,
UTF-16編碼,對前述的第四種字符同樣需要四個位元組來編碼,所以要決定 UTF-8 或 UTF-16 哪種編碼比較有效率,還要視所使用的字元的分佈範圍而定。不過,如果使用一些傳統的壓縮系統,比如
DEFLATE,則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮算法在壓縮較短文字上的效果不大,可以考慮使用 Standard Compression Scheme for Unicode(SCSU)。
访问 Wikipedia.org... 网页
压缩的Unicode。UTF-8是ISO 10646的转换格式,是一种变长的编码格式。它用一个字节表示常见字符,用3个字节表示不常见字符,如汉字等。