python unicode詳解 python中的unicode

132次閱讀

共計 783 個字符，預計需要花費 2 分鐘才能閱讀完成。

在 Python 中，Unicode 是一種字符編碼標準，它為全球范圍內的所有字符提供了唯一的標識符。Unicode 編碼由一個固定的編碼空間組成，目前包含超過 130,000 個字符，涵蓋了幾乎所有的語言和符號。
在 Python 3 中，默認的字符串類型是 Unicode 字符串，也就是說，字符串中的每個字符都是使用 Unicode 編碼來表示的。這意味著你可以直接在字符串中使用任何語言的字符，例如中文、日文、韓文等。
在 Python 中，字符串前面加上 ”u” 或 ”U” 前綴可以表示一個 Unicode 字符串。例如：

s = u'你好世界'
print(s)

輸出：你好世界
你可以使用不同的編碼來表示一個 Unicode 字符串。Python 提供了內置的編碼器和解碼器來實現這一點。下面是一些常用的編碼和解碼方法：

encode(encoding)：將 Unicode 字符串編碼為指定的編碼格式。
decode(encoding)：將指定編碼格式的字符串解碼為 Unicode 字符串。

例如，將一個 Unicode 字符串編碼為 UTF- 8 格式的字節序列：

s = u'你好世界'
b = s.encode('utf-8')
print(b)

輸出：b’xe4xbdxa0xe5xa5xbdxe4xb8x96xe7x95x8c’
將一個 UTF- 8 格式的字節序列解碼為 Unicode 字符串：

b = b'\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'
s = b.decode('utf-8')
print(s)

輸出：你好世界
需要注意的是，在 Python 2 中，字符串類型分為普通字符串和 Unicode 字符串。普通字符串使用 ASCII 編碼，而 Unicode 字符串使用 UTF-16 編碼。如果要在 Python 2 中使用 Unicode 字符串，需要在字符串前面加上 ”u” 或 ”U” 前綴。

丸趣 TV 網 – 提供最優質的資源集合！

正文完