共計 466 個字符,預計需要花費 2 分鐘才能閱讀完成。
在 Python 中,可以使用 nltk 庫中的 word_tokenize 函數來進行分詞 (tokenize)。
首先,確保已安裝 nltk 庫??梢允褂靡韵旅钸M行安裝:
pip install nltk
然后,在代碼中導入 nltk 庫并使用 word_tokenize 函數進行分詞。這里是一個簡單的示例:
import nltk
from nltk.tokenize import word_tokenize
# 要分詞的文本
text = "Hello, how are you today?"
# 使用 word_tokenize 函數進行分詞
tokens = word_tokenize(text)
# 輸出分詞結果
print(tokens)
運行上述代碼,將輸出分詞后的結果:
['Hello', ',', 'how', 'are', 'you', 'today', '?']
word_tokenize函數將文本分割成單詞、標點符號等的列表。由于這是一個基于規則的分詞方法,因此可能有時無法正確地處理某些特定情況。對于更復雜的分詞需求,可能需要使用其他更高級的分詞工具或算法。
丸趣 TV 網 – 提供最優質的資源集合!
正文完