久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

如何解析hanlp源碼中文分詞算法

132次閱讀
沒有評論

共計 895 個字符,預計需要花費 3 分鐘才能閱讀完成。

如何解析 hanlp 源碼中文分詞算法,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面丸趣 TV 小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

解析 hanlp 源碼中文分詞算法。詞圖指的是句子中所有詞可能構成的圖。如果一個詞 A 的下一個詞可能是 B 的話,那么 A 和 B 之間具有一條路徑 E(A,B)。一個詞可能有多個后續,同時也可能有多個前驅,它們構成的圖我稱作詞圖。

需要稀疏
2 維矩陣模型,以一個詞的起始位置作為行,終止位置作為列,可以得到一個二維矩陣。例如:“他說的確實在理”這句話

圖詞的存儲方法:
一種是的
DynamicArray 法,一種是快速 offset 法。Hanlp 代碼中采用的是第二種方法。

1、DynamicArray(二維數組) 法

在詞圖中,行和列的關系:
col 為 n 的列中所有詞可以與 row 為 n 的所有行中的詞進行組合。例如“的確”這個詞,它的 col =5,需要和它計算平滑值的有兩個,分別是 row = 5 的兩個詞:“實”和“實在”。但是在遍歷和插入的時候,需要一個個比較 col 和 row 的關系,復雜度是 O(N)。

2、快速 offset

一個一維數組,每個元素是一個單鏈表

“的確”的行號是 4, 長度是 2,4+2=6,于是第六行的兩個詞“實 / 實在”就是“的確”的后續。

同時這種方法速度非常快,插入和查詢的時間都是
O(1)。

Hanlp 核心詞典:

最短路徑算法
—viterbi(動態規劃路徑)

Frequency: 核心詞典中的詞頻

nTwoWordsFreq: 共現詞頻

intMAX_FREQUENCY= 25146057

double dTemp =(double) 1 / MAX_FREQUENCY +0.00001

dSmoothingPara =0.1

Viterbi 最短路徑有向圖

1、計算過程從上至下,根據計算出的權重值變更前驅結點,保證前驅結點唯一 (動態規劃路徑)

2、計算結束后,從最后一個結點開始取出 term, 依次取出該結點的前驅結點即可分詞結果:理,在,確實,的,說,他

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注丸趣 TV 行業資訊頻道,感謝您對丸趣 TV 的支持。

正文完
 
丸趣
版權聲明:本站原創文章,由 丸趣 2023-07-17發表,共計895字。
轉載說明:除特殊說明外本站除技術相關以外文章皆由網絡搜集發布,轉載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 莱芜市| 阿克苏市| 辉县市| 岳池县| 二连浩特市| 桃园市| 北宁市| 葵青区| 镇远县| 洞头县| 双牌县| 池州市| 巧家县| 类乌齐县| 大田县| 游戏| 当阳市| 泰兴市| 灌阳县| 连南| 巴彦淖尔市| 榆林市| 任丘市| 信阳市| 衡东县| 福泉市| 民乐县| 高平市| 卢龙县| 安新县| 页游| 通渭县| 德江县| 永兴县| 康定县| 保康县| 大化| 开平市| 新巴尔虎右旗| 安泽县| 若羌县|