久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

TF

226次閱讀
沒有評論

共計 1693 個字符,預計需要花費 5 分鐘才能閱讀完成。

本篇內(nèi)容主要講解“TF-IDF 算法的原理是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓丸趣 TV 小編來帶大家學習“TF-IDF 算法的原理是什么”吧!

概念

TF-IDF(term frequency–inverse document frequency)

是一種用于資訊檢索與資訊探勘的常用加權技術。

TF-IDF 是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。

字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

TF-IDF 加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了 TF-IDF 以外,因特網(wǎng)上的搜尋引擎還會使用基于連結(jié)分析的評級方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。

原理

詞頻 (term frequency, TF)

指的是某一個給定的詞語在一份給定的文件中出現(xiàn)的次數(shù)。這個數(shù)字通常會被歸一化(分子一般小于分母 區(qū)別于 IDF),以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否。)

逆向文件頻率 (inverse document frequency, IDF) 是一個詞語普遍重要性的度量。某一特定詞語的 IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。

某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權重的 TF-IDF。因此,TF-IDF 傾向于過濾掉常見的詞語,保留重要的詞語。

逆向文件頻率(inverse document frequency,IDF)

一個詞語普遍重要性的度量。某一特定詞語的 IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:

其中:|D|:語料庫中的文件總數(shù)

:包含詞語 的文件數(shù)目(即 如果該詞語不在語料庫中,就會導致被除數(shù)為零,因此一般情況下使用

然后

某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權重的 TF-IDF。因此,TF-IDF 傾向于過濾掉常見的詞語,保留重要的詞語。

TFIDF 的主要思想是

如果某個詞或短語在一篇文章中出現(xiàn)的頻率 TF 高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TFIDF 實際上是:TF * IDF,TF 詞頻 (Term Frequency),IDF 反文檔頻率(Inverse Document Frequency)。TF 表示詞條在文檔 d 中出現(xiàn)的頻率(另一說:TF 詞頻(Term Frequency) 指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù))。IDF 的主要思想是:如果包含詞條 t 的文檔越少,也就是 n 越小,IDF 越大,則說明詞條 t 具有很好的類別區(qū)分能力。如果某一類文檔 C 中包含詞條 t 的文檔數(shù)為 m,而其它類包含 t 的文檔總數(shù)為 k,顯然所有包含 t 的文檔數(shù) n =m+k,當 m 大的時候,n 也大,按照 IDF 公式得到的 IDF 的值會小,就說明該詞條 t 類別區(qū)分能力不強。(另一說:IDF 反文檔頻率 (Inverse Document Frequency) 是指果包含詞條的文檔越少,IDF 越大,則說明詞條具有很好的類別區(qū)分能力。)但是實際上,如果一個詞條在一個類的文檔中頻繁出現(xiàn),則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應該給它們賦予較高的權重,并選來作為該類文本的特征詞以區(qū)別與其它類文檔。這就是 IDF 的不足之處.

在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù) (termcount) 的歸一化,以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數(shù),而不管該詞語重要與否。)對于在某一特定文件里的詞語來說,它的重要性可表示為:

以上式子中 是該詞在文件 中的出現(xiàn)次數(shù),而分母則是在文件 中所有字詞的出現(xiàn)次數(shù)之和。

到此,相信大家對“TF-IDF 算法的原理是什么”有了更深的了解,不妨來實際操作一番吧!這里是丸趣 TV 網(wǎng)站,更多相關內(nèi)容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!

正文完
 
丸趣
版權聲明:本站原創(chuàng)文章,由 丸趣 2023-08-16發(fā)表,共計1693字。
轉(zhuǎn)載說明:除特殊說明外本站除技術相關以外文章皆由網(wǎng)絡搜集發(fā)布,轉(zhuǎn)載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 广水市| 安康市| 遂平县| 榆社县| 五指山市| 德令哈市| 桓仁| 富蕴县| 门源| 青浦区| 柞水县| 宝应县| 旬邑县| 吉林市| 长垣县| 陇南市| 冀州市| 垦利县| 南阳市| 罗江县| 禄劝| 额济纳旗| 松滋市| 通城县| 萨嘎县| 芷江| 股票| 乌鲁木齐县| 合川市| 鹤峰县| 阿荣旗| 于田县| 安仁县| 唐河县| 张家川| 永州市| 嘉峪关市| 扶绥县| 桓台县| 习水县| 交口县|