如何進行FM+GBM排序模型的深度解析

144次閱讀

共計 3501 個字符，預(yù)計需要花費 9 分鐘才能閱讀完成。

如何進行 FM+GBM 排序模型的深度解析，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

背景

信息流短視頻以算法分發(fā)為主，人工分發(fā)為輔，依賴算法實現(xiàn)視頻的智能分發(fā)，達到千人千面的效果。整個分發(fā)流程分為：觸發(fā)召回、排序與重排三個階段。排序?qū)釉谄渲衅鹬猩蠁⑾碌淖饔茫欠浅Ｖ匾囊粋€環(huán)節(jié)。在排序?qū)觾?yōu)化的過程中，除了借鑒業(yè)界前沿的經(jīng)驗和做法，我們也做了模型上的一些創(chuàng)新。

信息流短視頻排序目前使用是以 CTR 預(yù)估為目標(biāo)的 Wide Deep 模型。通過引入時長特征、點擊 + 時長多目標(biāo)優(yōu)化等工作，我們?nèi)〉昧瞬诲e的收益：

● 增加視頻平均播放時長特征，作為用戶真實體感信號，帶來用戶消費時長提升；
● 通過消費時長樣本加權(quán)，實現(xiàn)點擊 + 時長多目標(biāo)優(yōu)化，實現(xiàn)點擊率與消費時長的提升；
● 引入多個視頻下發(fā)場景的樣本數(shù)據(jù)，實現(xiàn)多場景樣本融合；

在優(yōu)化排序模型的過程中，我們也調(diào)研了 DeepFM/DeepCN 等深度模型，這些模型無論從離線還是線上指標(biāo)上，都沒有明顯優(yōu)勢。在優(yōu)化 Wide Deep 模型的同時，更迫切的需求，是跳出原有的框架，尋找新的收益點。

引入 GBM 對 submodel 和高級特征等信號做集成學(xué)習(xí)，效果要優(yōu)于單模型。從計算學(xué)習(xí)理論上看，Wide Deep 是 high-variance 模型，容易過擬合 (wd 模型的訓(xùn)練比評估指標(biāo)高 7%)。GBM 通過 boosting 的方式組合集成多個 submodel 和高級特征，更好地發(fā)揮各自不同的作用和優(yōu)勢互補，同時從整體上有更好的可解釋性。

上面是對信息流短視頻排序模型演進的簡要介紹；而其中的 FM+GBM 模型是我們團隊比較有開創(chuàng)性的一項工作，下面稍微展開介紹。

模型

向量分解機（Factorization Machines, FM）是一種應(yīng)用較為廣泛的推薦模型，其發(fā)明者 Steffen Rendle 目前供職于 Google。FM 是對傳統(tǒng) LR 模型在處理高階交互特征問題上的優(yōu)化和改進：LR 通過特征交叉的方式，將組合后的特征作為新特征加入到模型中，模型復(fù)雜度為 O(N^2)（N 為交互特征的數(shù)量，下同），記憶性較強而泛化性偏弱；FM 通過將特征表征為隱向量，通過隱向量的相似度（內(nèi)積）來表示特征關(guān)聯(lián)這種方式來巧妙地提升模型的泛化能力；FM 模型的復(fù)雜度為 O(N*k)（k 為隱向量維度超參）。

以二階交互的 FM 模型為例，其模型定義如下：

FM 本質(zhì)上是一個線性模型，不同項之間以線性組合的方式影響模型的輸出。如果要考慮更加復(fù)雜的模型組合，計算復(fù)雜度將會非常高。盡管學(xué)術(shù)界也有像張量分解（Tensor Decomposition）這類處理高階交互特征的模型；但在工業(yè)級，考慮到效果與性能的折衷，往往只考慮二階的交互。但在此基礎(chǔ)上，我們可以考慮引入非線性的模型來優(yōu)化 FM 模型。

在非線性模型中，樹模型（CART/GBM/Random Forest）的應(yīng)用非常廣泛。我們引入 GBM 作為組合 FM 的非線性模型：

FM+GBM 一期（純 GBM）

一期主要打通整個實驗框架和數(shù)據(jù)流，并沒有引入額外的信號。GBM 使用的信號包括：wd/lr 模型等 sub-model 打分、點擊率 / 時長和體感特征，以及一些簡單的匹配度特征。整個實驗框架比較簡單：精排流程新增 GBMScorer，實現(xiàn)以下 2 個功能：

● 分發(fā)服務(wù)器通過流量分桶決定精排是否使用 GBM 打分，由 GBMScorer 具體執(zhí)行；
● 特征歸一化和回流。提取的特征經(jīng)歸一化后返回給分發(fā)服務(wù)器，由分發(fā)服務(wù)器回流至日志服務(wù)器落盤。點擊日志也同時經(jīng)由日志服務(wù)器落盤。點擊 - 展現(xiàn)日志通過 reco_id+iid 對齊，經(jīng)清洗、過濾和反作弊處理后，提取回流特征用于模型訓(xùn)練；

在調(diào)研和實驗的過程中，以下是一些經(jīng)驗和教訓(xùn)：

● 樣本與超參的選擇：為了讓模型盡可能地平滑，我們從 7 天滑動窗口的數(shù)據(jù)中隨機抽取樣本，并按比例分割訓(xùn)練 / 驗證 / 測試集。通過交叉驗證的方式選擇超參；在所有的超參中，樹深度對結(jié)果的影響比較大，深度為 6 時效果明顯優(yōu)于其他選擇。在調(diào)參過程中，auc 和 loss 這兩項評估指標(biāo)在訓(xùn)練 / 評估 / 測試數(shù)據(jù)集上并沒有明顯的差異，由此可見 GBM 模型的泛化性。
● 離線評估指標(biāo)：auc 是排序模型常用的離線評估指標(biāo)之一，但全局 auc 粒度太粗，可以結(jié)合業(yè)務(wù)計算一些細粒度的 auc。行業(yè)有采用以 Query 為粒度，計算 QAUC，即單個 Query 的 auc，再按均值或者加權(quán)的方式融合得到的 auc，比起全局 auc 指標(biāo)更加合理。我們采用類似做法，以單次下發(fā)為粒度計算 auc，再計算均值或者按點擊加權(quán)。需要注意的是，auc 計算的粒度決定了劃分數(shù)據(jù)集的粒度。如果按照單次下發(fā)為粒度計算，那么一次下發(fā)的所有樣本都必須同時落在訓(xùn)練 / 評估 / 測試數(shù)據(jù)集上。除此之外，單次下發(fā)中如果零點擊或者全點擊，這部分數(shù)據(jù)也是需要廢棄的。
● 特征的歸一化：尤其是對與用戶相關(guān)的特征進行歸一化尤為重要。通過分析精排打分（wd），我們發(fā)現(xiàn)不同用戶間的精排打分分布的差異較為顯著：同一用戶的打分方差小，分布比較集中；不同用戶用戶打分均值的方差比較大。如果不對精排打分做歸一化處理，GBM 訓(xùn)練過程很難收斂。

GBM 和精排打分也會隨特征回流。日志對齊后，可以對這兩個模型在離線評估指標(biāo)上做比較 fair 的對比。從全局 auc/ 單次下發(fā)粒度 auc 與小流量實驗的結(jié)果來看，細粒度 auc 與在線實驗的效果更加趨于一致。

FM+GBM 二期

一期搭建了實驗框架和數(shù)據(jù)流，二期開始考慮引入新的信號。

縱觀眼下 GBM 用到的信號，主要分為兩類：一是 item 側(cè)信號，這類特征從各個維度刻畫了 item 的特性：熱度、時長、質(zhì)量等。這類特征有助于我們篩選精品內(nèi)容，提升推薦質(zhì)量 baseline。二是相關(guān)性特征，用于刻畫用戶和視頻的關(guān)聯(lián)度（關(guān)聯(lián)度可以通過點擊刻畫，也可以通過時長刻畫；目前主要通過點擊），提升推薦的個性化，做到千人千面。個性化水平才是信息流的核心競爭力。

目前相關(guān)性特征通過長短期用戶畫像計算和視頻在一級 / 二級類目和 TAG 上的匹配程度，至少存在 2 個問題：

● BoW 稀疏的特征表達無法計算語義層面的匹配度；例如，帶足球標(biāo)簽的用戶和梅西的視頻通過這種方式計算得到的匹配度為 0。
● 目前視頻結(jié)構(gòu)化信息的準(zhǔn)確率 / 覆蓋率較低，會直接影響這類特征的效果。

wd/lr 模型能夠一定程度解決上述問題。尤其 wd 模型，通過 embedding 技術(shù)，將用戶和視頻本身及各個維度的結(jié)構(gòu)化信息嵌入到一個低維隱向量，能夠一定程度緩解這個問題。但是這類隱向量缺乏靈活性，無法脫離 wd 模型單獨使用：計算用戶和視頻的匹配度，除了需要用戶和視頻的隱向量，還要結(jié)合其他特征，并經(jīng)過一系列隱層的計算才能得到。

業(yè)界主流公司的做法，是通過 FM 模型，將所有 id 特征都分成在同一個空間內(nèi)的隱向量，因而所有的向量都是可比的：不僅用戶與視頻本身和各個維度的匹配度，甚至用戶之間、視頻之間，都可以通過簡單的向量運算得到匹配度。從模型結(jié)構(gòu)看，F(xiàn)M 模型可以認為是能夠更加緊密刻畫這種匹配度的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。為此，我們引入 FM 模型分解點擊 - 展現(xiàn)數(shù)據(jù)，得到用戶和視頻本身及各個維度的隱向量。通過這些隱向量計算用戶和視頻的匹配度。這些信號和與其它 sub-model 和高級特征一起，通過 GBM 進行點擊率預(yù)估。

這種做法與 Facebook 在 KDD 14 發(fā)表的 LR+GBDT 模型有相似之處，差異在于：LR+GBDT 本質(zhì)上是線性模型，而 FM+GBM 是樹模型，能夠處理信號與目標(biāo)間高度非線性的復(fù)雜關(guān)系，也具備更好的可解釋性。整個算法框架如圖所示：

由于 FM 需要例行訓(xùn)練，用戶隱向量灌庫和視頻隱向量加載之間存在時間差，而不同版本模型的隱向量之間是不可比的。為此我們設(shè)計了簡單的版本對齊機制：所有隱向量都會保留最近 2 個版本的數(shù)據(jù)；在 FM 在線計算模塊中，實現(xiàn)版本對齊的邏輯，用對齊后最新版本的隱向量計算匹配度。由于例行訓(xùn)練的時間窗口為 4~6 個小時，保留 2 個版本的數(shù)據(jù)是足以保證絕大部分隱向量能夠?qū)R。在更加高頻的模型訓(xùn)練中，可以增加版本的數(shù)量來確保模型對齊。

效果上：一期 + 二期離線 AUC 提升 10%，在線 CTR 和人均點擊提升 6%。

信息流短視頻排序?qū)咏?jīng)過一段時間的迭代優(yōu)化，目前已經(jīng)形成 LR- WD- FM+GBM 這套相對比較完備體系。這種漏斗體系有助于排序?qū)釉谛阅芎托Чg trade-off：越往后，模型越復(fù)雜 / 特征越高級 / 計算量越大，而參與計算的視頻數(shù)據(jù)量更少。

看完上述內(nèi)容，你們掌握如何進行 FM+GBM 排序模型的深度解析的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注丸趣 TV 行業(yè)資訊頻道，感謝各位的閱讀！

正文完