Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標數(shù)據(jù)

149次閱讀

沒有評論

共計 956 個字符，預計需要花費 3 分鐘才能閱讀完成。

自動寫代碼機器人，免費開通

Scrapy 中怎么利用 Xpath 選擇器從網(wǎng)頁中采集目標數(shù)據(jù)，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

/ 具體實現(xiàn) /

1、針對標題，在上篇文章中就有提及，其 Xpath 表達式有多種，任選其一即可，在 scrapy shell 腳本下進行調試，得到標題的提取方式，并寫入到爬蟲主體文件中。

2、接下來是發(fā)布日期的提取，仍然是以交互式的方式實現(xiàn)網(wǎng)頁與源碼之間的交互，如下圖所示。

3、而且標簽“entry-meta-hide-on-mobile”具有全局唯一性，可以很方便的定位到元素。

4、根據(jù)網(wǎng)頁結構，我們可輕易的寫出發(fā)布日期的 Xpath 表達式，可以在 scrapy shell 中先進行測試，再將選擇器表達式寫入爬蟲文件中，詳情如下圖所示。

這里有部分雜質信息，需要利用 strip() 和 replace() 函數(shù)剔除多余的雜質，還日期一個“清白”。

5、關于文章主題標簽的 Xpath 表達式，可以看到其在網(wǎng)頁結構上處于日期的下方，如下圖所示。

因此可以通過更改一下發(fā)布日期的 Xpath 表達式，即可獲取到文章主題標簽。

6、文章主題標簽處于 a 標簽下，如下圖所示。

獲取到整個列表之后，利用 join 函數(shù)將數(shù)組中的元素以逗號連接生成一個新的字符串叫 tags，然后寫入 Scrapy 爬蟲文件中去。

7、對于點贊數(shù)，其分析方法同之前一致，找到唯一的一個標簽“vote-post-up”即可定位到數(shù)據(jù)。

8、細心的小伙伴可能會看到“vote-post-up”屬性并不是 class 標簽中唯一一個屬性，所以一開始的 Xpath 表達式匹配的內(nèi)容為空。

這里給大家安利一個小技巧，如果標簽中存在多個屬性，且屬性是唯一的時候，可以利用 contains 函數(shù)進行助攻，其用法是 //span[contains(@class, vote-post-up)，務必要多加練習，否則容易忘記。根據(jù)網(wǎng)頁結構寫出 Xpath 表達式，調試的過程如下圖所示。