怎么用python爬蟲抓取網頁文本

158次閱讀

共計 610 個字符，預計需要花費 2 分鐘才能閱讀完成。

使用 Python 爬蟲抓取網頁文本可以使用第三方庫 requests 和 beautifulsoup。
首先，安裝 requests 和 beautifulsoup 庫：

pip install requests
pip install beautifulsoup4

然后，編寫 Python 代碼：

import requests
from bs4 import BeautifulSoup
# 發送 GET 請求，獲取網頁內容
url = "http://example.com"  # 要抓取的網頁 URL
response = requests.get(url)
html = response.text
# 使用 BeautifulSoup 解析網頁內容
soup = BeautifulSoup(html, 'html.parser')
# 提取網頁文本
text = soup.get_text()
print(text)

以上代碼中，首先使用 requests 庫發送 GET 請求，獲取網頁內容并保存在變量 html 中。然后，使用 BeautifulSoup 庫將網頁內容進行解析，生成一個 BeautifulSoup 對象 soup。最后，使用 soup 的 get_text() 方法提取網頁的純文本內容，并打印出來。
需要注意的是，使用爬蟲抓取網頁文本時，需要遵守網站的使用規則，尊重網站的 robots.txt 文件，不進行惡意爬取。另外，可能需要處理一些反爬機制，如設置 User-Agent、延時請求等。

丸趣 TV 網 – 提供最優質的資源集合！

正文完