python爬蟲怎么抓取網頁文本

194次閱讀

共計 825 個字符，預計需要花費 3 分鐘才能閱讀完成。

在 Python 中，我們可以使用第三方庫 BeautifulSoup 來抓取網頁文本。以下是抓取網頁文本的基本步驟：

安裝 BeautifulSoup 庫：使用 pip 命令安裝 BeautifulSoup 庫，命令為 pip install beautifulsoup4。
導入庫：在 Python 代碼中導入 BeautifulSoup 庫和 requests 庫。

from bs4 import BeautifulSoup
import requests

發送 HTTP 請求并獲取網頁內容：使用 requests 庫發送 HTTP 請求，獲取網頁的 HTML 內容。

url = "https://example.com"  # 替換成待抓取的網頁鏈接 
response = requests.get(url)
html_content = response.content

解析 HTML 內容：使用 BeautifulSoup 庫解析 HTML 內容，生成 BeautifulSoup 對象。

soup = BeautifulSoup(html_content, 'html.parser')

提取網頁文本：使用 BeautifulSoup 提供的方法，提取出想要的網頁文本。

# 提取所有文本內容 
text = soup.get_text()

# 提取指定標簽的文本內容 
text = soup.find('div').text  # 提取第一個 <div> 標簽的文本內容 

# 提取具有指定 CSS 類的標簽的文本內容 
text = soup.find(class_='class-name').text  # 提取具有 class 屬性為 class-name 的標簽的文本內容 

# 提取具有指定 id 的標簽的文本內容 
text = soup.find(id='id-name').text  # 提取具有 id 屬性為 id-name 的標簽的文本內容