共計 825 個字符,預計需要花費 3 分鐘才能閱讀完成。
在 Python 中,我們可以使用第三方庫 BeautifulSoup 來抓取網頁文本。以下是抓取網頁文本的基本步驟:
-
安裝 BeautifulSoup 庫:使用 pip 命令安裝 BeautifulSoup 庫,命令為
pip install beautifulsoup4。 -
導入庫:在 Python 代碼中導入 BeautifulSoup 庫和 requests 庫。
from bs4 import BeautifulSoup
import requests
- 發送 HTTP 請求并獲取網頁內容:使用 requests 庫發送 HTTP 請求,獲取網頁的 HTML 內容。
url = "https://example.com" # 替換成待抓取的網頁鏈接
response = requests.get(url)
html_content = response.content
- 解析 HTML 內容:使用 BeautifulSoup 庫解析 HTML 內容,生成 BeautifulSoup 對象。
soup = BeautifulSoup(html_content, 'html.parser')
- 提取網頁文本:使用 BeautifulSoup 提供的方法,提取出想要的網頁文本。
# 提取所有文本內容
text = soup.get_text()
# 提取指定標簽的文本內容
text = soup.find('div').text # 提取第一個 <div> 標簽的文本內容
# 提取具有指定 CSS 類的標簽的文本內容
text = soup.find(class_='class-name').text # 提取具有 class 屬性為 class-name 的標簽的文本內容
# 提取具有指定 id 的標簽的文本內容
text = soup.find(id='id-name').text # 提取具有 id 屬性為 id-name 的標簽的文本內容
以上是基本的抓取網頁文本的步驟,具體的提取方式可以根據實際情況進行調整。
丸趣 TV 網 – 提供最優質的資源集合!
正文完