怎么用python抓取網頁內容保存到csv文件

145次閱讀

共計 1171 個字符，預計需要花費 3 分鐘才能閱讀完成。

要使用 Python 抓取網頁內容并保存到 CSV 文件，可以按照以下步驟進行操作：

導入所需的庫，包括 requests 用于發送 HTTP 請求，csv用于操作 CSV 文件。

import requests
import csv

發送 HTTP 請求獲取網頁內容，并將其存儲在一個變量中。可以使用 requests.get() 方法來發送 GET 請求，并使用 .text 屬性來獲取網頁內容。

url = "http://example.com"  # 替換為需要抓取的網頁 URL
response = requests.get(url)
content = response.text

解析網頁內容，提取所需的數據。可以使用 Python 內置的字符串操作方法或者使用第三方庫（如BeautifulSoup）來解析網頁。

# 使用示例：使用正則表達式從網頁內容中提取所有的鏈接
import re

pattern = '<a href="(.*?)".*?>'
links = re.findall(pattern, content)

創建一個 CSV 文件，并將數據寫入其中。可以使用 csv.writer 對象來寫入 CSV 文件，通過調用其 writerow() 方法來寫入一行數據。

filename = "data.csv"  # 替換為所需的 CSV 文件名
with open(filename, 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(["Link"])  # 寫入表頭
    for link in links:
        writer.writerow([link])  # 寫入數據

完整的代碼示例：

import requests
import csv
import re

url = "http://example.com"  # 替換為需要抓取的網頁 URL
response = requests.get(url)
content = response.text

pattern = '<a href="(.*?)".*?>'
links = re.findall(pattern, content)

filename = "data.csv"  # 替換為所需的 CSV 文件名
with open(filename, 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(["Link"])  # 寫入表頭
    for link in links:
        writer.writerow([link])  # 寫入數據