共計 1171 個字符,預計需要花費 3 分鐘才能閱讀完成。
要使用 Python 抓取網頁內容并保存到 CSV 文件,可以按照以下步驟進行操作:
- 導入所需的庫,包括
requests
用于發送 HTTP 請求,csv
用于操作 CSV 文件。
import requests
import csv
- 發送 HTTP 請求獲取網頁內容,并將其存儲在一個變量中。可以使用
requests.get()
方法來發送 GET 請求,并使用.text
屬性來獲取網頁內容。
url = "http://example.com" # 替換為需要抓取的網頁 URL
response = requests.get(url)
content = response.text
- 解析網頁內容,提取所需的數據。可以使用 Python 內置的字符串操作方法或者使用第三方庫(如
BeautifulSoup
)來解析網頁。
# 使用示例:使用正則表達式從網頁內容中提取所有的鏈接
import re
pattern = '<a href="(.*?)".*?>'
links = re.findall(pattern, content)
- 創建一個 CSV 文件,并將數據寫入其中。可以使用
csv.writer
對象來寫入 CSV 文件,通過調用其writerow()
方法來寫入一行數據。
filename = "data.csv" # 替換為所需的 CSV 文件名
with open(filename, 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["Link"]) # 寫入表頭
for link in links:
writer.writerow([link]) # 寫入數據
完整的代碼示例:
import requests
import csv
import re
url = "http://example.com" # 替換為需要抓取的網頁 URL
response = requests.get(url)
content = response.text
pattern = '<a href="(.*?)".*?>'
links = re.findall(pattern, content)
filename = "data.csv" # 替換為所需的 CSV 文件名
with open(filename, 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["Link"]) # 寫入表頭
for link in links:
writer.writerow([link]) # 寫入數據
運行上述代碼后,會在當前目錄下生成一個名為 "data.csv" 的文件,其中包含了抓取到的網頁鏈接信息。根據實際需求,可以調整代碼來提取其他所需的數據并寫入 CSV 文件。
丸趣 TV 網 – 提供最優質的資源集合!
正文完