python怎么讀取hdfs上的文件

143次閱讀

共計 723 個字符，預計需要花費 2 分鐘才能閱讀完成。

要在 Python 中讀取 HDFS 上的文件，您可以使用 Hadoop 的文件系統庫 pyarrow 或 hdfs3。
使用 pyarrow 讀取 HDFS 上的文件，您需要安裝 pyarrow 庫并配置好 Hadoop 的環境變量。然后可以使用以下代碼示例讀取 HDFS 上的文件：

import pyarrow as pa
# 連接到 HDFS 文件系統
fs = pa.hdfs.connect(host="namenode_host", port=8020, user="hdfs_user")
# 讀取 HDFS 上的文件
with fs.open("/path/to/file.txt", mode='rb') as f:
data = f.read()
# 打印文件內容
print(data.decode('utf-8'))

使用 hdfs3 庫讀取 HDFS 上的文件，您需要安裝 hdfs3 庫并配置好 Hadoop 的環境變量。然后可以使用以下代碼示例讀取 HDFS 上的文件：

import hdfs3
# 連接到 HDFS 文件系統
fs = hdfs3.HDFileSystem(host="namenode_host", port=8020, user="hdfs_user")
# 讀取 HDFS 上的文件
with fs.open("/path/to/file.txt", 'rb') as f:
data = f.read()
# 打印文件內容
print(data.decode('utf-8'))

請替換 namenode_host 為您的 HDFS Namenode 的主機名或 IP 地址，8020為 Namenode 的端口號（默認為 8020），hdfs_user為 HDFS 中的用戶名。然后將 /path/to/file.txt 替換為您要讀取的文件的路徑。

丸趣 TV 網 – 提供最優質的資源集合！

正文完