共計 723 個字符,預計需要花費 2 分鐘才能閱讀完成。
要在 Python 中讀取 HDFS 上的文件,您可以使用 Hadoop 的文件系統庫 pyarrow 或 hdfs3。
使用 pyarrow 讀取 HDFS 上的文件,您需要安裝 pyarrow 庫并配置好 Hadoop 的環境變量。然后可以使用以下代碼示例讀取 HDFS 上的文件:
import pyarrow as pa
# 連接到 HDFS 文件系統
fs = pa.hdfs.connect(host="namenode_host", port=8020, user="hdfs_user")
# 讀取 HDFS 上的文件
with fs.open("/path/to/file.txt", mode='rb') as f:
data = f.read()
# 打印文件內容
print(data.decode('utf-8'))
使用 hdfs3 庫讀取 HDFS 上的文件,您需要安裝 hdfs3 庫并配置好 Hadoop 的環境變量。然后可以使用以下代碼示例讀取 HDFS 上的文件:
import hdfs3
# 連接到 HDFS 文件系統
fs = hdfs3.HDFileSystem(host="namenode_host", port=8020, user="hdfs_user")
# 讀取 HDFS 上的文件
with fs.open("/path/to/file.txt", 'rb') as f:
data = f.read()
# 打印文件內容
print(data.decode('utf-8'))
請替換 namenode_host
為您的 HDFS Namenode 的主機名或 IP 地址,8020
為 Namenode 的端口號(默認為 8020),hdfs_user
為 HDFS 中的用戶名。然后將 /path/to/file.txt
替換為您要讀取的文件的路徑。
丸趣 TV 網 – 提供最優質的資源集合!
正文完