python如何清洗數(shù)據(jù)

130次閱讀

共計(jì) 1037 個(gè)字符，預(yù)計(jì)需要花費(fèi) 3 分鐘才能閱讀完成。

在 Python 中，可以使用各種庫和工具來清洗數(shù)據(jù)。下面是一些常用的方法：

數(shù)據(jù)去重：使用 pandas 庫的 drop_duplicates() 函數(shù)可以去除重復(fù)的數(shù)據(jù)行。

import pandas as pd
df = pd.DataFrame({'col1': ['A', 'B', 'A', 'C', 'B'],
'col2': [1, 2, 3, 4, 5]})
df.drop_duplicates()

缺失值處理：使用 pandas 庫的 fillna() 函數(shù)可以填充缺失值，使用 dropna() 函數(shù)可以刪除含有缺失值的行。

import pandas as pd
df = pd.DataFrame({'col1': [1, 2, None, 4],
'col2': [None, 2, 3, 4]})
df.fillna(0)  # 填充缺失值為 0
df.dropna()  # 刪除含有缺失值的行

數(shù)據(jù)轉(zhuǎn)換：使用 pandas 庫的 apply() 函數(shù)可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換，通過自定義的函數(shù)可以實(shí)現(xiàn)各種數(shù)據(jù)清洗操作。

import pandas as pd
df = pd.DataFrame({'col1': ['a', 'b', 'c', 'd'],
'col2': [1, 2, 3, 4]})
def convert_to_uppercase(x):
return x.upper()
df['col1'] = df['col1'].apply(convert_to_uppercase)  # 將 col1 列的值轉(zhuǎn)換為大寫

數(shù)據(jù)格式轉(zhuǎn)換：使用 pandas 庫的 astype() 函數(shù)可以將數(shù)據(jù)的類型轉(zhuǎn)換為指定的格式。

import pandas as pd
df = pd.DataFrame({'col1': [1, 2, 3, 4],
'col2': [1.1, 2.2, 3.3, 4.4]})
df['col2'] = df['col2'].astype(int)  # 將 col2 列的值轉(zhuǎn)換為整型

數(shù)據(jù)標(biāo)準(zhǔn)化：使用 sklearn 庫的 StandardScaler 類可以對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

from sklearn.preprocessing import StandardScaler
data = [[1, 2], [3, 4], [5, 6]]
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)  # 對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理

這些只是一些常見的數(shù)據(jù)清洗方法，實(shí)際上，數(shù)據(jù)清洗的具體操作和步驟根據(jù)不同的數(shù)據(jù)類型和需求可能會(huì)有所差異，可以根據(jù)具體情況選擇合適的方法來進(jìn)行數(shù)據(jù)清洗。

丸趣 TV 網(wǎng) – 提供最優(yōu)質(zhì)的資源集合！

正文完