共計(jì) 1037 個(gè)字符,預(yù)計(jì)需要花費(fèi) 3 分鐘才能閱讀完成。
在 Python 中,可以使用各種庫和工具來清洗數(shù)據(jù)。下面是一些常用的方法:
- 數(shù)據(jù)去重:使用 pandas 庫的
drop_duplicates()
函數(shù)可以去除重復(fù)的數(shù)據(jù)行。
import pandas as pd
df = pd.DataFrame({'col1': ['A', 'B', 'A', 'C', 'B'],
'col2': [1, 2, 3, 4, 5]})
df.drop_duplicates()
- 缺失值處理:使用 pandas 庫的
fillna()
函數(shù)可以填充缺失值,使用dropna()
函數(shù)可以刪除含有缺失值的行。
import pandas as pd
df = pd.DataFrame({'col1': [1, 2, None, 4],
'col2': [None, 2, 3, 4]})
df.fillna(0) # 填充缺失值為 0
df.dropna() # 刪除含有缺失值的行
- 數(shù)據(jù)轉(zhuǎn)換:使用 pandas 庫的
apply()
函數(shù)可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,通過自定義的函數(shù)可以實(shí)現(xiàn)各種數(shù)據(jù)清洗操作。
import pandas as pd
df = pd.DataFrame({'col1': ['a', 'b', 'c', 'd'],
'col2': [1, 2, 3, 4]})
def convert_to_uppercase(x):
return x.upper()
df['col1'] = df['col1'].apply(convert_to_uppercase) # 將 col1 列的值轉(zhuǎn)換為大寫
- 數(shù)據(jù)格式轉(zhuǎn)換:使用 pandas 庫的
astype()
函數(shù)可以將數(shù)據(jù)的類型轉(zhuǎn)換為指定的格式。
import pandas as pd
df = pd.DataFrame({'col1': [1, 2, 3, 4],
'col2': [1.1, 2.2, 3.3, 4.4]})
df['col2'] = df['col2'].astype(int) # 將 col2 列的值轉(zhuǎn)換為整型
- 數(shù)據(jù)標(biāo)準(zhǔn)化:使用 sklearn 庫的
StandardScaler
類可以對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
from sklearn.preprocessing import StandardScaler
data = [[1, 2], [3, 4], [5, 6]]
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data) # 對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理
這些只是一些常見的數(shù)據(jù)清洗方法,實(shí)際上,數(shù)據(jù)清洗的具體操作和步驟根據(jù)不同的數(shù)據(jù)類型和需求可能會(huì)有所差異,可以根據(jù)具體情況選擇合適的方法來進(jìn)行數(shù)據(jù)清洗。
丸趣 TV 網(wǎng) – 提供最優(yōu)質(zhì)的資源集合!
正文完