1、什么是数据清洗,数据清洗的方式和方法有哪些?
2、python的preprocessing包库的使用,包括dropna, isnull, Imputer, fillna等函数的使用。
python preprocessing数据标准处理方法总结
1.标准化处理 x-mean/std
from sklearn.preprocessing import StandardScaler()
z_score_scaler=StandardScaler()
data_scale=z_score_scaler.fit_transform(data)
2.max-min标准化 x-min/max-min
from sklearn.preprocessing import MinMaxScaler
min_max_scaler=MinMaxScaler()
data_scaler=MinMaxScaler.fit_transform(data)
3.MaxAbs标准 abs( x/max(x))
from sklearn.preprocessing import MaxAbsScaler()
maxabs_scaler=MaxAbsScaler()
data_scaler=maxabs_scale.fit_transform(data)
4.RobustScaler标准 针对离群点
from sklearn.preprocessing import RobustScaler
robustscaler_scaler=RobustScaler()
data_scaler= robustscaler_scaler.fit_transform(data)
5.二值标准化 超过阈值置1
from sklearn.preprocessing import Binarizer
binarizer=Binarizer()
data_scaler= binarizer(threshold=N)
6.二值编码标准化 跟pd.get_dummies类似
from sklearn.preprocessing import label_binarize
label_bina=label_binarize()
data_scaler=label_bina(data,classes=[0,1,2,3])
7.类别特征编码
from sklearn.preprocessing import OneHotEncoder
one_scaler=OneHotEncoder()
data_scaler=one_scaler.fit_transform(data)
data_scaler_array=data_scale.toarray()
**#注意需要进行toarray才能转化成可视的结果**
8.范式标准化 x/Lp1|x/Lp2
from sklearn.preprocessing import normalize
data_scaler= normalize(data,norm='11')
#norm='l1'|'l2' 选择范数1或范数2,用x除以每列的lp1值/lp2值
注意norm里的是L的小写,l1不是11;
**同时它是横向缩放,以同行的其他列值作运算axis=1,前面7个标准处理都是同列不同行值作运算aixs=0。 **