資料內容:
特征工程與特征選擇
機器學習處理流程
問題建模->數(shù)據(jù)探索->特征工程->模型訓練->模型融合
特征工程
特征工程是對原始數(shù)據(jù)進行一系列的處理,旨在去除原始數(shù)據(jù)中雜質和冗余,設計更加高效的特
征以刻畫求解的問題與預測模型之間的關系。
常用數(shù)據(jù)類型:
1)結構化數(shù)據(jù):可看作數(shù)據(jù)庫中一張表,每列有明確定義,包含數(shù)值型和類別型兩種
2)非結構化數(shù)據(jù):包含文本,圖像,音頻等,其包含信息無法用一個簡單數(shù)值表示。
1. 數(shù)值型特征
特征歸一化(normalization)是在數(shù)值類型的特征上做的,為了消除數(shù)據(jù)特征之間的量綱影
響,需要對特征進行歸一化處理,使得各指標處于同一數(shù)量級,讓他們之間具有可比性。在
實際應用中,通過梯度下降法求解的模型通常需要歸一化。之所以要歸一化是因為在更新參
數(shù)是,不同特征的范圍不同,參數(shù)更新速度也會不同,歸一化后會更加容易找到最優(yōu)解。
a. 線性函數(shù)歸一化(Max-Min Scaling)。對原始數(shù)據(jù)進行線性變化,使結果映射到[0,1]的范
圍,實現(xiàn)對原始數(shù)據(jù)的等比縮放。