機器學習建模步驟你知道嗎

經驗
關注：1.58W次

1、實際問題抽象成數學問題：這裡的抽象成數學問題，指的我們明確我們可以獲得什麼樣的資料，目標是一個分類還是迴歸或者是聚類的問題，如果都不是的話，如果劃歸為其中的某類問題。

2、獲取資料：獲取資料包括獲取原始資料以及從原始資料中經過特徵工程從原始資料中提取訓練、測試資料。機器學習比賽中原始資料都是直接提供的，但是實際問題需要自己獲得原始資料。“ 資料決定機器學習結果的上限，而演算法只是儘可能的逼近這個上限”，可見資料在機器學習中的作用。總的來說資料要有具有“代表性”，對於分類問題，資料偏斜不能過於嚴重，不同類別的資料數量不要有數個數量級的差距。對評估資料的量級，樣本數量、特徵數量，估算訓練模型對記憶體的消耗。如果資料量太大可以考慮減少訓練樣本、降維或者使用分散式機器學習系統。

3、特徵工程：特徵工程包括從原始資料中特徵構建、特徵提取、特徵選擇、特徵工程做的好能發揮原始資料的最大效力，往往能夠使得演算法的效果和效能得到顯著的提升，有時能使簡單的模型的效果比複雜的模型效果好。資料探勘的大部分時間就花在特徵工程上面，是機器學習非常基礎而又必備的步驟。資料預處理、資料清洗、篩選顯著特徵、摒棄非顯著特徵等。訓練模型、診斷、調優模型診斷中至關重要的是判斷過擬合、欠擬合，常見的方法是繪製學習曲線，交叉驗證。通過增加訓練的資料量、降低模型複雜度來降低過擬合的風險，提高特徵的數量和質量、增加模型複雜來防止欠擬合。診斷後的模型需要進行進一步調優，調優後的新模型需要重新診斷，這是一個反覆迭代不斷逼近的過程，需要不斷的嘗試，進而達到最優的狀態。

4、模型驗證、誤差分析：通過測試資料，驗證模型的有效性，觀察誤差樣本，分析誤差產生的原因，往往能使得我們找到提升演算法效能的突破點。誤差分析主要是分析出誤差來源與資料、特徵、演算法。

5、模型融合：提升演算法的準確度主要方法是模型的前端（特徵工程、清洗、預處理、取樣）和後端的模型融合。在機器學習比賽中模型融合非常常見，基本都能使得效果有一定的提升。

6、上線執行：這一部分內容主要跟工程實現的相關性比較大。工程上是結果導向，模型在線上執行的效果直接決定模型的成敗。不單純包括其準確程度、誤差等情況，還包括其執行的速度(時間複雜度)、資源消耗程度（空間複雜度）、穩定性是否可接受。

標籤：建模機器學習

文章版權屬於文章作者所有，轉載請註明 https://xiumeifan.com/zh-tw/shenghuo/jingyan/ok6r7n.html

當前位置：秀美範 >

生活 >經驗 >

機器學習建模步驟你知道嗎

相關內容

熱門文章

猜你喜歡

當前位置：秀美範 >

生活 >經驗 >

機器學習建模步驟 你知道嗎

相關內容

熱門文章

猜你喜歡

機器學習建模步驟你知道嗎