過度擬合與不足擬合
過度擬合(Overfitting)是指AI Model程式因從訓練數據中過度地充分學習或太仔細地記下一切,其得出的模式(pattern)因太仔細以至未能概括地(generalize)從訓練數據中得出較好的模式,故所得出的模式套在測試數據上就會產生較大落差,未能作出較準確預測。
不足擬合(Underfitting)是指AI Model程式中所用的Model太過簡單,即其decision trees太少或未夠深,縱使有足夠的訓練數據,亦未能從訓練數據中充分學習,其得出的模式套在測試數據上,自然未能作出較準確的預測。(參考圖)
因AI Model程式要兼顧很多特徵(features),用錯誤率(cartesian error rate)來計算每個特徵較可行。當訓練數據錯誤率非常低,而測試數據錯誤率非常高時,即代表過度擬合,AI Model程式太複雜,會容易產生過度擬合,用簡單些的decision trees會改善。相反,當訓練數據錯誤率非常高,而測試數據錯誤率亦非常高,即代表不足擬合,AI Model程式內的decision trees太簡單,就會產生不足擬合,調教decision trees便會改善。唯有當訓練數據錯誤率非常低,而測試數據錯誤率亦非常低,即代表該AI Model程式做得不錯(balanced),其預測亦較可靠。(參考附圖)
學勤進修教育中心電腦專科導師 周柏堅
留言