|
我自己是只用六成歷史數據來設計模型。另外四成中,一半用作cross validation, 另一半用作testing。
即:
60% training set
20% cross validation set
20% testing set
你的模型應該是盡量令training set的error rate降低。然後用於cross validation set:
如果兩者error rate 差太遠,表示你的模型過度優化,解決方法是放進更多sample, 或者減少考慮的factor
如果兩者error rate 相約,但你覺得error rate偏高,那是你的模型不夠優化,解決方法是加入更多factor
最後用餘下的20% testing set來衡量你的模型的error rate吧。這樣應該可以有效避免過度優化的問題 |
|