|
本帖最後由 wctsengc 於 19-11-27 14:47 編輯
問題在於各式訓練資料的準備(clean, ETL, label), 這需要很專精的domain expert和data scientist, 並且要花去最多的時間(可能要比訓練機器更久), 加上此類適格人才難尋
把機器想像成很小的小孩, 看您要怎樣教育他, 每個人教育小孩的方法都不同. 這就是我說準備訓練資料時的domain expert最重要, 不是只有我們這種data scientist是關鍵. 根據完全同樣一份市場的報價歷史資料, 您可以將訓練資料準備成好幾種, 一種是讓機器去學遇到哪幾種狀況同時存在時去做交易的; 另一種是讓機器去學後面的人心計算是怎麼運作, 然後據此再去交易的, 而其他種則看domain expert的創意. 像小孩學課程一樣, 教材不同, 學出來的孩子技能也都不同. 當然教材笨笨的, 學出來的小孩也是笨笨的, 教材裡面沒涵蓋的(ex: 黑天鵝), 被教育出來的小孩要知道也難. 所以才強調AI的重點不在後面的技術, 反在於訓練資料的準備.
其實好的操作方法絕對不是單從市場實戰經驗導出來的, 也可以看做在歷史資料(實戰經驗)中找賺錢的行為或方法, 是有問題的. 繼續重申 --- 正確的作法應是先有理論或model, 理論的涵蓋度夠廣後(把看不見黑天鵝的機率降低), 再用歷史資料去印證理論(model)在已發生資料中的實務可行性, 並且達到在 [不修正] 任何參數的前提下, 且在 [不同時間架構]中, 和 [不同商品] 間, 都有同樣水準以上的穿透性(以上 [三不] 最重要)
|
|