本帖最後由 wctsengc 於 19-11-28 12:22 編輯
個人十幾年前還在上班累積操作資金的時候, 有過台股市值最大公司的類data scientist經歷, 也是Oracle ERP的data architect, 並受過SAP Data Warehousing 模組的訓練, 也就是之前上班十幾年的工作都是靠data吃飯(全職操作後更是努力地玩data, 近幾年趕流行也嘗試過AI). 對於不懂大數據或區塊鏈的, 改天也附上我曾寫過的掃盲文
近幾年理財機器人或是人工智慧(AI), 因為AlphaGo戰勝棋王的宣傳變得很夯, 不少人以為面對類似的市場戰局(抉擇), 人工智慧必定很有發揮的空間; 現實卻殘忍地告訴您, AI團隊努力了幾年卻宣告失敗了, 改轉進醫療相關領域, 可參考連結報導 zhuanlan.zhihu.com/p/31913355 (也有人說是假新聞)
簡化地告訴您, 人工展現智慧前, 必須有一段機器學習的過程; 而這機器學習(ML)通常可以這樣定義:「透過從過往的資料和經驗中學習並找到其運行規則。」然而正是這 [資料] 和[經驗] 侷限了一切!
黑天鵝的由來大家都知道吧? 話說古時候北半球的人, 一輩子根本沒機會看過南半球的天鵝有些是黑色的, 因此他的 [資料] 和[經驗] 就侷限在天鵝只會有白色的, 所以我們拿來訓練機器的資料也只能會有白色的(沒發生過的資料, 人類也無能更不可能預見出來), 當這種訓練下來的人工智慧機器, 後來遇到它沒見過的狀況(黑天鵝)時, 您還會認為它會做出有智慧的反應嗎? 哪怕它學習時用的演算法是什麼manifold regularization或是TSVM都沒三小路用
市場因為參與者眾多, 組成分子又會汰舊換新(不管是被抬出場或真正死亡), 市場老師的行為是一直在改變的, 對人工智慧機器來說, 就是不斷地用新出的黑天鵝(它的學習資料庫不存在這些資料), 去挑戰它好不容易用演算法搞出來的規則, 這只會讓它不斷地傻眼而已. 圍棋變數多但仍是有限解(雖窮舉後的資料龐大), 人類可以用有限解的部分集合(ex: 棋譜資料)去訓練電腦, 讓它能在限定時間內算出最佳可行解; 但交易市場屬於無限解... 很難辦!
結論回到好的操作方法絕對不是單從市場實戰經驗導出來的, 也可以看做在歷史資料(實戰經驗)中找賺錢的行為或方法, 是有問題的. 繼續重申 --- 正確的作法應是先有理論或model, 理論的涵蓋度夠廣後(把看不見黑天鵝的機率降低), 再用歷史資料去印證理論(model)在已發生資料中的實務可行性, 並且達到在 [不修正] 任何參數的前提下, 且在 [不同時間架構]中, 和 [不同商品] 間, 都有同樣水準以上的穿透性(以上 [三不] 最重要)
有人提問 ---
若給AI夠多的資料,涵蓋的範圍夠廣,譬如幾十年的資料,幾百個市場,正常人類考慮不了這麼大量的資訊,但對AI卻只是運算速度跟儲存空間的問題。就像一個累積幾百年歷史經驗的老師父,是不是能讓AI對戰人類(壽命只有幾十年和有限的思考力)取得優勢呢?
Ans: 現階段做不到, 未來我不敢說!
如果您對AI技術有一點了解的話, 搞AI很耗各種資源的. 舉自己例子來說(用R語言寫的, 不知用Python會不會比較快, 我是覺得不會), 曾經花過30天才準備完約3000筆訓練資料, 用等級最高的CPU i7來跑(沒有另加AGP), 跑個沒很難的演算法(SVM)讓機器去找rules, 不誇張需要跑3天, 您都會以為機器是不是當掉了! 所以您可以看到為啥前幾年AI流行的時候, 賣AGP可加速運算的nVidia股價大飆高. AGP能加速多少? 算很厲害讓機器三天改跑半天就好, 您還是很可能誤認是當機的(還只有三千筆而已) 哈哈
所以太小看現階段AI所需要的資源(軟. 硬體. 各種專家. 訓練資料), 幾十年的資料? 幾百個市場? 單一公司很難做到, 即便是google也難! 況且最大的問題在於各式訓練資料的準備(clean, ETL, label), 這需要很專精的domain expert和data scientist, 並且要花去最多的時間(可能要比訓練機器更久), 加上適格人才難尋啊! 如果在哪一個市場成功了, 保證google會出來大吹大擂, 就像當初打敗棋王一樣, 沒有這種行銷, 後面的投資者會繼續出錢? 股價怎辦? 怎麼吸引更多人才? ....???
確實跑多一點訓練資料, 有機會讓機器聰明一點, 但還是不脫主文所提過的 --- 沒發生過的資料, 人類不知道也無能力, 更不可能預見出來, 只能繼續發生遇見黑天鵝而傻眼的狀況
其實, 如果有真正強的domain expert和data scientist, 可以避免機器重複學類似的東西, 資料多若沒篩過, 不會比較好, 所以上面也說 data clean更費工
p.s. AGP是GPU古時候的說法, 用A (Accelerated)比較有加速感
有人問說: 新聞中的沃牛一號是如何辦到絕對獲利的?是短期現象(AI根據短時間(3年)的資料在短時間內沒遇到黑天鵝)還是自吹自擂的可能性比較大?
我的回答是: 請注意它的用詞是: [回測]的數據令人震驚; 我也常開發出回測令人震驚的策略, 實際上線使用後也真的令我震驚, 賠錢到趕忙讓程式下架. 絕對獲利就只是不賠另種說法而已, 要做到沒很難, 我每週公開的實單測試便屬於這種, 但要承受獲利低的缺點, 大多數情況都是trade-off, 很難兩者兼得的, 如果可以, 這種大發現會得諾貝爾獎 --- Harry Markowitz的論文得獎(同時獲利最大化+風險最小化)
關於人工智慧, 您可以把機器想像成很小的小孩, 看您要怎樣教育他, 每個人教育小孩的方法都不同. 這就是我說準備訓練資料時的domain expert最重要, 不是只有我們這種data scientist是關鍵. 根據完全同樣一份市場的報價歷史資料, 您可以將訓練資料準備成好幾種, 一種是讓機器去學遇到哪幾種狀況同時存在時去做交易的; 另一種是讓機器去學後面的人心計算是怎麼運作, 然後據此再去交易的, 而其他種則看domain expert的創意. 像小孩學課程一樣, 教材不同, 學出來的孩子技能也都不同. 當然教材笨笨的, 學出來的小孩也是笨笨的, 教材裡面沒涵蓋的(ex: 黑天鵝), 被教育出來的小孩要知道也難. 所以才強調AI的重點不在後面的技術, 反在於訓練資料的準備
|