大數據的迷思

「Big data」，大數據成了各領域的熱門詞彙，交易也不例外。二十世紀的交易者拿著紙筆記錄數據並繪製圖表，60 年代愛德華索普 ( Edward Thorp ) 運用大型的 IBM 電腦計算各種博弈條件下的機率與期望值變化，包含其著作的 21 點書籍《 Beat the Dealer – 1966 by Edward Thorp 》，以及例如輪盤遊戲些微的賭具傾角對落點影響的模擬。然而對於多數交易者而言，與百年前的人們相較，看似沒有更多的資料可以取得，仍然是有限的價格、成交量。反而因為科技進步，單市場內的效率偏差短時間就遭到抹平，多市場間的反應連結時間也已經短到以毫秒計算。

總歸來說，交易變得越來越困難，因為許多簡單的邏輯已被市場效率壓縮了獲利能力。

高頻交易或許是大數據概念的最佳歸宿，某些類型的高頻交易滿足了大數據這個概念的核心，以串聯大量伺服器及資料庫運算而得到對極短期市場趨勢的預測或套利空間，華爾街主要的投資銀行正大行其道。但這類系統的問題在於對建構成本及維護有大量需求，是一場十足的硬體軍備競賽，因為市場中的競爭者一旦提前完成擷取、運算及執行，系統便宣告失效。所以高頻在某種程度上並不適合一般交者著手。

我們也可以市場中看到許多揹著大數據招牌的發表，例如經過統計得到台股在某幾個月份的上漲或下跌機率，或是連續漲跌 N 日後的上漲、下跌機率。這種並非 Big data 邏輯卻又看似可用的簡易統計，對於交易的適用性一般可以分為兩個方式判別：( 1 ) 統計事件需不為獨立。 ( 2 ) 統計來源的離群值現象。一個離群值較多的數列可參考性並不高。

再與各位淺談數據的取得。數據的採納並沒有單一正確的答案，其關乎交易策略特性與需求。以期貨商品為例，若皆選擇以最大交易量的合約為標的 ( 例如此時東京工業交易所黃金期貨的最大成交量合約是 2016 年 02 月，並非較早到期的 201504、201506、201508、201510、201512 合約 )，許多資料來源所採的連續月並不適用於策略設計、回測、交易，並且在策略設計前將合約換月規則處理好，才能看到真實面。

在電腦得以迅速取得、運算、回測資料的同時，交易者更容易擁有採用多方數據而得的優勢，卻同時也是陷阱。除了收盤、開盤、最高、最低四個價位外，甚至成交量、掛單量以及它項商品的圖表佐證都可以成為演算來源。然而一組由多數字共同而來的幾何參數相當容易出現過度最佳化 ( overfitting ) 的問題，同時最佳化多個數字能輕易交集出一組完美數值，讓模擬的權益曲線趨近一條直線，交易者也難以割捨這種隨機下的巧合。另一個衍生的問題是由於採用數值過多，我們無從推斷報表中的不理想來自於哪個角落。

為了有效解決上述問題，在一些金融機構中具有區分策略本質與輔助工具的機制，讓交易系統的改善依循正確的路徑。策略本質是一個粗略的邏輯架構，系統將必要的資訊彙整後結論出一個答案，對一般交易者而言，會是類似於是否在場內、買賣商品、單一方向或對沖組合、部位大小。在這個策略本質之上再套入能讓交易更加完善的工具用來輔助，例如以複雜的價格計算取代 K 棒收盤價 [ 例如 ( H + L + 2C ) / 4 就是一個初階例子 ]、平滑不斷跳動的 tick 價格，或是根據數檔掛單量決定系統下單的委託方式等。前者策略本質在回測及實際運行中不斷被檢討，後者則無需因這種檢討而變動，僅單純用以輔助策略本質達到的運行效果。