我挖，我挖，我挖挖挖～資料採礦後如何處理呢？

大家好，我是貓大！還記得前一陣子教大家怎麼取得財經數據，提供各位讀者自己也能動手做統計分析的方法嗎？在<財經數據哪裡找？點進來便知道>;一文中提到六個獲取財經數據的方法，並且比較過其優缺點，除了我們提供的這些綜合性、國際性的網站外，還有各個國家的統計局網站資料，甚至是運用自己的資金去購買Bloomberg整理好的數據，在這個資訊爆炸的時代下，要取得資料與數據已經不是非常困難的事情，而是將我們取得的原始資料，處理為我們能夠分析的資料更為重要，因此今天貓大要跟大家聊聊我們取得的資料會是什麼樣子？而這些資料又該如何為我們所能使用呢？

為什麼我們稱現在是一個大數據（Big Data）的時代呢？因為，當快速的網路可以讓我們取得位於全球各地的資訊，再加上我們所使用設備的計算能力與儲存的資料量愈來愈高，讓我們能夠從「海量級」的資料中，透過與以往不同的挖礦技術，挖掘出的資訊或是商業規則，也就更具說服力以及吸引力。

針對大數據的資料挖礦與傳統的資料挖礦相比之下，有個關鍵的差別，那就是傳統的資料挖礦所處理的資料，都是「結構性」的資料，也就是說，結構性資料本身具有明確的結構，像是一個固定結構的Excel表格或是關聯式資料庫裡Table的資料，每個表格中的欄位都有其明確的意義與值，而在我們其他文章中所提及的演算法，如：SVM、LR、ANN等，都是輸入這些結構性的資料，再經過演算之後得到結果去預測未來資料的走向，但大數據的資料挖礦不同的地方，是在於它輸入的資料，不僅僅包含結構性資料，還包含大量的非結構性資料，他是用我們自然語言所寫成的純文字，這些文字的內容都是沒有特定的結構，所以無法直接套用到我們之前所提的演算法，來計算出些什麼有意義的東西。

透過文字探勘可以處理上面提到的非結構化資料，文字探勘是將隱藏於字裡行間的資訊切割成可處理的獨立單位，再去尋找、分析文字間的關聯性，主要運用在大量的文件庫上，作為資訊搜尋、訊息過濾、事件關聯、知識萃取、決策輔助等用途。文字探勘最近才在各領域受到重視，根據The Street的報導，從2008年大數據還沒有這麼受人矚目，但是現在許多金融業以及內容公司像是道瓊以及路透社，開始探勘非結構性資訊的比例從 2% 上升到 35%，預期未來結合文字與數據的資料探勘相關支出也將爆增一倍。

所以從報導顯示，非結構性資料對於這些企業而言，就像是一座還沒被開發的寶庫，文字探勘技術則是提供這些企業從大量的文字資料中，發展出各種有潛力的應用，來提升自己的競爭力，例如氣候的小幅變化可以預測小麥的價格走向，因此華爾街對向美聯社購買新聞授權，交易員就使用文字探勘來查覺市場變化，從政府債券到商品價格都可以預測。

文字探勘的來源不只是全球性的新聞機構，還有社群，以及科學期刊資料庫等，所以探勘結果不只是僅僅為投資人提供投資組合，甚至還可以擴及到更遠的範圍，例如統計學家奈特．席佛曾在2007年創辦FiveThirthyEight .com，在選舉時擁有全美國最完善的民調資料，超越CNN、福斯新聞和民調機構蓋洛普（Gallup）以及AC Nielsen，準確預測2008年與2012年的美國總統大選結果。可見這些自然語言純文字型的資料數量大大的超越我們傳統上結構性的資料，而且它蘊藏可觀、極具潛力的「礦產」，等著我們用資訊技術去開採，這對畢生的投入許多心血在挖礦的貓大來說，是多麼令人興奮的一件事情阿！

今天介紹了非結構性的純文字資料的重要性，並且透過文字探勘的技術找出文字之間的關聯性，它不但為我們投資人提供更精確的投資組合，還能應用在許多企業的內外部，來提升企業的競爭力，甚至能夠預測國家大事，從The Street報導我們可以得知非結構性的資料採礦還在萌芽階段，而且還有需多部分的資料尚未被開採，相信未來文字資料的採礦與應用將會擴及到更大的範圍，這對投資客們真是一大福音呢～喵！