我已授權

註冊

數據:新時代的石油

2018-09-25 13:45:51 和訊 

  數據:新時代的石油

  隨著全球經濟數字化轉型穩步發展,數據逐漸變得越來越龐大、多樣化及有價值。具有從大數據分析及數據科學中獲取獨特見解的各行業(包括資產管理)的公司,可以擁有關鍵信息優勢,從而在這數字時代蓬勃發展。

  富蘭克林鄧普頓投資觀點

  概要

  • 與推動工業化時代的石油類似,數據乃推動第四次工業革命(也稱為數字時代)的核心資源,兩者的區別在於技術突破的速度。

  • 從大數據中得出的重要觀點令具備數據分析能力的機構能夠更快作出更佳決策,從而提高利潤率及收入。

  • 同樣地,數據科學家從以前未開發利用的數據源中獲得的知識及見解,可幫助資產管理人作出更精明、合理及可能更有利可圖的投資決策。

  • 使用自然語言處理、衛星圖像、機器學習及深度學習算法、模式識別及認知系統的數據模型可有助於提高投資團隊的賺錢技巧。

  • 富蘭克林鄧普頓正積極建設其數據科學及人工智能能力,以支持其主動型投資管理流程。在此過程中,數據科學家被嵌入到每個投資團隊,將數據視角轉化為可操作的投資相關情報。

  數據力量的利用

  英國經濟學家、作家及1991年諾貝爾經濟學獎獲獎者羅納德·科斯(Ronald Coase)沈思道“拷問數據,它會坦白一切”。

  上個世紀60年代初,在那個數據稀缺、難以獲得且基本無法使用的年代,已故的科斯在弗吉尼亞大學的一次演講中對數據處理發表了這句著名的半開玩笑式的名言。

  時代在變換,數據亦是如此,其本身已發生徹底變化,尤其是在最近幾年,數據變得極其龐大繁多、多樣化、無處不在,而且越發有價值。在全球產業快速數字化轉型(也稱為第四次工業革命)的影響下,數據如今被視為“新時代的石油”或是世界上最有價值的資源之一。

  借用英國數據科學家及數學家克萊夫·哈姆比(Clive Humby)在2006年發出的口號“數據是新時代的石油”,富蘭克林股票團隊副總裁兼基金經理Grant Bowers表示“數據無疑是新時代的石油”。Bowers稱,石油歷來是巨大的經濟力量的關鍵。但在未來,數據將在數字時代擁有類似的經濟力量。

  毫無疑問,如能夠從龐大數據集或大數據中獲得客戶偏好、未知關聯性、隱藏的市場趨勢及其他有利信息中擁有獨特見解的公司,將在數字時代享有繁榮發展的最大優勢。因為這些公司將能夠作出更佳、更快及更明智的決策及預測。

  Bowers補充道:“我們現正處於一個轉折點,各個行業的公司正在跨越傳統的生產力衡量標準,擁抱數字化轉型時代,在這個時代,數據是寶貴的資產。數據分析、機器學習及人工智能將為擁抱未來的公司帶來更高的利潤、回報及數十年的提升。”

  同樣地,能夠利用大數據力量來增強其成熟的投資專長的資產管理公司,將很可能在當今的數字時代蓬勃發展。

  為何數據越來越龐大且復雜?

  無疑,可用數據的數量目前正呈指數式增長。在2017年一份名為《數據時代2025》的報告中,研究公司IDC預測,“全球數據球”(任何給定年份中全球範圍內創建、捕獲及復制的所有數據總和)可能從2016年的16.1澤字節迅速增長至2025年的163澤字節。(1澤字節約等於1萬億吉字節。)擴張速度是近十年的10倍以上(見圖1)。

  近年來,個人電腦、智能手機、平板電腦、GPS跟蹤可穿戴設備、傳感器及大量數據生成小工具等數據生成設備的數量顯著增加,導致生成大量數據集。例如,如今傳感器被普遍嵌入到移動設備、軟件日誌、相機、麥克風、射頻識別閱讀器及無線網絡中。

  同時,隨著計算能力及算法系統(讓數字數據幾乎可以在瞬間被高效處理)的快速發展,保存及處理數據的成本大幅下降。大規模收集數據的便利程度亦大大提高。如今,大量連接不同數字設備(統稱端點)的用戶可生成數據。例如,根據互聯網世界統計(Internet World Stats)的互聯網使用情況和人口數據統計(Internet Usage and World Population Statistics)的估計,全球互聯網使用人數於2017年年底增長至約41.6億。

  此外,傳輸海量數據的帶寬每年都在增加,而成本越來越低。超高速網絡及無線寬帶的傳播亦刺激數據從物理存儲設備轉向雲存儲,令用戶可從任何數碼顯示屏訪問數據*。大型雲計算公司促進了數據的在線存儲,其通過提供一系列按次付費的數據分析工具,讓其服務的用戶更容易匯總及理解大數據。

  總之,數據集正變得如此龐大及復雜,以至於傳統數據處理應用程序及軟件無法進行處理。大數據管理的主要挑戰包括數據獲取、數據存儲及分析以及數據源的質疑、探測、共享、傳輸、可視化及更新,以及信息隱私維護。這就是數據科學的用武之地。

  *雲計算或基於互聯網的計算實現通過互聯網而非獨立電腦硬盤分散存儲及訪問程序及數據。

  


 

  評估數據的科學

  類似於數據挖掘,數據科學是計算機科學的一個分支,涉及使用系統方法、計算程序、認知系統、算法及人工智能來提取有用的統計信息,發現隱藏模式及未知相關性,並從結構和非結構化形式的大型數據集獲得見解及知識。

  已故日本統計學家及數據專家林知已夫(Chikio Hayashi)在其白皮書《什麽是數據科學?基本概念及啟發式例子》(What is Data Science? Fundamental Concepts and a Heuristic Example)中,將數據科學描述為“統一統計學、數據分析、機器學習及其相關方法的概念”,以用數據“理解及分析實際現象”。

  有趣的是,隨著數據被歸類為數據時代的“新時代石油”及“最寶貴的資源之一”,數據科學家已成為企業界、大多數行業以及政府部門除專家外最搶手的職業之一。事實上,在《哈佛商業評論》2012年10月刊本中,有一篇文章甚至將數據科學家這一職業稱為“21世紀最性感的工作”。

  最終,數據科學及大數據分析使用尖端技術,例如機器學習、自然語言處理、文本分析、模式識別及其他先進方法,旨在讓組織可從精心挑選的數據集中獲得有價值的見解,從而作出更佳更快的決策以及更準確的預測(利用數據決策的利與弊見圖2)。

  要從大數據中提取有用觀點,需要以下數個步驟。第一步是為數據科學家就數據收集及分析設定可衡量目標。這是為防止無意義的數據積累及分析。由於大部分大數據分析是為了助推決策,一個簡單的目標(例如對於資產管理人而言)可以是通過大數據提高投資研究洞察力,從而作出更佳的證券選擇決策。

  下一步涉及收集及生成數據,可向數據供應商購買,或從內部獲取。雖然數據收集十分重要,但以一種功能性、可用及可訪問的格式來維護數據並用於決策亦至關重要。因此,一旦收集了所需數據,接下來將要進行數據處理(可能會很費時)以提高數據質量。垃圾數據可能會導致結果不準確及扭曲,因此幹凈有序的數據對於分析而言十分重要。在這個階段,由於大數據太大且太復雜而無法手動處理,自動化就顯得極其重要。

  簡而言之,數據預處理將可能不完整、不一致及部分有誤的原始數據轉換成簡明易懂的格式,以便作進一步分析。在預處理階段,數據會進行清理、整合、轉換、篩選及匯總,以解決不一致的問題。此階段亦涉及填補缺失數值及刪除異常數據。最終的數據是一組標準格式的“已清理”數據,以用於最優數據分析。

  然後可對數據集運用文本分析、機器學習及預測分析等先進的數據分析方法。經驗豐富的數據科學家甚至可開發具備深度學習能力的模型,這些模型可關聯數據並進行預測。

  機器學習方法(亦稱為監督學習法,例如回歸、編目及分類)基本上為特定任務算法,用於檢查數據、從該數據集中學習並利用所學知識作出明智決策。隨著時間的推移,機器學習模型會變得越發強大,對任務的執行將逐漸變得更高效及熟練。

  深度學習是更高層次的機器學習,當中算法可以不受監督或部分受監督;其已能夠對數據進行評估,自行識別模式及相關性,以及判斷結果準確與否。總之,深度學習模型(人工智能技術的發展基石)能夠完成無人監督的學習任務。

  


  利用大數據提高投資靈活性

  在投資領域中,在數據科學家的幫助下,從以前未開發使用的數據源中獲得的知識和獨特視角可以幫助資產管理人做出更迅速、精明及合理的投資決策,從而有可能提高其投資組合的績效。

  隨著迄今無法利用的更新和龐大數據集得以使用,再加上數據分析能力提升,同時可利用先進的基礎設施快速獲取、處理和分析大量數據;如今越來越多資產管理人利用大數據框架來增強其研究流程和投資能力。事實上,數據科學可以融入傳統的投資流程中,用新發現的信息優勢武裝投資組合經理和投資分析師。

  除了使用關於公司的傳統財務資料以及傳統的金融市場數據之外,由衛星圖像、航空貨運和運輸記錄、網站流量、推文和社交媒體數據、商業交易和原材料采購統計數據生成的替代數據庫,可讓股票基金經理(舉例來說)對其所投資的公司有更細致的了解。

  具有自然語言處理(NLP)功能的計算模型能夠細閱及解釋新聞提要、長篇文章、財務報表、經紀人報告和有關特定公司的行業文件的基調,以確定出版材料是否存在消極或積極的含義。NLP還能夠識別公司與其他公司之間的間接和微妙聯系。NLP模型可以從觀察到的各類企業新聞、行業報告、監管文件和其他文本材料中收集這些未被發現的聯系。

  同樣地,輸入NLP模型的貸款和借款、法律文件和商業交易的相關數據也可以發現資產負債表日益惡化的公司。基於數據的模型還可以通過分別審查全國範圍的行業銷售數據和崗位任命統計數據,創建經濟指標的及時代替指標,例如國內生產總值和失業人數。

  卡車進出工廠的衛星圖像可以揭示公司制造活動的實驗證據,可用於加強一段時間內的銷售預測。農場、耕地面積、礦山和運輸路線自上而下的衛星圖像亦可能發現尚未報告的行業供應中斷。

  另外,將大量金融市場數據輸入深度學習模型,當無人監督的算法發現異常價格趨勢、市場違規行為和引發及預示過去的市場調整的模式(例如波動性大增、價格動量分解、流動性減弱或其他因素)時,提醒投資團隊市場即將陷入低迷的可能性。這種信息優勢可讓投資組合經理采取必要的策略來預測可能的市場事件。

  此外,使用增強型“決策樹” 分類的預測機器學習模型(稱為隨機森林)可以幫助投資團隊進行更可靠及一致的預測。[決策樹是一種常見的機器學習方法,具有流動型結構或樹狀圖形,詳細說明了各種決策以及這些選擇的可能後果或結果。]

  決策樹模型的目的是根據一系列具體決策來預測結果。然而,由於方差過大,決策樹學習模型很少能夠作出精確預測,這是由對數據集的小波動或“隨機噪聲”的敏感性引起的。這導致決策樹需要學習高度不規則的模式。通過將多個決策樹平均化,隨機森林方法降低了與傳統決策樹相關的高方差。因此,隨機森林模型能夠作為基於預測數據的系統,並作出更好的預測。

  擁抱數據科學

  富蘭克林鄧普頓正積極建立自身的數據科學和人工智能能力,以支持其主動型投資管理流程,並利用原始數據源來幫助投資團隊獲得信息優勢。

  數據科學家已經被分配到各個投資團隊,他們將數據分析產生的觀點進行轉化,以增強與投資相關的情報。這些數據科學家的職責是檢查和解釋復雜而龐大的數據庫,協助投資團隊決策。

  富蘭克林鄧普頓高級副總裁、首席技術官兼投資管理數據科學、金融科技及科技風險服務主管Joe Boerio表示:“我們的投資管理數據科學Hub&Spoke模型的建立正在有條不紊地進行。在該模型中,數據科學家被嵌入到每個投資團隊,模型將通過核心樞紐實現,具有支持投資管理數據棧和共享服務功能。”

  富蘭克林鄧普頓的投資管理數據棧由數個關鍵部分組成。包括傳統和替代數據源的數據收集、數據存儲和檢索、數據作為平臺(利用數據攝取、清理和設計的數據科學能力)、應用程序(擴展微應用程序和服務的使用)以及協作工具和技術,可支持和加強整個投資管理周期和投資管理團隊之間的協作(見圖3)。

  Boerio還表示:“重點是在投資管理的整個周期中將數據視角轉化為可操作的投資相關情報。這包括進行和管理研究、優化投資組合、持續監控投資組合、管理命令和執行交易,同時加強風險管理。”

  據Boerio稱,富蘭克林鄧普頓投資管理數據科學團隊的最終目標是打造一個信息優勢,通過啟用進入投資管理數據服務(包括NLP、輔以人工智能的人類直覺見解)的完整目錄,利用全世界的“數據化” 檢驗和反證投資主題,並從大數據中獲取第一手資料以萃取投資構思,構建更優的投資組合。

  


 

  富蘭克林鄧普頓還繼續在尖端的投資相關技術方面進行戰略投資和收購,以增加和支持其全球產品和支持公司宏大的信息技術及數據科學計劃。

  收購Random Forest Capital後,除了從數據科學的角度來處理投資管理問題,應用機器學習和統計算法解決使用復雜模型的金融投資的預期收益問題,還建立了一個可擴展的雲基礎架構,可以利用大量非結構化數據獲取關鍵的見解,並在數據中找到新的預測能力。其數據科學家主要是從非銀行、以技術為中心和基於網絡的貸款發起人處獲取並分析有擔保和無擔保的私人貸款的投資機會。

  富蘭克林鄧普頓固定收益團隊首席投資官Chris Molumphy表示:“顛覆性技術的快速發展正影響著傳統的投資環境,為識別和創造投資機會提供了新方法,從而為投資者創造更多價值。作為一個富有創造力的企業家團隊,Random Forest團隊帶來了一個擴展工具集,讓我們能夠進一步提升投資專業知識,並適應變幻莫測的投資環境。”

  例如,在尋找最具吸引力的信貸機會的過程中,在數百個不同的數據庫平臺上搜尋大量有擔保和無擔保貸款是一項艱巨的任務,信貸分析師可能需要數周甚至數月才能完成。利用從Random Forest中新獲得的數據科學能力,這些數據密集型任務可以在數秒鐘內通過其專門的數據模型執行,這些模型可以快速有效地搜索和分析大量數據。

  富蘭克林鄧普頓的定量策略研究,亦利用數據分析和機器學習方法來分解回報來源、處理市場信號和趨勢,並優化其風險因素構建模塊中的風險。量化單位在被輸入數據基礎設施和數據模型的數據質量上特別細致(見圖4)。



  然而,無論是在投資管理還是其他行業,向大數據框架的過渡並非一帆風順。實際上,可能有些數據集過於昂貴而無法收集或購買。還有一些數據可能無法為資產管理人提供任何產生超額收益的見解。有時候,數據科學家發現的投資機會也可能非常短暫或僅產生邊際收益。

  盡管如此,從長遠來看,隨著全球數字經濟穩步發展,而投資管理中的超額收益變得更加難以捉摸,數據收集和大數據分析產生的獨特見解很可能成為幫助基金經理實現高於平均回報的目標的關鍵工具之一。由人工智能驅動的數據模型確實有可能為投資者創造新的賺錢機會。因此,將數據科學與久經考驗的投資流程相結合,可以成為在變幻莫測的數字時代運營的資產管理公司的制勝之道。

  正如內燃機的運行需要燃油,人工智能和其他復雜的機器學習模型必然需要數據方能運行。數據可能是新型燃油。但與原油一樣,大數據需要經過精煉和加工才能實現經濟效益。

  附錄

  • 人工智能指機器或軟件所表現出來的智能。該詞也指研究如何創建具有智能行為能力的計算機和計算機軟件的學術領域。

  • 大數據指傳統數據處理應用軟件不足以處理的龐大且復雜的數據集。大數據挑戰包括數據獲取、數據存儲、數據分析、搜索、共享、傳輸、可視化、查詢、更新、信息隱私和數據源。

  • 數據分析是一個檢查、清理、轉換和建模數據的過程,目的是發現有用的信息、報告結論和支持決策。數據分析具有多個方面和方法,在不同名稱下包含各種技術,同時用於不同的商業、科學和社會科學領域。

  • 數據科學是一個跨學科領域,它使用科學方法、流程、算法和系統,從結構和非結構化的各種形式的數據中提取知識和見解,類似於數據挖掘。

  • 決策樹是一種決策支持工具,使用樹狀圖或決策模型及其可能的後果,包括隨機事件結果、資源代價和實用性。它是顯示僅包含條件控制語句的算法的一種方法。

  • 深度學習是基於一組算法的機器學習的一個分支,該算法是一種試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象建模的演算法。

  • 機器學習是計算機學習以未經專門編程的方式運行的能力;數據分析方法建立在自動分析模型之上。

  • 第四次工業革命是自18世紀初期工業革命以來的第四個主要工業時代。它可以被描述為一系列融合物理、數字和生物的新技術。其標誌是在很多領域出現的新興技術突破,包括機器人技術、人工智能、區塊鏈、納米技術、量子計算、生物技術、物聯網、3D打印和自動駕駛汽車。

  • 自然語言處理(NLP)屬於計算機科學、人工智能和語言學領域,涉及計算機與人類(自然)語言之間的相互作用。

  • 隨機森林是用於分類、回歸和其他任務的集成學習方法,其通過在訓練時構建多個決策樹並輸出作為各個樹的類(類別)或均值預測(回歸)的眾數類來操作。

  • 模式識別是機器學習的一個分支,側重於識別數據中的模式和規律,但在某些情況下被認為幾乎等同於機器學習。

  資料來源:維基百科

  Copyright © 2018。富蘭克林鄧普頓投資。版權所有。

  本文所載之資料、推測或意見乃根據或取自相信屬可靠的公開來源。本行並不保證其準確性。本文只提供一般性資料,其內容顯示本行在刊登日期之見解。任何取得本文件之人士,須遵守所有相關國家之法規,包括取得任何政府部門或其他有關方面之同意,並遵守相關國家之任何其他要求。本文的意見可因應情況修改而不作另行通知。本行對文中所載之推測不會作任何保證或承諾。本行亦不會就閣下使用本文或本文之任何資料、推測或意見而引致閣下的直接或間接損失負責。

  

(責任編輯:邱利 HN154)

   【免責聲明】本文僅代表合作供稿方觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

看全文
寫評論已有條評論跟帖用戶自律公約
提 交還可輸入500

最新評論

查看剩下100條評論

熱門新聞排行榜

和訊熱銷金融證券產品

【免責聲明】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,並請自行承擔全部責任。