理財不靠運氣!機器學習分析財報「軟資訊」,出現這些字財務風險特別高

Tim Loughran 和 Bill McDonald 將財務領域的用詞分為這六大類情緒,奠定王釧茹團隊的軟資訊分析基礎。(資料來源/Tim Loughran and Bill McDonald, 2011, When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, Journal of Finance, 66:1, 35-65. 圖片重製/柯旂、張語辰,Images Source:研之有物)
用「軟資訊」預測企業財務風險
傳統的財務資料分析領域,許多研究及實務上多傾向分析硬資訊,而王釧茹團隊選擇了分析「軟資訊」的新方向。

10-K 財務年報,為企業給美國證管會 (SEC) 的正式財報,內有公司運作狀況的詳細描述。(資料來源/Starbucks,Images Source:研之有物)
王釧茹團隊運用「10-K 財務年報的第七章」,也就是陳述企業管理和未來方向的章節文字,運用該企業未來的「股票報酬波動 (Stock return volatility)」 數據作為風險指標,藉此分析財務報表詞彙與風險的相關性。
「若今天 A 公司股價上漲 70%,隔天突然又跌 50% ,這個報酬波動太大,普遍會被認定為財務高風險的公司。反之,如果公司股價穩定維持高價或低價,就會被視為財務低風險的公司。」王釧茹說明為何會選擇「股票報酬波動」,作為訓練電腦預測未來企業財務風險的資料。
團隊開發的機器學習模型,訓練資料包含 1996-2013 年期間各企業的財務報表,篇數超過萬篇、字數超過十萬字,而資料變數高達好幾萬維度,有別於過往的統計分析難以處理超過二十維度的變數。

電腦分析某企業的 10-K 財務年報後,接續分析後十二個月該企業的股票報酬波動,訓練電腦自動找出「財報詞彙」與「未來財務風險」的關係。時間點依各企業發表年報的時間而有所異動。(資料來源/王釧茹提供 圖說設計/柯旂、張語辰,Images Source:研之有物)
財報看到哪些字要注意?
王釧茹團隊研究發現,財報中出現 default 這個單字,跟該企業後續的財務風險高度相關。你可能會疑惑, default 不是「預設」的意思嗎?其實在財務報表中, default 是「違約」的意思,像是 2008 年金融危機前大受歡迎的金融商品「信用違約交換」就稱作 Credit Default Swap 。

圖中圓圈越大,代表該單字與財務風險越具正相關性。(單圓框為只透過財報中六大情緒詞分析的結果,雙圓框為運用財報所有單字分析的結果)(資料來源/On the Risk Prediction and Analysis of Soft Information in Finance Reports,Images Source:研之有物)
王釧茹團隊分析發現, sureti 擔保、delist 赤字、forbear 隱忍,這些字與財務風險高度相關。而 amend 這個字是「改變」的意思,一般用在企業通過法律程序的某種修改行為,若在財報中高頻率出現,也能聯想到公司經營管理常常改變所帶來的風險。
但你可能會好奇,為什麼 nasdaq 跟財務風險竟然也有這麼大的關係,而且還被分類成負面情緒的字?
為了找出答案,王釧茹團隊亦開發 FIN10K: Financial Reports Analysis 平臺,用以查找財報原始資料、分析上下文,發現財報中 nasdaq 常被隨著 delisting 出現,delisting 為「除名」,兩個字組合一起在金融界為「退市」的意思,也就可以理解當 nasdaq 這個字出現,會跟財務風險高度相關。

出現 Nasdaq 單字的企業財報,多為高風險等級 (RR5 或 RR4,後方括號內的百分比數值為股票報酬波動)。找找看, Nasdaq 常伴隨著 delisting 出現。(資料來源/FIN10K: Financial Reports Analysis,Images Source:研之有物)
另外一個有趣的發現,unsecured note 也就是「未擔保債」,雖然字面看似負向,但若出現在財務報表中,代表該公司的財務狀況較佳、可被信任,才能發行未擔保的債,未來的財務風險也相對較低。
這樣的軟資訊分析模型,將有助銀行改進信用風險評估、或幫助投資者設計投資策略。
王釧茹強調,這項研究並非為了取代現有的金融預測模型,而是讓業者或相關機構在現有的金融預測模型之外,能有多一項「軟資訊情緒用詞」優化評估指標。
除了財報,電影也能分析
除了分析財報資訊,王釧茹團隊藉著文本分析的相關技術,在最新一篇 SIGIR 2017 的研究中運用文字資訊進行了物品(如:電影)與相關概念的建模。
其中,王釧茹團隊將建模後所得之電影資訊、和 IMDB 的評論文字之高維度向量,轉換投射至二度平面後,在以下展示平臺中會看到「太空」、「外星人」等單字跟「科幻電影」的散佈位置相近,而「動作電影」則跟「軍隊」、「特工」等單字散佈位置相近。此模型可運用於推薦及資訊檢索的相關應用。

李連杰主演的《精武英雄》屬於動作電影,旁邊相近的單字有 army, fighting, people 。(資料來源/ICE: Item Concept Embedding @ SIGIR2017,Images Source:研之有物)
問目前有和金融業界合作嗎?
答我們研究團隊(與臺大陳宏銘教授、中研院楊奕軒研究員、政大蔡銘峰老師)目前跟國泰金控有一個四方的產學計畫,主要是做 Customer Journey (顧客歷程)分析,運用顧客曾申辦信用卡、購買相關產品等去識別化資料,預測未來可能的消費行為、投資偏好等。
可以感覺到現在台灣金融業對於 FinTech (金融科技)蠻積極,不過礙於企業內部的資料歸屬、政府的法規限制,時常造成相關資料無法整合、因此無法進行後續分析或運用。
許多國外金融機構在規劃各部門資料整合、開放匿名資料相對完善,因此有利於後續的研究與應用,這是台灣現在需要盡快優化的地方。
延伸閱讀
王釧茹的個人網頁
CFDA & CLIP Labs
Ming-Feng Tsai and Chuan-Ju Wang, "On the Risk Prediction and Analysis of Soft Information in Finance Reports," European Journal of Operational Research, 257:(1), 243-250, 2017.
Ming-Feng Tsai, Chuan-Ju Wang, and Po-Chuan Chien, “Discovering Finance Keywords via Continuous Space Language Models,” ACM Transactions on Management Information Systems, 7(3), Article No. 7, 2016. (Selected by ACM Computing Reviews as Notable Article of the 21st Annual Best of Computing)
Yu-Wen Liu, Liang-Chih Liu, Chuan-Ju Wang, and Ming-Feng Tsai, “FIN10K: A Web-based Information System for Financial Report Analysis and Visualization, ” CIKM, 2016, pp. 2441-2444.
Tim Loughran and Bill McDonald, 2011, When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, Journal of Finance, 66:(1), 35-65.