證券行業風險資訊監測應用實踐
資本市場上的敏感輿情經過大量個體快速傳播,往往會被強化為“群體性認知”。對于各個公司而言,輿情有時只能造成市值的暫時波動,有時卻會對其聲譽帶來持久的損害。在輿情通過互聯網迅速且廣泛傳播的時代,資訊的來源日益豐富,其影響也倍受關注。
輿情也直接影響投資者對所關注的公司和行業在資本市場表現的預期。大量的新聞和突發事件每天涌入各大新聞門戶和社交媒體,如何快速、高效、準確地捕捉與關注標的相關的市場輿情已成為金融研究的熱點問題。
為此,德邦證券股份有限公司數據智能科創團隊從海量多態的輿情資訊中提取有價值的信息,建立個性化的指標體系,針對新聞資訊所關聯的標的、風險信息的類別和正負面情感傾向,建立深度學習分類模型,用以預警輿情風險,發掘投資價值。
多角度挖掘風險資訊需求場景
風險管理是證券公司各種金融活動的核心。德邦證券的風險資訊監測體系針對自身需求場景,多角度發掘公司的經營風險和潛在價值信號;根據新聞公告等輿情信息的類別體系,構建機器學習輿情模型,對輿情資訊進行分析分類,及時發現標的負面消息、經營、涉訴等風險。極大地提高了業務部門接收市場輿情的精準度和時效,助力業務人員識別風險和發現業務機會。
風險資訊監測流程設計
1.資訊數據采集:相關網站、平臺多管齊下
資訊數據來源于商用資訊和德邦自采集資訊,包括證券行業相關的資訊網站,如監管機構、行業協會、公司公告等。自行數據采集模塊在后臺發起自動檢索任務,通過所關注資訊源的網頁間超鏈接來采集資訊內容。
2.模型構建準備:標簽定義和訓練樣本選取
根據資訊樣本集的風險標簽,篩選出現量級較大的標簽作為訓練風險標簽的樣本集,同時,提取資訊樣本集的文本信息和情感評分(嚴重負面、一般負面、中性、正面)作為訓練情感值的樣本集。
風險標簽體系包含市場風險、治理和管理風險和經營風險等一級指標及相應的二級指標。輔助風險管理對企業風險進行全面監控,如經營風險標簽能夠識別生產經營變動導致的企業生產端風險或銷售端風險。
由于財務活動通常貫穿于企業生產經營的整個過程中,財務風險也是一個重要的標簽。建立財務衍生指標標簽,對企業的償債能力、盈利能力、資產質量等進行分析,識別潛在風險。
3.自然語言處理:風險標簽及情感方向推理
資訊內容是非結構化的信息,并且是冗雜的,因此需要進行多維度的處理來識別內容的風險標簽、所關聯的企業主體及其相關聯程度、資訊內容的情感性和評分值。
(1)文本去重
每日獲取的新聞資訊之間會存在描述同一事件的相似新聞,為此,模型采用了三步去重方法。
首先對每條資訊做哈希編碼處理,并用SimHash將當天新聞資訊和前數天新聞資訊做相似度比對并做第一步去重處理;對于SimHash去重后的當日資訊,基于資訊標題使用MinHash局部敏感性分析的方法實現第二步去重處理;
最后基于資訊內容采用MinHash Ensemble局部敏感性分析的方法實現第三步去重。
(2)公司機構命名實體識別
將當日資訊的標題和內容通過詞向量嵌入處理后輸入Transformer Blocks進行編碼和解碼處理;
之后使用序列化標注算法中的條件隨機場CRF解碼算法識別出資訊中包含的所有公司機構;
最后過濾和選取出現頻率高的公司機構作為這條資訊對應的標的公司。
(3)資訊數據標簽推理
將資訊標題提升權重并與其正文文本結合作為分類推理的輸入項。使用預訓練完成的正負情感性偏向模型和風險事件標簽模型,對每一條輸入資訊分別推理其正負情感方向和風險事件標簽分類,得到分析推理結果。
4.前端用戶觸達:風險資訊訂閱與接收
對于新聞公告類輿情數據,通過資訊匯集、輿情模型分析結合人工識別,對關注主體的關聯輿情進行分類監測和預警;
落地智能資訊平臺實現風險資訊對項目負責人、相關部門和公司管理層的多級個性化推送。
同時,每個用戶可以訂閱組合內的預警規則,預警規則訂閱成功后,用戶可在移動端接收相應的預警消息。

圖1 風險資訊監測的整體流程
落 地 成 果
德邦證券針對自身場景需求,經過同業調研,結合對大數據生態、數據建模、機器學習等理論探索,建設落地了資訊風險監測體系,較好的支持了業務應用。
1.全天候分類監測和預警助力業務提效
在系統實踐中,將自然語言處理和前沿機器學習算法結合,構建深度學習輿情模型,對輿情資訊的風險屬性,實現了90%以上的自動化識別率,在精準度和及時性兩方面均遠超傳統的人工分析方法,真正將數據、算法和算力落地轉化為企業經濟效益。
將權益投資部門對于投資標的分析經驗,落地為轉化為模型中的定量指標,并與數據源對接,通過分布式計算引擎自動計算為定量數值;實現全市場橫向分行業,縱向跨財務報告期的深度挖掘,直觀地在上層業務系統中展示,替代原來對個別標的的手工計算。
業務人員在移動端接收到經過分析和分類的風險資訊,再根據業務實際開展時與融資人簽署合同中約定的預警、違約各類場景判斷風險事件的嚴重程度,制定后續的應對方案。
2.雖有局限,瑕不掩瑜
資訊數據應用現階段仍存局限,但應用價值巨大。
首先,如上文介紹的,多個媒體源以不同方式描述同一類新聞,經過“語義分析算法”自動對海量新聞做情感分析和去重后,即使再經過大團隊人工審核,也達不到完全準確;盡管如此,還是在很大程度上緩解了信息不對稱的風險。
再者,從資訊內容來看,非官方來源發布的信息,其本身是否真實準確,不能一概而論。然而很多時候,即便是待核實的資訊,經過廣泛傳播后,也會影響市場情緒,繼而引發資產價格波動,所以仍然具有重要的參考價值。
下一步工作展望
資訊風險監測體系在實踐中取得了較好的效果,從長遠看,在場景發掘、豐富數據源、輿情模型提升,以及數據治理結合幾個方面仍有廣闊的優化提升空間。
1.發掘更多資訊風險監測場景
利用各業務部門、風險管理部門和研究所人員的專業經驗,結合不同業務的風險指標特點,構建和訓練適合的指標分析模型,發掘和支持更豐富的風險監測場景。
2.拓展豐富資訊源
支持更多的資訊風險監測場景,必然需要更豐富的資訊數據源,在目前企業工商數據、新聞公告數據、財務數據等基礎上,擴充更多網絡媒體、社交媒體數據源,進一步提升市場風險資訊的及時和全面性。
3.與數據治理體系結合
券商的資訊數據通常來自多家資訊供應商,各家數據源的數據形態、專業優勢和側重不同,此外還有一部分更貼近需求的個性化自定義檢索的資訊數據,往往有不同的數據標準和數據模型。通過數據治理可以根據各資訊數據源的優勢,建立統一的數據標準和數據模型匯聚歸入數據倉庫,通過有效數據質控提升數據的質量,為需求部門提供更為優質的資訊數據服務。
4.提升輿情分析模型的精度和效率
在輿情分析模型方面,追蹤機器學習和深度學習理論的最新進展,引入新的輿情分析算法和策略,研究應用分布式模型訓練集群,繼續提升新聞語義識別和分類的精度、召回率、F1穩定性指標,并提升模型優化、調參訓練、生產發布的閉環流程效率。