<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    證券行業風險資訊監測應用實踐

    VSole2021-11-09 08:12:55

    資本市場上的敏感輿情經過大量個體快速傳播,往往會被強化為“群體性認知”。對于各個公司而言,輿情有時只能造成市值的暫時波動,有時卻會對其聲譽帶來持久的損害。在輿情通過互聯網迅速且廣泛傳播的時代,資訊的來源日益豐富,其影響也倍受關注。

    輿情也直接影響投資者對所關注的公司和行業在資本市場表現的預期。大量的新聞和突發事件每天涌入各大新聞門戶和社交媒體,如何快速、高效、準確地捕捉與關注標的相關的市場輿情已成為金融研究的熱點問題。

    為此,德邦證券股份有限公司數據智能科創團隊從海量多態的輿情資訊中提取有價值的信息,建立個性化的指標體系,針對新聞資訊所關聯的標的、風險信息的類別和正負面情感傾向,建立深度學習分類模型,用以預警輿情風險,發掘投資價值。

    多角度挖掘風險資訊需求場景

    風險管理是證券公司各種金融活動的核心。德邦證券的風險資訊監測體系針對自身需求場景,多角度發掘公司的經營風險和潛在價值信號;根據新聞公告等輿情信息的類別體系,構建機器學習輿情模型,對輿情資訊進行分析分類,及時發現標的負面消息、經營、涉訴等風險。極大地提高了業務部門接收市場輿情的精準度和時效,助力業務人員識別風險和發現業務機會。

    風險資訊監測流程設計

    1.資訊數據采集:相關網站、平臺多管齊下

    資訊數據來源于商用資訊和德邦自采集資訊,包括證券行業相關的資訊網站,如監管機構、行業協會、公司公告等。自行數據采集模塊在后臺發起自動檢索任務,通過所關注資訊源的網頁間超鏈接來采集資訊內容。

    2.模型構建準備:標簽定義和訓練樣本選取

    根據資訊樣本集的風險標簽,篩選出現量級較大的標簽作為訓練風險標簽的樣本集,同時,提取資訊樣本集的文本信息和情感評分(嚴重負面、一般負面、中性、正面)作為訓練情感值的樣本集。

    風險標簽體系包含市場風險、治理和管理風險和經營風險等一級指標及相應的二級指標。輔助風險管理對企業風險進行全面監控,如經營風險標簽能夠識別生產經營變動導致的企業生產端風險或銷售端風險。

    由于財務活動通常貫穿于企業生產經營的整個過程中,財務風險也是一個重要的標簽。建立財務衍生指標標簽,對企業的償債能力、盈利能力、資產質量等進行分析,識別潛在風險。

    3.自然語言處理:風險標簽及情感方向推理

    資訊內容是非結構化的信息,并且是冗雜的,因此需要進行多維度的處理來識別內容的風險標簽、所關聯的企業主體及其相關聯程度、資訊內容的情感性和評分值。

    (1)文本去重

    每日獲取的新聞資訊之間會存在描述同一事件的相似新聞,為此,模型采用了三步去重方法。

    首先對每條資訊做哈希編碼處理,并用SimHash將當天新聞資訊和前數天新聞資訊做相似度比對并做第一步去重處理;對于SimHash去重后的當日資訊,基于資訊標題使用MinHash局部敏感性分析的方法實現第二步去重處理;

    最后基于資訊內容采用MinHash Ensemble局部敏感性分析的方法實現第三步去重。

    (2)公司機構命名實體識別

    將當日資訊的標題和內容通過詞向量嵌入處理后輸入Transformer Blocks進行編碼和解碼處理;

    之后使用序列化標注算法中的條件隨機場CRF解碼算法識別出資訊中包含的所有公司機構;

    最后過濾和選取出現頻率高的公司機構作為這條資訊對應的標的公司。

    (3)資訊數據標簽推理

    將資訊標題提升權重并與其正文文本結合作為分類推理的輸入項。使用預訓練完成的正負情感性偏向模型和風險事件標簽模型,對每一條輸入資訊分別推理其正負情感方向和風險事件標簽分類,得到分析推理結果。

    4.前端用戶觸達:風險資訊訂閱與接收

    對于新聞公告類輿情數據,通過資訊匯集、輿情模型分析結合人工識別,對關注主體的關聯輿情進行分類監測和預警;

    落地智能資訊平臺實現風險資訊對項目負責人、相關部門和公司管理層的多級個性化推送。


    同時,每個用戶可以訂閱組合內的預警規則,預警規則訂閱成功后,用戶可在移動端接收相應的預警消息。

    圖1 風險資訊監測的整體流程

    落 地 成 果

    德邦證券針對自身場景需求,經過同業調研,結合對大數據生態、數據建模、機器學習等理論探索,建設落地了資訊風險監測體系,較好的支持了業務應用。

    1.全天候分類監測和預警助力業務提效

    在系統實踐中,將自然語言處理和前沿機器學習算法結合,構建深度學習輿情模型,對輿情資訊的風險屬性,實現了90%以上的自動化識別率,在精準度和及時性兩方面均遠超傳統的人工分析方法,真正將數據、算法和算力落地轉化為企業經濟效益。

    將權益投資部門對于投資標的分析經驗,落地為轉化為模型中的定量指標,并與數據源對接,通過分布式計算引擎自動計算為定量數值;實現全市場橫向分行業,縱向跨財務報告期的深度挖掘,直觀地在上層業務系統中展示,替代原來對個別標的的手工計算。

    業務人員在移動端接收到經過分析和分類的風險資訊,再根據業務實際開展時與融資人簽署合同中約定的預警、違約各類場景判斷風險事件的嚴重程度,制定后續的應對方案。

    2.雖有局限,瑕不掩瑜

    資訊數據應用現階段仍存局限,但應用價值巨大。

    首先,如上文介紹的,多個媒體源以不同方式描述同一類新聞,經過“語義分析算法”自動對海量新聞做情感分析和去重后,即使再經過大團隊人工審核,也達不到完全準確;盡管如此,還是在很大程度上緩解了信息不對稱的風險。

    再者,從資訊內容來看,非官方來源發布的信息,其本身是否真實準確,不能一概而論。然而很多時候,即便是待核實的資訊,經過廣泛傳播后,也會影響市場情緒,繼而引發資產價格波動,所以仍然具有重要的參考價值。

    下一步工作展望

    資訊風險監測體系在實踐中取得了較好的效果,從長遠看,在場景發掘、豐富數據源、輿情模型提升,以及數據治理結合幾個方面仍有廣闊的優化提升空間。

    1.發掘更多資訊風險監測場景

    利用各業務部門、風險管理部門和研究所人員的專業經驗,結合不同業務的風險指標特點,構建和訓練適合的指標分析模型,發掘和支持更豐富的風險監測場景。

    2.拓展豐富資訊源

    支持更多的資訊風險監測場景,必然需要更豐富的資訊數據源,在目前企業工商數據、新聞公告數據、財務數據等基礎上,擴充更多網絡媒體、社交媒體數據源,進一步提升市場風險資訊的及時和全面性。

    3.與數據治理體系結合

    券商的資訊數據通常來自多家資訊供應商,各家數據源的數據形態、專業優勢和側重不同,此外還有一部分更貼近需求的個性化自定義檢索的資訊數據,往往有不同的數據標準和數據模型。通過數據治理可以根據各資訊數據源的優勢,建立統一的數據標準和數據模型匯聚歸入數據倉庫,通過有效數據質控提升數據的質量,為需求部門提供更為優質的資訊數據服務。

    4.提升輿情分析模型的精度和效率

    在輿情分析模型方面,追蹤機器學習和深度學習理論的最新進展,引入新的輿情分析算法和策略,研究應用分布式模型訓練集群,繼續提升新聞語義識別和分類的精度、召回率、F1穩定性指標,并提升模型優化、調參訓練、生產發布的閉環流程效率。

    機器學習輿情
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    資本市場上的敏感輿情經過大量個體快速傳播,往往會被強化為“群體性認知”。對于各個公司而言,輿情有時只能造成市值的暫時波動,有時卻會對其聲譽帶來持久的損害。在輿情通過互聯網迅速且廣泛傳播的時代,資訊的來源日益豐富,其影響也倍受關注。
    從本專欄開始,作者正式研究Python深度學習、神經網絡及人工智能相關知識。一.RNN文本分類1.RNN循環神經網絡英文是Recurrent Neural Networks,簡稱RNN。假設有一組數據data0、data1、data2、data3,使用同一個神經網絡預測它們,得到對應的結果。RNN常用于自然語言處理、機器翻譯、語音識別、圖像識別等領域。本文將采用詞向量、TFIDF兩種方式進行實驗。
    一.文本分類文本分類旨在對文本集按照一定的分類體系或標準進行自動分類標記,屬于一種基于分類體系的自動分類。牛亞峰老師將傳統的文本分類流程歸納如下圖所示。在傳統的文本分類中,基本上大部分機器學習方法都在文本分類領域有所應用。本文將采用詞向量、TFIDF兩種方式進行實驗。
    算法決策在提高決策科學性的同時,也會帶來算法歧視、偏見甚至算法操縱、利益俘獲等價值偏差問題,損害公共利益。公共領域算法決策必須直面算法價值偏差問題并加以妥善解決。
    長期以來,人類試圖創造智能體來提高生產效率。隨著人工智能從六七十年代的專家系統,發展到八十年代的概率推理,再到近十年的機器學習機器已經初步具備人類的分析能力(Analytical),甚至在許多領域比人類做得更好,例如垃圾郵件檢測、商品推薦、圖像識別、欺詐信息識別等。然而,人類不僅具備分析能力,還具備強大的創造能力,例如設計產品、撰寫詩歌、制作游戲等。因此,生成式AI技術也逐步取得跨越式發展,并在
    為了得到更好的數據分析結果,需要對這些數據集進行數據清洗和停用詞過濾等操作,這里利用Jieba庫進行清洗數據。向量空間模型是用向量來表征一個文本,它將中文文本轉化為數值特征。貴州省位于中國的西南地區,簡稱“黔”或“貴”。
    習近平總書記強調,網絡空間是億萬民眾共同的精神家園。網絡空間烏煙瘴氣、生態惡化,不符合人民利益。網絡平臺的逐利性使其將商業利益作為首要目的,從而導致對公共利益的侵害。這些不良內容的存在與傳播,對社會的安全穩定提出挑戰。注重發揮和利用好網絡傳播的特點和優勢,全方位多形式地做好習近平新時代中國特色社會主義思想的闡釋和宣傳工作。
    AI服務層統一管理模型服務,服務上線推理之后由AI服務層統一對外提供服務。AI服務層支持不同模型服務的編排、模型服務的AB測試和模型服務的監控。
    透過5年創新沙盒變化、創新賽道和熱點技術演進,觀察網絡安全產業創新方向。
    隨著銀行業全面數字化轉型,商業銀行的對公業務也有了蓬勃發展,與此同時風險管理也需要向智能化、自動化方向邁進。尤其是當下銀行對公業務對象的運作模式、商業形態以及經濟環境不斷變化,需要銀行重新審視對公授信的風險管理模式。
    VSole
    網絡安全專家
      亚洲 欧美 自拍 唯美 另类