不久前剛結(jié)束FDDC大賽,武漢大學(xué)計(jì)算機(jī)學(xué)院軟件工程實(shí)驗(yàn)室的Alassea lome團(tuán)隊(duì),獲得上市公司營(yíng)業(yè)收入預(yù)測(cè)賽題第一名,而一人團(tuán)隊(duì)GOGOGO則摘得上市公司公告信息抽取賽題桂冠,本文主要將冠軍的方案以及大賽亮點(diǎn)進(jìn)行介紹和回顧。
上月底,2018全球金融數(shù)據(jù)探索與發(fā)現(xiàn)大賽(FDDC)的決賽落幕,10支隊(duì)伍激烈角逐,也讓現(xiàn)場(chǎng)觀眾見(jiàn)證了AI將如何改變資產(chǎn)管理的未來(lái)。
FDDC大賽是全球首場(chǎng)專注金融領(lǐng)域、深入投資實(shí)戰(zhàn)的技術(shù)大賽,由中國(guó)證券投資基金業(yè)協(xié)會(huì)(以下簡(jiǎn)稱“基金業(yè)協(xié)會(huì)”)金融科技專業(yè)委員會(huì)主辦,易方達(dá)基金、華夏基金、通聯(lián)數(shù)據(jù)、阿里云共同承辦,獎(jiǎng)金池一共高達(dá)84萬(wàn)元。
大賽共有兩個(gè)任務(wù),一是利用AI對(duì)上市公司進(jìn)行營(yíng)收預(yù)測(cè),另一個(gè)是對(duì)上市公司公告進(jìn)行信息抽取。這兩個(gè)都是資產(chǎn)管理中最基本而又最重要的兩項(xiàng)工作,往往會(huì)決定投資決策的成敗。
FDDC大賽,旨在挖掘更多頂尖算法人才,提升資產(chǎn)管理行業(yè)的科技化程度。在3個(gè)多月的時(shí)間里,大賽吸引了全球4231支隊(duì)伍參與,經(jīng)過(guò)線上初賽和復(fù)賽,共有10支隊(duì)伍進(jìn)入最終決賽。
最終,來(lái)自武漢大學(xué)計(jì)算機(jī)學(xué)院軟件工程實(shí)驗(yàn)室的Alassea lome團(tuán)隊(duì),將預(yù)測(cè)誤差降低至7%,獲得上市公司營(yíng)業(yè)收入預(yù)測(cè)賽題第一名,而一人團(tuán)隊(duì)GOGOGO則摘得上市公司公告信息抽取賽題桂冠。
數(shù)值預(yù)測(cè)準(zhǔn)確率最高 獨(dú)特?cái)?shù)據(jù)處理,將營(yíng)收預(yù)測(cè)誤差僅7%!
Alassea lome團(tuán)隊(duì)來(lái)自于武漢大學(xué)計(jì)算機(jī)學(xué)院軟件工程實(shí)驗(yàn)室,團(tuán)隊(duì)的導(dǎo)師為蔡恒進(jìn),主要研究領(lǐng)域是人工智能、金融信息工程及服務(wù)科學(xué)。
FDDC大賽上市公司營(yíng)收預(yù)測(cè)賽題第一名Alassea Lome團(tuán)隊(duì)
這次的“上市公司營(yíng)收預(yù)測(cè)”賽題,官方到的數(shù)據(jù)包括三大財(cái)務(wù)報(bào)表、宏觀數(shù)據(jù)、行業(yè)數(shù)據(jù)、公司經(jīng)營(yíng)數(shù)據(jù)、行情數(shù)據(jù)等。比賽評(píng)測(cè)指標(biāo)是選手對(duì)公司二季度的營(yíng)業(yè)收入比率誤差的計(jì)算,如何準(zhǔn)備預(yù)測(cè)公司半年報(bào)實(shí)際營(yíng)收,是這道賽題取勝的關(guān)鍵。
在訓(xùn)練集生成上,團(tuán)隊(duì)首先把三大財(cái)務(wù)報(bào)表里面的數(shù)據(jù)提取出來(lái),接下來(lái)引入申萬(wàn)的行業(yè)分類這一類別特征。值得注意的是,申萬(wàn)的一級(jí)行業(yè)分類由28個(gè)被團(tuán)隊(duì)拆分成30個(gè),同時(shí)還加入了能夠表征行業(yè)數(shù)據(jù)的指數(shù)行情,以及行業(yè)估值信息,這里面所有的指標(biāo)都會(huì)經(jīng)過(guò)團(tuán)隊(duì)的獨(dú)特處理。
在公司的維度,團(tuán)隊(duì)加入滬深股票日行情以及個(gè)股日資金流向,同時(shí)引入財(cái)務(wù)衍生數(shù)據(jù)和多因子數(shù)據(jù)。這些特征的比起基本財(cái)務(wù)數(shù)據(jù)的優(yōu)勢(shì)在于,它們是經(jīng)過(guò)優(yōu)秀的研究員精心挑選和計(jì)算過(guò),可能更具有解釋力。
除了剛剛提到的特征,團(tuán)隊(duì)還加入了滑窗特征?;疤卣魇鞘裁茨??
以預(yù)測(cè)公司二季度的營(yíng)收為例,除了告訴模型一季度營(yíng)收之外,還告訴公司前四季度的營(yíng)收。之所以這樣做的原因是,金融數(shù)據(jù)是一個(gè)時(shí)序非常強(qiáng)的序列,因此團(tuán)隊(duì)還告訴模型它的歷史上的一些信息。相應(yīng)的,團(tuán)隊(duì)還加入了比率滑窗的特征。
訓(xùn)練方式采取了滑窗模式,五年一滑,但是有三個(gè)驗(yàn)證集。模型的最優(yōu)參數(shù)是在三個(gè)驗(yàn)證集上的平均loss最小的參數(shù),還列舉了不同的模型算法它的表現(xiàn)。
選了那么多特征之后,怎么把最重要的特征篩選出來(lái)呢?
首先團(tuán)隊(duì)會(huì)多輪預(yù)跑,得到所有特征的重要性。然后選出來(lái)重要特征重新生成訓(xùn)練集,在訓(xùn)練集上進(jìn)行網(wǎng)格搜索,確定最優(yōu)的模型參數(shù)。
模型部署方面,時(shí)序模型不需要訓(xùn)練,它的loss大概在0.48左右。團(tuán)隊(duì)的主模型是xgb,輔助模型是Random Forest。模型融合是線性分類器,模型保存了最終部署的27個(gè)模型,從行業(yè)的角度去選擇最終利用哪個(gè)模型。
最終,團(tuán)隊(duì)的復(fù)賽得分是0.43,如果換算成營(yíng)業(yè)收入的誤差,在7%以內(nèi)。
從不同公告找到共性知識(shí)結(jié)構(gòu),做直接的實(shí)體全量標(biāo)注
賽題二是上市公司公告重要信息抽取。
本賽題要求對(duì)“股東增減持”、“重大合同”和“定向增發(fā)”3 個(gè)類型的公司公告進(jìn)行信息抽取,實(shí)際上是對(duì)公司關(guān)鍵事件進(jìn)行結(jié)構(gòu)化提取。
GOGOGO團(tuán)隊(duì)獲得本賽題第一名。他們首先是對(duì)HTML結(jié)構(gòu)的提取,包括一些數(shù)據(jù)清理和轉(zhuǎn)換、表格識(shí)別等。
FDDC大賽上市公司公告信息抽取賽題第一名GOGOGO團(tuán)隊(duì)
在算法中,團(tuán)隊(duì)運(yùn)用了反向標(biāo)注,然后建立一個(gè)NER的模型預(yù)測(cè)實(shí)體。GOGOGO的標(biāo)注不同之處在于,他們做了直接的實(shí)體的全量標(biāo)注。因?yàn)楝F(xiàn)有的很多通用的實(shí)體識(shí)別,是識(shí)別出一個(gè)公司名稱或者是不是數(shù)值,團(tuán)隊(duì)直接把它的類型給定義清楚。
實(shí)體標(biāo)注技巧是模型里面比較重要的地方之一,另一方面,團(tuán)隊(duì)還用到奧卡姆剃刀原則。
奧卡姆剃刀原則主要表現(xiàn)在人傾向于用一個(gè)簡(jiǎn)單的方法表現(xiàn)一個(gè)內(nèi)容,會(huì)用簡(jiǎn)單的方法不會(huì)用復(fù)雜的方法。比如,有很多合同里面沒(méi)有乙方的表示,默認(rèn)發(fā)公告的一方就是乙方。
模型驗(yàn)證策略方面,團(tuán)隊(duì)在研究這個(gè)問(wèn)題的時(shí)候,發(fā)現(xiàn)召回率是很重要的,信息一旦漏掉了是撈不回來(lái)的,因此可以通過(guò)人工的方法提高它。第二是模型效率的問(wèn)題,因?yàn)橛玫胶芏喑橄蟮姆椒?,很多情況下并沒(méi)有通篇讀,所以速度非常高,基本上控制在秒級(jí)。整個(gè)過(guò)程中大部分時(shí)間還是在實(shí)體識(shí)別里面。
10支團(tuán)隊(duì)瓜分近百萬(wàn)獎(jiǎng)金,AI再度深入投資實(shí)戰(zhàn)
FDDC大賽是全球首場(chǎng)專注金融領(lǐng)域、深入投資實(shí)戰(zhàn)的技術(shù)大賽,歷時(shí)3個(gè)多月,4231支隊(duì)伍經(jīng)過(guò)線上初賽和復(fù)賽,共有10支隊(duì)伍進(jìn)入決賽,于8月29日在北京進(jìn)行現(xiàn)場(chǎng)答辯,8月30日,兩道賽題的前三名共6個(gè)團(tuán)隊(duì)參加了終極對(duì)決。
本次大賽特設(shè)84萬(wàn)獎(jiǎng)池,冠軍更是能獲得高達(dá)25萬(wàn)的豐厚獎(jiǎng)金。
這次比賽結(jié)果是:
賽題一(上市公司營(yíng)收預(yù)測(cè))
第一名:Alassea lome團(tuán)隊(duì):吳云、萬(wàn)珊紅、洪成晨、潘航、劉帥
第二名:Quant_duet團(tuán)隊(duì):林漢軒、邱爽
第三名:智能金融團(tuán)隊(duì):汪志文
大賽評(píng)委之一,香港科技大學(xué)副教授、惠理投資中心副主任尤海峰點(diǎn)評(píng):
智能金融團(tuán)隊(duì)根據(jù)財(cái)務(wù)報(bào)表相互關(guān)聯(lián)的特點(diǎn),創(chuàng)造性的把GPDT和DNN兩種算法結(jié)合起來(lái),先用GPDT的算法自動(dòng)的構(gòu)造組合特征,在此基礎(chǔ)上結(jié)合DNN深度學(xué)習(xí)的方法進(jìn)行預(yù)測(cè),取得了很好的效果。
FDDC大賽上市公司營(yíng)收預(yù)測(cè)賽題第三名智能金融團(tuán)隊(duì)
Quant duet團(tuán)隊(duì)首先把財(cái)務(wù)數(shù)據(jù)進(jìn)行了拆分,把歷史的營(yíng)收和其他的財(cái)務(wù)數(shù)據(jù)給分割出來(lái),剔除了歷史營(yíng)收的財(cái)務(wù)數(shù)據(jù),構(gòu)建了多因子的預(yù)測(cè)模型,然后又把單獨(dú)拿出來(lái)的歷史營(yíng)收數(shù)據(jù)和市場(chǎng)數(shù)據(jù)相結(jié)合,用一個(gè)全連接網(wǎng)絡(luò)深度學(xué)習(xí)的模型做預(yù)測(cè),最后把兩個(gè)預(yù)測(cè)模型給整合起來(lái)。
FDDC大賽上市公司營(yíng)收預(yù)測(cè)賽題第二名Quant duet團(tuán)隊(duì)
這種數(shù)據(jù)拆分其實(shí)是提高了兩個(gè)模型的獨(dú)立性,從而在整合的時(shí)候、融合的時(shí)候能夠達(dá)到分散錯(cuò)誤的效果。
Alassea Lome團(tuán)隊(duì)展現(xiàn)了機(jī)器學(xué)習(xí)算法和領(lǐng)域知識(shí)很好結(jié)合起來(lái)的能力。首先他們對(duì)數(shù)據(jù)做了很好的理解、很好的處理和去噪音各種各樣的處理,然后根據(jù)他們對(duì)不同類型的公司理解,在特征選擇上和算法選擇上都進(jìn)行了個(gè)性化的處理,從而達(dá)到很好的預(yù)測(cè)效果。
賽題二(上市公司公告信息抽?。?/p>
第一名:GOGOGO團(tuán)隊(duì):黃澤熾
第二名:Heisenberg團(tuán)隊(duì):馮霽、李永剛、蘇洋洋
第三名:Miyabi團(tuán)隊(duì):李灝舟、王奪、叢冠男、胡一川
最具創(chuàng)意極客獎(jiǎng):東風(fēng)又綠江南岸團(tuán)隊(duì)(林建生、宋云生、宮保偉、林剛),智能ABC團(tuán)隊(duì)(周武潔、郭炫志);
最具潛力極客獎(jiǎng):KingofWind團(tuán)隊(duì)(李立),ASD123團(tuán)隊(duì)(肖艷清、楊艦);
通聯(lián)數(shù)據(jù)CEO王政點(diǎn)評(píng)上市公司公告信息抽取賽題復(fù)賽前三團(tuán)隊(duì):
Miyabi團(tuán)隊(duì)用表格和分類的方法來(lái)抽取,能夠快速抽取結(jié)果;分類的方法能判斷哪些可以抽取。
FDDC大賽上市公司公告信息抽取賽題第三名Miyabi團(tuán)隊(duì)
Heisenberg團(tuán)隊(duì)有兩個(gè)亮點(diǎn):1、有實(shí)用價(jià)值的系統(tǒng)架構(gòu),能很快用到工業(yè)界。2、在實(shí)體識(shí)別的方法比傳統(tǒng)的有很大提升。
FDDC大賽上市公司公告信息抽取賽題第二名Heisenberg團(tuán)隊(duì)
GOGOGO團(tuán)隊(duì)把不同公告的問(wèn)題找到了一些共性的知識(shí)結(jié)構(gòu),能快速把復(fù)雜問(wèn)題降維。另外,通過(guò)章節(jié)的識(shí)別提升效率。
王政表示,通過(guò)這次FDDC大賽,AI在金融領(lǐng)域的應(yīng)用得到了新的發(fā)展,但是以后問(wèn)題會(huì)越來(lái)越難、越來(lái)越多,期待更多算法專家加入金融行業(yè),推動(dòng)金融科技的發(fā)展。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91898 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249603 -
分類器
+關(guān)注
關(guān)注
0文章
153瀏覽量
13451
原文標(biāo)題:全球首屆AI金融實(shí)戰(zhàn)技術(shù)大賽冠軍方案分享,三個(gè)月拿走50萬(wàn)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
DP1332E資產(chǎn)監(jiān)控管理方案
AI將如何改變自動(dòng)駕駛?

全面擁抱AI,AI賦能設(shè)備資產(chǎn)管理 歡迎一起探討 4001004168 @中設(shè)智控 #資產(chǎn)管理
RFID標(biāo)簽在資產(chǎn)管理中的應(yīng)用管理

FPGA+AI王炸組合如何重塑未來(lái)世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......
AI技術(shù)如何助力企業(yè)數(shù)據(jù)資產(chǎn)管理
中設(shè)智控全面接入DeepSeek加速AI+設(shè)備資產(chǎn)管理全場(chǎng)景深度融合

岳冉RFID智能資產(chǎn)管理方案最新應(yīng)用

工業(yè)固定資產(chǎn)管理系統(tǒng):智能化時(shí)代的效率之選
RFID資產(chǎn)管理系統(tǒng)的應(yīng)用與未來(lái)發(fā)展
微軟高管談AI將如何改變工作方式
淺談RFID資產(chǎn)管理
戴爾科技保護(hù)你的AI資產(chǎn)
DP1332E資產(chǎn)監(jiān)控管理方案
資產(chǎn)管理系統(tǒng):功能強(qiáng)大的企業(yè)資產(chǎn)管家

評(píng)論