?
國內(nèi)開源代碼大模型
4月9日aiXcoder宣布正式開源其7B模型Base版,僅僅過去一個禮拜,aiXcoder-7B在軟件源代碼托管服務(wù)平臺GitHub上的Star數(shù)已超過2k。同時躋身HuggingFace趨勢榜單TOP30,令全球開發(fā)者矚目。
?
?
背后團(tuán)隊
aiXcoder 團(tuán)隊來自北京大學(xué)軟件工程研究所,2013就開始搞代碼生成,他們不但是國際上最早將深度學(xué)習(xí)技術(shù)用于程序代碼處理的團(tuán)隊,也是最早推出基于深度學(xué)習(xí)的編程產(chǎn)品的團(tuán)隊,從一開始他們就抓住并專注于代碼大模型這個前沿賽道。
團(tuán)隊長期聚焦軟件工程、系統(tǒng)軟件、程序理解、程序生成、深度學(xué)習(xí)、可信人工智能等前沿領(lǐng)域,在多個國內(nèi)外頂級會議與期刊發(fā)表相關(guān)論文100余篇,多篇被國際同行視為“首創(chuàng)成果”。
從學(xué)界最前沿的理論研究,到廣泛應(yīng)用部署的商業(yè)實踐,aiXcoder致力于將前沿人工智能技術(shù)應(yīng)用于軟件工程,聚焦代碼大模型的企業(yè)個性化落地技術(shù),助力企業(yè)實現(xiàn)智能化開發(fā),為未來商業(yè)落地打下堅實基礎(chǔ)。
?
發(fā)展歷史
2017年,aiXcoder最開始的雛形——aiXcoder1.0發(fā)布,提供代碼自動補(bǔ)全與搜索功能。
2021年4月,團(tuán)隊推出完全自主知識產(chǎn)權(quán)的十億級參數(shù)代碼大模型aiXcoder L版,支持代碼補(bǔ)全和自然語言推薦。這也是國內(nèi)?個基于“?模型”的智能編程商?產(chǎn)品。
2022年6月再次推出了國內(nèi)首個支持方法級代碼生成的百億級參數(shù)量模型aiXcoder XL版,同樣具有完全自主知識產(chǎn)權(quán)。
2023年7月,aiXcoder團(tuán)隊推出聚焦企業(yè)適配的aiXcoder Europa,具有代碼自動補(bǔ)全、代碼自動生成、代碼缺陷檢測與修復(fù)、單元測試自動生成等功能。aiXcoder Europa可根據(jù)企業(yè)數(shù)據(jù)安全和算力要求,為企業(yè)提供私有化部署和個性化訓(xùn)練服務(wù),有效降低代碼大模型的應(yīng)用成本,提升研發(fā)效率。
2024年4月9日,aiXcoder-7B Base版誕生。
?
有何能耐
盡管aiXcoder只是一個7B大小的模型,但在HumanEval、MBPP和MultiPL-E等主流代碼生成評測集上,它平均得分居然超過340億參數(shù)的Codellama。要知道,后者來自Meta、基于Llama2,可是開源界最先進(jìn)的AI編程大模型之作。
?
?
?
核心能力
代碼生成與補(bǔ)全的卓越性能
aiXcoder-7B模型在HumanEval、MBPP和MultiPL-E等主流評測集上的表現(xiàn)超越了參數(shù)規(guī)模更大的模型,這得益于其深度學(xué)習(xí)架構(gòu)和大規(guī)模的訓(xùn)練數(shù)據(jù)。它能夠生成和補(bǔ)全包括方法塊、條件判斷、循環(huán)處理、異常捕捉等多種代碼結(jié)構(gòu),大大提升了代碼編寫的效率。
測試顯示,在貼近真實開發(fā)場景的評測集CrossCodeEval上,aiXcoder-7B一舉拿下了同級別模型的最好效果:
?
企業(yè)級場景的深度定制與私有化部署
aiXcoder-7B模型支持企業(yè)根據(jù)自身的軟件開發(fā)框架和API庫進(jìn)行個性化訓(xùn)練,確保模型能夠理解并適應(yīng)企業(yè)特定的代碼規(guī)范和業(yè)務(wù)邏輯。同時,模型的私有化部署能力,讓企業(yè)能夠在本地安全地使用模型,保護(hù)了企業(yè)的核心知識產(chǎn)權(quán)。
?
跨文件的智能分析與補(bǔ)全
aiXcoder-7B模型不僅理解單個文件的上下文,還能跨多個文件進(jìn)行智能分析,這對于大型軟件項目尤為重要。模型能夠識別項目中不同文件的關(guān)聯(lián),生成和補(bǔ)全代碼時考慮到整個項目的結(jié)構(gòu),提高了代碼的一致性和可維護(hù)性。
測試顯示,aiXcoder-7B Base版結(jié)合單文件上下文的代碼補(bǔ)全能力超越StarCoder2、CodeLlama等一眾模型,在Python、JS和Java語言上綜合得分最高。
?
持續(xù)的技術(shù)創(chuàng)新與優(yōu)化
aiXcoder團(tuán)隊在模型訓(xùn)練中采用了創(chuàng)新的方法,如將代碼的抽象語法樹結(jié)構(gòu)融入預(yù)訓(xùn)練過程,顯著提升了模型對代碼語義和邏輯的理解能力。此外,團(tuán)隊還構(gòu)建了大規(guī)模的優(yōu)質(zhì)代碼語料庫,通過精心的數(shù)據(jù)預(yù)處理,確保了模型訓(xùn)練的質(zhì)量和效果。
?
應(yīng)用案例
金融行業(yè)代碼生成應(yīng)用
以正在進(jìn)行數(shù)智化轉(zhuǎn)型的某行業(yè)頭部券商為例,該企業(yè)采用了aiXcoder的大模型解決方案,在本地環(huán)境私有化部署代碼大模型,并結(jié)合企業(yè)自身領(lǐng)域知識進(jìn)行個性化訓(xùn)練。結(jié)果顯示,在業(yè)務(wù)邏輯代碼上,代碼生成占比提升了2倍,顯著提高了開發(fā)效率。
?
跨文件動態(tài)規(guī)劃狀態(tài)類補(bǔ)全
在另一個案例中,aiXcoder-7B模型展現(xiàn)了其跨文件分析的能力。面對需要在樹結(jié)構(gòu)上應(yīng)用動態(tài)規(guī)劃的復(fù)雜任務(wù),模型準(zhǔn)確識別了不同文件間的邏輯關(guān)系,并給出了正確的預(yù)測結(jié)果,展現(xiàn)了其在處理復(fù)雜編程問題上的實力。
?
技術(shù)細(xì)節(jié)
訓(xùn)練數(shù)據(jù)的構(gòu)建與優(yōu)化
aiXcoder-7B模型的訓(xùn)練數(shù)據(jù)量達(dá)到了1.2T Unique Tokens,這一龐大的數(shù)據(jù)集經(jīng)過了嚴(yán)格的語法分析和靜態(tài)分析,排除了常見的Bug和代碼缺陷,確保了模型訓(xùn)練的高質(zhì)量。
?
預(yù)訓(xùn)練方法的創(chuàng)新
aiXcoder團(tuán)隊在預(yù)訓(xùn)練方法上進(jìn)行了創(chuàng)新,將代碼的抽象語法樹結(jié)構(gòu)融入到預(yù)訓(xùn)練過程中,這一方法有效地提升了模型對代碼結(jié)構(gòu)特征的捕捉能力,從而生成更高質(zhì)量的代碼。
?
模型的個性化訓(xùn)練技術(shù)
aiXcoder-7B模型的個性化訓(xùn)練技術(shù)是其另一大亮點。通過構(gòu)建企業(yè)專屬的數(shù)據(jù)集和測評集,結(jié)合企業(yè)代碼特征和員工編程習(xí)慣,模型能夠更好地適應(yīng)企業(yè)的開發(fā)環(huán)境,實現(xiàn)更高效的個性化應(yīng)用。
?
總結(jié)
在科技的璀璨星河中,每一次技術(shù)的突破都如同新星的誕生,照亮了未來的無限可能。隨著代碼大模型的能力日益增強(qiáng),它們在解決復(fù)雜編程問題上的卓越表現(xiàn),不僅在提高軟件開發(fā)的效率和質(zhì)量上發(fā)揮著重要作用,在推動編程自動化的浪潮中扮演著關(guān)鍵角色,更激發(fā)了程序員們的創(chuàng)新潛能,讓他們能夠?qū)⒏嗟木ν度氲教剿骱蛣?chuàng)造中。
aiXcoder-7B模型的出現(xiàn),預(yù)示著軟件開發(fā)領(lǐng)域?qū)⒂瓉硪粓鲂碌母锩?。隨著技術(shù)的不斷進(jìn)步,aiXcoder-7B將成為軟件開發(fā)領(lǐng)域中的“新質(zhì)生產(chǎn)力”,幫助企業(yè)實現(xiàn)智能化開發(fā),推動技術(shù)行業(yè)的生態(tài)發(fā)展。
隨著代碼大模型不斷發(fā)展,不僅加速了軟件開發(fā)自動化的進(jìn)程,更在重塑技術(shù)行業(yè)的生態(tài),引領(lǐng)著未來發(fā)展的趨勢:加快實現(xiàn)軟件開發(fā)自動化。這既是行業(yè)大勢所趨,更是發(fā)展的必然選擇。榮幸的是,我們正站在這個轉(zhuǎn)折點面前,見證著這一趨勢的興起和實現(xiàn)。
作為一名IT技術(shù)人員,我對代碼大模型的未來發(fā)展充滿期待。它不僅解決了當(dāng)前軟件開發(fā)中的多個痛點,更為大家展示了一個全新的編程未來。模型的不斷開源和企業(yè)級特性,將推動整個行業(yè)向更高效、更智能的方向發(fā)展。對于熱愛編程的人來說,不僅僅是一個工具,更是一個能夠激發(fā)創(chuàng)新、提升生產(chǎn)力的伙伴。讓我們一起期待并擁抱這場由AI引領(lǐng)的編程革命吧!
?
開源地址
https://github.com/aixcoder-plugin/aiXcoder-7B
https://gitee.com/aixcoder-model/aixcoder-7b
https://www.gitlink.org.cn/aixcoder/aixcoder-7b-model
感興趣的小伙伴可自行體驗,也可以等我后續(xù)的測試分享,讓我們一起支持國產(chǎn)開源大模型吧!
審核編輯 黃宇
-
人工智能
+關(guān)注
關(guān)注
1811文章
49488瀏覽量
258046 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5586瀏覽量
123619 -
大模型
+關(guān)注
關(guān)注
2文章
3348瀏覽量
4698
發(fā)布評論請先 登錄
華為宣布開源盤古7B稠密和72B混合專家模型
KaihongOS操作系統(tǒng)FA模型與Stage模型介紹
廣東龍芯LS2K500先鋒板使用介紹
先鋒LED-39B500液晶電視數(shù)據(jù)資料免費下載
華為是5G革命性技術(shù)的先鋒
智能開源大模型baichuan-7B技術(shù)改進(jìn)
Meta推出最新版AI代碼生成模型Code Llama70B
谷歌發(fā)布用于輔助編程的代碼大模型CodeGemma

阿里云開源Qwen2.5-Coder代碼模型系列
阿里通義千問代碼模型全系列開源
獵戶星空發(fā)布Orion-MoE 8×7B大模型及AI數(shù)據(jù)寶AirDS
使用 QWQ:32B 模型搭配 VSCode 的 Cline 插件實現(xiàn)自動化代碼編程!

評論