Qwen2 是阿里通義推出的新一代多語言預(yù)訓(xùn)練模型,經(jīng)過更深入的預(yù)訓(xùn)練和指令調(diào)整,在多個(gè)基準(zhǔn)評測結(jié)果中表現(xiàn)出色,尤其在代碼和數(shù)學(xué)方面有顯著提升,同時(shí)拓展了上下文長度支持,最高可達(dá)128K。目前 AIBOX-1684X 已適配 Qwen2 系列模型,并已集成在 FireflyChat 對話應(yīng)用中,開機(jī)即可體驗(yàn)。
模型基礎(chǔ)更新
預(yù)訓(xùn)練和指令微調(diào)模型
Qwen2系列包含5個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,所有尺寸模型都使用了 GQA(分組查詢注意力)機(jī)制,方便用戶體驗(yàn)到推理加速和顯存占用降低的優(yōu)勢。
加強(qiáng)27種語言的訓(xùn)練數(shù)據(jù)
Qwen團(tuán)隊(duì)通過擴(kuò)展多語言預(yù)訓(xùn)練和指令微調(diào)數(shù)據(jù)的規(guī)模,針對除中英文以外的27種語言進(jìn)行加強(qiáng),提升模型的多語言能力。
模型多方面測評
基準(zhǔn)測評結(jié)果
相比 Qwen1.5,得益于預(yù)訓(xùn)練數(shù)據(jù)及訓(xùn)練方法的優(yōu)化,Qwen2 在大模型實(shí)現(xiàn)大幅度的效果提升。在針對預(yù)訓(xùn)練語言模型的評估中,Qwen2-72B 在包括自然語言理解、知識(shí)、代碼、數(shù)學(xué)及多語言等多項(xiàng)能力上均表現(xiàn)卓越。
小模型方面,相比近期推出的領(lǐng)先模型,Qwen2-7B-Instruct 依然能在多個(gè)評測上取得顯著的優(yōu)勢,尤其是代碼及中文理解。
代碼和數(shù)學(xué)能力顯著提升
代碼方面,沿用 Qwen1.5 的代碼能力,實(shí)現(xiàn) Qwen2 在多種編程語言上的效果提升;數(shù)學(xué)方面,投入了大規(guī)模且高質(zhì)量的訓(xùn)練數(shù)據(jù)提升 Qwen2-72B-Instruct 的數(shù)學(xué)解題能力。
長文本處理
Qwen2 系列模型中較為關(guān)注的功能是它能夠理解和處理擴(kuò)展的上下文序列,對于冗長文檔的應(yīng)用程序,Qwen2 可以提供更準(zhǔn)確、全面的響應(yīng),實(shí)現(xiàn)長文本自然語言高效處理。在Needle in a Haystack的測試集上顯示:Qwen2-7B-Instruct 幾乎完美地處理長達(dá)128k的上下文。
Qwen2-7B本地化部署
-
人工智能
+關(guān)注
關(guān)注
1811文章
49498瀏覽量
258199 -
模型
+關(guān)注
關(guān)注
1文章
3611瀏覽量
51428 -
語言模型
+關(guān)注
關(guān)注
0文章
566瀏覽量
11179
發(fā)布評論請先 登錄
廣和通成功部署DeepSeek-R1-0528-Qwen3-8B模型
基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評測
能源監(jiān)測管理平臺(tái)是本地化部署好還是云端部署好?

AI+能源數(shù)字化破局者故事5:斯倫貝謝 x IBM 咨詢之 “全球化經(jīng)營與本地化適配”
施耐德電氣與奇安信共建技術(shù)本地化創(chuàng)新中心

AIBOX 產(chǎn)品矩陣:支持主流大模型的私有化部署,滿足個(gè)性化 AI 應(yīng)用需求

壁仞科技完成阿里巴巴通義千問Qwen3全系列模型支持
博實(shí)結(jié)完成DeepSeek大模型本地化部署
行芯完成DeepSeek-R1大模型本地化部署
曙光順利完成DeepSeek大模型本地化多點(diǎn)私有部署
烽火通信推動(dòng)DeepSeek本地化部署,金融行業(yè)率先示范
意法半導(dǎo)體在中國的本地化戰(zhàn)略

評論