chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

支持Python和Java的BigCode開源輕量級語言模型

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2023-01-17 14:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

BigCode 是一個開放的科學(xué)合作組織,致力于開發(fā)大型語言模型。

近日他們開源了一個名為 SantaCoder 的語言模型,該模型擁有 11 億個參數(shù),可以用于 PythonJava 和 JavaScript 這幾種編程語言的代碼生成和補(bǔ)全建議。

根據(jù)官方提供的信息,訓(xùn)練 SantaCoder 的基礎(chǔ)是 The Stack(v1.1)數(shù)據(jù)集,SantaCoder 雖然規(guī)模相對較小,只有 11 億個參數(shù),在參數(shù)的絕對數(shù)量上低于 InCoder(67 億)或 CodeGen-multi(27 億),但 SantaCoder 的表現(xiàn)則是要遠(yuǎn)好于這些大型多語言模型。

不過也正是參數(shù)遠(yuǎn)遠(yuǎn)不及 GPT-3 等參數(shù)超過千億級別的超大型語言模型,SantaCoder 適用的編程語言范圍也比較有限,僅支持 Python、Java 和 JavaScript 三種語言。

5f7b7c24-85ec-11ed-bfe3-dac502259ad0.png

為了照顧用戶隱私和保證訓(xùn)練質(zhì)量,在訓(xùn)練模型之前,BigCode 注釋了 400 個樣本,并建立和不斷完善 RegEx 規(guī)則,以便在訓(xùn)練前從數(shù)據(jù)集的代碼中刪除諸如電子郵件地址、密鑰和 IP 地址等敏感信息。

為了讓開發(fā)者可以放心使用 SantaCoder 生成的代碼,BigCode 推出了Dataset Search搜索工具。

通過這個工具,開發(fā)者可以找出代碼的來源,以便在 SantaCoder 產(chǎn)生的代碼屬于某一個項(xiàng)目的情況下,用戶能夠遵守相應(yīng)的許可要求。

此外,BigCode 還推出了「Am I in The Stack?」工具,開發(fā)者可以檢查自己名下的倉庫是否是訓(xùn)練數(shù)據(jù)集的一部分,可以將自己的開源倉庫從數(shù)據(jù)集中刪除。

BigCode 目前已經(jīng)在 Huggingface 網(wǎng)站中提供了 SantaCoder 演示。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • JAVA語言
    +關(guān)注

    關(guān)注

    0

    文章

    138

    瀏覽量

    20968
  • javascript
    +關(guān)注

    關(guān)注

    0

    文章

    525

    瀏覽量

    55669
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4848

    瀏覽量

    88957
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16597

原文標(biāo)題:BigCode開源輕量級語言模型,僅支持Python、JS和Java

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    輕量級Java表達(dá)式引擎aviator的基本使用

    aviator本來是一個輕量級、高性能的基于JVM的表達(dá)式引擎。不過從5.0.0版本開始,aviator升級成為了aviatorScript,成為一個高性能、輕量級寄宿于 JVM (包括 Android 平臺)之上的腳本語言。
    發(fā)表于 09-13 09:42 ?1865次閱讀

    輕量級Agent平臺怎么測試?

    跨平臺的語言成功應(yīng)用于嵌入式設(shè)備中,同時也方便了嵌入式環(huán)境下的輕量Agent(Lightweight Agent)的實(shí)現(xiàn)。本文在ARM嵌入式環(huán)境下測試輕量級Agent平臺。
    發(fā)表于 09-27 06:26

    輕量級的ui框架如何去制作

    原創(chuàng)分享:自制輕量級單片機(jī)UI框架框架元素用戶接口代碼開源平時??碿sdn,但是從來沒有自己寫過。正好這幾天需要用單片機(jī)做一個簡易的ui界面,于是自己寫了一個輕量級的ui框架。發(fā)個csdn分享給大家
    發(fā)表于 07-14 07:39

    后端選擇 java, 還是 python?

    限制。Java 語言在當(dāng)今所有語言里面的排名是第一位。而且市面上關(guān)于 Java 的招聘崗位也非常多。但是這并不代表學(xué)習(xí) Java 就一定好。
    發(fā)表于 09-26 14:07

    適用于Java的嵌入式腳本語言是什么

    /fakescript-java簡介fakescript是一款輕量級的嵌入式腳本語言,使用Java語言編寫,語法吸取自lua、golang、
    發(fā)表于 12-23 08:17

    Lite Actor:方舟Actor并發(fā)模型輕量級優(yōu)化

    設(shè)備的不斷增多,并發(fā)模型顯得舉足輕重,本期我們將為大家?guī)矸街劬幾g器對傳統(tǒng)Actor并發(fā)模型輕量級優(yōu)化。 一、什么是并發(fā)模型?在操作系統(tǒng)中,并發(fā)是任務(wù)在不影響最終執(zhí)行結(jié)果的情況下無序
    發(fā)表于 07-18 12:00

    最流行的編程語言javapython

    世界上最大的編程相關(guān)書籍出版商Packt Publishing進(jìn)行的市場研究顯示,JavaPython是當(dāng)今最流行的編程語言,Java流行程度位居第3。 該公司通過調(diào)查11000受訪
    發(fā)表于 09-26 10:22 ?0次下載
    最流行的編程<b class='flag-5'>語言</b><b class='flag-5'>java</b>,<b class='flag-5'>python</b>

    基于YOLO改進(jìn)的輕量級交通標(biāo)識檢測模型

    在車載邊緣計(jì)算單元中,由于其硬件設(shè)備的資源受限,開發(fā)適用于車載邊緣計(jì)算的輕量級、高效的交通標(biāo)識檢測模型變得越來越迫切。文中提出了一種基于 Tiny YOLO改進(jìn)的輕量級交通標(biāo)識檢測模型
    發(fā)表于 04-19 15:01 ?12次下載
    基于YOLO改進(jìn)的<b class='flag-5'>輕量級</b>交通標(biāo)識檢測<b class='flag-5'>模型</b>

    一款適合初學(xué)者超輕量級C語言網(wǎng)絡(luò)庫—Dyad

    Dyad 是一個基于 C 語言的異步網(wǎng)絡(luò)庫,旨在輕量級、可移植和易用。它既可用于創(chuàng)建小型獨(dú)立服務(wù)器,也可用于為現(xiàn)有的項(xiàng)目提供網(wǎng)絡(luò)支持。
    的頭像 發(fā)表于 10-10 14:33 ?3076次閱讀
    一款適合初學(xué)者超<b class='flag-5'>輕量級</b>C<b class='flag-5'>語言</b>網(wǎng)絡(luò)庫—Dyad

    TinyDB輕量級數(shù)據(jù)庫有哪些特點(diǎn)呢

    TinyDB 是一個純 Python 編寫的輕量級數(shù)據(jù)庫,一共只有1800行代碼,沒有外部依賴項(xiàng)。
    的頭像 發(fā)表于 10-28 14:07 ?2369次閱讀

    一個純Python編寫的輕量級數(shù)據(jù)庫

    TinyDB 是一個純 Python 編寫的輕量級數(shù)據(jù)庫,一共只有1800行代碼,沒有外部依賴項(xiàng)。
    的頭像 發(fā)表于 02-24 10:32 ?1587次閱讀

    谷歌發(fā)布輕量級開源人工智能模型Gemma

    谷歌近日宣布推出開源人工智能(AI)模型系列Gemma,旨在為開發(fā)人員和研究人員提供一個負(fù)責(zé)任的AI構(gòu)建平臺。這一舉措標(biāo)志著自2022年OpenAI的ChatGPT引領(lǐng)AI聊天機(jī)器人熱潮后,谷歌首次發(fā)布重要的開源大型
    的頭像 發(fā)表于 02-23 11:38 ?1352次閱讀

    百度智能云推出全新輕量級模型

    在近日舉辦的百度智能云千帆產(chǎn)品發(fā)布會上,三款全新的輕量級模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了業(yè)界的廣泛關(guān)注。相較于傳統(tǒng)的千億級別參數(shù)大模型,這些
    的頭像 發(fā)表于 03-22 10:28 ?1119次閱讀

    開放原子開源大賽助力輕量級語言模型應(yīng)用落地

    “Intel借助開源大賽在全國的影響力,吸引更多開發(fā)者加入大語言模型及其在人工智能領(lǐng)域的創(chuàng)新應(yīng)用。”負(fù)責(zé)BigDL-LLM賽題運(yùn)營的Intel工作人員表示。
    的頭像 發(fā)表于 09-24 10:38 ?1175次閱讀

    對比PythonJava編程語言

    PythonJava都是目前非常流行的編程語言,它們各有其獨(dú)特的優(yōu)勢和適用場景。以下是對這兩種編程語言的對比: 一、語法和易用性 Python
    的頭像 發(fā)表于 11-15 09:31 ?1805次閱讀