chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Facebook AI發(fā)布了一個包含編碼問題和代碼片段答案的數(shù)據(jù)集

倩倩 ? 來源:新經(jīng)網(wǎng) ? 2020-03-22 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Facebook AI發(fā)布了一個包含編碼問題和代碼片段答案的數(shù)據(jù)集,旨在評估基于AI的自然語言代碼搜索系統(tǒng)。該版本還包括Facebook自己的幾種代碼搜索模型的基準測試結果,以及來自24,000個GitHub存儲庫的超過400萬種Java方法的訓練語料庫。

在arXiv上發(fā)表的一篇論文中,研究人員描述了他們收集數(shù)據(jù)的技術。訓練數(shù)據(jù)語料庫是從最受歡迎的GitHub Android代碼存儲庫中收集的,按星數(shù)排序。解析存儲庫中的每個Java文件,以標識各個方法。Facebook在培訓代碼搜索系統(tǒng)的研究中使用了所得的語料庫。為了創(chuàng)建評估數(shù)據(jù)集,他們從Stack Overflow 的問答數(shù)據(jù)轉儲開始,僅選擇同時具有“ Java”和“ Android”的問題研究人員說:“其中,他們只保留答案被投票的問題,這些問題也與訓練數(shù)據(jù)語料庫中確定的一種方法相匹配。結果將518個問題手動過濾為最終的287個問題。研究人員表示:

我們的數(shù)據(jù)集不僅是當前可用于Java的最大數(shù)據(jù)集,而且還是唯一以自動化(一致)方式針對Stack Overflow的真實答案進行驗證的數(shù)據(jù)集。

Facebook最近發(fā)表了幾篇關于神經(jīng)代碼搜索的論文,這是一種用于訓練神經(jīng)網(wǎng)絡回答“如何”編碼問題的機器學習技術。軟件開發(fā)人員通常會使用Stack Overflow來學習如何解決特定的編碼問題,例如,如何解決 Android應用程序中的錯誤。但是,在處理使用專有API或較不常見的編程語言的代碼時,這不是一個選擇。在這種情況下,程序員自己的組織之外的專家很少(或沒有)。相反,F(xiàn)acebook和其他公司探索了使用源代碼本身作為培訓數(shù)據(jù)來產(chǎn)生可以回答編碼問題的自然語言處理(NLP)系統(tǒng)的想法。

去年,F(xiàn)acebook發(fā)表了一篇關于無監(jiān)督學習方法的論文,稱為神經(jīng)代碼搜索(NCS),該方法接受了從GitHub收集的數(shù)據(jù)的培訓。該技術從源代碼中提取單詞,并學習將每個單詞映射到高維空間中的向量的嵌入。嵌入通常具有向量的性質,向量在向量空間中彼此“接近”,表示具有相似含義的詞,并且詞之間的關系可用向量算術表示。一個例子是在Wikipedia上訓練的word2vec模型,當給定向量表達式“ Paris-France + Spain”時,該模型將返回“ Madrid”。

學習了嵌入之后,使用“ 詞袋 ”模型將語料庫中的每個Java方法轉換為嵌入空間中的向量;通過嵌入將代碼中的每個單詞轉換為向量,并將向量的加權總和分配給該方法作為其索引。這會將每個Java方法映射到嵌入空間中的一個點。為了回答編碼問題,通過將查詢中的每個單詞都通過嵌入轉換并產(chǎn)生加權和,可以將該問題類似地映射到嵌入空間中的某個點。問題的“答案”是Java方法,其索引最接近該點。關鍵思想是查詢和代碼都使用相同的嵌入,并且訓練不需要在輸入數(shù)據(jù)中出現(xiàn)任何問題;它僅從源代碼中學習。

這種技術的一個缺點是它不會學習源代碼中沒有的單詞的嵌入。Facebook研究人員發(fā)現(xiàn),在Stack Overflow上,有問題的單詞中也只有不到一半的單詞包含在源代碼中。這促使研究人員通過監(jiān)督學習擴展了NCS,“以彌合自然語言單詞和源代碼單詞之間的鴻溝”。產(chǎn)生的系統(tǒng)稱為嵌入統(tǒng)一(UNIF),學習查詢詞的單獨嵌入。在此培訓過程中,團隊使用類似于收集基準數(shù)據(jù)集的過程從Stack Overflow中提取了一組問題標題和代碼段。該訓練數(shù)據(jù)集包含451k個問題-答案對,但都不在基準測試中。在基準上進行評估時,對這一數(shù)據(jù)進行培訓的聯(lián)合國系統(tǒng)的性能略優(yōu)于NCS。兩種系統(tǒng)都以大約三分之一的時間作為最高結果返回“正確”答案,并以一半的時間以“前五項”結果返回“正確”答案。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Facebook
    +關注

    關注

    3

    文章

    1432

    瀏覽量

    56762
  • 代碼
    +關注

    關注

    30

    文章

    4900

    瀏覽量

    70750
  • 數(shù)據(jù)集

    關注

    4

    文章

    1224

    瀏覽量

    25448
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀

    本功能從DevEco CodeGenie 5.1.0 Beta版本開始支持。 CodeGenie提供智能AI能力對框選的代碼片段進行逐條解釋,總結代碼段含義,幫助開發(fā)者提升閱讀
    發(fā)表于 07-17 17:02

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續(xù)寫

    利用AI大模型分析并理解開發(fā)者在代碼編輯區(qū)的上下文信息或自然語言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 、使用約束 建
    發(fā)表于 07-15 16:15

    【HarmonyOS 5】鴻蒙CodeGenie AI輔助編程工具詳解

    菜單View布局。主界面主要由編碼助手的介紹和知識問答與生成代碼入門組成。 當我們點擊兩入門其中
    發(fā)表于 06-11 16:34

    DevEco Studio AI輔助開發(fā)工具兩大升級功能 鴻蒙應用開發(fā)效率再提升

    開發(fā)過程中常見的代碼問題,CodeGenie此次新增代碼解釋功能,進步降低開發(fā)門檻。用戶在選中代碼
    發(fā)表于 04-18 14:43

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    生態(tài)系統(tǒng)的系統(tǒng)性革新,更需要高效、強力的開發(fā)者解決方案。為此,聯(lián)發(fā)科帶來了站式可視化智能開發(fā)工具——天璣開發(fā)工具包含AI應用全流程開發(fā)工具Neuron Studio,并帶來全新升
    發(fā)表于 04-13 19:52

    TDengine 發(fā)布時序數(shù)據(jù)分析 AI 智能體 TDgpt,核心代碼開源

    2025 年 3 月 26 日,濤思數(shù)據(jù)通過線上直播形式正式發(fā)布其新代時序數(shù)據(jù)分析 AI
    的頭像 發(fā)表于 03-27 10:30 ?306次閱讀
    TDengine <b class='flag-5'>發(fā)布</b>時序<b class='flag-5'>數(shù)據(jù)</b>分析 <b class='flag-5'>AI</b> 智能體 TDgpt,核心<b class='flag-5'>代碼</b>開源

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)

    和 Renesas直致力于推動開源生態(tài)的發(fā)展,并積極合作打造高效、開放的計算平臺。BPI-AI2N & BPI-AI2N Carrier 的發(fā)布,不僅為開發(fā)者提供
    發(fā)表于 03-19 17:54

    請問NanoEdge AI數(shù)據(jù)該如何構建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問題,請問我該怎么構建數(shù)據(jù)?或者生成模型失敗還會有哪些原因?
    發(fā)表于 03-10 08:20

    AI Agent 應用與項目實戰(zhàn)》閱讀心得3——RAG架構與部署本地知識庫

    。RAG技術建立在向量數(shù)據(jù)庫的基礎上,通過高維向量空間中的相似度計算來實現(xiàn)語義層面的匹配,這比傳統(tǒng)的關鍵詞搜索更能捕捉文本的深層語義關聯(lián)。 第七章通過本地知識庫的搭建案例展示RA
    發(fā)表于 03-07 19:49

    Microchip推出MPLAB AI編碼助手

    Microchip Technology Inc.(微芯科技公司)宣布推出MPLAB AI編碼助手,利用人工智能(AI)技術為軟件開發(fā)和嵌入式工程師提供代碼編寫與調試支持。這款免費工具
    的頭像 發(fā)表于 02-20 16:55 ?878次閱讀

    用于 SPI 絕對編碼器的 Arduino 示例代碼

    作者:Damon Tarry, Design Applications Engineer, Same Sky 本 Arduino 示例代碼教程旨在為用戶提供堅實的起點,以便通過串行外設接口
    的頭像 發(fā)表于 01-26 21:35 ?811次閱讀
    用于 SPI 絕對<b class='flag-5'>編碼</b>器的 Arduino 示例<b class='flag-5'>代碼</b>

    學習RV32GC對比X86-32指令的優(yōu)勢思考

    : 擁有32通用寄存器(x0~x31),其中x0固定為0,這為編譯器和程序員提供更多的寄存器資源。 指令提供三寄存器操作數(shù),而不是像X86-32那樣讓源操作數(shù)和目的操作數(shù)共享一個
    發(fā)表于 10-31 21:47

    AI大模型的訓練數(shù)據(jù)來源分析

    學術機構、政府組織或企業(yè)公開發(fā)布,涵蓋了各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet :廣泛用于圖像識別任務的大規(guī)模圖像
    的頭像 發(fā)表于 10-23 15:32 ?3676次閱讀

    C2000 DCSM ROM代碼片段/ROP漏洞

    電子發(fā)燒友網(wǎng)站提供《C2000 DCSM ROM代碼片段/ROP漏洞.pdf》資料免費下載
    發(fā)表于 08-28 09:39 ?0次下載
    C2000 DCSM ROM<b class='flag-5'>代碼</b><b class='flag-5'>片段</b>/ROP漏洞

    AI模擬器

    用戶問題數(shù)據(jù),然后在數(shù)據(jù)庫中對比,調用Search_HidingHeadVerseFun()回調函數(shù),獲取答案數(shù)據(jù)信息。 總的來說,這段代碼
    發(fā)表于 08-22 17:28