為了促進(jìn)開源LLMs的工具使用能力,作者引入了 ToolLLM,這是一個(gè)數(shù)據(jù)構(gòu)建、模型訓(xùn)練和評估的通用工具使用框架。

論文:ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
地址:https://arxiv.org/abs/2307.16789
項(xiàng)目:https://github.com/OpenBMB/ToolBench
單位:清華、人大、耶魯、微信、騰訊、知乎
盡管開源大語言模型 (LLM) 及其變體(例如 LLaMA 和 Vicuna)取得了進(jìn)步,但它們在執(zhí)行更高級別的任務(wù)方面仍然受到很大限制,例如遵循人類指令使用外部工具 (API)。
這是因?yàn)楫?dāng)前的指令調(diào)優(yōu)主要集中在基本語言任務(wù)而不是工具使用領(lǐng)域。
這與最先進(jìn) (SOTA) 的LLMs(例如 ChatGPT)形成鮮明對比,后者展示了出色的工具使用能力,但不幸的是閉源的。

為了促進(jìn)開源LLMs的工具使用能力,我們引入了 ToolLLM,這是一個(gè)數(shù)據(jù)構(gòu)建、模型訓(xùn)練和評估的通用工具使用框架。
我們首先介紹 ToolBench,這是一個(gè)供工具使用的指令調(diào)整數(shù)據(jù)集,它是使用 ChatGPT 自動創(chuàng)建的。
具體來說,我們從 RapidAPI Hub 收集了 16,464 個(gè)真實(shí)世界的 RESTful API,涵蓋 49 個(gè)類別,然后提示 ChatGPT 生成涉及這些 API 的各種人工指令,涵蓋單工具和多工具場景。

最后,我們使用 ChatGPT 為每條指令搜索有效的解決方案路徑(API 調(diào)用鏈)。
為了使搜索過程更加高效,我們開發(fā)了一種新穎的基于深度優(yōu)先搜索的決策樹(DFSDT),使LLMs能夠評估多個(gè)推理軌跡并擴(kuò)展搜索空間。我們證明 DFSDT 顯著增強(qiáng)了LLMs的規(guī)劃和推理能力。

為了有效評估工具使用情況,我們開發(fā)了一個(gè)自動評估器:ToolEval。


我們在ToolBench上微調(diào)LLaMA并獲得ToolLLaMA。

我們的 ToolEval 表明 ToolLLaMA 表現(xiàn)出執(zhí)行復(fù)雜指令和泛化到未見過的 API 的卓越能力,并且表現(xiàn)出與 ChatGPT 相當(dāng)?shù)男阅堋?/p>
為了使管道更加實(shí)用,我們設(shè)計(jì)了一個(gè)神經(jīng) API 檢索器來為每條指令推薦合適的 API,從而無需手動選擇 API。

-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7254瀏覽量
91787 -
開源
+關(guān)注
關(guān)注
3文章
3673瀏覽量
43787 -
語言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10779
原文標(biāo)題:劉知遠(yuǎn)等眾多機(jī)構(gòu)提出ToolLLM:促進(jìn)大型語言模型掌握16000+真實(shí)世界的APIs
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
大型語言模型在關(guān)鍵任務(wù)和實(shí)際應(yīng)用中的挑戰(zhàn)

探索高效的大型語言模型!大型語言模型的高效學(xué)習(xí)方法

【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗
【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用
無法在OVMS上運(yùn)行來自Meta的大型語言模型 (LLM),為什么?
KT利用NVIDIA AI平臺訓(xùn)練大型語言模型
NVIDIA AI平臺為大型語言模型帶來巨大收益

大型語言模型有哪些用途?
大型語言模型有哪些用途?大型語言模型如何運(yùn)作呢?
淺析AI大型語言模型研究的發(fā)展歷程

基于Transformer的大型語言模型(LLM)的內(nèi)部機(jī)制

大型語言模型的應(yīng)用
大規(guī)模語言模型的基本概念、發(fā)展歷程和構(gòu)建流程

如何利用大型語言模型驅(qū)動的搜索為公司創(chuàng)造價(jià)值

評論