1.背景與目的
JoyAgent-JDGenie 是最近新開源的一款多Agent的產品,對于通用類問題可以做到開箱即用。而對于用戶需要定制的場景功能,也支持配置子智能體或者類似MCP工具來輔助開發(fā)。此外JoyAgent-JDGenie相對比較輕量,無需依賴任何平臺。
這次想對JoyAgent-JDGenie 進行綜合測試,使用通用類問題從官網和本地部署的JoyAgent來進行測試,看看整體效果如何。
測試地址:
https://autobots.jd.com/genie
開源代碼:
https://github.com/jd-opensource/joyagent-jdgenie
2.測評用例
1.從官網
https://autobots.jd.com/genie 進行一個美食店推薦
2.本地部署服務,做一個北京到阿爾山的旅行規(guī)劃,檢驗開箱即用的能力
總關注點:
1.整體規(guī)劃用時
2.交互的體驗感
3.結果生成的效果
4.本地部署的復雜度
3 詳細測評
3.1 美食店推薦問題:我想去北京什剎海玩,幫我推薦以什剎海為中心,三站地鐵范圍人均100元的燒烤店
問題解析:這個問題需要agent識別的關鍵要素:北京什剎海,地鐵線路有什么,三站地鐵的范圍,人均100元,燒烤店
實際結果:
a.一開始的思維鏈如下圖,joyagent可以快速且準確解析任務

b.交互的界面
在右側有個工作空間,瀏覽器是展示查詢的瀏覽器內容,實時跟隨是展示實時查詢的結果,并動態(tài)生成markdown。
整體交互的界面干凈整潔,功能區(qū)劃分清晰,這個交互使用感很好


c.最后的結果
大約用時4分鐘,完成了我所有要求,包含查詢和生成文檔。 在工作空間的文件可以查看全部結果,對于結果的保存很人性化提供了三種方案,直接轉化Joyspace,下載md文件和復制功能,滿足我日常所需,這個細節(jié)我很滿意。

結果的生成確認讓我眼前一亮,首先推薦的店鋪結果符合我的要求,三站地鐵,人均100,燒烤,其次整個生成的文檔不僅做了總覽還很貼心的對每個區(qū)域的店鋪做了詳解,可以讓我更好的做選擇,體驗感更加優(yōu)秀。

3.2 旅行規(guī)劃joyagent說是開箱即用,所以我本地部署一版本,實測本地效果如何。
3.2.1 安裝依賴和環(huán)境
a.通過運行sh check_dep_port.sh 命令,可以看到關鍵依賴是否有缺少,按照引導安裝即可

b.在application.yml和env_template 兩個文件 配置llm的信息,目前我默認用openai的gpt-4.1模型


c.啟動服務,運行 sh Genie_start.sh,就可以成功啟動服務了

服務從安裝到啟動整體來說還很便捷,也沒有什么平臺依賴。
3.2.2 執(zhí)行旅行規(guī)劃任務問題:我是兩個人,每人預算5000元,想在7.30號從北京出發(fā),去阿爾山及其周圍玩5天,幫我做個旅行規(guī)劃
問題解析:旅行規(guī)劃 首先解析關鍵地址是北京和阿爾山,住宿地址在阿爾山,時間5天包含往返,當地景點查詢,酒店查詢,路線安排。 擴展功能 應有這幾天天氣,周邊美食介紹,景點介紹。
思考過程展示:

過程日志:

實際結果:


整個規(guī)劃用時5分多鐘,從整個結果來看,基礎內容都拆解正確,出發(fā)的路線沒問題,每天的景點安排正確且合理。 對于擴展內容,提供了詳細景點介紹,美食介紹,功能也完備。
結論與建議本框架作為全開源輕量級解決方案,在測試中表現(xiàn)卓越:
交互體驗高效流暢:規(guī)劃類測試任務響應迅速,操作路徑簡潔,工具請求頻次合理無冗余;結果保存智能便捷:支持靈活歸檔策略,滿足多樣化管理需求,大幅降低用戶操作負擔;部署輕量化開箱即用:本地部署依賴極簡,無復雜配置,通用類問題即裝即解決;生成內容完備可靠:基礎與擴展信息覆蓋全面,輸出質量穩(wěn)定。雖存在細微優(yōu)化空間,但瑕不掩瑜,整體性能表現(xiàn)出色,交互層尤為亮眼,為二次開發(fā)測試奠定堅實基礎。
審核編輯 黃宇
-
開源
+關注
關注
3文章
4126瀏覽量
45768 -
Agent
+關注
關注
0文章
172瀏覽量
28634
發(fā)布評論請先 登錄
綜合測評實施辦法與紀律規(guī)定(新版)
2013電設元件清單+賽題分析+綜合測評討論
2011年電賽國賽綜合測評 解題方案
2015年全國大學生電子設計競賽綜合測評題
【ELF靈翼自拍無人機測評】綜合測評
【液晶顯示屏試用體驗】人生第一篇測評報告
2017全國大學生電子設計競賽綜合測評
ADuC7060測評報告
關于Embedded pi v1.0的測評報告
再來一份關于米爾MYS-8MMX開發(fā)板試用體驗測評報告——robe.zhang
JoyAgent綜合測評報告
評論