你有沒(méi)有過(guò)這樣的體驗(yàn)?在高速上對(duì)著導(dǎo)航喊“小度小度”,它就神奇地回應(yīng)道“來(lái)了”;在地下車(chē)庫(kù)問(wèn)“最近的充電樁”,屏幕立刻跳出相關(guān)的充電樁指引;甚至對(duì)車(chē)載語(yǔ)音助手說(shuō)“有點(diǎn)冷”,空調(diào)的溫度就會(huì)悄悄調(diào)高。這些看似“讀心術(shù)”的交互背后,藏著一個(gè)能聽(tīng)懂人話、能感知環(huán)境、能精準(zhǔn)應(yīng)答的“數(shù)字領(lǐng)航員”。
當(dāng)你說(shuō)“查找故宮附近的粵菜館”時(shí),系統(tǒng)不僅要從3億多條POI數(shù)據(jù)中精準(zhǔn)定位,還要理解“附近”是500米還是3公里;當(dāng)你追問(wèn)“有包廂嗎”,它甚至能調(diào)用餐廳實(shí)時(shí)預(yù)訂系統(tǒng)。這些看似簡(jiǎn)單的對(duì)話,需要跨越語(yǔ)音識(shí)別、語(yǔ)義理解、內(nèi)容獲取、答案生成等多重技術(shù)關(guān)卡。
百度地圖早在今年4月發(fā)布全球首個(gè)具備記憶-推理-決策全鏈能力的出行智能體「小度想想」是如何將自然語(yǔ)言轉(zhuǎn)化為精準(zhǔn)指令?那些“秒回”的答案又是怎樣煉成的?
【AI地圖 Tech說(shuō)】第三期將帶你拆解這位“出行搭子”的魔法工廠,看看從“聽(tīng)清”到“聽(tīng)懂”方面,究竟藏著多少黑科技。
上圖說(shuō)明了從用戶請(qǐng)求到最終執(zhí)行的整個(gè)過(guò)程,可以看到其中經(jīng)過(guò)了語(yǔ)音識(shí)別、意圖解析、技能承接等主要的環(huán)節(jié)!
語(yǔ)音指令的解碼之旅:從聲波到文本
當(dāng)用戶說(shuō)出"導(dǎo)航到故宮博物院"時(shí),系統(tǒng)首先啟動(dòng)聲學(xué)模型將聲波轉(zhuǎn)化為文字。這個(gè)看似簡(jiǎn)單的步驟,其實(shí)也不容易,蘊(yùn)含三層技術(shù)環(huán)節(jié):
01基礎(chǔ)識(shí)別
其實(shí)就是我們大家常說(shuō)的語(yǔ)音識(shí)別技術(shù),它利用深度學(xué)習(xí)模型將聲波信號(hào)轉(zhuǎn)化為二進(jìn)制序列,結(jié)合聲學(xué)模型與發(fā)音詞典生成初步文本。語(yǔ)音識(shí)別技術(shù)近年來(lái)經(jīng)歷了白盒化到黑盒化的演進(jìn),其性能、效果都有很大的提升,大家應(yīng)該都已經(jīng)比較熟悉。但相對(duì)于安靜室內(nèi)環(huán)境,用戶在戶外使用小度想想的時(shí)候,還有一類(lèi)常見(jiàn)的問(wèn)題是拒識(shí)。根據(jù)統(tǒng)計(jì),至少有15%左右的語(yǔ)音請(qǐng)求是由于誤喚醒/誤收音引入的(非用戶主觀需求)。小度想想,需要考慮到行駛過(guò)程中的風(fēng)噪、聊天、多媒體播放等復(fù)雜噪音場(chǎng)景,百度地圖引入了雙重拒識(shí)判斷模型(聲學(xué)拒識(shí)、語(yǔ)義拒識(shí)),提前對(duì)問(wèn)題請(qǐng)求進(jìn)行甄別和提前攔截,最大限度降低用戶干擾,大幅提升用戶體驗(yàn)。
02糾錯(cuò)
通過(guò)語(yǔ)言模型(如BERT、N-Gram)對(duì)識(shí)別結(jié)果進(jìn)行上下文糾錯(cuò),例如將“北經(jīng)”修正為“北京”。這是小度想想相對(duì)于通用的語(yǔ)音助手的優(yōu)勢(shì)所在,在糾錯(cuò)的過(guò)程中,會(huì)使用包括地圖POI數(shù)據(jù)、路名數(shù)據(jù)等專(zhuān)業(yè)字典進(jìn)行參考。百度地圖建設(shè)了超億條POI數(shù)據(jù)的本名、別名、關(guān)聯(lián)名的地理知識(shí)圖譜,將POI的各種表達(dá)方式建立標(biāo)準(zhǔn)化映射。在此過(guò)程中,還需要構(gòu)建錯(cuò)誤拼音-標(biāo)準(zhǔn)名稱的雙向索引表,支持"西單大悅成"→"西單大悅城"這樣的智能糾錯(cuò)。
03排序
在實(shí)際工程中,糾錯(cuò)手段不可能只有一個(gè),因此就需要在上述流程完成后,基于多個(gè)邏輯,會(huì)輸出多個(gè)可能的識(shí)別結(jié)果。這里就會(huì)基于用戶之前的對(duì)話習(xí)慣,以及一些其他基于先驗(yàn)知識(shí)和統(tǒng)計(jì)學(xué)習(xí)的置信度評(píng)分算法,從多個(gè)候選文本中選取最優(yōu)結(jié)果(比如“橫屏模式”,在排序中會(huì)優(yōu)于“紅屏模式”)。
意圖解析的"翻譯官":把自然語(yǔ)言轉(zhuǎn)化為機(jī)器指令
當(dāng)從語(yǔ)音的音頻識(shí)別為自然語(yǔ)言之后,下一步就是將其轉(zhuǎn)化為機(jī)器指令。這里包括幾個(gè)關(guān)鍵技術(shù):
技術(shù)亮點(diǎn)一:『意圖模板匹配』
基于自然語(yǔ)言處理(NLP)技術(shù),完成實(shí)體識(shí)別(如時(shí)間“明天”、地點(diǎn)“北京”)、意圖分類(lèi)(如“天氣查詢”)、情感分析(如用戶是否急躁)。過(guò)去的語(yǔ)義理解,更多使用模板類(lèi)技術(shù),如下圖所示,針對(duì)用戶問(wèn)詢的內(nèi)容抽取出關(guān)鍵要素后,再看匹配了哪種需求表達(dá)方式,這稱之為一個(gè)“意圖模板”,基于大量預(yù)置的模板就可以實(shí)現(xiàn)大部分指令的識(shí)別。
技術(shù)亮點(diǎn)二: 『生成式意圖理解』
模板化語(yǔ)義理解能解決很多問(wèn)題,但是存在的關(guān)鍵短板在于泛化理解能力不足,同時(shí)高度依賴領(lǐng)域知識(shí)積累,需要提前做大量的模板標(biāo)注,還要解決相近表達(dá)方式的模板沖突問(wèn)題,當(dāng)模板數(shù)量達(dá)到一定程度后維護(hù)成本就會(huì)增加。LLM的出現(xiàn),另辟蹊徑地解決了這個(gè)問(wèn)題。其核心優(yōu)點(diǎn)是端到端利用LLM的上下文理解能力,直接解析用戶自然語(yǔ)言中的隱含需求,形成對(duì)“口語(yǔ)表達(dá)中蘊(yùn)含的本質(zhì)意圖”的理解,這個(gè)過(guò)程中無(wú)需構(gòu)造模板,而是提前將全量承接API的參數(shù)規(guī)范作為“知識(shí)”以Prompt的方式注入LLM,使其自主選擇API并填充參數(shù)。舉例來(lái)說(shuō),我們可以給大模型這樣的Prompt:
角色:你是一個(gè)語(yǔ)音助手語(yǔ)義解析器,目標(biāo)是將用戶指令轉(zhuǎn)換為API調(diào)用 參考資料:可用的API及參數(shù)如下: {API參數(shù)規(guī)范庫(kù)} 用戶指令:{user_query} 任務(wù):請(qǐng)按以下步驟執(zhí)行: 1.選擇最匹配的API; 2.從指令中提取參數(shù)值,若未明確提及則設(shè)為null; 3.輸出JSON格式,包含api_name和parameters。 預(yù)期輸出:{"api_name": "search_flight","parameters": {"departure_city": "北京", ...}}
技術(shù)亮點(diǎn)三:『工具調(diào)用』
工具調(diào)用是小度想想的下半身,是能夠準(zhǔn)確承接用戶需求的關(guān)鍵支撐。其本質(zhì)上可以理解為一系列API接口的調(diào)用。當(dāng)調(diào)用序列復(fù)雜了之后,調(diào)用狀態(tài)的維護(hù)就會(huì)成為問(wèn)題,小度想想針對(duì)多輪復(fù)雜工具調(diào)用,提出了基于技能的狀態(tài)機(jī)架構(gòu),任意復(fù)雜的操作,都可以基于這套架構(gòu)來(lái)統(tǒng)一表達(dá)。
技術(shù)亮點(diǎn)四:『生成式AI時(shí)代的工具調(diào)用進(jìn)階』
在大模型的時(shí)代,為了提升工程化的效果,在API接口的基礎(chǔ)上又誕生了兩個(gè)公認(rèn)的技術(shù)范式:
MCP:聚焦模型與外部工具的連接,提供統(tǒng)一接口(如數(shù)據(jù)庫(kù)、API調(diào)用),類(lèi)似“AI的USB接口”,降低跨模型開(kāi)發(fā)成本。只要所有工具都以MCP的協(xié)議接入,那么大模型就可以知道這個(gè)工具能力的存在,從而能做到在合適的時(shí)候調(diào)用它。
RAG:RAG本質(zhì)上是對(duì)問(wèn)答能力的數(shù)據(jù)增強(qiáng),如果小度想想僅僅基于老舊的LLM底座來(lái)回答問(wèn)題,會(huì)有很?chē)?yán)重的幻覺(jué)發(fā)生。為了解決這個(gè)問(wèn)題,往往使用檢索增強(qiáng)生成(Retrieval Augmented Generation,簡(jiǎn)稱 RAG),百度地圖將所有的地圖領(lǐng)域數(shù)據(jù)以結(jié)構(gòu)化來(lái)存儲(chǔ),然后在用戶提問(wèn)后,以向量相似性找到對(duì)應(yīng)參考數(shù)據(jù),并取出再用LLM做匯總,就相當(dāng)于從“閉卷考試”變成了“開(kāi)卷考試”,從而保證了答案的精準(zhǔn)性。
持續(xù)提升生產(chǎn)力:從語(yǔ)音助手到智能體
隨著LLM的能力越來(lái)越強(qiáng),我們發(fā)現(xiàn),它的強(qiáng)大理解能力,對(duì)于一個(gè)一般化的常識(shí)問(wèn)題,能給出相當(dāng)接近人類(lèi)的回答。那么是否它能模擬很多團(tuán)隊(duì)協(xié)作的真人,甚至以硅基生命來(lái)承接現(xiàn)實(shí)世界的生產(chǎn)力?這就是智能體(Agent)要考慮的問(wèn)題了。智能體是這兩年AI領(lǐng)域最火的詞之一,它是基于人工智能技術(shù)在某個(gè)領(lǐng)域體現(xiàn)高度智能,顯著提升人類(lèi)工作效率的信息系統(tǒng),相對(duì)于“語(yǔ)音助手”,更偏重于“通過(guò)觀察、思考、權(quán)衡利弊,動(dòng)態(tài)自主調(diào)用基礎(chǔ)能力、高準(zhǔn)確地解決復(fù)雜業(yè)務(wù)問(wèn)題”的特性。
以自動(dòng)駕駛場(chǎng)景為例,智能體可以實(shí)時(shí)感知車(chē)輛周?chē)穆窙r、其他車(chē)輛的行駛狀態(tài)、交通信號(hào)燈的變化等關(guān)鍵信息,為后續(xù)決策提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。自主決策能力堪稱智能體的 “大腦”,它依據(jù)感知到的環(huán)境信息,結(jié)合內(nèi)部預(yù)設(shè)的規(guī)則和先進(jìn)算法,迅速、準(zhǔn)確地做出決策。在面對(duì)復(fù)雜路況時(shí),自動(dòng)駕駛智能體能夠綜合分析各種因素,精準(zhǔn)判斷是加速、減速還是轉(zhuǎn)彎,以確保車(chē)輛行駛的安全與高效。又如在智能物流配送中,智能體的核心目標(biāo)是按時(shí)將貨物準(zhǔn)確送達(dá)目的地,為此它會(huì)綜合考量實(shí)時(shí)路況、車(chē)輛載重等信息,動(dòng)態(tài)規(guī)劃最優(yōu)配送路線,克服重重困難以達(dá)成目標(biāo)。
回到語(yǔ)音助手這個(gè)場(chǎng)景,結(jié)合地圖智能體的任務(wù),首先要針對(duì)地圖場(chǎng)景深入精調(diào)大模型,百度地圖通過(guò)文心一言基座大模型進(jìn)行二次預(yù)訓(xùn)練、SFT、強(qiáng)化學(xué)習(xí)等手段,使地圖大模型能夠精確理解用戶在地圖中的各種常見(jiàn)表達(dá),理解準(zhǔn)確率高達(dá)95%以上。
此外,針對(duì)復(fù)雜任務(wù)的執(zhí)行,還要引入的兩個(gè)特性是記憶和反思:
記憶能力
當(dāng)用戶表達(dá)不完整的需求時(shí),能夠基于之前的問(wèn)答和用戶行為,自動(dòng)補(bǔ)全對(duì)話內(nèi)容(如用戶問(wèn)“今天限行嗎?”默認(rèn)補(bǔ)充用戶所在城市),因此需要構(gòu)建記憶能力,用于存儲(chǔ)歷史交互數(shù)據(jù)、用戶偏好與領(lǐng)域知識(shí)(如常用地址、路線選擇習(xí)慣、節(jié)假日出行規(guī)律),為意圖理解與決策提供背景支持,減少重復(fù)詢問(wèn)并提升個(gè)性化水平。這里面的短期記憶一般是指從啟動(dòng)會(huì)話至今的內(nèi)容,往往持續(xù)數(shù)分鐘,而長(zhǎng)期記憶則是用戶相對(duì)穩(wěn)定固化的特征,就地圖智能體來(lái)說(shuō),用戶的搜索、導(dǎo)航記錄等都是長(zhǎng)期記憶的范疇。
反思能力
一個(gè)初始狀態(tài)的智能體,在應(yīng)對(duì)用戶復(fù)雜需求以及實(shí)時(shí)環(huán)境快速變化時(shí),往往會(huì)出現(xiàn)理解偏差、輸出內(nèi)容不完備與知識(shí)更新滯后等問(wèn)題。引入反思(Reflection)能力,能顯著提升服務(wù)的精準(zhǔn)性與智能化水平。基于上述記憶-反思流程圖,可以看到反思能力能不斷地自我判斷當(dāng)前的答案是否滿意。當(dāng)然,客觀來(lái)說(shuō),在大部分領(lǐng)域很難實(shí)現(xiàn)完美的反思能力,因?yàn)榉此嫉谋举|(zhì)是要在將答案呈現(xiàn)給人之前就能判斷其質(zhì)量,這里面存在大量主觀因素和模棱兩可的問(wèn)題,在這個(gè)過(guò)程中,LLM是第一大功臣,可以說(shuō)針對(duì)語(yǔ)音對(duì)話類(lèi)場(chǎng)景,沒(méi)有LLM純靠規(guī)則就不可能實(shí)現(xiàn)普遍有效的反思。除此之外,長(zhǎng)短期記憶也起到了重要的作用,它能夠結(jié)合用戶之前的習(xí)慣,猜測(cè)當(dāng)前的結(jié)果是否符合用戶預(yù)期,如果不符合,會(huì)主動(dòng)打回進(jìn)行重新理解和執(zhí)行。
案例解析:天氣查詢的完整技術(shù)鏈路
以一個(gè)簡(jiǎn)單的“明天北京會(huì)下雨嗎”為例,系統(tǒng)執(zhí)行以下操作:
語(yǔ)音識(shí)別:ASR引擎輸出“明天北京會(huì)下雨嗎”文本;
語(yǔ)義理解:通過(guò)注冊(cè)到小度想想的工具,結(jié)合這段文本,輸出應(yīng)當(dāng)調(diào)用天氣API,獲取相關(guān)數(shù)據(jù);
服務(wù)調(diào)用:調(diào)用天氣API獲取預(yù)測(cè)天氣數(shù)據(jù);
答案生成:輸出“明天北京陰有雨,15-25℃”;
反思與重新生成:LLM審視這個(gè)答案,認(rèn)為還不夠詳細(xì),反思后認(rèn)為應(yīng)該按時(shí)間段細(xì)化降水概率,因此重新請(qǐng)求天氣API,獲取更詳細(xì)的降雨預(yù)測(cè)數(shù)據(jù),并呈現(xiàn)給用戶。
隨著多模態(tài)大模型以及自動(dòng)駕駛技術(shù)的發(fā)展,未來(lái)的小度想想會(huì)有更多的可能性。從大的趨勢(shì)來(lái)說(shuō),語(yǔ)音語(yǔ)義一體化大模型正在逐漸成熟,2025年3月31日,百度在 AI DAY 上發(fā)布了業(yè)界首個(gè)基于全新互相關(guān)注意力(Cross - Attention)的端到端語(yǔ)音語(yǔ)言大模型,該模型實(shí)現(xiàn)了超低時(shí)延與超低成本。另外,多模態(tài)的對(duì)話(比如視頻AI對(duì)話)和自動(dòng)駕駛的結(jié)合也值得重視,比如通過(guò)車(chē)載攝像頭識(shí)別"前方學(xué)校區(qū)域"并自動(dòng)減速;通過(guò)聲紋、視頻和車(chē)輛傳感器識(shí)別人、車(chē)的異常,主動(dòng)采取應(yīng)對(duì)措施;而在導(dǎo)航行中播報(bào)的時(shí)候,所有內(nèi)容都是基于實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)進(jìn)行人格化生成,再也不像機(jī)器人那樣的生硬,而是像真人一樣地交流,讓我們的出行更舒適高效。
-
百度
+關(guān)注
關(guān)注
9文章
2351瀏覽量
93802 -
智能體
+關(guān)注
關(guān)注
1文章
362瀏覽量
11412
原文標(biāo)題:揭秘:全球首款真正會(huì)思考的出行智能體「小度想想」是如何煉成的
文章出處:【微信號(hào):baidu_map,微信公眾號(hào):百度地圖】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
百度地圖發(fā)布全新升級(jí)出行智能體小度想想2.0
百度地圖重磅發(fā)布地圖AI開(kāi)放平臺(tái)
百度在AI領(lǐng)域的最新進(jìn)展
上汽大眾與百度地圖達(dá)成戰(zhàn)略合作
百度地圖與雅迪推出組合屏智能導(dǎo)航解決方案
百度地圖在汽車(chē)智能化領(lǐng)域的應(yīng)用實(shí)踐
用MCP將百度地圖能力輕松接入DeepSeek

評(píng)論