1、背景
在 AI 問世的兩年里,我們習(xí)慣了把它當(dāng)作一個(gè)超級(jí)百科全書:如果你問它一個(gè)事實(shí),它會(huì)給出答案;如果你給它一段文字,它會(huì)幫你總結(jié)。然而,當(dāng)我們面對(duì)“分析某行業(yè)未來五年的趨勢(shì)”或“撰寫一份詳盡的技術(shù)競(jìng)品調(diào)研報(bào)告”這樣復(fù)雜的任務(wù)時(shí),傳統(tǒng)的 LLM 往往顯得力不從心——它們?nèi)狈ι疃龋菀桩a(chǎn)生幻覺,且受限于上下文長(zhǎng)度。
Deep Research正是為了解決這一痛點(diǎn)而生。它不再是一個(gè)簡(jiǎn)單的聊天機(jī)器人,而是具備自主推理能力的“AI 研究員”。
我將會(huì)在下面的內(nèi)容中深入剖析 Deep Research 的運(yùn)行機(jī)制、其背后的工程挑戰(zhàn)以及它如何通過“ReAct 范式”重塑信息獲取的方式。
2、什么是 Deep Research
Deep Research 是 專為網(wǎng)頁(yè)瀏覽、數(shù)據(jù)分析和復(fù)雜任務(wù)處理而優(yōu)化的全新功能。與普通 LLM “問什么答什么”的被動(dòng)模式不同,Deep Research 具備主動(dòng)規(guī)劃和深度推理的能力。
它的核心特征可以概括為:
1.自主性(Autonomy): 它可以一邊思考,一邊“查資料”。它不僅是檢索信息,還能自主判斷信息是否足夠,如果不足,它會(huì)主動(dòng)調(diào)整搜索關(guān)鍵詞再次檢索。
2.長(zhǎng)鏈條推理(Long-chain Reasoning): 基于 LLM的推理能力,它能將一個(gè)模糊的龐大需求拆解為多個(gè)子步驟,分階段執(zhí)行。
3.專業(yè)報(bào)告生成: 最終輸出的不是零散的對(duì)話,而是包含邏輯摘要、清晰引用來源和完整文檔的專業(yè)級(jí)研究報(bào)告。
為什么我們需要它?當(dāng)前的信息需求往往需要跨越多個(gè)來源、閱讀大量非結(jié)構(gòu)化數(shù)據(jù)。Deep Research 實(shí)際上降低了“海量信息收集”與“高質(zhì)量推理整合”之間的壁壘,尤其擅長(zhǎng)挖掘那些需要瀏覽數(shù)十個(gè)網(wǎng)頁(yè)才能拼湊出的小眾或非直觀信息。
3、核心原理:從 DeepSearch 到 DeepResearch
要理解 Deep Research,通過兩個(gè)層級(jí)來看:底層的搜索循環(huán)(DeepSearch)和上層的報(bào)告框架(DeepResearch)。
3.1 核心引擎:DeepSearch(循環(huán)與迭代)
DeepSearch 的本質(zhì)是一個(gè)“搜索 - 閱讀 - 推理”的無限循環(huán)。這與我們熟悉的ReAct Agent范式高度相似,但通過強(qiáng)化學(xué)習(xí)(RL)不僅學(xué)會(huì)了推理,更學(xué)會(huì)了“搜索策略”:
?搜索(Search): 探索互聯(lián)網(wǎng),獲取原始信息。
?閱讀(Read): 對(duì)特定網(wǎng)頁(yè)進(jìn)行詳盡分析,提取關(guān)鍵片段。
?推理(Think): 這是最關(guān)鍵的一步。模型會(huì)評(píng)估當(dāng)前收集到的信息是否足以回答問題。如果不夠,它會(huì)決定是將問題拆解為更小的子問題,還是嘗試全新的搜索關(guān)鍵詞。
這種 → → → → 的模式,讓 AI 具備了“自我糾錯(cuò)”和“追根究底”的能力。

3.2 上層框架:DeepResearch(結(jié)構(gòu)化輸出)
DeepSearch 負(fù)責(zé)找答案,而 DeepResearch 負(fù)責(zé)寫報(bào)告。它在 DeepSearch 的基礎(chǔ)上增加了一個(gè)結(jié)構(gòu)化框架:
1.用戶意圖理解 & 目錄生成(TOC): 接收指令后,首先生成報(bào)告目錄(如引言、方法論、相關(guān)工作、結(jié)論)。
2.分章節(jié)執(zhí)行: 系統(tǒng)性地將 DeepSearch 引擎應(yīng)用到報(bào)告的每一個(gè)章節(jié)中。每個(gè)章節(jié)都是一個(gè)獨(dú)立的研究任務(wù)。
3.全局整合: 最后將所有章節(jié)內(nèi)容整合,進(jìn)行連貫性潤(rùn)色,生成最終報(bào)告。
整個(gè)執(zhí)行過程通常耗時(shí) 5 到 30 分鐘,這在以前的即時(shí)問答中是不可想象的,但對(duì)于深度研究來說,卻是極高的效率。

讓 LLM 在自身推理過程中與搜索引擎交替交互。用戶輸入query,LLM產(chǎn)生TOC,然后進(jìn)入循環(huán):查找、讀取和推理,直到達(dá)到結(jié)束的條件,然后再通過LLM做總結(jié),最終給用戶輸出完整的研究報(bào)告( → → → → )的模式,已經(jīng)非常接近我們熟悉的 ReAct Agent 范式。不同的是,這里的 Agent 不依賴提示詞,而是通過 RL 真正“學(xué)會(huì)了”搜索策略。實(shí)質(zhì)上就是一個(gè) “帶搜索能力的 ReAct Agent”,只不過不再依賴提示詞工程,而是直接通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)何時(shí)搜索、何時(shí)推理。注意,它是主動(dòng)認(rèn)知到何時(shí)需要檢索信息,這是一個(gè)非常顯著的特點(diǎn)和不同。
4、 工程化挑戰(zhàn)與解決方案

Deep Research 之所以能超越普通的 RAG(檢索增強(qiáng)生成),在于它解決了一系列棘手的工程問題。通過對(duì)技術(shù)細(xì)節(jié)的復(fù)盤,我們可以了解到其背后的技術(shù)實(shí)現(xiàn)。
4.1 解決“垃圾進(jìn),垃圾出”:URL 排序與清洗
4.1.1 問題
Deep Research 在一次任務(wù)中可能掃描數(shù)百個(gè) URL。如果把這些內(nèi)容一股腦塞給 LLM,不僅浪費(fèi) Token,還會(huì)導(dǎo)致模型“瞎選”答案。在每一次 DeepReSearch 漫長(zhǎng)過程中,你可能會(huì)從搜索引擎結(jié)果頁(yè)(SERP)里收集一堆 URL,每打開一個(gè)網(wǎng)頁(yè),又能順藤摸瓜找出不少新鏈接,就算是去重后,也是輕輕松松幾百個(gè)網(wǎng)址。同樣的,一股腦兒全塞給 LLM 肯定不行,浪費(fèi)寶貴的上下文長(zhǎng)度不說,更要命的是,我們發(fā)現(xiàn) LLM 基本上就是瞎選。所以,得想辦法引導(dǎo) LLM 去挑出那些最有可能包含答案的 URL。
4.1.2 解決方案:兩階段重排序(Re-ranking)
URL 排序打分評(píng)測(cè)是 Deep Research 系統(tǒng)中的關(guān)鍵技術(shù)環(huán)節(jié),它直接影響到信息獲取的效率和質(zhì)量。系統(tǒng)采用了多層次、多維度的排序策略,確保能夠從海量的搜索結(jié)果中快速定位最有價(jià)值的信息源。
綜合評(píng)分機(jī)制是 URL 排序的核心。系統(tǒng)會(huì)綜合考慮多個(gè)因素:最后更新時(shí)間、域名出現(xiàn)的頻率、網(wǎng)頁(yè)路徑結(jié)構(gòu),以及最重要的與問題的語(yǔ)義相關(guān)性,算出一個(gè)綜合評(píng)分。這種多維度的評(píng)分機(jī)制能夠全面評(píng)估 URL 的價(jià)值,避免了單一維度排序的局限性。
具體的評(píng)分因素包括:
1.頻率信號(hào):如果某個(gè) URL 在不同的信息源中多次出現(xiàn),它的權(quán)重就會(huì)更高。另外,如果某個(gè)域名在搜索結(jié)果中經(jīng)常出現(xiàn),來自這個(gè)域名的 URL 也會(huì)被加分。因?yàn)橐话銇碚f,熱門域名往往包含更權(quán)威的內(nèi)容。
2.路徑結(jié)構(gòu):會(huì)分析 URL 的路徑結(jié)構(gòu),來判斷哪些內(nèi)容是聚集在一起的。如果多個(gè)網(wǎng)址都屬于同一個(gè)路徑層級(jí),它們的分?jǐn)?shù)會(huì)更高;但路徑越深,分?jǐn)?shù)加成會(huì)逐漸減少。
3.語(yǔ)義相關(guān)性:使用 小模型(例如:jina-reranker-v2-base-multilingual)或者大模型 來評(píng)估問題和每個(gè) URL 的文本信息(例如標(biāo)題和摘要)的語(yǔ)義相關(guān)性,這是一個(gè)典型的重排序問題。每個(gè) URL 的文本信息來自搜索引擎結(jié)果頁(yè)(SERP)API 返回的標(biāo)題和摘要,以及頁(yè)面上 URL 的錨文本。
4.最后更新時(shí)間:有些查詢對(duì)時(shí)效性要求很高,所以一般來說,越新的 URL 價(jià)值越高。系統(tǒng)采用一套組合拳,綜合考慮 SERP API 提供的篩選功能、HTTP Header 信息分析、元數(shù)據(jù)提取、內(nèi)容模式識(shí)別等,最終給出一個(gè)帶有置信度評(píng)分的時(shí)間戳。
5.受限內(nèi)容識(shí)別:某些社交媒體平臺(tái)的內(nèi)容是受限的,或者需要付費(fèi)才能訪問。系統(tǒng)會(huì)積極維護(hù)一份黑名單,把這些有問題的 URL 和域名都記錄下來,降低它們的排名,避免在這些無法訪問的內(nèi)容上浪費(fèi)計(jì)算資源。
6.域名多樣性:為了提高結(jié)果的多樣性,避免陷入 "局部最優(yōu)",系統(tǒng)采用 "探索 - 利用" 的策略:從每個(gè)域名下選擇排名 Top K 的 URL。
粗排和精排:
?粗排: 快速篩選,追求召回率。
?精排: 針對(duì)粗排結(jié)果進(jìn)行深度評(píng)估。這里通常采用基于重排模型(Cross-Encoder)或基于 LLM 的重排序。利用 LLM 的語(yǔ)義理解能力,甚至使用滑動(dòng)窗口算法(從后向前滑動(dòng)),對(duì)候選段落進(jìn)行相關(guān)性打分,確保只有含金量最高的信息進(jìn)入下一步。
粗排檢索效率較快,但是召回的內(nèi)容并不一定強(qiáng)相關(guān)。而精排效率較低,因此適合在粗排的基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化。重排的任務(wù)就是評(píng)估這些上下文的相關(guān)性,優(yōu)先考慮那些最有可能提供準(zhǔn)確和相關(guān)信息的內(nèi)容。
重排方法主要分為以下兩類:
基于重排模型:這些模型可以輸出文檔與查詢之間的相關(guān)性;夠針對(duì)一個(gè)查詢和文檔對(duì),輸出它們的相似度分?jǐn)?shù)。我們利用這個(gè)分?jǐn)?shù)對(duì)文檔按照與查詢的相關(guān)性進(jìn)行重新排序。解決傳統(tǒng)檢索方法(如BM25、向量檢索)的局限性,例如語(yǔ)義模糊性、長(zhǎng)尾關(guān)鍵詞漏檢、多模態(tài)意圖理解不足等問題。優(yōu)化檢索結(jié)果的Top-K排序,提升后續(xù)LLM生成答案的準(zhǔn)確性和效率
基于 LLM:由于大模型可以更全面地捕捉語(yǔ)義信息,也可被用于重排序。使用 Prompt 的方式引導(dǎo) LLM 進(jìn)行重排序。直接利用 LLM 的語(yǔ)義理解能力對(duì)所有候選段落進(jìn)行相關(guān)性程度排名。如果文檔的數(shù)量通常非常大,而 LLM 可能無法一次性處理所有的文本數(shù)據(jù)。使用滑動(dòng)窗口算法原理,滑順序是從后向前的,將前一個(gè)窗口中的前兩個(gè)段落參與下一個(gè)窗口的重排序。
4.2 解決“大海撈針”與“上下文丟失”:長(zhǎng)網(wǎng)頁(yè)內(nèi)容提取
4.2.1 問題
讀取網(wǎng)頁(yè)內(nèi)容后,我們需要把它作為一條知識(shí),放到 Agent 的上下文里,供它推理。雖然把全部?jī)?nèi)容一股腦塞進(jìn) LLM 的上下文是最省事的辦法,但考慮到 Token 成本和生成速度,這肯定不是最好的選擇。在實(shí)際應(yīng)用里,我們需要找出內(nèi)容中與問題最相關(guān)的部分,只把這些部分作為知識(shí)添加到 Agent 的上下文里。
我們一邊是問題(原始查詢或“信息差”問題),另一邊是大量的 Markdown 內(nèi)容,其中大部分內(nèi)容都是無關(guān)緊要的。我們需要選出與問題最相關(guān)的片段。
有限數(shù)量文檔中的有限數(shù)量的文本塊:假設(shè)每個(gè)塊大約有 500 個(gè) Token,那么一個(gè)典型的長(zhǎng)網(wǎng)頁(yè)文檔大約有 20 萬 Token(中位數(shù))到 100 萬 Token。我們每一步抓取 4-5 個(gè) URL,這樣大概會(huì)產(chǎn)生幾百個(gè)文本塊。也就是說,幾百個(gè)向量和幾百個(gè)余弦相似度。在內(nèi)存里就能輕松處理,根本不需要向量數(shù)據(jù)庫(kù)。
我們需要連續(xù)的文本塊來形成有效的知識(shí)摘要:我們不能接受由分散的句子組成的摘要。更有用的知識(shí)摘要,更能保持文本的連貫性。這樣 LLM 更容易從知識(shí)源中復(fù)制和引用,也能減少“幻覺”。
網(wǎng)頁(yè)內(nèi)容動(dòng)輒數(shù)萬 Token,且充滿噪音。如何提取有效信息且保持上下文連貫?
4.2.2 解決方案:遲分算法(Late Chunking)
傳統(tǒng)的 RAG 會(huì)直接把文檔切塊(Chunking)然后向量化,但這會(huì)導(dǎo)致切塊丟失全局上下文(例如一個(gè)代詞“它”在切塊后不知道指代誰(shuí))。
?Late Chunking(遲分):這是一個(gè)極其精妙的優(yōu)化。它不急著切塊,而是先用支持超長(zhǎng)上下文的模型(如 jina-embeddings-v3)對(duì)整個(gè)文檔進(jìn)行編碼,保留全局語(yǔ)義。
長(zhǎng)文檔切塊,有倆個(gè)問題,第一個(gè)問題是:文本塊分割得準(zhǔn)不準(zhǔn),這不僅關(guān)系到搜索結(jié)果好不好讀,還關(guān)系到做 RAG 的時(shí)候,給 LLM 喂進(jìn)去的文本塊是不是正好,不多不少;第二個(gè)問題是:每個(gè)分塊里的上下文信息容易丟失。文檔切完之后,下一步就是把每個(gè)分塊拿去批量向量化。但這么做容易把原文檔里的全局上下文信息給丟了。
遲分(Late Chunking)主要就是解決第二個(gè)問題 —— 上下文丟失。它不是用來找最佳斷點(diǎn)或者語(yǔ)義邊界的。該用正則表達(dá)式,啟發(fā)式方法,或者其他技術(shù)來分塊,還是得用。
但遲分不一樣的地方是,它不是一切完就立馬把每個(gè)塊拿去向量化,而是先把整個(gè)文檔在一個(gè)上下文窗口里編碼了(jina-embeddings-v3最新 SOTA 向量模型,支持 8192 Token 的長(zhǎng)輸入),然后再根據(jù)邊界線索去進(jìn)行均值池化操作。
它的工作原理類似于一維卷積(Conv1D)。這個(gè)過程首先把一個(gè)長(zhǎng)文檔分割成固定長(zhǎng)度的塊,然后用開啟了遲分的 jina-embeddings-v3 向量化這些文本塊。計(jì)算完每個(gè)塊和問題之間的相似度分?jǐn)?shù)后,一個(gè)滑動(dòng)窗口會(huì)在這些相似度分?jǐn)?shù)上移動(dòng),以找到平均值最高的窗口。
用遲分和類似“一維卷積”的平均池化,挑出跟問題最相關(guān)的段落。
?均值池化:在生成向量后,再根據(jù)邊界線索進(jìn)行切分和均值池化。 這就像是先讀完一整本書理解了全意,再回過頭去摘錄段落,而不是每讀一段就摘錄一段。這樣提取出的“知識(shí)塊”既精準(zhǔn)又保留了上下文,極大減少了 LLM 的幻覺。
4.3 解決“寫不長(zhǎng)”:突破 Token 輸出限制
4.3.1 問題
上下文窗口的根本性限制:大部分模型,例如:DeepSeek-V3,單次輸出通常限制在 8K Token(約 8000 字)以內(nèi),難以一次性生成數(shù)萬字的詳盡報(bào)告。(可能有人會(huì)提出好多模型輸出幾萬字或者幾十萬字,例如GPT-5和Claude Opus等,但是又會(huì)出現(xiàn)下面"上下文腐爛" 現(xiàn)象的問題)。
"上下文腐爛" 現(xiàn)象:當(dāng)智能體開始頻繁調(diào)用多次工具,每次調(diào)用返回的 "觀察結(jié)果" 都會(huì)追加到對(duì)話歷史中,導(dǎo)致上下文長(zhǎng)度爆炸式增長(zhǎng)。這不僅帶來高昂的計(jì)算成本,更會(huì)導(dǎo)致 "上下文腐爛" (Context Rot)—— 隨著上下文變長(zhǎng),模型性能反而下降。
具體表現(xiàn)為:
1.性能下降:隨著上下文長(zhǎng)度增加,模型性能會(huì)明顯下降。Anthropic 把這個(gè)現(xiàn)象稱為 "上下文腐爛"(context rot)。具體表現(xiàn)是模型開始重復(fù)輸出、推理速度變慢、回答質(zhì)量下降。
2.注意力分散:Agent 的上下文隨時(shí)間推移必然熵增,導(dǎo)致注意力機(jī)制分散。
3.信息利用效率降低:研究發(fā)現(xiàn),當(dāng)相關(guān)信息位于長(zhǎng)輸入上下文的開頭或結(jié)尾時(shí),模型的性能表現(xiàn)最佳,而當(dāng)信息被放置在中間位置時(shí),性能會(huì)顯著下降。此外,在長(zhǎng)上下文任務(wù)中,模型有時(shí)會(huì)傾向于直接依賴其預(yù)訓(xùn)練的參數(shù)知識(shí)來回答問題,而不是有效利用所提供的外部長(zhǎng)文本,這進(jìn)一步加劇了性能的下降。
4.3.2 解決方案:雙層級(jí) Agent 架構(gòu)(Planner + Workers)
Deep Research 實(shí)際上采用了一種“規(guī)劃-執(zhí)行”的分離架構(gòu):
?規(guī)劃 Agent (Planner): 它是“包工頭”。負(fù)責(zé)理解任務(wù),生成詳細(xì)的 JSON 格式大綱,并分配每個(gè)章節(jié)的字?jǐn)?shù)預(yù)算。
?執(zhí)行 Agent 集群 (Workers): 它是“建筑工”。多個(gè) Agent 并行工作,每個(gè) Agent 認(rèn)領(lǐng)一個(gè)章節(jié)的標(biāo)題,獨(dú)立去搜索、閱讀和寫作。
?聚合器: 最后由一個(gè)模塊像拼積木一樣將各章節(jié)拼接,并進(jìn)行邏輯順滑和長(zhǎng)度控制。

雙層架構(gòu)的核心設(shè)計(jì)包括:
1.監(jiān)督者層級(jí):作為系統(tǒng)的 "大腦",負(fù)責(zé)將模糊需求轉(zhuǎn)化為可執(zhí)行計(jì)劃。在 prompts.py 中定義的結(jié)構(gòu)化提示模板指導(dǎo)規(guī)劃器完成三項(xiàng)核心任務(wù):需求澄清(通過 clarify_with_user 節(jié)點(diǎn)實(shí)現(xiàn))、子主題分解(最大支持 5 個(gè)并行子任務(wù))、以及資源分配(根據(jù)主題復(fù)雜度選擇模型與工具)。
2.執(zhí)行者層級(jí):負(fù)責(zé)具體的信息檢索、內(nèi)容提取和初步分析工作。執(zhí)行者層級(jí)包含多個(gè)專門的 Agent,如搜索 Agent、閱讀 Agent、分析 Agent 等,每個(gè) Agent 負(fù)責(zé)特定的任務(wù)。
3.狀態(tài)機(jī)控制:基于 LangGraph 構(gòu)建的狀態(tài)機(jī)實(shí)現(xiàn)了復(fù)雜流程的精確控制。狀態(tài)機(jī)能夠跟蹤研究過程的每個(gè)步驟,確保任務(wù)執(zhí)行的有序性和完整性。
上下文管理的創(chuàng)新方案:
為了緩解上下文腐爛問題,系統(tǒng)采用了多種上下文管理策略:
1.上下文卸載技術(shù):系統(tǒng)采用 "上下文卸載"來緩解上下文污染,這能幫 agent 保持在正確軌道上。上下文卸載就是把信息存在語(yǔ)言模型的 "活躍上下文窗口" 之外。把關(guān)鍵信息卸載出去,只在需要時(shí)檢索,我們就避免了模型工作內(nèi)存的 "過載"。
2.分級(jí)存儲(chǔ)架構(gòu):在于引入分級(jí)存儲(chǔ)架構(gòu)。通過將信息按照重要性和使用頻率進(jìn)行分級(jí)存儲(chǔ),系統(tǒng)能夠在有限的上下文中保留最重要的信息,同時(shí)在需要時(shí)快速檢索其他信息。
3.智能剪枝策略:系統(tǒng)采用上下文剪枝技術(shù)。這個(gè)技巧是在 RAG 的基礎(chǔ)上做的優(yōu)化。它的核心是在將檢索到的信息交給主模型之前,先進(jìn)行一次 "剪枝"。具體做法是:先檢索出相關(guān)文檔,然后使用一個(gè)更小、更快的模型,讓它讀一遍這些文檔,這個(gè)小模型的任務(wù)是,根據(jù)用戶的原始問題,只從文檔中提取最核心、最相關(guān)的信息。
長(zhǎng)文檔處理的技術(shù)突破:
1.分段處理策略:系統(tǒng)將長(zhǎng)文檔分成多個(gè)段落或章節(jié),每個(gè)部分獨(dú)立處理,然后通過監(jiān)督者層級(jí)進(jìn)行整合。這種方法避免了一次性處理整個(gè)長(zhǎng)文檔帶來的上下文限制問題。
2.增量生成機(jī)制:系統(tǒng)采用增量生成的方式處理長(zhǎng)篇報(bào)告。監(jiān)督者層級(jí)負(fù)責(zé)制定整體結(jié)構(gòu)和各部分的生成順序,執(zhí)行者層級(jí)按照順序逐步生成各部分內(nèi)容。這種方式不僅避免了輸出長(zhǎng)度限制,還提高了生成內(nèi)容的連貫性。
3.智能整合算法:在各部分內(nèi)容生成后,監(jiān)督者層級(jí)會(huì)對(duì)內(nèi)容進(jìn)行智能整合。這包括檢查邏輯一致性、消除重復(fù)內(nèi)容、優(yōu)化章節(jié)順序等,確保最終報(bào)告的質(zhì)量。
4.4 生成內(nèi)容打分
Deep Research 在生成內(nèi)容的質(zhì)量控制方面采用了多層次、多維度的評(píng)分和優(yōu)化機(jī)制,確保最終輸出的內(nèi)容既準(zhǔn)確又有價(jià)值。
自適應(yīng)評(píng)估框架是內(nèi)容評(píng)分的基礎(chǔ)。包括兩個(gè)互補(bǔ)的評(píng)估框架來評(píng)估 DRA 能力:RACE(基于參考的自適應(yīng)標(biāo)準(zhǔn)驅(qū)動(dòng)評(píng)估框架,具有動(dòng)態(tài)加權(quán))用于評(píng)估生成研究報(bào)告的質(zhì)量,F(xiàn)ACT(事實(shí)豐富性和引用可信度框架)用于評(píng)估信息檢索有效性和引用準(zhǔn)確性。
RACE 框架的核心特點(diǎn)包括:
1.動(dòng)態(tài)權(quán)重分配:對(duì)于每個(gè)任務(wù),評(píng)判 LLM 通過多次試驗(yàn)獲得每個(gè)維度的權(quán)重,并取平均值作為最終權(quán)重,確保評(píng)估與任務(wù)意圖一致。所有維度的生成標(biāo)準(zhǔn)被聚合到一個(gè)綜合列表中,評(píng)判 LLM 然后根據(jù)每個(gè)標(biāo)準(zhǔn)分析目標(biāo)報(bào)告和參考報(bào)告,為兩份報(bào)告生成每個(gè)標(biāo)準(zhǔn)的分?jǐn)?shù)列表,用于最終得分計(jì)算。
2.多維度評(píng)估:框架首先基于領(lǐng)域知識(shí)確立四個(gè)頂層評(píng)測(cè)維度:全面性(COMP)、洞察力 / 深度(DEPTH)、指令遵循(INST)和可讀性(READ)。對(duì)于每個(gè)具體任務(wù),評(píng)判 LLM 會(huì)動(dòng)態(tài)計(jì)算各維度的權(quán)重,并為每個(gè)維度生成一組定制化的評(píng)測(cè)標(biāo)準(zhǔn)。
3.自適應(yīng)逐點(diǎn)質(zhì)量評(píng)估:評(píng)估模塊包含自適應(yīng)逐點(diǎn)質(zhì)量評(píng)估和主動(dòng)事實(shí)核查兩大核心組件,既解決了 "判分死板" 的問題,又實(shí)現(xiàn)了 "全面查錯(cuò)" 的目標(biāo)。自適應(yīng)逐點(diǎn)質(zhì)量評(píng)估打破了固定維度的限制,為每個(gè)任務(wù)量身定制評(píng)分標(biāo)準(zhǔn)。該組件首先保留 4 個(gè)通用評(píng)估維度,同時(shí)針對(duì)每個(gè)具體任務(wù)自動(dòng)生成 1-3 個(gè)專屬評(píng)估維度。
主動(dòng)事實(shí)核查機(jī)制確保了內(nèi)容的準(zhǔn)確性。系統(tǒng)不會(huì)只傻傻地檢查報(bào)告里標(biāo)出來的引用來源,而是會(huì)像一個(gè)偵探一樣主動(dòng)去網(wǎng)上搜索交叉驗(yàn)證報(bào)告里的每一個(gè)說法,不管你有沒有給出處,這就保證了評(píng)分的絕對(duì)嚴(yán)格。
這種機(jī)制的實(shí)現(xiàn)包括:
1.自動(dòng)識(shí)別關(guān)鍵陳述:系統(tǒng)會(huì)自動(dòng)識(shí)別報(bào)告中的關(guān)鍵陳述和數(shù)據(jù),包括事實(shí)性描述、數(shù)值數(shù)據(jù)、因果關(guān)系等。
2.多源交叉驗(yàn)證:對(duì)于每個(gè)關(guān)鍵陳述,系統(tǒng)會(huì)從多個(gè)獨(dú)立來源進(jìn)行驗(yàn)證,確保其準(zhǔn)確性。
3.置信度評(píng)估:系統(tǒng)會(huì)為每個(gè)驗(yàn)證結(jié)果給出置信度評(píng)分,高置信度的內(nèi)容會(huì)被保留,低置信度的內(nèi)容會(huì)被標(biāo)記為需要進(jìn)一步核實(shí)。
內(nèi)容修改與優(yōu)化策略:基于評(píng)分結(jié)果,系統(tǒng)會(huì)采用多種策略對(duì)內(nèi)容進(jìn)行修改和優(yōu)化:
1.基于評(píng)分的自動(dòng)修正:當(dāng)系統(tǒng)發(fā)現(xiàn)內(nèi)容存在事實(shí)錯(cuò)誤或邏輯問題時(shí),會(huì)自動(dòng)進(jìn)行修正。這種修正不是簡(jiǎn)單的替換,而是基于多個(gè)可靠來源的信息進(jìn)行綜合判斷。
2.人工干預(yù)機(jī)制:對(duì)于復(fù)雜的問題或存在爭(zhēng)議的內(nèi)容,系統(tǒng)會(huì)提示用戶進(jìn)行人工干預(yù),確保最終內(nèi)容的準(zhǔn)確性和客觀性。
3.風(fēng)格一致性優(yōu)化:系統(tǒng)會(huì)檢查整篇報(bào)告的語(yǔ)言風(fēng)格、術(shù)語(yǔ)使用、格式規(guī)范等,確保全文的一致性和專業(yè)性。
4.結(jié)構(gòu)優(yōu)化:根據(jù)內(nèi)容的邏輯關(guān)系,系統(tǒng)會(huì)對(duì)報(bào)告的結(jié)構(gòu)進(jìn)行優(yōu)化,確保章節(jié)安排合理、層次分明。
5、 Deep Research vs Manus
Manus 更像是一個(gè)高度工程化的 Agent 平臺(tái),它整合了大量工具(瀏覽器、代碼解釋器等),強(qiáng)在“調(diào)度”。而 Deep Research 是模型層面和架構(gòu)層面的進(jìn)化,它通過強(qiáng)化學(xué)習(xí)或者架構(gòu)優(yōu)化讓模型了解“如何搜索”和“如何推理”的策略,是一種更原生和自主的智能。所以Deep Research可以進(jìn)行撰寫文獻(xiàn)綜述、市場(chǎng)與競(jìng)品分析、行業(yè)研報(bào)、投融資研報(bào)、市場(chǎng)調(diào)研、新聞熱點(diǎn)追蹤、生活決策等,也可以在檢索時(shí)沉淀有用信息。
6、總結(jié)
Deep Research是我在25年年中接觸的,當(dāng)時(shí)感覺就很驚艷,感覺正在跨越到一個(gè)新的門檻:從信息的搬運(yùn)工,變成了信息的加工者。它不再需要用戶費(fèi)盡心思想 Prompt,也不需要用戶去點(diǎn)擊一個(gè)個(gè)的鏈接。它展示了 AI 作為一個(gè)“思考者”的潛力——它知道自己不知道什么,并且知道去哪里找到答案。對(duì)于使用者而言,這意味著我們可以將最耗時(shí)的“信息收集與整理”階段外包給 AI,從而專注于更高維度的決策與創(chuàng)新。
后面會(huì)繼續(xù)寫我怎么在真實(shí)業(yè)務(wù)中利用DeepResearch的能力,最后祝大家早安、午安、晚安。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
91文章
39755瀏覽量
301361 -
LLM
+關(guān)注
關(guān)注
1文章
346瀏覽量
1329
發(fā)布評(píng)論請(qǐng)先 登錄
2025年中科曙光DeepAI深算智能引擎完成全面進(jìn)化
NXP TJA14xx評(píng)估板使用指南:從硬件到軟件的全面解析
應(yīng)對(duì)極端低溫:Amphenol Deep Space 38999連接器解析
AI資訊:前DeepSeek研究員羅福莉已加入小米 英偉達(dá)一夜蒸發(fā)超萬億元
巴西研究團(tuán)隊(duì)推進(jìn)鈉離子電池電解質(zhì)計(jì)算研究
安富利推出基于英飛凌產(chǎn)品的智能座艙解決方案
工業(yè)電腦的進(jìn)化從基礎(chǔ)控制到智能決策的跨越
聚徽智控——從嵌入式到邊緣計(jì)算:平板工控電腦的技術(shù)進(jìn)化論
老文章新視角:從靜態(tài)測(cè)試到CI/CT生態(tài)的進(jìn)化
電磁環(huán)境動(dòng)態(tài)監(jiān)測(cè)與分析平臺(tái)軟件全面解析
上海光機(jī)所在基于空-譜稀疏深度學(xué)習(xí)設(shè)計(jì)的自由曲面透鏡實(shí)現(xiàn)超景深高光譜成像研究方面取得進(jìn)展
從“回答者”進(jìn)化為“研究員”:全面解析 Deep Research
評(píng)論