日韩无码专区,粗长巨龙挺进人妻后臀视频

1、背景

在 AI 問世的兩年里，我們習(xí)慣了把它當(dāng)作一個(gè)超級(jí)百科全書：如果你問它一個(gè)事實(shí)，它會(huì)給出答案；如果你給它一段文字，它會(huì)幫你總結(jié)。然而，當(dāng)我們面對(duì)“分析某行業(yè)未來五年的趨勢(shì)”或“撰寫一份詳盡的技術(shù)競(jìng)品調(diào)研報(bào)告”這樣復(fù)雜的任務(wù)時(shí)，傳統(tǒng)的 LLM 往往顯得力不從心——它們?nèi)狈ι疃龋菀桩a(chǎn)生幻覺，且受限于上下文長(zhǎng)度。

Deep Research正是為了解決這一痛點(diǎn)而生。它不再是一個(gè)簡(jiǎn)單的聊天機(jī)器人，而是具備自主推理能力的“AI 研究員”。

我將會(huì)在下面的內(nèi)容中深入剖析 Deep Research 的運(yùn)行機(jī)制、其背后的工程挑戰(zhàn)以及它如何通過“ReAct 范式”重塑信息獲取的方式。

2、什么是 Deep Research

Deep Research 是專為網(wǎng)頁(yè)瀏覽、數(shù)據(jù)分析和復(fù)雜任務(wù)處理而優(yōu)化的全新功能。與普通 LLM “問什么答什么”的被動(dòng)模式不同，Deep Research 具備主動(dòng)規(guī)劃和深度推理的能力。

它的核心特征可以概括為：

1.自主性（Autonomy）：它可以一邊思考，一邊“查資料”。它不僅是檢索信息，還能自主判斷信息是否足夠，如果不足，它會(huì)主動(dòng)調(diào)整搜索關(guān)鍵詞再次檢索。

2.長(zhǎng)鏈條推理（Long-chain Reasoning）：基于 LLM的推理能力，它能將一個(gè)模糊的龐大需求拆解為多個(gè)子步驟，分階段執(zhí)行。

3.專業(yè)報(bào)告生成：最終輸出的不是零散的對(duì)話，而是包含邏輯摘要、清晰引用來源和完整文檔的專業(yè)級(jí)研究報(bào)告。

為什么我們需要它？當(dāng)前的信息需求往往需要跨越多個(gè)來源、閱讀大量非結(jié)構(gòu)化數(shù)據(jù)。Deep Research 實(shí)際上降低了“海量信息收集”與“高質(zhì)量推理整合”之間的壁壘，尤其擅長(zhǎng)挖掘那些需要瀏覽數(shù)十個(gè)網(wǎng)頁(yè)才能拼湊出的小眾或非直觀信息。

3、核心原理：從 DeepSearch 到 DeepResearch

要理解 Deep Research，通過兩個(gè)層級(jí)來看：底層的搜索循環(huán)（DeepSearch）和上層的報(bào)告框架（DeepResearch）。

3.1 核心引擎：DeepSearch（循環(huán)與迭代）

DeepSearch 的本質(zhì)是一個(gè)“搜索 - 閱讀 - 推理”的無限循環(huán)。這與我們熟悉的ReAct Agent范式高度相似，但通過強(qiáng)化學(xué)習(xí)（RL）不僅學(xué)會(huì)了推理，更學(xué)會(huì)了“搜索策略”：

?搜索（Search）：探索互聯(lián)網(wǎng)，獲取原始信息。

?閱讀（Read）：對(duì)特定網(wǎng)頁(yè)進(jìn)行詳盡分析，提取關(guān)鍵片段。

?推理（Think）：這是最關(guān)鍵的一步。模型會(huì)評(píng)估當(dāng)前收集到的信息是否足以回答問題。如果不夠，它會(huì)決定是將問題拆解為更小的子問題，還是嘗試全新的搜索關(guān)鍵詞。

這種 → → → → 的模式，讓 AI 具備了“自我糾錯(cuò)”和“追根究底”的能力。

3.2 上層框架：DeepResearch（結(jié)構(gòu)化輸出）

DeepSearch 負(fù)責(zé)找答案，而 DeepResearch 負(fù)責(zé)寫報(bào)告。它在 DeepSearch 的基礎(chǔ)上增加了一個(gè)結(jié)構(gòu)化框架：

1.用戶意圖理解 & 目錄生成（TOC）：接收指令后，首先生成報(bào)告目錄（如引言、方法論、相關(guān)工作、結(jié)論）。

2.分章節(jié)執(zhí)行：系統(tǒng)性地將 DeepSearch 引擎應(yīng)用到報(bào)告的每一個(gè)章節(jié)中。每個(gè)章節(jié)都是一個(gè)獨(dú)立的研究任務(wù)。

3.全局整合：最后將所有章節(jié)內(nèi)容整合，進(jìn)行連貫性潤(rùn)色，生成最終報(bào)告。

整個(gè)執(zhí)行過程通常耗時(shí) 5 到 30 分鐘，這在以前的即時(shí)問答中是不可想象的，但對(duì)于深度研究來說，卻是極高的效率。

讓 LLM 在自身推理過程中與搜索引擎交替交互。用戶輸入query，LLM產(chǎn)生TOC，然后進(jìn)入循環(huán)：查找、讀取和推理，直到達(dá)到結(jié)束的條件，然后再通過LLM做總結(jié)，最終給用戶輸出完整的研究報(bào)告（ → → → → ）的模式，已經(jīng)非常接近我們熟悉的 ReAct Agent 范式。不同的是，這里的 Agent 不依賴提示詞，而是通過 RL 真正“學(xué)會(huì)了”搜索策略。實(shí)質(zhì)上就是一個(gè) “帶搜索能力的 ReAct Agent”，只不過不再依賴提示詞工程，而是直接通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)何時(shí)搜索、何時(shí)推理。注意，它是主動(dòng)認(rèn)知到何時(shí)需要檢索信息，這是一個(gè)非常顯著的特點(diǎn)和不同。

4、工程化挑戰(zhàn)與解決方案

Deep Research 之所以能超越普通的 RAG（檢索增強(qiáng)生成），在于它解決了一系列棘手的工程問題。通過對(duì)技術(shù)細(xì)節(jié)的復(fù)盤，我們可以了解到其背后的技術(shù)實(shí)現(xiàn)。

4.1 解決“垃圾進(jìn)，垃圾出”：URL 排序與清洗

4.1.1 問題

Deep Research 在一次任務(wù)中可能掃描數(shù)百個(gè) URL。如果把這些內(nèi)容一股腦塞給 LLM，不僅浪費(fèi) Token，還會(huì)導(dǎo)致模型“瞎選”答案。在每一次 DeepReSearch 漫長(zhǎng)過程中，你可能會(huì)從搜索引擎結(jié)果頁(yè)（SERP）里收集一堆 URL，每打開一個(gè)網(wǎng)頁(yè)，又能順藤摸瓜找出不少新鏈接，就算是去重后，也是輕輕松松幾百個(gè)網(wǎng)址。同樣的，一股腦兒全塞給 LLM 肯定不行，浪費(fèi)寶貴的上下文長(zhǎng)度不說，更要命的是，我們發(fā)現(xiàn) LLM 基本上就是瞎選。所以，得想辦法引導(dǎo) LLM 去挑出那些最有可能包含答案的 URL。

4.1.2 解決方案：兩階段重排序（Re-ranking）

URL 排序打分評(píng)測(cè)是 Deep Research 系統(tǒng)中的關(guān)鍵技術(shù)環(huán)節(jié)，它直接影響到信息獲取的效率和質(zhì)量。系統(tǒng)采用了多層次、多維度的排序策略，確保能夠從海量的搜索結(jié)果中快速定位最有價(jià)值的信息源。

綜合評(píng)分機(jī)制是 URL 排序的核心。系統(tǒng)會(huì)綜合考慮多個(gè)因素：最后更新時(shí)間、域名出現(xiàn)的頻率、網(wǎng)頁(yè)路徑結(jié)構(gòu)，以及最重要的與問題的語(yǔ)義相關(guān)性，算出一個(gè)綜合評(píng)分。這種多維度的評(píng)分機(jī)制能夠全面評(píng)估 URL 的價(jià)值，避免了單一維度排序的局限性。

具體的評(píng)分因素包括：

1.頻率信號(hào)：如果某個(gè) URL 在不同的信息源中多次出現(xiàn)，它的權(quán)重就會(huì)更高。另外，如果某個(gè)域名在搜索結(jié)果中經(jīng)常出現(xiàn)，來自這個(gè)域名的 URL 也會(huì)被加分。因?yàn)橐话銇碚f，熱門域名往往包含更權(quán)威的內(nèi)容。

2.路徑結(jié)構(gòu)：會(huì)分析 URL 的路徑結(jié)構(gòu)，來判斷哪些內(nèi)容是聚集在一起的。如果多個(gè)網(wǎng)址都屬于同一個(gè)路徑層級(jí)，它們的分?jǐn)?shù)會(huì)更高；但路徑越深，分?jǐn)?shù)加成會(huì)逐漸減少。

3.語(yǔ)義相關(guān)性：使用小模型（例如：jina-reranker-v2-base-multilingual）或者大模型來評(píng)估問題和每個(gè) URL 的文本信息（例如標(biāo)題和摘要）的語(yǔ)義相關(guān)性，這是一個(gè)典型的重排序問題。每個(gè) URL 的文本信息來自搜索引擎結(jié)果頁(yè)（SERP）API 返回的標(biāo)題和摘要，以及頁(yè)面上 URL 的錨文本。

4.最后更新時(shí)間：有些查詢對(duì)時(shí)效性要求很高，所以一般來說，越新的 URL 價(jià)值越高。系統(tǒng)采用一套組合拳，綜合考慮 SERP API 提供的篩選功能、HTTP Header 信息分析、元數(shù)據(jù)提取、內(nèi)容模式識(shí)別等，最終給出一個(gè)帶有置信度評(píng)分的時(shí)間戳。

5.受限內(nèi)容識(shí)別：某些社交媒體平臺(tái)的內(nèi)容是受限的，或者需要付費(fèi)才能訪問。系統(tǒng)會(huì)積極維護(hù)一份黑名單，把這些有問題的 URL 和域名都記錄下來，降低它們的排名，避免在這些無法訪問的內(nèi)容上浪費(fèi)計(jì)算資源。

6.域名多樣性：為了提高結(jié)果的多樣性，避免陷入 "局部最優(yōu)"，系統(tǒng)采用 "探索 - 利用" 的策略：從每個(gè)域名下選擇排名 Top K 的 URL。

粗排和精排：

?粗排：快速篩選，追求召回率。

?精排：針對(duì)粗排結(jié)果進(jìn)行深度評(píng)估。這里通常采用基于重排模型（Cross-Encoder）或基于 LLM 的重排序。利用 LLM 的語(yǔ)義理解能力，甚至使用滑動(dòng)窗口算法（從后向前滑動(dòng)），對(duì)候選段落進(jìn)行相關(guān)性打分，確保只有含金量最高的信息進(jìn)入下一步。

粗排檢索效率較快，但是召回的內(nèi)容并不一定強(qiáng)相關(guān)。而精排效率較低，因此適合在粗排的基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化。重排的任務(wù)就是評(píng)估這些上下文的相關(guān)性，優(yōu)先考慮那些最有可能提供準(zhǔn)確和相關(guān)信息的內(nèi)容。

重排方法主要分為以下兩類：

基于重排模型：這些模型可以輸出文檔與查詢之間的相關(guān)性；夠針對(duì)一個(gè)查詢和文檔對(duì)，輸出它們的相似度分?jǐn)?shù)。我們利用這個(gè)分?jǐn)?shù)對(duì)文檔按照與查詢的相關(guān)性進(jìn)行重新排序。解決傳統(tǒng)檢索方法（如BM25、向量檢索）的局限性，例如語(yǔ)義模糊性、長(zhǎng)尾關(guān)鍵詞漏檢、多模態(tài)意圖理解不足等問題。優(yōu)化檢索結(jié)果的Top-K排序，提升后續(xù)LLM生成答案的準(zhǔn)確性和效率

基于 LLM：由于大模型可以更全面地捕捉語(yǔ)義信息，也可被用于重排序。使用 Prompt 的方式引導(dǎo) LLM 進(jìn)行重排序。直接利用 LLM 的語(yǔ)義理解能力對(duì)所有候選段落進(jìn)行相關(guān)性程度排名。如果文檔的數(shù)量通常非常大，而 LLM 可能無法一次性處理所有的文本數(shù)據(jù)。使用滑動(dòng)窗口算法原理，滑順序是從后向前的，將前一個(gè)窗口中的前兩個(gè)段落參與下一個(gè)窗口的重排序。

4.2 解決“大海撈針”與“上下文丟失”：長(zhǎng)網(wǎng)頁(yè)內(nèi)容提取

4.2.1 問題

讀取網(wǎng)頁(yè)內(nèi)容后，我們需要把它作為一條知識(shí)，放到 Agent 的上下文里，供它推理。雖然把全部?jī)?nèi)容一股腦塞進(jìn) LLM 的上下文是最省事的辦法，但考慮到 Token 成本和生成速度，這肯定不是最好的選擇。在實(shí)際應(yīng)用里，我們需要找出內(nèi)容中與問題最相關(guān)的部分，只把這些部分作為知識(shí)添加到 Agent 的上下文里。

我們一邊是問題（原始查詢或“信息差”問題），另一邊是大量的 Markdown 內(nèi)容，其中大部分內(nèi)容都是無關(guān)緊要的。我們需要選出與問題最相關(guān)的片段。

有限數(shù)量文檔中的有限數(shù)量的文本塊：假設(shè)每個(gè)塊大約有 500 個(gè) Token，那么一個(gè)典型的長(zhǎng)網(wǎng)頁(yè)文檔大約有 20 萬 Token（中位數(shù)）到 100 萬 Token。我們每一步抓取 4-5 個(gè) URL，這樣大概會(huì)產(chǎn)生幾百個(gè)文本塊。也就是說，幾百個(gè)向量和幾百個(gè)余弦相似度。在內(nèi)存里就能輕松處理，根本不需要向量數(shù)據(jù)庫(kù)。

我們需要連續(xù)的文本塊來形成有效的知識(shí)摘要：我們不能接受由分散的句子組成的摘要。更有用的知識(shí)摘要，更能保持文本的連貫性。這樣 LLM 更容易從知識(shí)源中復(fù)制和引用，也能減少“幻覺”。

網(wǎng)頁(yè)內(nèi)容動(dòng)輒數(shù)萬 Token，且充滿噪音。如何提取有效信息且保持上下文連貫？

4.2.2 解決方案：遲分算法（Late Chunking）

傳統(tǒng)的 RAG 會(huì)直接把文檔切塊（Chunking）然后向量化，但這會(huì)導(dǎo)致切塊丟失全局上下文（例如一個(gè)代詞“它”在切塊后不知道指代誰(shuí)）。

?Late Chunking（遲分）：這是一個(gè)極其精妙的優(yōu)化。它不急著切塊，而是先用支持超長(zhǎng)上下文的模型（如 jina-embeddings-v3）對(duì)整個(gè)文檔進(jìn)行編碼，保留全局語(yǔ)義。

長(zhǎng)文檔切塊，有倆個(gè)問題，第一個(gè)問題是：文本塊分割得準(zhǔn)不準(zhǔn)，這不僅關(guān)系到搜索結(jié)果好不好讀，還關(guān)系到做 RAG 的時(shí)候，給 LLM 喂進(jìn)去的文本塊是不是正好，不多不少；第二個(gè)問題是：每個(gè)分塊里的上下文信息容易丟失。文檔切完之后，下一步就是把每個(gè)分塊拿去批量向量化。但這么做容易把原文檔里的全局上下文信息給丟了。

遲分（Late Chunking）主要就是解決第二個(gè)問題 —— 上下文丟失。它不是用來找最佳斷點(diǎn)或者語(yǔ)義邊界的。該用正則表達(dá)式，啟發(fā)式方法，或者其他技術(shù)來分塊，還是得用。

但遲分不一樣的地方是，它不是一切完就立馬把每個(gè)塊拿去向量化，而是先把整個(gè)文檔在一個(gè)上下文窗口里編碼了（jina-embeddings-v3最新 SOTA 向量模型，支持 8192 Token 的長(zhǎng)輸入），然后再根據(jù)邊界線索去進(jìn)行均值池化操作。

它的工作原理類似于一維卷積（Conv1D）。這個(gè)過程首先把一個(gè)長(zhǎng)文檔分割成固定長(zhǎng)度的塊，然后用開啟了遲分的 jina-embeddings-v3 向量化這些文本塊。計(jì)算完每個(gè)塊和問題之間的相似度分?jǐn)?shù)后，一個(gè)滑動(dòng)窗口會(huì)在這些相似度分?jǐn)?shù)上移動(dòng)，以找到平均值最高的窗口。

用遲分和類似“一維卷積”的平均池化，挑出跟問題最相關(guān)的段落。

?均值池化：在生成向量后，再根據(jù)邊界線索進(jìn)行切分和均值池化。這就像是先讀完一整本書理解了全意，再回過頭去摘錄段落，而不是每讀一段就摘錄一段。這樣提取出的“知識(shí)塊”既精準(zhǔn)又保留了上下文，極大減少了 LLM 的幻覺。

4.3 解決“寫不長(zhǎng)”：突破 Token 輸出限制

4.3.1 問題

上下文窗口的根本性限制：大部分模型，例如：DeepSeek-V3，單次輸出通常限制在 8K Token（約 8000 字）以內(nèi)，難以一次性生成數(shù)萬字的詳盡報(bào)告。（可能有人會(huì)提出好多模型輸出幾萬字或者幾十萬字，例如GPT-5和Claude Opus等，但是又會(huì)出現(xiàn)下面"上下文腐爛" 現(xiàn)象的問題）。

"上下文腐爛" 現(xiàn)象：當(dāng)智能體開始頻繁調(diào)用多次工具，每次調(diào)用返回的 "觀察結(jié)果" 都會(huì)追加到對(duì)話歷史中，導(dǎo)致上下文長(zhǎng)度爆炸式增長(zhǎng)。這不僅帶來高昂的計(jì)算成本，更會(huì)導(dǎo)致 "上下文腐爛" (Context Rot)—— 隨著上下文變長(zhǎng)，模型性能反而下降。

具體表現(xiàn)為：

1.性能下降：隨著上下文長(zhǎng)度增加，模型性能會(huì)明顯下降。Anthropic 把這個(gè)現(xiàn)象稱為 "上下文腐爛"（context rot）。具體表現(xiàn)是模型開始重復(fù)輸出、推理速度變慢、回答質(zhì)量下降。

2.注意力分散：Agent 的上下文隨時(shí)間推移必然熵增，導(dǎo)致注意力機(jī)制分散。

3.信息利用效率降低：研究發(fā)現(xiàn)，當(dāng)相關(guān)信息位于長(zhǎng)輸入上下文的開頭或結(jié)尾時(shí)，模型的性能表現(xiàn)最佳，而當(dāng)信息被放置在中間位置時(shí)，性能會(huì)顯著下降。此外，在長(zhǎng)上下文任務(wù)中，模型有時(shí)會(huì)傾向于直接依賴其預(yù)訓(xùn)練的參數(shù)知識(shí)來回答問題，而不是有效利用所提供的外部長(zhǎng)文本，這進(jìn)一步加劇了性能的下降。

4.3.2 解決方案：雙層級(jí) Agent 架構(gòu)（Planner + Workers）

Deep Research 實(shí)際上采用了一種“規(guī)劃-執(zhí)行”的分離架構(gòu)：

?規(guī)劃 Agent (Planner)：它是“包工頭”。負(fù)責(zé)理解任務(wù)，生成詳細(xì)的 JSON 格式大綱，并分配每個(gè)章節(jié)的字?jǐn)?shù)預(yù)算。

?執(zhí)行 Agent 集群 (Workers)：它是“建筑工”。多個(gè) Agent 并行工作，每個(gè) Agent 認(rèn)領(lǐng)一個(gè)章節(jié)的標(biāo)題，獨(dú)立去搜索、閱讀和寫作。

?聚合器：最后由一個(gè)模塊像拼積木一樣將各章節(jié)拼接，并進(jìn)行邏輯順滑和長(zhǎng)度控制。

雙層架構(gòu)的核心設(shè)計(jì)包括：

1.監(jiān)督者層級(jí)：作為系統(tǒng)的 "大腦"，負(fù)責(zé)將模糊需求轉(zhuǎn)化為可執(zhí)行計(jì)劃。在 prompts.py 中定義的結(jié)構(gòu)化提示模板指導(dǎo)規(guī)劃器完成三項(xiàng)核心任務(wù)：需求澄清（通過 clarify_with_user 節(jié)點(diǎn)實(shí)現(xiàn)）、子主題分解（最大支持 5 個(gè)并行子任務(wù)）、以及資源分配（根據(jù)主題復(fù)雜度選擇模型與工具）。

2.執(zhí)行者層級(jí)：負(fù)責(zé)具體的信息檢索、內(nèi)容提取和初步分析工作。執(zhí)行者層級(jí)包含多個(gè)專門的 Agent，如搜索 Agent、閱讀 Agent、分析 Agent 等，每個(gè) Agent 負(fù)責(zé)特定的任務(wù)。

3.狀態(tài)機(jī)控制：基于 LangGraph 構(gòu)建的狀態(tài)機(jī)實(shí)現(xiàn)了復(fù)雜流程的精確控制。狀態(tài)機(jī)能夠跟蹤研究過程的每個(gè)步驟，確保任務(wù)執(zhí)行的有序性和完整性。

上下文管理的創(chuàng)新方案：

為了緩解上下文腐爛問題，系統(tǒng)采用了多種上下文管理策略：

1.上下文卸載技術(shù)：系統(tǒng)采用 "上下文卸載"來緩解上下文污染，這能幫 agent 保持在正確軌道上。上下文卸載就是把信息存在語(yǔ)言模型的 "活躍上下文窗口" 之外。把關(guān)鍵信息卸載出去，只在需要時(shí)檢索，我們就避免了模型工作內(nèi)存的 "過載"。

2.分級(jí)存儲(chǔ)架構(gòu)：在于引入分級(jí)存儲(chǔ)架構(gòu)。通過將信息按照重要性和使用頻率進(jìn)行分級(jí)存儲(chǔ)，系統(tǒng)能夠在有限的上下文中保留最重要的信息，同時(shí)在需要時(shí)快速檢索其他信息。

3.智能剪枝策略：系統(tǒng)采用上下文剪枝技術(shù)。這個(gè)技巧是在 RAG 的基礎(chǔ)上做的優(yōu)化。它的核心是在將檢索到的信息交給主模型之前，先進(jìn)行一次 "剪枝"。具體做法是：先檢索出相關(guān)文檔，然后使用一個(gè)更小、更快的模型，讓它讀一遍這些文檔，這個(gè)小模型的任務(wù)是，根據(jù)用戶的原始問題，只從文檔中提取最核心、最相關(guān)的信息。

長(zhǎng)文檔處理的技術(shù)突破：

1.分段處理策略：系統(tǒng)將長(zhǎng)文檔分成多個(gè)段落或章節(jié)，每個(gè)部分獨(dú)立處理，然后通過監(jiān)督者層級(jí)進(jìn)行整合。這種方法避免了一次性處理整個(gè)長(zhǎng)文檔帶來的上下文限制問題。

2.增量生成機(jī)制：系統(tǒng)采用增量生成的方式處理長(zhǎng)篇報(bào)告。監(jiān)督者層級(jí)負(fù)責(zé)制定整體結(jié)構(gòu)和各部分的生成順序，執(zhí)行者層級(jí)按照順序逐步生成各部分內(nèi)容。這種方式不僅避免了輸出長(zhǎng)度限制，還提高了生成內(nèi)容的連貫性。

3.智能整合算法：在各部分內(nèi)容生成后，監(jiān)督者層級(jí)會(huì)對(duì)內(nèi)容進(jìn)行智能整合。這包括檢查邏輯一致性、消除重復(fù)內(nèi)容、優(yōu)化章節(jié)順序等，確保最終報(bào)告的質(zhì)量。

4.4 生成內(nèi)容打分

Deep Research 在生成內(nèi)容的質(zhì)量控制方面采用了多層次、多維度的評(píng)分和優(yōu)化機(jī)制，確保最終輸出的內(nèi)容既準(zhǔn)確又有價(jià)值。

自適應(yīng)評(píng)估框架是內(nèi)容評(píng)分的基礎(chǔ)。包括兩個(gè)互補(bǔ)的評(píng)估框架來評(píng)估 DRA 能力：RACE（基于參考的自適應(yīng)標(biāo)準(zhǔn)驅(qū)動(dòng)評(píng)估框架，具有動(dòng)態(tài)加權(quán)）用于評(píng)估生成研究報(bào)告的質(zhì)量，F(xiàn)ACT（事實(shí)豐富性和引用可信度框架）用于評(píng)估信息檢索有效性和引用準(zhǔn)確性。

RACE 框架的核心特點(diǎn)包括：

1.動(dòng)態(tài)權(quán)重分配：對(duì)于每個(gè)任務(wù)，評(píng)判 LLM 通過多次試驗(yàn)獲得每個(gè)維度的權(quán)重，并取平均值作為最終權(quán)重，確保評(píng)估與任務(wù)意圖一致。所有維度的生成標(biāo)準(zhǔn)被聚合到一個(gè)綜合列表中，評(píng)判 LLM 然后根據(jù)每個(gè)標(biāo)準(zhǔn)分析目標(biāo)報(bào)告和參考報(bào)告，為兩份報(bào)告生成每個(gè)標(biāo)準(zhǔn)的分?jǐn)?shù)列表，用于最終得分計(jì)算。

2.多維度評(píng)估：框架首先基于領(lǐng)域知識(shí)確立四個(gè)頂層評(píng)測(cè)維度：全面性（COMP）、洞察力 / 深度（DEPTH）、指令遵循（INST）和可讀性（READ）。對(duì)于每個(gè)具體任務(wù)，評(píng)判 LLM 會(huì)動(dòng)態(tài)計(jì)算各維度的權(quán)重，并為每個(gè)維度生成一組定制化的評(píng)測(cè)標(biāo)準(zhǔn)。

3.自適應(yīng)逐點(diǎn)質(zhì)量評(píng)估：評(píng)估模塊包含自適應(yīng)逐點(diǎn)質(zhì)量評(píng)估和主動(dòng)事實(shí)核查兩大核心組件，既解決了 "判分死板" 的問題，又實(shí)現(xiàn)了 "全面查錯(cuò)" 的目標(biāo)。自適應(yīng)逐點(diǎn)質(zhì)量評(píng)估打破了固定維度的限制，為每個(gè)任務(wù)量身定制評(píng)分標(biāo)準(zhǔn)。該組件首先保留 4 個(gè)通用評(píng)估維度，同時(shí)針對(duì)每個(gè)具體任務(wù)自動(dòng)生成 1-3 個(gè)專屬評(píng)估維度。

主動(dòng)事實(shí)核查機(jī)制確保了內(nèi)容的準(zhǔn)確性。系統(tǒng)不會(huì)只傻傻地檢查報(bào)告里標(biāo)出來的引用來源，而是會(huì)像一個(gè)偵探一樣主動(dòng)去網(wǎng)上搜索交叉驗(yàn)證報(bào)告里的每一個(gè)說法，不管你有沒有給出處，這就保證了評(píng)分的絕對(duì)嚴(yán)格。

這種機(jī)制的實(shí)現(xiàn)包括：

1.自動(dòng)識(shí)別關(guān)鍵陳述：系統(tǒng)會(huì)自動(dòng)識(shí)別報(bào)告中的關(guān)鍵陳述和數(shù)據(jù)，包括事實(shí)性描述、數(shù)值數(shù)據(jù)、因果關(guān)系等。

2.多源交叉驗(yàn)證：對(duì)于每個(gè)關(guān)鍵陳述，系統(tǒng)會(huì)從多個(gè)獨(dú)立來源進(jìn)行驗(yàn)證，確保其準(zhǔn)確性。

3.置信度評(píng)估：系統(tǒng)會(huì)為每個(gè)驗(yàn)證結(jié)果給出置信度評(píng)分，高置信度的內(nèi)容會(huì)被保留，低置信度的內(nèi)容會(huì)被標(biāo)記為需要進(jìn)一步核實(shí)。

內(nèi)容修改與優(yōu)化策略：基于評(píng)分結(jié)果，系統(tǒng)會(huì)采用多種策略對(duì)內(nèi)容進(jìn)行修改和優(yōu)化：

1.基于評(píng)分的自動(dòng)修正：當(dāng)系統(tǒng)發(fā)現(xiàn)內(nèi)容存在事實(shí)錯(cuò)誤或邏輯問題時(shí)，會(huì)自動(dòng)進(jìn)行修正。這種修正不是簡(jiǎn)單的替換，而是基于多個(gè)可靠來源的信息進(jìn)行綜合判斷。

2.人工干預(yù)機(jī)制：對(duì)于復(fù)雜的問題或存在爭(zhēng)議的內(nèi)容，系統(tǒng)會(huì)提示用戶進(jìn)行人工干預(yù)，確保最終內(nèi)容的準(zhǔn)確性和客觀性。

3.風(fēng)格一致性優(yōu)化：系統(tǒng)會(huì)檢查整篇報(bào)告的語(yǔ)言風(fēng)格、術(shù)語(yǔ)使用、格式規(guī)范等，確保全文的一致性和專業(yè)性。

4.結(jié)構(gòu)優(yōu)化：根據(jù)內(nèi)容的邏輯關(guān)系，系統(tǒng)會(huì)對(duì)報(bào)告的結(jié)構(gòu)進(jìn)行優(yōu)化，確保章節(jié)安排合理、層次分明。

5、 Deep Research vs Manus

Manus 更像是一個(gè)高度工程化的 Agent 平臺(tái)，它整合了大量工具（瀏覽器、代碼解釋器等），強(qiáng)在“調(diào)度”。而 Deep Research 是模型層面和架構(gòu)層面的進(jìn)化，它通過強(qiáng)化學(xué)習(xí)或者架構(gòu)優(yōu)化讓模型了解“如何搜索”和“如何推理”的策略，是一種更原生和自主的智能。所以Deep Research可以進(jìn)行撰寫文獻(xiàn)綜述、市場(chǎng)與競(jìng)品分析、行業(yè)研報(bào)、投融資研報(bào)、市場(chǎng)調(diào)研、新聞熱點(diǎn)追蹤、生活決策等，也可以在檢索時(shí)沉淀有用信息。

6、總結(jié)

Deep Research是我在25年年中接觸的，當(dāng)時(shí)感覺就很驚艷，感覺正在跨越到一個(gè)新的門檻：從信息的搬運(yùn)工，變成了信息的加工者。它不再需要用戶費(fèi)盡心思想 Prompt，也不需要用戶去點(diǎn)擊一個(gè)個(gè)的鏈接。它展示了 AI 作為一個(gè)“思考者”的潛力——它知道自己不知道什么，并且知道去哪里找到答案。對(duì)于使用者而言，這意味著我們可以將最耗時(shí)的“信息收集與整理”階段外包給 AI，從而專注于更高維度的決策與創(chuàng)新。

后面會(huì)繼續(xù)寫我怎么在真實(shí)業(yè)務(wù)中利用DeepResearch的能力，最后祝大家早安、午安、晚安。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
39755

瀏覽量
301361
LLM

LLM

+關(guān)注

關(guān)注
1

文章
346

瀏覽量
1329

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

從“回答者”進(jìn)化為“研究員”：全面解析 Deep Research

評(píng)論