国产欧美日韩综合激情一区,这下舒服多了,韩国一级av大片

2025年年初，DeepSeek成為全球人工智能（AI）領(lǐng)域的焦點(diǎn)，其DeepSeek-V3和DeepSeek-R1版本在行業(yè)內(nèi)引發(fā)了結(jié)構(gòu)性震動(dòng)。

DeepSeek-V3是一個(gè)擁有6710億個(gè)參數(shù)的混合專家模型（MoE），每個(gè)token（模型處理文本的基本單位）激活370億個(gè)參數(shù)。該模型在14.8萬(wàn)億個(gè)高質(zhì)量token上進(jìn)行預(yù)訓(xùn)練，采用MLA和MoE架構(gòu)。DeepSeek-V3的發(fā)布幾乎沒(méi)有預(yù)熱和炒作，僅憑借其出色的效果和超低的成本迅速走紅。

DeepSeek-R1則是在DeepSeek-V3的基礎(chǔ)上構(gòu)建的推理模型，它在后訓(xùn)練階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù)，僅憑極少標(biāo)注數(shù)據(jù)便大幅提升了模型的推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上，DeepSeek-R1的效果已可比肩OpenAI-o1正式版。

DeepSeek-R1 在基準(zhǔn)測(cè)試中的表現(xiàn)

DeepSeek-V3技術(shù)突破

DeepSeek-V3的模型架構(gòu)整體上基于Transformer的MoE架構(gòu)，并在細(xì)節(jié)實(shí)現(xiàn)上做了大量的創(chuàng)新和優(yōu)化，如大量小專家模型、多頭潛在注意力、無(wú)輔助損失的負(fù)載平衡、多token預(yù)測(cè)技術(shù)（MTP）等，大幅提升了模型的性能。

在模型訓(xùn)練方面，DeepSeek依托自研的輕量級(jí)分布式訓(xùn)練框架HAI-LLM，通過(guò)算法、框架和硬件的緊密配合，突破了跨節(jié)點(diǎn)MoE訓(xùn)練中的通信瓶頸，實(shí)現(xiàn)了高效穩(wěn)定的訓(xùn)練。DeepSeek-V3 是業(yè)界率先使用FP8進(jìn)行混合精度訓(xùn)練的開(kāi)源模型。

在推理部署方面，DeepSeek-V3采用預(yù)填充（Prefilling）和解碼（Decoding）分離的策略，以及冗余專家策略，在提高推理速度的同時(shí)確保了系統(tǒng)的穩(wěn)定性和可靠性。

DeepSeek 架構(gòu)圖

DeepSeek-R1技術(shù)突破
01.純強(qiáng)化學(xué)習(xí)訓(xùn)練

DeepSeek-R1-Zero的核心創(chuàng)新之一是采用純強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）進(jìn)行訓(xùn)練。這一方法顛覆了傳統(tǒng)的依賴有監(jiān)督微調(diào)（Supervised Fine-Tuning，SFT）和人類反饋強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback，RLHF）的訓(xùn)練模式，首次驗(yàn)證了無(wú)須任何SFT數(shù)據(jù)，僅通過(guò)強(qiáng)化學(xué)習(xí)即可實(shí)現(xiàn)推理能力的自主進(jìn)化。

02.GRPO 算法GRPO算法是DeepSeek-R1-Zero使用的另一個(gè)重要的創(chuàng)新算法。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法（如PPO、DPO）不同，GRPO算法通過(guò)組內(nèi)獎(jiǎng)勵(lì)對(duì)比直接優(yōu)化策略網(wǎng)絡(luò)。具體而言，GRPO 算法將同一問(wèn)題生成的N條候選答案劃為一組，以組內(nèi)平均獎(jiǎng)勵(lì)為基線，計(jì)算相對(duì)優(yōu)勢(shì)值。這種方法不需要額外訓(xùn)練價(jià)值模型，降低了訓(xùn)練復(fù)雜度，提高了訓(xùn)練效率。

GRPO 與 PPO 對(duì)比示意圖

03.獎(jiǎng)勵(lì)模型的創(chuàng)新在強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程中，DeepSeek研究團(tuán)隊(duì)選擇面向結(jié)果的獎(jiǎng)勵(lì)模型，而不是通常的面向過(guò)程的獎(jiǎng)勵(lì)模型。這種方式可以較好地避免獎(jiǎng)勵(lì)欺騙，同時(shí)，由于不需要大量標(biāo)注數(shù)據(jù)，可以降低訓(xùn)練復(fù)雜度。

結(jié)果獎(jiǎng)勵(lì)和過(guò)程獎(jiǎng)勵(lì)

“冷啟動(dòng)+多階段RL”

為了解決純強(qiáng)化學(xué)習(xí)訓(xùn)練帶來(lái)的可讀性差和多語(yǔ)言混雜等問(wèn)題，DeepSeek-R1采用“冷啟動(dòng)+多階段RL”的訓(xùn)練策略。在冷啟動(dòng)階段，引入數(shù)千條高質(zhì)量的長(zhǎng)思維鏈數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào)，強(qiáng)制規(guī)范輸出格式，提高可讀性。隨后，通過(guò)兩階段強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的性能。

推理導(dǎo)向RL：結(jié)合規(guī)則獎(jiǎng)勵(lì)（如答案準(zhǔn)確性、語(yǔ)言一致性），優(yōu)化模型在數(shù)學(xué)、編程等結(jié)構(gòu)化任務(wù)中的表現(xiàn)。

通用對(duì)齊RL：融入人類偏好獎(jiǎng)勵(lì)模型，確保模型在開(kāi)放域任務(wù)中的安全性與實(shí)用性。

DeepSeek-R1 的訓(xùn)練過(guò)程

DeepSeek-R1-Zero在訓(xùn)練初期沒(méi)有人工示范，完全靠自己摸索。就像讓小孩自己解謎題，結(jié)果他居然悟出了很多強(qiáng)大的解題技巧！但僅靠自我摸索的 DeepSeek-R1-Zero 給出的答案有時(shí)很難讀懂，甚至?xí)杏⑽幕祀s，或者偏離人們習(xí)慣的表達(dá)方式。

因此，在訓(xùn)練 DeepSeek-R1 時(shí)，DeepSeek 研究團(tuán)隊(duì)對(duì)模型進(jìn)行了兩次額外的調(diào)整：第一次是喂給它一些冷啟動(dòng)的例子，相當(dāng)于給模型打好基礎(chǔ)，讓它知道回答時(shí)的基本禮儀和清晰度；第二次是在強(qiáng)化學(xué)習(xí)之后，收集在訓(xùn)練中表現(xiàn)優(yōu)秀的解題示例，再混合一些人工整理的題目，重新訓(xùn)練模型。通過(guò)這樣的流程，DeepSeek-R1 就像一個(gè)經(jīng)歷了自學(xué)、糾錯(cuò)、再學(xué)習(xí)、再實(shí)戰(zhàn)的學(xué)生，已成長(zhǎng)為解題高手。

上述過(guò)程還揭示了一個(gè)少有人注意的基本原則，那就是要讓模型自由地思考。在許多 AI實(shí)驗(yàn)中，模型的結(jié)構(gòu)約束越少，則當(dāng)計(jì)算資源增加時(shí)，最終性能的上限越高。反之，如果在早期給模型添加過(guò)多的結(jié)構(gòu)約束，則它的最終表現(xiàn)可能會(huì)受到限制，失去了更多自主探索的可能性。在各種訓(xùn)練模型推理能力的范式中，基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)給模型的約束最少。以結(jié)果為導(dǎo)向，用結(jié)果來(lái)激勵(lì)——“Don’t teach, incentivize.”也就是說(shuō)，不要去“教”模型，而要“激勵(lì)”它自主探索。

《DeepSeek核心技術(shù)揭秘》是剖析DeepSeek技術(shù)原理的專業(yè)技術(shù)書(shū)，以全面的內(nèi)容、深入的技術(shù)原理解析和前瞻性的行業(yè)洞察，為技術(shù)人員、研究人員和大模型相關(guān)技術(shù)愛(ài)好者提供了寶貴的學(xué)習(xí)資料。

本書(shū)目錄結(jié)構(gòu) 第1章介紹DeepSeek的一系列技術(shù)突破與創(chuàng)新，如架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化、推理與部署優(yōu)化等，讓讀者對(duì)DeepSeek的性能突破形成直觀的認(rèn)識(shí)。同時(shí)，介紹DeepSeek的模型家族，涵蓋通用語(yǔ)言模型、多模態(tài)模型、代碼生成與理解等領(lǐng)域，展現(xiàn)了DeepSeek在大模型的不同細(xì)分領(lǐng)域取得的成就。

第2章為初學(xué)者深入淺出地講解DeepSeek的使用方法。從推理模型與通用模型的差異，到具體的使用案例，讀者可以直觀地感受DeepSeek在實(shí)際應(yīng)用中的強(qiáng)大功能。對(duì)提示工程的詳細(xì)介紹，可以幫助讀者了解如何通過(guò)精心設(shè)計(jì)的提示詞更好地發(fā)揮DeepSeek的能力。對(duì)提示詞鏈的高級(jí)使用技巧的介紹，為讀者進(jìn)一步提升DeepSeek使用效果提供參考。

第3章和第4章是本書(shū)的核心與精華。

第3章深入剖析DeepSeek-V3的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。從混合專家模型（MoE）的起源與發(fā)展，到DeepSeek-V3的MoE優(yōu)化，再到對(duì)多頭潛在注意力（MLA）機(jī)制和多token預(yù)測(cè)的詳細(xì)解讀，幫助讀者全面了解DeepSeek-V3在技術(shù)上的先進(jìn)性和創(chuàng)新性。同時(shí)，對(duì)訓(xùn)練框架的并行策略、FP8混合精度訓(xùn)練及推理階段的優(yōu)化等內(nèi)容的深入分析，展示了DeepSeek在提升效率和性能方面的不懈追求。

第4章關(guān)于DeepSeek-R1的技術(shù)剖析同樣精彩紛呈。預(yù)備知識(shí)的介紹為讀者理解后續(xù)內(nèi)容打下了堅(jiān)實(shí)的基礎(chǔ)。對(duì)DeepSeek-R1-Zero的組相對(duì)策略優(yōu)化（GRPO）算法、獎(jiǎng)勵(lì)模型等關(guān)鍵技術(shù)的深入剖析，可以幫助讀者了解DeepSeek在強(qiáng)化學(xué)習(xí)領(lǐng)域的創(chuàng)新性探索。對(duì)DeepSeek-R1 的訓(xùn)練過(guò)程和推理能力的蒸餾等內(nèi)容的詳細(xì)闡述，能讓讀者對(duì)這一創(chuàng)新技術(shù)的特點(diǎn)有全面的認(rèn)知。

第5章從宏觀的角度分析DeepSeek對(duì)人工智能技術(shù)格局的影響，包括打破硬件依賴迷思、沖擊英偉達(dá)CUDA護(hù)城河、引發(fā)大模型技術(shù)路線的重新思考等多個(gè)方面。同時(shí)，總結(jié)了DeepSeek 成功背后的啟示，如領(lǐng)導(dǎo)者敏銳的技術(shù)直覺(jué)、長(zhǎng)期主義的堅(jiān)持、極致的工程優(yōu)化等，為讀者提供了寶貴的經(jīng)驗(yàn)和啟示。

第6章對(duì)DeepSeek“開(kāi)源周”的多個(gè)技術(shù)項(xiàng)目進(jìn)行了深入的分析。通過(guò)對(duì)FlashMLA、DeepEP、DeepGEMM、DualPipe與EPLB、3FS等項(xiàng)目的介紹，展示了DeepSeek在開(kāi)源領(lǐng)域的積極探索，體現(xiàn)了其推動(dòng)大模型技術(shù)普及和發(fā)展的決心。這些技術(shù)項(xiàng)目的詳細(xì)解讀，能讓讀者了解DeepSeek在降低人工智能技術(shù)門(mén)檻、促進(jìn)技術(shù)交流與合作方面的巨大貢獻(xiàn)。

第7章對(duì)大模型的發(fā)展進(jìn)行了討論。從MoE的發(fā)展趨勢(shì)、MLA的展望，大模型的訓(xùn)練方法、推理部署，到GPU硬件及推理模型的發(fā)展趨勢(shì)，以前瞻性的視角為讀者描繪了大模型的發(fā)展藍(lán)圖。

DeepSeek核心+配套視頻課程

本書(shū)由一線資深技術(shù)人員編寫(xiě)，知識(shí)點(diǎn)講解清晰。內(nèi)容完全圍繞DeepSeek核心技術(shù)展開(kāi)，提煉精華，不討論與DeepSeek有關(guān)的大模型基礎(chǔ)，而是關(guān)注DeepSeek本身。

盧菁，北京科技大學(xué)博士，北京大學(xué)博士后，B站、視頻號(hào)優(yōu)秀科技博主。曾任職于騰訊、愛(ài)奇藝等知名互聯(lián)網(wǎng)公司，主要從事人工智能技術(shù)的應(yīng)用和研發(fā)工作，主要研究方向?yàn)榇竽Ｐ?、多模態(tài)、自然語(yǔ)言處理、知識(shí)圖譜、推薦系統(tǒng)等。著有《速通機(jī)器學(xué)習(xí)》《速通深度學(xué)習(xí)數(shù)學(xué)基礎(chǔ)》。

戴志仕，資深A(yù)I架構(gòu)師，“寒武紀(jì)人工智能”公眾號(hào)的創(chuàng)立者。2024年CCF國(guó)際AIOps挑戰(zhàn)賽優(yōu)秀獎(jiǎng)獲得者。擁有十余年人工智能算法研究和產(chǎn)業(yè)落地經(jīng)驗(yàn)，成功實(shí)施過(guò)多個(gè)人工智能項(xiàng)目。

申請(qǐng)時(shí)間

2025年6月9日——2025年7月11日

活動(dòng)參與方式

1、在本帖下方留言回帖說(shuō)說(shuō)你想要這本書(shū)的理由15字以上。
2、我們將從本帖留言中挑選3位幸運(yùn)者贈(zèng)送此書(shū)籍，共贈(zèng)送4本。
3、請(qǐng)?jiān)谑盏綍?shū)籍后2個(gè)星期內(nèi)提交不少于2篇試讀報(bào)告要求300字以上圖文并茂。
4、試讀報(bào)告發(fā)表在電子發(fā)燒友論壇>>社區(qū)活動(dòng)專版標(biāo)題名稱必須包含【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+自擬標(biāo)題

注意事項(xiàng)

1、活動(dòng)期間如有作弊、灌水等違反電子發(fā)燒友論壇規(guī)則的行為一經(jīng)發(fā)現(xiàn)將立即取消獲獎(jiǎng)資格
2、活動(dòng)結(jié)束后獲獎(jiǎng)名單將在論壇公示請(qǐng)活動(dòng)參與者盡量完善個(gè)人信息如管理員無(wú)法聯(lián)系到選中的評(píng)測(cè)者則視為自動(dòng)放棄。
3、申請(qǐng)人收貨后14天內(nèi)未完成書(shū)評(píng)無(wú)權(quán)將書(shū)籍出售或轉(zhuǎn)贈(zèng)給他人。如無(wú)法在收貨后14天內(nèi)提交書(shū)評(píng)請(qǐng)將書(shū)籍退回電子發(fā)燒友論壇運(yùn)費(fèi)自理。
4、如有問(wèn)題請(qǐng)咨詢工作人員（微信：elecfans123）。

聲明：本文由電子發(fā)燒友社區(qū)發(fā)布，轉(zhuǎn)載請(qǐng)注明以上來(lái)源。如需平臺(tái)（包括：試用+專欄+企業(yè)號(hào)+學(xué)院+技術(shù)直播+共建社區(qū)）合作及入群交流，請(qǐng)咨詢18925255684（微信同號(hào)：elecfans123），謝謝！

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴