嵌入式 AI

AI 簡報 20230217 期

1. 超越GPT 3.5的小模型來了！

原文：https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q
論文地址：https://arxiv.org/abs/2302.00923
項目地址：https://github.com/amazon-science/mm-cot

去年年底，OpenAI 向公眾推出了 ChatGPT，一經(jīng)發(fā)布，這項技術(shù)立即將 AI 驅(qū)動的聊天機器人推向了主流話語的中心，眾多研究者并就其如何改變商業(yè)、教育等展開了一輪又一輪辯論。

隨后，科技巨頭們紛紛跟進投入科研團隊，他們所謂的「生成式 AI」技術(shù)（可以制作對話文本、圖形等的技術(shù)）也已準備就緒。

眾所周知，ChatGPT 是在 GPT-3.5 系列模型的基礎上微調(diào)而來的，我們看到很多研究也在緊隨其后緊追慢趕，但是，與 ChatGPT 相比，他們的新研究效果到底有多好？近日，亞馬遜發(fā)布的一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》中，他們提出了包含視覺特征的 Multimodal-CoT，該架構(gòu)在參數(shù)量小于 10 億的情況下，在 ScienceQA 基準測試中，比 GPT-3.5 高出 16 個百分點 (75.17%→91.68%)，甚至超過了許多人類。

這里簡單介紹一下 ScienceQA 基準測試，它是首個標注詳細解釋的多模態(tài)科學問答數(shù)據(jù)集，由 UCLA 和艾倫人工智能研究院（AI2）提出，主要用于測試模型的多模態(tài)推理能力，有著非常豐富的領域多樣性，涵蓋了自然科學、語言科學和社會科學領域，對模型的邏輯推理能力提出了很高的要求。

下面我們來看看亞馬遜的語言模型是如何超越 GPT-3.5 的。

包含視覺特征的 Multimodal-CoT

大型語言模型 (LLM) 在復雜推理任務上表現(xiàn)出色，離不開思維鏈 (CoT) 提示的助攻。然而，現(xiàn)有的 CoT 研究只關注語言模態(tài)。為了在多模態(tài)中觸發(fā) CoT 推理，一種可能的解決方案是通過融合視覺和語言特征來微調(diào)小型語言模型以執(zhí)行 CoT 推理。

然而，根據(jù)已有觀察，小模型往往比大模型更能頻繁地胡編亂造，模型的這種行為通常被稱為「幻覺（hallucination）」。此前谷歌的一項研究也表明（論文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ），基于 CoT 的提示只有在模型具有至少 1000 億參數(shù)時才有用！

也就是說，CoT 提示不會對小型模型的性能產(chǎn)生積極影響，并且只有在與～100B 參數(shù)的模型一起使用時才會產(chǎn)生性能提升。

然而，本文研究在小于 10 億參數(shù)的情況下就產(chǎn)生了性能提升，是如何做到的呢？簡單來講，本文提出了包含視覺特征的 Multimodal-CoT，通過這一范式（Multimodal-CoT）來尋找多模態(tài)中的 CoT 推理。

Multimodal-CoT 將視覺特征結(jié)合在一個單獨的訓練框架中，以減少語言模型有產(chǎn)生幻覺推理模式傾向的影響。總體而言，該框架將推理過程分為兩部分：基本原理生成（尋找原因）和答案推理（找出答案）。

數(shù)據(jù)集

本文主要關注 ScienceQA 數(shù)據(jù)集，該數(shù)據(jù)集將圖像和文本作為上下文的一部分，此外，該數(shù)據(jù)集還包含對答案的解釋，以便可以對模型進行微調(diào)以生成 CoT 基本原理。此外，本文利用 DETR 模型生成視覺特征。

較小的 LM 在生成 CoT / 基本原理時容易產(chǎn)生幻覺，作者推測，如果有一個修改過的架構(gòu)，模型可以利用 LM 生成的文本特征和圖像模型生成的視覺特征，那么更有能力提出理由和回答問題。

架構(gòu)

總的來說，我們需要一個可以生成文本特征和視覺特征并利用它們生成文本響應的模型。

又已知文本和視覺特征之間存在的某種交互，本質(zhì)上是某種共同注意力機制，這有助于封裝兩種模態(tài)中存在的信息，這就讓借鑒思路成為了可能。為了完成所有這些，作者選擇了 T5 模型，它具有編碼器 - 解碼器架構(gòu)，并且如上所述，DETR 模型用于生成視覺特征。

T5 模型的編碼器負責生成文本特征，但 T5 模型的解碼器并沒有利用編碼器產(chǎn)生的文本特征，而是使用作者提出的共同注意式交互層（co-attention-styled interaction layer）的輸出。

拆解來看，假設 H_language 是 T5 編碼器的輸出。X_vision 是 DETR 的輸出。第一步是確保視覺特征和文本特征具有相同的隱藏大小，以便我們可以使用注意力層。

結(jié)果

作者使用 UnifiedQA 模型的權(quán)重作為 T5 模型的初始化點，并在 ScienceQA 數(shù)據(jù)集上對其進行微調(diào)。他們觀察到他們的 Multimodal CoT 方法優(yōu)于所有以前的基準，包括 GPT-3.5。

有趣的地方在于，即使只有 2.23 億個參數(shù)的基本模型也優(yōu)于 GPT-3.5 和其他 Visual QA 模型！這突出了擁有多模態(tài)架構(gòu)的力量。

結(jié)論

這篇論文帶來的最大收獲是多模態(tài)特征在解決具有視覺和文本特征的問題時是多么強大。

作者展示了利用視覺特征，即使是小型語言模型（LM）也可以產(chǎn)生有意義的思維鏈 / 推理，而幻覺要少得多，這揭示了視覺模型在發(fā)展基于思維鏈的學習技術(shù)中可以發(fā)揮的作用。

從實驗中，我們看到以幾百萬個參數(shù)為代價添加視覺特征的方式，比將純文本模型擴展到數(shù)十億個參數(shù)能帶來更大的價值。

2. AI照騙恐怖如斯！美女刷屏真假難辨，網(wǎng)友：AI網(wǎng)戀詐騙時代開啟

原文：https://mp.weixin.qq.com/s/nELNzal7tjkbZ6uKkuGkeA

什么？這些不是真人照片，都是AI畫出來的？！

最近這樣一組美女圖片刷屏了，許多人看到第一反應都是“AI逼真到這個份上了？”。

直到看到手部露出了破綻，才敢確定確實是AI畫的。

嗯….啥都不想說，看就得了，感興趣的小伙伴直接查看原文。

3. YOLOv7農(nóng)業(yè)方向應用｜基于注意力機制改進的YOLOv7算法CBAM-YOLOv7

原文：https://mp.weixin.qq.com/s/HXKsTnSbr8Ks1VF2p7RoTA
論文鏈接：https://www.mdpi.com/2077-0472/12/10/1659/pdf

飼養(yǎng)密度是影響畜禽大規(guī)模生產(chǎn)和動物福利的關鍵因素。然而，麻鴨養(yǎng)殖業(yè)目前使用的人工計數(shù)方法效率低、人工成本高、精度低，而且容易重復計數(shù)和遺漏。

在這方面，本文使用深度學習算法來實現(xiàn)對密集麻鴨群數(shù)量的實時監(jiān)測，并促進智能農(nóng)業(yè)產(chǎn)業(yè)的發(fā)展。本文構(gòu)建了一個新的大規(guī)模大麻鴨目標檢測圖像數(shù)據(jù)集，其中包含1500個大麻鴨目標的檢測全身幀標記和僅頭部幀標記。

此外，本文提出了一種基于注意力機制改進的YOLOv7算法CBAM-YOLOv7，在YOLOv7的主干網(wǎng)絡中添加了3個CBAM模塊，以提高網(wǎng)絡提取特征的能力，并引入SE-YOLOv7和ECA-YOLOv7進行比較實驗。實驗結(jié)果表明，CBAM-YOLOv7具有較高的精度，mAP@0.5和mAP@0.5:0.95略有改善。CBAM-YOLOv7的評價指標值比SE-YOLOw7和ECA-YOLOv 7的提高更大。此外，還對兩種標記方法進行了比較測試，發(fā)現(xiàn)僅頭部標記方法導致了大量特征信息的丟失，而全身框架標記方法顯示了更好的檢測效果。

算法性能評估結(jié)果表明，本文提出的智能麻鴨計數(shù)方法是可行的，可以促進智能可靠的自動計數(shù)方法的發(fā)展。

隨著技術(shù)的發(fā)展，監(jiān)控設備在農(nóng)業(yè)中發(fā)揮著巨大的作用。有多種方法可以監(jiān)測個體動物的行為，例如插入芯片記錄生理數(shù)據(jù)、使用可穿戴傳感器和（熱）成像技術(shù)。一些方法使用附著在鳥類腳上的可穿戴傳感器來測量它們的活動，但這可能會對受監(jiān)測的動物產(chǎn)生額外影響。特別是，在商業(yè)環(huán)境中，技術(shù)限制和高成本導致這種方法的可行性低。

因此，基于光流的視頻評估將是監(jiān)測家禽行為和生理的理想方法。最初，許多監(jiān)控視頻都是人工觀察的，效率低下，依賴于工作人員的經(jīng)驗判斷，沒有標準。然而，近年來，由于大數(shù)據(jù)時代的到來和計算機圖形卡的快速發(fā)展，計算機的計算能力不斷增強，加速了人工智能的發(fā)展。與人工智能相關的研究正在增加，計算機視覺在動物檢測中的應用越來越廣泛。

例如，2014年Girshick等人提出的R-CNN首次引入了兩階段檢測方法。該方法使用深度卷積網(wǎng)絡來獲得優(yōu)異的目標檢測精度，但其許多冗余操作大大增加了空間和時間成本，并且難以在實際的養(yǎng)鴨場中部署。Law等人提出了一種單階段的目標檢測方法CornerNet和一種新的池化方法：角點池化。

然而，基于關鍵點的方法經(jīng)常遇到大量不正確的目標邊界框，這限制了其性能，無法滿足鴨子飼養(yǎng)模型的高性能要求。Duan等人在CornerNet的基礎上構(gòu)建了CenterNet框架，以提高準確性和召回率，并設計了兩個對特征級噪聲具有更強魯棒性的自定義模塊，但Anchor-Free方法是一個具有前兩個關鍵點組合的過程，并且由于網(wǎng)絡結(jié)構(gòu)簡單、處理耗時、速率低和測量結(jié)果不穩(wěn)定，它不能滿足麻鴨工業(yè)化養(yǎng)殖所需的高性能和高準確率的要求。

本文的工作使用了一種單階段目標檢測算法，它只需要提取特征一次，就可以實現(xiàn)目標檢測，其性能高于多階段算法。目前，主流的單階段目標檢測算法主要包括YOLO系列、SSD、RetinaNet等。本文將基于CNN的人群計數(shù)思想轉(zhuǎn)移并應用到鴨計數(shù)問題中。隨著檢測結(jié)果的輸出，作者嵌入了一個目標計數(shù)模塊來響應工業(yè)化的需求。目標計數(shù)也是計算機視覺領域的一項常見任務。目標計數(shù)可分為多類別目標計數(shù)和單類別目標計數(shù)；本工作采用了一群大麻鴨的單類別計數(shù)。

本文希望實現(xiàn)的目標是：

建立了一個新的大規(guī)模的德雷克圖像數(shù)據(jù)集，并將其命名為“大麻鴨數(shù)據(jù)集”。大麻鴨數(shù)據(jù)集包含1500個標簽，用于全身框架和頭部框架，用于鴨的目標檢測。該團隊首次發(fā)布了大麻鴨數(shù)據(jù)集
本研究構(gòu)建了大鴨識別、大鴨目標檢測、大鴨圖像計數(shù)等全面的工作基線，實現(xiàn)了麻鴨的智能養(yǎng)殖
該項目模型引入了CBAM模塊來構(gòu)建CBAM-YOLOv7算法

本文很長，同時基礎理論和背景介紹的非常詳細，感興趣的小伙伴可以翻看原文，進行研究。

4. AutoML并非全能神器！新綜述爆火，網(wǎng)友：了解深度學習領域現(xiàn)狀必讀

原文：https://mp.weixin.qq.com/s/qR2bMaZby299PlEHUlNoBQ

如今深度學習模型開發(fā)已經(jīng)非常成熟，進入大規(guī)模應用階段。

然而，在設計模型時，不可避免地會經(jīng)歷迭代這一過程，它也正是造成模型設計復雜、成本巨高的核心原因，此前通常由經(jīng)驗豐富的工程師來完成。

之所以迭代過程如此“燒金”，是因為在這一過程中，面臨大量的開放性問題 （open problems）。

這些開放性問題究竟會出現(xiàn)在哪些地方？又要如何解決、能否并行化解決？

現(xiàn)在一篇論文綜述終于對此做出介紹，發(fā)出后立刻在網(wǎng)上爆火。

作者嚴謹?shù)貐⒖剂?strong style="font-size: inherit;color: inherit;line-height: inherit;">接近300篇文獻，對大量應用深度學習中的開放問題進行分析，力求讓讀者一文了解該領域最新趨勢。

這篇論文要研究什么？

眾所周知，當我們拿到一個機器學習問題時，通常處理的流程分為以下幾步：收集數(shù)據(jù)、編寫模型、訓練模型、評估模型、迭代、測試、產(chǎn)品化。

在這篇論文中，作者把上述這些流程比作一個雙層次的最佳化問題。

內(nèi)層優(yōu)化回路需要最小化衡量模型效果評估的損失函數(shù)，背后是為了尋求最佳模型參數(shù)而進行的深入研究的訓練過程。

而外層優(yōu)化回路的研究較少，包括最大化一個適當選擇的性能指標來評估驗證數(shù)據(jù)，這正是我們所說的“迭代過程”，也就是追求最優(yōu)模型超參數(shù)的過程。

不過，值得注意的是，面對不同的問題，它的解也需要特定分析，有時候情況甚至會非常復雜。

例如，評估度量Mval是一個離散且不可微的函數(shù)。它并未被很好地定義，有時候甚至在某些自我監(jiān)督式和非監(jiān)督式學習以及生成模型問題中不存在。

同時，你也可能設計了一個非常好的損失函數(shù)Ltrain，結(jié)果發(fā)現(xiàn)它是離散或不可微的，這種情況下它會變得非常棘手，需要用特定方法加以解決。

因此，本篇論文的研究重點就是迭代過程中遇到的各種開放性問題，以及這些問題中可以并行解決優(yōu)化的部分案例。

機器學習中開放問題有哪些？

論文將開放性問題類型分為監(jiān)督學習和其他方法兩大類。

值得一提的是，無論是監(jiān)督學習還是其他方法，作者都貼心地附上了對應的教程地址：

如果對概念本身還不了解的話，點擊就能直接學到他教授的視頻課程，不用擔心有困惑的地方。

首先來看看監(jiān)督學習。

這里我們不得不提到AutoML。作為一種用來降低開發(fā)過程中迭代復雜度的“偷懶”方法，它目前在機器學習中已經(jīng)應用廣泛了。

通常來說，AutoML更側(cè)重于在監(jiān)督學習方法中的應用，尤其是圖像分類問題。

畢竟圖像分類可以明確采用精度作為評估指標，使用AutoML非常方便。

但如果同時考慮多個因素，尤其是包括計算效率在內(nèi)，這些方法是否還能進一步被優(yōu)化？

在這種情況下，如何提升性能就成為了一類開放性問題，具體又分為以下幾類：

大模型、小模型、模型魯棒性、可解釋AI、遷移學習、語義分割、超分辨率&降噪&著色、姿態(tài)估計、光流&深度估計、目標檢測、人臉識別&檢測、視頻&3D模型等。

這些不同的領域也面臨不同的開放性問題。

例如大模型中的學習率并非常數(shù)、而是函數(shù)，會成為開放問題之一，相比之下小模型卻更考慮性能和內(nèi)存（或計算效率）的權(quán)衡這種開放性問題。

其中，小模型通常會應用到物聯(lián)網(wǎng)、智能手機這種小型設備中，相比大模型需求算力更低。

又例如對于目標檢測這樣的模型而言，如何優(yōu)化不同目標之間檢測的準確度，同樣是一種復雜的開放性問題。

在這些開放性問題中，有不少可以通過并行方式解決。如在遷移學習中，迭代時學習到的特征會對下游任務可泛化性和可遷移性同時產(chǎn)生什么影響，就是一個可以并行研究的過程。

同時，并行處理開放性問題面臨的難度也不一樣。

例如基于3D點云數(shù)據(jù)同時施行目標識別、檢測和語義分割，比基于2D圖像的目標識別、檢測和分割任務更具挑戰(zhàn)性。

再來看看監(jiān)督學習以外的其他方法，具體又分為這幾類：

自然語言處理（NLP）、多模態(tài)學習、生成網(wǎng)絡、域適應、少樣本學習、半監(jiān)督&自監(jiān)督學習、語音模型、強化學習、物理知識學習等。

以自然語言處理為例，其中的多任務學習會給模型帶來新的開放性問題。

像經(jīng)典的BERT模型，本身不具備翻譯能力，因此為了同時提升多種下游任務性能指標，研究者們需要權(quán)衡各種目標函數(shù)之間的結(jié)果。

又如生成模型中的CGAN（條件GAN），其中像圖像到圖像翻譯問題，即將一張圖片轉(zhuǎn)換為另一張圖片的過程。

這一過程要求將多個獨立損失函數(shù)進行加權(quán)組合，并讓總損失函數(shù)最小化，就又是一個開放性問題。

其他不同的問題和模型，也分別都會在特定應用上遇到不同類型的開放性問題，因此具體問題依舊得具體分析。

經(jīng)過對各類機器學習領域進行分析后，作者得出了自己的一些看法。

一方面，AI表面上是一種“自動化”的過程，從大量數(shù)據(jù)中產(chǎn)生自己的理解，然而這其中其實涉及大量的人為操作，有不少甚至是重復行為，這被稱之為“迭代過程”。

另一方面，這些工作雖然能部分通過AutoML精簡，然而AutoML目前只在圖像分類中有較好的表現(xiàn)，并不意味著它在其他領域任務中會取得成功。

總而言之，應用深度學習中的開放性問題，依舊比許多人想象得要更為復雜。

論文地址：https://arxiv.org/abs/2301.11316

5. ChatGPT的技術(shù)體系總結(jié)

原文：https://mp.weixin.qq.com/s/woAWs9l_7Opt63-vJfmhzQ

0.參考資料

RLHF論文：Training language models to follow instructions with human feedback（https://arxiv.org/pdf/2203.02155.pdf）

摘要上下文中的 RLHF：Learning to summarize from Human Feedback （https://arxiv.org/pdf/2009.01325.pdf）

PPO論文：Proximal Policy Optimization Algorithms（https://arxiv.org/pdf/1707.06347.pdf）

Deep reinforcement learning from human preferences （https://arxiv.org/abs/1706.03741）

1.引言

1.1 ChatGPT的介紹

作為一個 AI Chatbot，ChatGPT 是當前比較強大的自然語言處理模型之一，它基于 Google 的 T5 模型進行了改進，同時加入了許多自然語言處理的技術(shù)，使得它可以與人類進行自然的、連貫的對話。ChatGPT 使用了 GPT（Generative Pre-training Transformer）架構(gòu)，它是一種基于 Transformer 的預訓練語言模型。GPT 的主要思想是將大量的語料庫輸入到模型中進行訓練，使得模型能夠理解和學習語言的語法、語義等信息，從而生成自然、連貫的文本。與其他 Chatbot 相比，ChatGPT 的優(yōu)勢在于它可以進行上下文感知型的對話，即它可以記住上下文信息，而不是簡單地匹配預先定義的規(guī)則或模式。此外，ChatGPT 還可以對文本進行生成和理解，支持多種對話場景和話題，包括閑聊、知識問答、天氣查詢、新聞閱讀等等。

盡管 ChatGPT 在自然語言處理領域已經(jīng)取得了很好的表現(xiàn)，但它仍然存在一些局限性，例如對于一些復雜的、領域特定的問題，它可能無法給出正確的答案，需要通過人類干預來解決。因此，在使用 ChatGPT 進行對話時，我們?nèi)孕枰斏鲗Υ?，盡可能提供明確、簡潔、準確的問題，以獲得更好的對話體驗。

1.2 ChatGPT的訓練模式

ChatGPT 的訓練模式是基于大規(guī)模文本數(shù)據(jù)集的監(jiān)督學習和自我監(jiān)督學習，這些數(shù)據(jù)集包括了各種類型的文本，例如新聞文章、博客、社交媒體、百科全書、小說等等。ChatGPT 通過這些數(shù)據(jù)集進行預訓練，然后在特定任務的數(shù)據(jù)集上進行微調(diào)。

對于 Reinforcement Learning from Human Feedback 的訓練方式，ChatGPT 通過與人類進行對話來進行模型訓練。具體而言，它通過與人類進行對話，從而了解人類對話的語法、語義和上下文等方面的信息，并從中學習如何生成自然、連貫的文本。當 ChatGPT 生成回復時，人類可以對其進行反饋，例如“好的”、“不太好”等等，這些反饋將被用來調(diào)整模型參數(shù)，以提高 ChatGPT 的回復質(zhì)量。Reinforcement Learning from Human Feedback 的訓練方式，可以使 ChatGPT 更加智能，更好地模擬人類的思維方式。不過這種訓練方式也存在一些問題，例如人類反饋的主觀性和不確定性等，這些問題可能會影響模型的訓練效果。因此，我們需要在使用 ChatGPT 進行對話時，謹慎對待反饋，盡可能提供明確、簡潔、準確的反饋，以獲得更好的對話體驗。

1.3 RLHF的介紹

在過去的幾年中，語言模型通過根據(jù)人類輸入提示生成多樣化且引人注目的文本顯示出令人印象深刻的能力。然而，什么才是“好”文本本質(zhì)上很難定義，因為它是主觀的并且依賴于上下文。有許多應用程序，例如編寫您需要創(chuàng)意的故事、應該真實的信息性文本片段，或者我們希望可執(zhí)行的代碼片段。編寫一個損失函數(shù)來捕獲這些屬性似乎很棘手，而且大多數(shù)語言模型仍然使用簡單的下一個loss function（例如交叉熵）進行訓練。為了彌補損失本身的缺點，人們定義了旨在更好地捕捉人類偏好的指標，例如 BLEU 或 ROUGE。雖然比損失函數(shù)本身更適合衡量性能，但這些指標只是簡單地將生成的文本與具有簡單規(guī)則的引用進行比較，因此也有局限性。如果我們使用生成文本的人工反饋作為性能衡量標準，或者更進一步并使用該反饋作為損失來優(yōu)化模型，那不是很好嗎？這就是從人類反饋中強化學習（RLHF）的想法；使用強化學習的方法直接優(yōu)化帶有人類反饋的語言模型。RLHF 使語言模型能夠開始將在一般文本數(shù)據(jù)語料庫上訓練的模型與復雜人類價值觀的模型對齊。

在傳統(tǒng)的強化學習中，智能的agent需要通過不斷的試錯來學習如何最大化獎勵函數(shù)。但是，這種方法往往需要大量的訓練時間和數(shù)據(jù)，同時也很難確保智能代理所學習到的策略是符合人類期望的。Deep Reinforcement Learning from Human Preferences 則采用了一種不同的方法，即通過人類偏好來指導智能代理的訓練。具體而言，它要求人類評估一系列不同策略的優(yōu)劣，然后將這些評估結(jié)果作為訓練數(shù)據(jù)來訓練智能代理的深度神經(jīng)網(wǎng)絡。這樣，智能代理就可以在人類偏好的指導下，學習到更符合人類期望的策略。除了減少訓練時間和提高智能代理的性能之外，Deep Reinforcement Learning from Human Preferences 還可以在許多現(xiàn)實場景中發(fā)揮作用，例如游戲設計、自動駕駛等。通過使用人類偏好來指導智能代理的訓練，我們可以更好地滿足人類需求，并創(chuàng)造出更加智能和人性化的技術(shù)應用

2. 方法介紹

方法總體上包括三個不同步驟：

監(jiān)督調(diào)優(yōu)模型：在一小部分已經(jīng)標注好的數(shù)據(jù)上進行有監(jiān)督的調(diào)優(yōu)，讓機器學習從一個給定的提示列表中生成輸出，這個模型被稱為 SFT 模型。
模擬人類偏好，讓標注者們對大量 SFT 模型輸出進行投票，這樣就可以得到一個由比較數(shù)據(jù)組成的新數(shù)據(jù)集。然后用這個新數(shù)據(jù)集來訓練一個新模型，叫做 RM 模型。
用 RM 模型進一步調(diào)優(yōu)和改進 SFT 模型，用一種叫做 PPO 的方法得到新的策略模式。

第一步只需要進行一次，而第二步和第三步可以持續(xù)重復進行，以收集更多的比較數(shù)據(jù)來訓練新的 RM 模型和更新策略模式。

2.1 監(jiān)督調(diào)優(yōu)模型

需要收集數(shù)據(jù)來訓練有監(jiān)督的策略模型。為了做到這一點，選定一些提示，讓標注人員寫出預期的回復。這個過程雖然緩慢和昂貴，但最終得到的是一個相對較小、高質(zhì)量的數(shù)據(jù)集，可用于調(diào)優(yōu)預訓練的語言模型。選擇了 GPT-3.5 系列中的預訓練模型作為基線模型，而不是對原始 GPT-3 模型進行調(diào)優(yōu)。

然而，由于此步驟的數(shù)據(jù)量有限，這個過程得到的 SFT 模型可能會輸出一些不是用戶想要的文本，通常也會出現(xiàn)不一致問題。為了解決這個問題，使用的策略是讓標注者對 SFT 模型的不同輸出進行排序以創(chuàng)建 RM 模型，而不是讓標注者創(chuàng)建一個更大的精選數(shù)據(jù)集。

2.2 訓練回報模型

在這一步中，我們的目標是學習一個目標函數(shù)，它可以直接從數(shù)據(jù)中學習，而不是僅僅從有限的訓練數(shù)據(jù)中調(diào)整語言模型。這個目標函數(shù)的作用是為 SFT 模型生成的輸出進行評分，以表示這些輸出對人類來說有多可接受。它反映了人類標注者的偏好和共同準則。最終，這個過程可以得到一個系統(tǒng)，它可以模仿人類的偏好。包括以下步驟：

利用prompt 生成多個輸出。
利用標注者對這些輸出進行排序，獲得一個更大質(zhì)量更高的數(shù)據(jù)集。
把模型將 SFT 模型輸出作為輸入，并按優(yōu)先順序?qū)λ鼈冞M行排序。

2.3 使用 PPO 模型微調(diào) SFT 模型

這一步的目標是通過強化學習來調(diào)整 SFT 模型。具體來說，使用了一個叫 PPO 的算法來訓練一個叫做近端策略優(yōu)化模型的調(diào)整模型，用于優(yōu)化 SFT 模型。

PPO 是一種用于訓練智能體的算法，可以不斷地調(diào)整策略以提高效果。與其他算法不同的是，PPO 會限制策略的更改范圍，以確保訓練的穩(wěn)定性。此外，PPO 還使用了一個價值函數(shù)來估計每個行動的價值，從而更加準確地進行調(diào)整。

在這一步中，PPO 模型使用 SFT 模型作為起點，RM 模型作為基礎，為給定的輸入生成回報。為了避免過度優(yōu)化，SFT 模型會為每個 token 添加 KL 懲罰因子。

3. 性能評估

作為一個大型語言模型，ChatGPT的評估標準可以有多種。在訓練ChatGPT時，通常會使用一些標準的自然語言處理評估指標來評估其性能，如困惑度（perplexity）、BLEU分數(shù)、ROUGE分數(shù)等。這些指標可以用來評估ChatGPT在生成文本時的流暢度、語義連貫性和表達能力等方面的表現(xiàn)。此外，ChatGPT也可以通過人類評估來評估其性能，例如進行用戶調(diào)查或人類評分實驗。這些方法可以提供更貼近實際使用場景的評估，以便更全面地評估ChatGPT在生成自然語言文本方面的表現(xiàn)。

主要借助以下三個標準進行評估：

幫助性：判斷模型遵循用戶指示以及推斷指示的能力。
真實性：判斷模型在封閉領域任務中有產(chǎn)生虛構(gòu)事實的傾向。
無害性：標注者評估模型的輸出是否適當、是否包含歧視性內(nèi)容。

4. ChatGPT的前景

ChatGPT 在自然語言處理領域具有廣泛的應用前景。它可以用于語言翻譯、情感分析、問答系統(tǒng)、文本摘要、對話系統(tǒng)等多個任務，幫助人們更好地理解和處理自然語言。此外，ChatGPT 還可以應用于許多其他領域，例如自然語言生成、自動文本摘要、機器翻譯、自動問答、語音識別等。它也可以用于推薦系統(tǒng)、智能客服、智能問答、知識圖譜等領域。ChatGPT 的未來發(fā)展前景非常廣闊，可以預見的是，隨著技術(shù)的不斷發(fā)展，它將在各個領域得到更廣泛的應用和改進。同時，也需要關注和解決一些挑戰(zhàn)，例如如何提高模型的效率和準確性，如何解決對話中的常識推理和知識不足等問題。

6. 一文梳理清楚Python OpenCV 的知識體系

原文：https://mp.weixin.qq.com/s/woAWs9l_7Opt63-vJfmhzQ

1. OpenCV 初識與安裝

本部分要了解 OpenCV （Open Source Computer Vision Library）的相關簡介，OpenCv 可以運行在多平臺之上，輕量級而且高效，由一系列 C 函數(shù)和少量 C++類構(gòu)成，提供了 Python、Ruby、MATLAB 等語言的接口，所以在學習的時候，要注意查閱資料的語言實現(xiàn)相關問題。

這個階段除了安裝 OpenCV 相關庫以外，建議收藏官方網(wǎng)址，官方手冊，官方入門教程，這些都是最佳的學習資料。

模塊安裝完畢，需要重點測試 OpenCV 是否安裝成功，可通過 Python 查詢安裝版本。

2. OpenCV 模塊簡介

先從全局上掌握 OpenCV 都由哪些模塊組成。例如下面這些模塊，你需要找到下述模塊的應用場景與簡介。

core、imgproc、highgui、calib3d、features2d、contrib、flann、gpu、legacy、ml、objdetect、photo、stitching。

整理每個模塊的核心功能，并完成第一個 OpenCV 案例，讀取顯示圖片。

3. OpenCV 圖像讀取，顯示，保存

安裝 OpenCV 之后，從圖像獲取開始進行學習，包含本地加載圖片，相機獲取圖片，視頻獲取，創(chuàng)建圖像等內(nèi)容。

只有先獲取圖像之后，才能對圖像進行操作處理，信息提取，結(jié)果輸出，圖像顯示，圖像保存。

對于一個圖像而言，在 OpenCV 中進行讀取展示的步驟如下，你可以將其代碼進行對應。

圖像讀取；
窗口創(chuàng)建；
圖像顯示；
圖像保存；
資源釋放。

涉及需要學習的函數(shù)有 cv2.imread()、cv2.namedWindow()、cv2.imshow()、cv2.imwrite()、cv2.destroyWindow()、cv2.destroyAllWindows()、 cv2.imshow()、cv2.cvtColor()、cv2.imwrite()、cv2.waitKey()。

4. 攝像頭和視頻讀取，保存

第一個要重點學習 VideoCapture 類，該類常用的方法有：

open() 函數(shù)；
isOpened() 函數(shù)；
release() 函數(shù)；
grab() 函數(shù)；
retrieve() 函數(shù)；
get() 函數(shù)；
set() 函數(shù)；

除了讀取視頻外，還需要掌握 Opencv 提供的 VideoWriter 類，用于保存視頻文件。

學習完相關知識之后，可以進行這樣一個實驗，將一個視頻逐幀保存為圖片。

5. OpenCV 常用數(shù)據(jù)結(jié)構(gòu)和顏色空間

這部分要掌握的類有 Point 類、Rect 類、Size 類、Scalar 類，除此之外，在 Python 中用 numpy 對圖像進行操作，所以 numpy 相關的知識點，建議提前學習，效果更佳。

OpenCV 中常用的顏色空間有 BGR 顏色空間、HSV/HLS 顏色空間、Lab 顏色空間，這些都需要了解，優(yōu)先掌握 BGR 顏色空間。

6. OpenCV 常用繪圖函數(shù)

掌握如下函數(shù)的用法，即可熟練的在 Opencv 中繪制圖形。

cv2.line()；
cv2.circle()；
cv2.rectangle()；
cv2.ellipse()；
cv2.fillPoly()；
cv2.polylines()；
cv2.putText()。

7. OpenCV 界面事件操作之鼠標與滑動條

第一個要掌握的函數(shù)是鼠標操作消息回調(diào)函數(shù)，cv2.setMouseCallback() ，滑動條涉及兩個函數(shù)，分別是：cv2.createTrackbar() 和 cv2.getTrackbarPos()。

掌握上述內(nèi)容之后，可以實現(xiàn)兩個案例，其一為鼠標在一張圖片上拖動框選區(qū)域進行截圖，其二是通過滑動條讓視頻倍速播放。

8. 圖像像素、通道分離與合并

了解圖像像素矩陣，熟悉圖片的像素構(gòu)成，可以訪問指定像素的像素值，并對其進行修改。

通道分離函數(shù) cv2.split()，通道合并函數(shù) cv2.merge()。

9. 圖像邏輯運算

掌握圖像之間的計算，涉及函數(shù)如下：

cv2.add()；
cv2.addWeighted()；
cv2.subtract()；
cv2.absdiff()；
cv2.bitwise_and()；
cv2.bitwise_not()；
cv2.bitwise_xor()。

還可以研究圖像乘除法。

10. 圖像 ROI 與 mask 掩膜

本部分屬于 OpenCV 中的重點知識，第一個為感興趣區(qū)域 ROI，第二個是 mask 掩膜（掩碼）操作。

學習 ROI 部分時，還可以學習一下圖像的深淺拷貝。

11. 圖像幾何變換

圖像幾何變換依舊是對基礎函數(shù)的學習與理解，涉及內(nèi)容如下：

圖像縮放 cv2.resize()；
圖像平移 cv2.warpAffine()；
圖像旋轉(zhuǎn) cv2.getRotationMatrix2D()；
圖像轉(zhuǎn)置 cv2.transpose()；
圖像鏡像 cv2.flip()；
圖像重映射 cv2.remap()。

12. 圖像濾波

理解什么是濾波，高頻與低頻濾波，圖像濾波函數(shù)。

線性濾波：方框濾波、均值濾波、高斯濾波，
非線性濾波：中值濾波、雙邊濾波，

方框濾波 cv2.boxFilter()；
均值濾波 cv2.blur()；
高斯濾波 cv2.GaussianBlur()；
中值濾波 cv2.medianBlur()；
雙邊濾波 cv2.bilateralFilter()。

13. 圖像固定閾值與自適應閾值

圖像閾值化是圖像處理的重要基礎部分，應用很廣泛，可以根據(jù)灰度差異來分割圖像不同部分，閾值化處理的圖像一般為單通道圖像(灰度圖)，核心要掌握的兩個函數(shù)：

固定閾值：cv2.threshold()；
自適應閾值：cv2.adaptiveThreshold()。

14. 圖像膨脹腐蝕

膨脹、腐蝕屬于形態(tài)學的操作，是圖像基于形狀的一系列圖像處理操作。

膨脹腐蝕是基于高亮部分（白色）操作的，膨脹是対高亮部分進行膨脹，類似“領域擴張”，腐蝕是高亮部分被腐蝕，類似“領域被蠶食”。

膨脹腐蝕的應用和功能：

消除噪聲；
分割獨立元素或連接相鄰元素；
尋找圖像中的明顯極大值、極小值區(qū)域；
求圖像的梯度；

核心需要掌握的函數(shù)如下：

膨脹 cv2.dilate()；
腐蝕 cv2.erode()。

形態(tài)學其他操作，開運算、閉運算、頂帽、黑帽、形態(tài)學梯度這些都是基于膨脹腐蝕基礎之上，利用 cv2.morphologyEx() 函數(shù)進行操作。

15. 邊緣檢測

邊緣檢測可以提取圖像重要輪廓信息，減少圖像內(nèi)容，可用于分割圖像、特征提取等操作。

邊緣檢測的一般步驟：

濾波：濾出噪聲対檢測邊緣的影響；
增強：可以將像素鄰域強度變化凸顯出來—梯度算子；
檢測：閾值方法確定邊緣；

常用邊緣檢測算子：

Canny 算子，Canny 邊緣檢測函數(shù) cv2.Canny()；
Sobel 算子，Sobel 邊緣檢測函數(shù) cv2.Sobel()；
Scharr 算子，Scharr 邊緣檢測函數(shù) cv2.Scahrr() ；
Laplacian 算子，Laplacian 邊緣檢測函數(shù) cv2.Laplacian()。

16. 霍夫變換

霍夫變換（Hough Transform）是圖像處理中的一種特征提取技術(shù)，該過程在一個參數(shù)空間中，通過計算累計結(jié)果的局部最大值，得到一個符合該特定形狀的集合，作為霍夫變換的結(jié)果。

本部分要學習的函數(shù)：

標準霍夫變換、多尺度霍夫變換 cv2.HoughLines() ；
累計概率霍夫變換 cv2.HoughLinesP() ；
霍夫圓變換 cv2.HoughCricles() 。

17. 圖像直方圖計算及繪制

先掌握直方圖相關概念，在掌握核心函數(shù)，最后通過 matplotlib 模塊對直方圖進行繪制。計算直方圖用到的函數(shù)是 cv2.calcHist()。

直方圖相關應用：

直方圖均衡化 cv2.equalizeHist()；
直方圖對比 cv2.compareHist()；
反向投影 cv2.calcBackProject()。

18. 模板匹配

模板匹配是在一幅圖像中尋找與另一幅模板圖像最匹配（相似）部分的技術(shù)。

核心用到的函數(shù)如下：

模板匹配 cv2.matchTemplate()；
矩陣歸一化 cv2.normalize()；
尋找最值 cv2.minMaxLoc()。

19. 輪廓查找與繪制

核心要理解到在 OpenCV 中，查找輪廓就像在黑色背景中找白色物體。

常用函數(shù)：

查找輪廓 cv2.findContours()；
繪制輪廓 cv2.drawContours() 。

最后應該掌握針對每個輪廓進行操作。

20. 輪廓特征屬性及應用

這部分內(nèi)容比較重要，并且知識點比較多，核心內(nèi)容與函數(shù)分別如下：

尋找凸包 cv2.convexHull() 與凸性檢測 cv2.isContourConvex()；
輪廓外接矩形 cv2.boundingRect()；
輪廓最小外接矩形 cv2.minAreaRect()；
輪廓最小外接圓 cv2.minEnclosingCircle()；
輪廓橢圓擬合 cv2.fitEllipse()；
逼近多邊形曲線 cv2.approxPolyDP()；
計算輪廓面積 cv2.contourArea()；
計算輪廓長度 cv2.arcLength()；
計算點與輪廓的距離及位置關系 cv2.pointPolygonTest()；
形狀匹配 cv2.matchShapes()。

21. 高級部分-分水嶺算法及圖像修補

掌握分水嶺算法的原理，掌握核心函數(shù) cv2.watershed() 。

可以擴展補充圖像修補技術(shù)及相關函數(shù) cv2.inpaint()，學習完畢可以嘗試人像祛斑應用。

22. GrabCut & FloodFill 圖像分割、角點檢測

這部分內(nèi)容都需要一些圖像專業(yè)背景知識，先掌握相關概念知識，在重點學習相關函數(shù)。

GrabCut 算法 cv2.grabCut()；
漫水填充算法 cv2.floodFill()；
Harris 角點檢測 cv2.cornerHarris()；
Shi-Tomasi 角點檢測 cv2.goodFeaturesToTrack()；
亞像素角點檢測 cv2.cornerSubPix()。

23. 特征檢測與匹配

特征點的檢測和匹配是計算機視覺中非常重要的技術(shù)之一, 在物體識別、視覺跟蹤、三維重建等領域都有很廣泛的應用。

OpenCV 提供了如下特征檢測方法：

“FAST” FastFeatureDetector；
“STAR” StarFeatureDetector；
“SIFT” SIFT(nonfree module) Opencv3 移除，需調(diào)用 xfeature2d 庫；
“SURF” SURF(nonfree module) Opencv3 移除，需調(diào)用 xfeature2d 庫；
“ORB” ORB Opencv3 移除，需調(diào)用 xfeature2d 庫；
“MSER” MSER；
“GFTT” GoodFeaturesToTrackDetector；
“HARRIS” (配合 Harris detector)；
“Dense” DenseFeatureDetector；
“SimpleBlob” SimpleBlobDetector。

24. OpenCV 應用部分之運動物體跟蹤與人臉識別

了解何為運動物體檢測，OpenCV 中常用的運動物體檢測方法有背景減法、幀差法、光流法，跟蹤算法常用的有 meanShift， camShift，粒子濾波， 光流法 等。

meanShift 跟蹤算法 cv2.meanShift()；
CamShift 跟蹤算法 cv2.CamShift()。

如果學習人臉識別，涉及的知識點為：

人臉檢測：從圖像中找出人臉位置并標識；
人臉識別：從定位到的人臉區(qū)域區(qū)分出人的姓名或其它信息；
機器學習。

———————End———————

你可以添加微信：rtthread2020 為好友，注明：公司+姓名，拉進RT-Thread官方微信交流群！

↓點擊閱讀原文

愛我就請給我在看

原文標題：【AI簡報第20230217期】超越GPT 3.5的小模型來了！AI網(wǎng)戀詐騙時代開啟

文章出處：【微信公眾號：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

RT-Thread

RT-Thread

+關注

關注
32

文章
1409

瀏覽量
41945

原文標題：【AI簡報第20230217期】超越GPT 3.5的小模型來了！AI網(wǎng)戀詐騙時代開啟

文章出處：【微信號：RTThread，微信公眾號：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史