chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于大模型在軟件測試領(lǐng)域應(yīng)用的全面綜述

vliwulianw ? 來源:軟件質(zhì)量報(bào)道 ? 2024-01-18 09:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型(LLM)由于其卓越的自然語言理解、推理等能力,已經(jīng)被應(yīng)用于各種場景,取得了前所未有的效果。

類似的,軟件測試領(lǐng)域也受益于其強(qiáng)大的能力,能夠幫助生成逼真且多樣化測試輸入、模擬各種異常、加速缺陷的發(fā)現(xiàn),提升測試效率和軟件質(zhì)量。

來自中國科學(xué)院軟件研究所、澳大利亞Monash大學(xué)、加拿大York大學(xué)的研究團(tuán)隊(duì)收集了截止到2023年10月30日發(fā)表的102篇相關(guān)論文,并分別從軟件測試和大模型視角進(jìn)行了全面分析,總結(jié)出一篇關(guān)于大模型在軟件測試領(lǐng)域應(yīng)用的全面綜述。

c0bee602-b542-11ee-8b88-92fbcf53809c.png

研究發(fā)現(xiàn)一覽圖是這樣的(兩個不同視角:測試、LLM):

c0eed97a-b542-11ee-8b88-92fbcf53809c.png

詳細(xì)內(nèi)容我們接著往下看。

從軟件測試的視角來看

首先,研究人員從軟件測試的角度進(jìn)行了分析,并將收集到的研究工作按照測試任務(wù)進(jìn)行組織。

如下圖所示,大模型的應(yīng)用主要集中在軟件測試生命周期的后段,用于測試用例準(zhǔn)備(包括單元測試用例生成、測試預(yù)言生成、系統(tǒng)級測試輸入生成)、測試報(bào)告分析、程序調(diào)試和修復(fù)等任務(wù)。然而,在測試生命周期的早期任務(wù)(如測試需求、測試計(jì)劃等)上,目前還沒有使用大語言模型的相關(guān)工作。

c103989c-b542-11ee-8b88-92fbcf53809c.png

進(jìn)一步地,研究人員還對大模型在各種軟件測試任務(wù)上的應(yīng)用進(jìn)行了詳細(xì)分析。

以單元測試用例生成為例,單元測試用例生成任務(wù)主要涉及為獨(dú)立的軟件或組件單元編寫測試用例,以確保它們的正確性。傳統(tǒng)的基于搜索、約束或隨機(jī)的生成技術(shù)存在著測試用例覆蓋率弱或可讀性差的問題。

引入LLM后,相對于傳統(tǒng)方法,大模型不僅能夠更好地理解領(lǐng)域知識以生成更準(zhǔn)確的測試用例,而且還可以理解軟件項(xiàng)目和代碼上下文的信息,從而生成更全面的測試用例。

對于系統(tǒng)級測試輸入,模糊測試作為常用技術(shù),主要圍繞著生成無效、意外或隨機(jī)的測試輸入來達(dá)到測試的目的,研究人員也詳細(xì)分析了大模型如何改進(jìn)傳統(tǒng)模糊測試技術(shù)。

例如有研究提出通用模糊測試框架Fuzz4All、ChatFuzz等,也有研究專注于特定軟件開發(fā)基于大模型的模糊測試技術(shù),包括深度學(xué)習(xí)庫、編譯器、求解器、移動應(yīng)用、信息物理系統(tǒng)等。

這些研究的一個關(guān)注重點(diǎn)是生成多樣化的測試輸入,以實(shí)現(xiàn)更高的覆蓋率,通常通過將變異技術(shù)與基于大模型的生成相結(jié)合來實(shí)現(xiàn);另一個關(guān)注重點(diǎn)是生成可以更早觸發(fā)錯誤的測試輸入,常見做法是收集歷史上觸發(fā)錯誤的程序來對大模型進(jìn)行微調(diào)或?qū)⑵渥鳛檠菔境绦蛟诓樵兇竽P蜁r使用。

論文中對于各種研究的技術(shù)思路有更為詳細(xì)地介紹和比較。

從大模型的視角來看

隨后,研究人員再從大模型的視角出發(fā),分析了軟件測試任務(wù)中選用的大模型,并進(jìn)一步介紹了如何讓大模型適應(yīng)測試任務(wù),包括提示工程技術(shù)、大模型的輸入以及與傳統(tǒng)測試技術(shù)的結(jié)合使用。

在所選用的大模型方面,如下圖所示,最常用的前三種大模型分別是ChatGPT、Codex和CodeT5。后兩種是專門在多種編程語言的代碼語料庫上訓(xùn)練得到的大模型,能夠根據(jù)自然語言描述生成完整的代碼片段,因此非常適合涉及源代碼的測試任務(wù),如測試用例生成、缺陷修復(fù)。

此外,雖然已經(jīng)有14個研究使用GPT-4(排名第四),但是GPT-4作為一種多模態(tài)大模型,研究人員表示尚未發(fā)現(xiàn)相關(guān)研究探索軟件測試任務(wù)中利用其圖像相關(guān)功能(例如UI截圖、編程演示),這值得在未來研究中探索。(編者注:其實(shí)是可以的,編者曾做過相關(guān)的實(shí)驗(yàn))

c11601da-b542-11ee-8b88-92fbcf53809c.png

在如何調(diào)整大模型行為以勝任軟件測試任務(wù)方面,主要有預(yù)訓(xùn)練或微調(diào)和提示工程兩種技術(shù)手段。

如下圖所示,有38項(xiàng)研究使用了預(yù)訓(xùn)練或微調(diào)模式以微調(diào)大模型的行為,而64項(xiàng)研究則使用了提示工程來引導(dǎo)大模型達(dá)到預(yù)期的結(jié)果。

提示工程技術(shù)的主要優(yōu)勢在于無需更新模型權(quán)重也能讓大模型適應(yīng)特定領(lǐng)域和任務(wù),并強(qiáng)化大模型的理解和推理能力,目前已經(jīng)采用的技術(shù)包括零樣本或少樣本學(xué)習(xí)、自我一致性、思維鏈、自動提示等技術(shù)。

c122fa34-b542-11ee-8b88-92fbcf53809c.png

此外,研究人員發(fā)現(xiàn)有35項(xiàng)研究在運(yùn)用大模型之上,還結(jié)合了傳統(tǒng)測試技術(shù),包括變異測試、差分測試、程序分析、統(tǒng)計(jì)分析等,以取得更好的測試有效性和覆蓋率。

雖然大模型在各種任務(wù)中表現(xiàn)出巨大的潛力,但仍然存在一些局限性,如難以理解和處理復(fù)雜的程序結(jié)構(gòu)。

因此,將大模型與其他技術(shù)結(jié)合起來,以最大程度地發(fā)揮它們的優(yōu)勢和避免劣勢,從而在特定情況下實(shí)現(xiàn)更好的結(jié)果,例如生成更多樣化和復(fù)雜的代碼,更好地模擬真實(shí)場景。

c13d08fc-b542-11ee-8b88-92fbcf53809c.png

用大模型找Bug還有哪些挑戰(zhàn)?

過去兩年中,利用大模型進(jìn)行軟件測試已經(jīng)有了很多成功的實(shí)踐。然而,研究人員指出它仍處于早期發(fā)展階段,還有許多挑戰(zhàn)和未解決問題需要探索。

挑戰(zhàn)1:實(shí)現(xiàn)高覆蓋率的挑戰(zhàn)

探索被測試軟件的多樣行為以實(shí)現(xiàn)高覆蓋率始終是軟件測試的重要關(guān)注點(diǎn)。大模型直接實(shí)現(xiàn)所需的多樣性仍然具有很大挑戰(zhàn),例如單元測試用例生成中,在SF110數(shù)據(jù)集上,行覆蓋率僅為2%,分支覆蓋率僅為1%。

在系統(tǒng)測試輸入生成方面,對于面向深度學(xué)習(xí)庫的模糊測試,TensorFlow的API覆蓋率為66%(2215/3316)。已有工作通常將變異測試與大模型結(jié)合使用,以生成更多樣化的輸出。

其他潛在的研究方向涉及利用測試相關(guān)的數(shù)據(jù)來訓(xùn)練或微調(diào)能夠理解測試特性的專用大模型,可以理解測試要求,自主地生成多樣化的輸出。

挑戰(zhàn)2:測試預(yù)言的挑戰(zhàn)

測試預(yù)言問題一直是各種測試應(yīng)用面臨的挑戰(zhàn),已有工作常見做法是將其轉(zhuǎn)化為更容易獲取的形式,通常通過差分測試來實(shí)現(xiàn)或僅關(guān)注容易自動識別的測試預(yù)言(例如崩潰類錯誤),雖然取得了不錯效果,但僅適用于少數(shù)情況。

探索利用大模型解決其他類型的測試預(yù)言問題是非常有價值的。

例如,蛻變測試也是常用的緩解測試預(yù)言問題的技術(shù),可以探索結(jié)合人機(jī)交互或領(lǐng)域知識自動產(chǎn)生蛻變關(guān)系,還可探索大模型自動生成基于蛻變關(guān)系的測試用例,覆蓋各類輸入。進(jìn)一步,像GPT-4這樣的多模態(tài)大模型也為檢測用戶界面相關(guān)缺陷并輔助推導(dǎo)測試預(yù)言提供了可能性。

挑戰(zhàn)3:精準(zhǔn)評估性能的挑戰(zhàn)

缺乏基準(zhǔn)數(shù)據(jù)集和基于大模型技術(shù)潛在的數(shù)據(jù)泄漏問題給進(jìn)行嚴(yán)格和全面的性能評估帶來了挑戰(zhàn)。研究人員通過檢查訓(xùn)練大模型的數(shù)據(jù)源CodeSearchNet和BigQuery,發(fā)現(xiàn)Defect4J基準(zhǔn)數(shù)據(jù)集中使用的四個代碼庫同時包含在CodeSearchNet中,并且整個Defects4J代碼庫都包含在BigQuery中。

因此,大模型在預(yù)訓(xùn)練過程中已經(jīng)見過現(xiàn)有的程序修復(fù)基準(zhǔn)數(shù)據(jù)集,存在嚴(yán)重的數(shù)據(jù)泄露問題。所以,需要構(gòu)建更專門和多樣化的基準(zhǔn)數(shù)據(jù)集,并采取措施防止數(shù)據(jù)泄漏。

挑戰(zhàn)4:用于現(xiàn)實(shí)項(xiàng)目的挑戰(zhàn)

由于對數(shù)據(jù)隱私的關(guān)注,在考慮實(shí)際應(yīng)用時,大多數(shù)軟件組織傾向于避免使用商用大模型,更愿意采用開源的大模型,并使用組織特定的數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)。

此外,一些公司還考慮到計(jì)算能力的限制或關(guān)注能源消耗等,傾向于采用中等規(guī)模的模型。在這樣的現(xiàn)實(shí)條件下,要達(dá)到與已有研究工作中報(bào)告的類似性能是非常具有挑戰(zhàn)的。例如,在廣泛使用的QuixBugs數(shù)據(jù)集中,40個Python錯誤中有39個能夠自動修復(fù),40個Java錯誤中有34個能夠自動修復(fù)。

然而,當(dāng)涉及到從Stack Overflow收集的深度學(xué)習(xí)程序(代表實(shí)際的編碼實(shí)踐)時,72個Python錯誤中僅有16個能夠自動修復(fù)。如何更關(guān)注現(xiàn)實(shí)需求研發(fā)相應(yīng)的技術(shù)才能更利于技術(shù)落地和實(shí)際應(yīng)用。

大模型也帶來了研究機(jī)遇

利用大模型進(jìn)行軟件測試也帶來了許多研究機(jī)遇,對于軟件測試領(lǐng)域的發(fā)展大有益處。

機(jī)遇1:利用大模型進(jìn)行更多樣化的軟件測試任務(wù)和階段

在測試任務(wù)的初期階段,目前LLM還未得到有效應(yīng)用(編者注:其實(shí)在早期,LLM更能發(fā)揮作用)。主要原因有兩方面:一是早期測試任務(wù)的主觀性,需要專家進(jìn)行評估;二是早期階段缺乏開放數(shù)據(jù)資源,這限制了大模型的性能表現(xiàn)。

此外,如下圖所示,雖然大模型在單元測試和系統(tǒng)測試方面得到了廣泛應(yīng)用,但在集成測試和驗(yàn)收測試方面的應(yīng)用相對較少??傊绾纬浞掷么竽P瓦M(jìn)行更多樣化的軟件測試任務(wù)和測試階段是一個值得深入研究的新方向。例如,在驗(yàn)收測試方面,大模型可以與人類測試人員協(xié)同工作,以自動生成測試用例并評估測試覆蓋率。

c16b5b94-b542-11ee-8b88-92fbcf53809c.png

機(jī)遇2:將大模型應(yīng)用于更廣泛的測試類型和軟件

一方面,雖然大模型在功能測試方面得到了廣泛應(yīng)用,但在性能測試和可用性測試等其他方面應(yīng)用較少,這可能是因?yàn)檫@些測試已有一些專門且讓人滿意的模型和工具。

但將大模型與這些工具相結(jié)合仍不失為一個潛在的研究方向,例如利用大模型整合性能測試工具,并模擬真實(shí)用戶行為來產(chǎn)生不同類型的工作負(fù)載。另一方面,如下圖所示,已經(jīng)有研究在多種類型的軟件測試中成功應(yīng)用了大模型,例如移動應(yīng)用,深度學(xué)習(xí)庫、自動駕駛系統(tǒng)等。不僅能將現(xiàn)有技術(shù)遷移到其他類型的軟件上,也可以針對某類軟件的特性,研發(fā)針對性的技術(shù)。

c177cca8-b542-11ee-8b88-92fbcf53809c.png

機(jī)遇3:整合先進(jìn)的提示工程技術(shù)

現(xiàn)有研究尚未充分挖掘大模型的潛力,如下圖所示,僅使用了五種最常見的提示工程技術(shù)。未來的研究應(yīng)該探索更高級的提示工程技術(shù)(如圖中的思維樹、多模態(tài)思維鏈等),以更充分地發(fā)揮或增強(qiáng)大模型的理解和推理能力。

c194ffd0-b542-11ee-8b88-92fbcf53809c.png

機(jī)遇4:和傳統(tǒng)技術(shù)結(jié)合

目前關(guān)于大模型在解決軟件測試問題方面的能力還沒有明確的共識,有研究將大模型與傳統(tǒng)軟件測試技術(shù)相結(jié)合取得了很好的效果,這可能意味著大模型并非解決軟件測試問題的唯一靈丹妙藥。

考慮到已有許多成熟的軟件工程相關(guān)技術(shù)和工具,可以探索將大模型與傳統(tǒng)技術(shù)相結(jié)合(例如形式化驗(yàn)證等尚未在已有研究中探索過的)、探索其他更先進(jìn)的結(jié)合方式、以及與工具集成更好地發(fā)掘已有工具的潛力。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    372

    瀏覽量

    16965
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3771

    瀏覽量

    5272
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1394

原文標(biāo)題:使用大模型進(jìn)行軟件測試:調(diào)查、現(xiàn)狀和展望

文章出處:【微信號:軟件質(zhì)量報(bào)道,微信公眾號:軟件質(zhì)量報(bào)道】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI輔助軟件測試:幾個關(guān)鍵路徑

    軟件測試是保障質(zhì)量的關(guān)鍵環(huán)節(jié),但測試用例設(shè)計(jì)耗時、覆蓋分析繁瑣、自動化腳本維護(hù)成本高等問題,一直困擾著測試團(tuán)隊(duì)。大語言模型的出現(xiàn),為
    的頭像 發(fā)表于 03-23 15:34 ?147次閱讀

    源表硅光領(lǐng)域測試與應(yīng)用

    方向。該技術(shù)未來高速光模塊、共封裝光學(xué)(CPO)等領(lǐng)域的應(yīng)用潛力持續(xù)顯現(xiàn)。 2、硅光領(lǐng)域中典型的測試方案 2.1 測試框圖 完整的硅光
    的頭像 發(fā)表于 03-05 11:24 ?132次閱讀
    源表<b class='flag-5'>在</b>硅光<b class='flag-5'>領(lǐng)域</b>的<b class='flag-5'>測試</b>與應(yīng)用

    C語言單元測試嵌入式軟件開發(fā)中的作用及專業(yè)工具的應(yīng)用

    方面: ?早期缺陷發(fā)現(xiàn)****?:單元測試可以開發(fā)早期發(fā)現(xiàn)代碼中的邏輯錯誤和邊界條件問題,降低后期修復(fù)成本 ?硬件交互驗(yàn)證****?:嵌入式軟件通常需要直接與硬件交互,單元測試可以驗(yàn)
    發(fā)表于 12-18 11:46

    如何在模型環(huán)測試中高效進(jìn)行故障注入測試

    汽車測試領(lǐng)域模型測試階段進(jìn)行故障注入,是保障汽車安全性、可靠性的關(guān)鍵手段。如何提高故障注入測試
    的頭像 發(fā)表于 12-10 13:51 ?1363次閱讀
    如何在<b class='flag-5'>模型</b><b class='flag-5'>在</b>環(huán)<b class='flag-5'>測試</b>中高效進(jìn)行故障注入<b class='flag-5'>測試</b>

    探索RISC-V機(jī)器人領(lǐng)域的潛力

    : 參照大賽其他帖子,嘗試了使用K1的AI加速單元運(yùn)行一些輕量級神經(jīng)網(wǎng)絡(luò)模型(如圖像分類),推理速度令人滿意,展現(xiàn)了其邊緣AI應(yīng)用上的潛力。 ? UEFI開發(fā)環(huán)境: 論壇中也有關(guān)于UEFI固件開發(fā)
    發(fā)表于 12-03 14:40

    嵌入軟件單元測試全面研究與實(shí)踐

    引言 嵌入軟件單元測試是確保嵌入式系統(tǒng)質(zhì)量和可靠性的關(guān)鍵環(huán)節(jié)。嵌入式系統(tǒng)廣泛應(yīng)用于汽車電子、工業(yè)控制、醫(yī)療設(shè)備等關(guān)鍵領(lǐng)域,其軟件直接操控硬件,任何微小的錯誤都可能導(dǎo)致嚴(yán)重后果。單元
    的頭像 發(fā)表于 12-01 14:31 ?860次閱讀

    以下嵌入式軟件設(shè)計(jì)模型中,屬于數(shù)據(jù)流模型的是,哪里有設(shè)計(jì)模型的介紹?

    以下嵌入式軟件設(shè)計(jì)模型中,屬于數(shù)據(jù)流模型的是()。A. CCSB. CSPC. FSMD. Petri Net
    發(fā)表于 11-24 15:55

    綜述】工作總有規(guī)范——測試執(zhí)行和bug

    關(guān)于測試工作的規(guī)范,上次討論了用例部分。本次將繼續(xù)聊下測試執(zhí)行期間的規(guī)范標(biāo)準(zhǔn),是主要需要測試執(zhí)行人員關(guān)注的部分?!?b class='flag-5'>測試執(zhí)行】
    的頭像 發(fā)表于 10-24 10:04 ?534次閱讀
    【<b class='flag-5'>綜述</b>】工作總有規(guī)范——<b class='flag-5'>測試</b>執(zhí)行和bug

    無人機(jī)電磁兼容測試系統(tǒng)軟件全面解析

    無人機(jī)電磁兼容測試系統(tǒng)軟件全面解析
    的頭像 發(fā)表于 09-12 15:18 ?842次閱讀
    無人機(jī)電磁兼容<b class='flag-5'>測試</b>系統(tǒng)<b class='flag-5'>軟件</b><b class='flag-5'>全面</b>解析

    上??匕玻夯?b class='flag-5'>模型的測試用例生成

    在當(dāng)今復(fù)雜多變的軟件開發(fā)環(huán)境中,軟件系統(tǒng)的規(guī)模和復(fù)雜度不斷攀升,傳統(tǒng)測試方法面臨著諸多挑戰(zhàn)。如何高效、準(zhǔn)確地生成測試用例,以確保軟件系統(tǒng)的質(zhì)
    的頭像 發(fā)表于 08-28 14:30 ?1064次閱讀
    上??匕玻夯?b class='flag-5'>模型</b>的<b class='flag-5'>測試</b>用例生成

    電源控制器MCU硬件環(huán)(HIL)測試方案

    。 方案基于 CPU+FPGA 架構(gòu),可實(shí)現(xiàn)納秒級實(shí)時仿真,特別適合電源拓?fù)涞木_模擬。其圖形化建模界面和無需編譯的特性大幅降低了技術(shù)門檻,使工程師能夠快速搭建各類電源系統(tǒng)模型并開展全面測試。 二
    發(fā)表于 08-20 18:31

    國產(chǎn)電源模塊測試軟件功能應(yīng)用全面解析

    應(yīng)用方面進(jìn)行全面解析。 電源測試系統(tǒng) 核心功能解析: 多類型電源全面測試支持? 納米軟件電源測試
    的頭像 發(fā)表于 08-01 11:51 ?1124次閱讀
    國產(chǎn)電源模塊<b class='flag-5'>測試</b><b class='flag-5'>軟件</b>功能應(yīng)用<b class='flag-5'>全面</b>解析

    模型捉蟲行家MV:致力全流程模型動態(tài)測試

    隨著基于模型設(shè)計(jì)(MBD)開發(fā)量的增長,其對應(yīng)的測試需求也顯著提升。此前,《您的模型診斷專家MI:助力把好模型質(zhì)量關(guān)》一文中詳述了
    的頭像 發(fā)表于 07-09 16:37 ?885次閱讀
    <b class='flag-5'>模型</b>捉蟲行家MV:致力全流程<b class='flag-5'>模型</b>動態(tài)<b class='flag-5'>測試</b>

    【案例集錦】功率放大器傳感器測試領(lǐng)域研究中的應(yīng)用

    關(guān)于傳感器相關(guān)測試現(xiàn)代工業(yè)與科研領(lǐng)域,傳感器作為獲取外界信息的關(guān)鍵設(shè)備,其性能測試至關(guān)重要。功率放大器作為傳感器相關(guān)
    的頭像 發(fā)表于 06-26 18:46 ?1954次閱讀
    【案例集錦】功率放大器<b class='flag-5'>在</b>傳感器<b class='flag-5'>測試</b><b class='flag-5'>領(lǐng)域</b>研究中的應(yīng)用

    關(guān)于AI工廠三階段模型

    轉(zhuǎn)型計(jì)劃將AI技術(shù)深度融入智慧制造、智慧電動車與智慧城市三大領(lǐng)域,標(biāo)志著鴻海從傳統(tǒng)制造向智能化、平臺化的全面升級。關(guān)于AIFactory,此次發(fā)布AI工廠三階段模型,從
    的頭像 發(fā)表于 05-20 23:26 ?1501次閱讀
    <b class='flag-5'>關(guān)于</b>AI工廠三階段<b class='flag-5'>模型</b>