chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型如何助力AIOps以保證高可靠的服務(wù)?

vliwulianw ? 來源:軟件質(zhì)量報(bào)道 ? 2023-07-03 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

十多年來,微軟提供了世界上最流行的超大規(guī)模生產(chǎn)力套件之一,Office 365,它現(xiàn)在是Microsoft 365的一部分。微軟365包括數(shù)百種不同的服務(wù),在全球數(shù)十個(gè)數(shù)據(jù)中心的數(shù)十萬臺(tái)服務(wù)器上每秒運(yùn)行數(shù)十億次事務(wù)。它為數(shù)以億計(jì)的企業(yè)、教育和消費(fèi)者用戶提供日常云服務(wù)。

這些服務(wù)永遠(yuǎn)不會(huì)停止。我們的服務(wù)被醫(yī)院和創(chuàng)傷中心、電網(wǎng)提供商、國(guó)家、州和地方政府、主要銀行和金融服務(wù)提供商、航空公司、航運(yùn)和物流提供商以及從最大到最小的企業(yè)所使用。為了滿足他們的需求,我們必須持續(xù)可用,這意味著在很長(zhǎng)一段時(shí)間內(nèi)100%可用。我們的服務(wù)應(yīng)該在災(zāi)難中無縫運(yùn)行,因?yàn)闉?zāi)難往往是我們的服務(wù)最重要的時(shí)候;協(xié)調(diào)應(yīng)急工作。

這是一個(gè)巨大的挑戰(zhàn)。我們的極端規(guī)模意味著,在我們的服務(wù)中,“十億分之一”的事件并不罕見,而是司空見慣。同時(shí),我們不能允許那些“十億分之一”的事件損害我們服務(wù)的可用性。這種幾乎令人難以置信的大規(guī)模和極端臨界的組合要求我們不斷地重新思考和改進(jìn)服務(wù)架構(gòu)、設(shè)計(jì)、開發(fā)和運(yùn)營(yíng)的各個(gè)方面。實(shí)現(xiàn)持續(xù)可用性和高可靠性服務(wù)的一個(gè)重要方面是全面理解事件并減輕它們對(duì)客戶的影響。

除了使用人工智能(AI)和機(jī)器學(xué)習(xí)(ML)來開發(fā)新的生產(chǎn)特性和功能,以取悅我們的用戶,我們還利用人工智能和機(jī)器學(xué)習(xí)的力量來提高服務(wù)的可用性和可靠性,這對(duì)我們的超大規(guī)模服務(wù)至關(guān)重要。本文展示了將AI應(yīng)用于管理生產(chǎn)事件生命周期的一個(gè)示例。我們計(jì)劃在以后的文章中分享更多示例。

——Jim Kleewein, Microsoft 365技術(shù)科學(xué)家

1. 介紹

微軟365(“M365”)是世界上最大的生產(chǎn)力云。成千上萬的各種規(guī)模的組織都在使用它。無論您是在召開團(tuán)隊(duì)會(huì)議,在Outlook中編寫電子郵件還是與同事協(xié)作處理Word文檔,您都可以依靠M365來支持這些生產(chǎn)力工具和應(yīng)用程序。M365由網(wǎng)絡(luò)規(guī)模和大規(guī)模分布式云服務(wù)提供支持,由全球幾十個(gè)數(shù)據(jù)中心、每個(gè)中心數(shù)十萬臺(tái)服務(wù)器處理艾字節(jié)(exabytes)量級(jí)的數(shù)據(jù)。

為了確保一流的生產(chǎn)力體驗(yàn),我們的工程基礎(chǔ)設(shè)施在高效的同時(shí)高度可靠是至關(guān)重要的。 在M365系統(tǒng)創(chuàng)新研究小組,我們利用人工智能(AI)的力量,將云智能和AIOps集成到我們的服務(wù)和產(chǎn)品中。我們正在使用創(chuàng)新的AI/ML技術(shù)和算法來幫助設(shè)計(jì)、構(gòu)建和運(yùn)營(yíng)復(fù)雜的云基礎(chǔ)設(shè)施和服務(wù),并在運(yùn)營(yíng)效率和可靠性方面提供逐步改進(jìn)的功能,使我們能夠提供一流的生產(chǎn)力體驗(yàn)。我們正在將AIOps應(yīng)用于以下幾個(gè)領(lǐng)域:

系統(tǒng)AI使智能成為一種內(nèi)置能力,在較少人為干預(yù)的情況下實(shí)現(xiàn)高質(zhì)量、高效率、自我控制和自適應(yīng)。

客戶利用AI/ML創(chuàng)造無與倫比的用戶體驗(yàn),并通過云服務(wù)實(shí)現(xiàn)卓越的用戶滿意度。

AI for DevOps將AI/ML注入到整個(gè)軟件開發(fā)生命周期中,以實(shí)現(xiàn)高開發(fā)人員生產(chǎn)力。

幫助構(gòu)建高度可靠的云服務(wù)一直是我們關(guān)注的重點(diǎn)領(lǐng)域之一。其中一個(gè)挑戰(zhàn)是快速識(shí)別、分析和緩解事件。我們的研究從生產(chǎn)事件的基礎(chǔ)開始:我們分析事件的生命周期,了解常見的根本原因、緩解措施和解決方案的工程效益。

2. 了解生產(chǎn)事故

9255f5cc-1933-11ee-962d-dac502259ad0.jpg

圖1 大規(guī)模云服務(wù)中服務(wù)可靠性問題概述 我們的獲獎(jiǎng)?wù)撐腫1]對(duì)Microsoft Teams使用的大規(guī)模M365云上的生產(chǎn)事件進(jìn)行了全面的多維實(shí)證研究。由于Microsoft-Teams支持實(shí)時(shí)通信,因此可靠性至關(guān)重要。從檢測(cè)、根因和緩解的角度理解生產(chǎn)事件,是構(gòu)建更好的監(jiān)控和自動(dòng)化工具的第一步。圖1顯示了大規(guī)模云服務(wù)的服務(wù)可靠性問題概述,來源于我們研究論文[1]的總結(jié)。

1) 事件背后的常見根本原因和緩解措施

928b53ca-1933-11ee-962d-dac502259ad0.jpg

圖2 根本原因分析(RCA)和風(fēng)險(xiǎn)緩解類別的細(xì)分 雖然代碼錯(cuò)誤是最常見的事件原因,但大多數(shù)事件(約60%)是由基礎(chǔ)設(shè)施、部署和服務(wù)依賴關(guān)系中的非代碼/非配置相關(guān)問題引起的。我們還觀察到,在由代碼/配置錯(cuò)誤引起的40%的事件中,近80%的事件在沒有代碼或配置修復(fù)的情況下得到了緩解。

2)TTD和TTM的根本原因和緩解措施

92a5004a-1933-11ee-962d-dac502259ad0.jpg

圖3 不同根本原因類別的平均TTD和TTM

92c49f5e-1933-11ee-962d-dac502259ad0.jpg

圖4 不同緩解步驟的平均TTD和TTM 由代碼錯(cuò)誤和依賴失敗引起的事件的TTD和TTM明顯高于其他事件。此外,30%的緩解延遲是由手動(dòng)緩解步驟造成的。 3)小結(jié)

由于監(jiān)控不力,軟件bug和外部依賴導(dǎo)致的事件檢測(cè)時(shí)間較長(zhǎng)。這凸顯了對(duì)實(shí)用工具的需求,以實(shí)現(xiàn)細(xì)粒度、原位系統(tǒng)可觀測(cè)性。

某些根本原因類別導(dǎo)致的事件在確定其根本原因類別后會(huì)迅速緩解。這表明,使用能夠快速識(shí)別其根本原因類別的工具,可以縮短由這些類別引起的事件的總體緩解時(shí)間。

由某些根本原因引起的事件本身就難以自動(dòng)監(jiān)控(例如,需要監(jiān)控全局狀態(tài))。這表明開發(fā)人員應(yīng)該在測(cè)試中投入更多,以便在生產(chǎn)前發(fā)現(xiàn)這些根本原因類別,從而避免此類事件。

我們還設(shè)想,自動(dòng)化將在未來用于進(jìn)行事件診斷并確定根本原因和緩解步驟,以幫助快速解決事件并最大限度地減少客戶影響。此外,我們應(yīng)該利用過去的經(jīng)驗(yàn)教訓(xùn),建立應(yīng)對(duì)未來事件的韌性。我們假設(shè)采用AIOps和使用最先進(jìn)的ML模型,如大型語(yǔ)言模型(LLM)可以幫助實(shí)現(xiàn)這兩個(gè)目標(biāo)。

3. 使用LLM進(jìn)行自動(dòng)事件管理

最近人工智能的突破使大語(yǔ)言模型(LLM)對(duì)自然語(yǔ)言有了豐富的理解。他們已經(jīng)變得善于從大量數(shù)據(jù)中理解和推理。它們還可以泛化各種任務(wù)和領(lǐng)域,如代碼生成、翻譯、問答等??紤]到事件管理的復(fù)雜性,我們有動(dòng)力評(píng)估這些LLM在幫助分析根本原因和減輕生產(chǎn)事件方面的有效性。

92dcc80e-1933-11ee-962d-dac502259ad0.jpg

圖5 根因分析和風(fēng)險(xiǎn)緩解中充分利用GPT-3.X的能力 在最近的工作中,我們?cè)贗CSE 2023會(huì)議上首次展示了LLM對(duì)生產(chǎn)事故診斷的有用性。當(dāng)創(chuàng)建一個(gè)事件時(shí),作者將為事件指定一個(gè)標(biāo)題,并描述任何相關(guān)細(xì)節(jié),如任何錯(cuò)誤消息、異常行為和其他可能有助于解決的細(xì)節(jié)。我們使用給定事件的標(biāo)題和摘要作為L(zhǎng)LM的輸入,并生成根本原因和緩解步驟。

我們對(duì)4萬多起事件進(jìn)行了認(rèn)真的研究,并比較了幾家LLM在零樣本(zero-shot)、微調(diào)(fine-tuning)和多任務(wù)設(shè)置下的表現(xiàn)。我們發(fā)現(xiàn),對(duì)GPT-3和GPT-3.5模型進(jìn)行微調(diào)后,可以顯著提高LLM 處理事件數(shù)據(jù)的有效性。

1)在根因分析中GPT-3.x模型的有效性

表1 不同LLM的詞匯和語(yǔ)義性能

93000fda-1933-11ee-962d-dac502259ad0.png

在離線評(píng)估中,我們通過計(jì)算生成的建議與事件管理(IcM)系統(tǒng)中提到的根本原因或緩解步驟的基本事實(shí)之間的3個(gè)詞匯相似性進(jìn)行度量,將GPT-3.5與三個(gè)GPT-3模型的性能進(jìn)行了比較。不同任務(wù)的GPT-3.5指標(biāo)的平均增益如下:

對(duì)于根本原因和緩解建議任務(wù),davincici-002 (GPT-3.5)比所有GPT-3模型分別提供至少15.38%和11.9%的增益,如表1所示。

當(dāng)我們通過將根本原因作為輸入添加到模型中來生成緩解計(jì)劃時(shí),GPT-3.5模型比3個(gè)GPT-3模型至少高出11.16%。

我們觀察到,由于MRI(Machine Reported Incidents,機(jī)器報(bào)告的事件)的重復(fù)性,LLM模型在MRI上比客戶報(bào)告的事件(Customer Reported Incidents,CRIs)上表現(xiàn)更好。

使用事件數(shù)據(jù)對(duì)LLM進(jìn)行微調(diào)可以顯著提高性能。優(yōu)化后的GPT-3.5模型在根本原因生成任務(wù)中提高了45.5%,在風(fēng)險(xiǎn)緩解生成任務(wù)中提高了131.3%(即直接在預(yù)訓(xùn)練的GPT-3或GPT-3.5模型上進(jìn)行推理)。

2)從事件所有者的角度看問題

除了使用語(yǔ)義和詞匯度量進(jìn)行分析分析外,我們還采訪了事件所有者,以評(píng)估生成的建議的有效性??傮w而言,GPT-3.5在大多數(shù)指標(biāo)上都優(yōu)于GPT-3。在實(shí)時(shí)生產(chǎn)環(huán)境中,超過70%的OCEs給出了3分或以上的評(píng)分(滿分5分)。

4. 展望

雖然我們正處于使用LLM來幫助自動(dòng)化事件解決的初始階段,但我們?cè)O(shè)想在這個(gè)領(lǐng)域有許多開放的研究問題,這些問題將大大提高LLM的有效性和準(zhǔn)確性。例如,我們?nèi)绾谓Y(jié)合關(guān)于事件的其他上下文,如討論條目、日志、服務(wù)度量,甚至受影響服務(wù)的依賴關(guān)系圖,以改進(jìn)診斷。

另一個(gè)挑戰(zhàn)是數(shù)據(jù)過時(shí)(staleness),因?yàn)槟P托枰?jīng)常使用最新的事件數(shù)據(jù)進(jìn)行重新訓(xùn)練。

為了解決這些挑戰(zhàn),我們正在利用最新的ChatGPT模型結(jié)合檢索增強(qiáng)方法,通過會(huì)話界面改進(jìn)事件診斷。例如,ChatGPT可以通過提出假設(shè),并通過反饋循環(huán)回答關(guān)鍵問題,幫助工程師有效地確定事件的根本原因。

9342990e-1933-11ee-962d-dac502259ad0.jpg

圖6 檢索增強(qiáng)RCA的工作流程


此外,ChatGPT可以積極地融入到事件診斷的“討論”中。通過從可用的文檔和日志中收集證據(jù),該模型可以對(duì)查詢生成連貫的、上下文相關(guān)的、聽起來自然的響應(yīng),并提供相應(yīng)的建議,從而促進(jìn)討論,并加速事件解決過程。我們相信,通過上下文和有意義的根本原因分析和風(fēng)險(xiǎn)緩解,這有可能在整個(gè)事件管理過程中實(shí)現(xiàn)逐步功能改進(jìn),從而減少大量人力勞動(dòng),提高我們的可靠性和客戶滿意度。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49741

    瀏覽量

    261566
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8541

    瀏覽量

    136236
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1596

    瀏覽量

    10074

原文標(biāo)題:大模型如何助力AIOps以保證高可靠的服務(wù)?

文章出處:【微信號(hào):軟件質(zhì)量報(bào)道,微信公眾號(hào):軟件質(zhì)量報(bào)道】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SL3180:6-150V超寬壓輸入、3A大電流異步降壓芯片,重塑工業(yè)與車載電源可靠設(shè)計(jì)

    開關(guān)降壓型DC-DC轉(zhuǎn)換器,集成、高效率、高可靠性為核心,助力工程師應(yīng)對(duì)復(fù)雜電源挑戰(zhàn)。 核心產(chǎn)品亮點(diǎn) 超寬輸入電壓范圍:6V~150V,適應(yīng)極端電壓波動(dòng),覆蓋多種高壓應(yīng)用場(chǎng)景;
    發(fā)表于 10-29 17:04

    DeepSeek模型如何在云服務(wù)器上部署?

    隨著大型語(yǔ)言模型(LLM)的應(yīng)用日益普及,許多開發(fā)者和企業(yè)希望將像DeepSeek這樣的優(yōu)秀模型部署到自己的云服務(wù)器上,實(shí)現(xiàn)私有化、定制化服務(wù)
    的頭像 發(fā)表于 10-13 16:52 ?569次閱讀

    電源開關(guān)的瞬態(tài)保護(hù)設(shè)計(jì),實(shí)現(xiàn)穩(wěn)健、可靠的電源路徑保護(hù)

    protection》來自德州儀器(TI)的《Analog Design Journal》,主要探討如何為電源開關(guān)設(shè)計(jì)瞬態(tài)保護(hù),實(shí)現(xiàn)穩(wěn)健可靠的電源路徑防護(hù)。以下是要點(diǎn)匯總:*附件:電源開關(guān)的瞬態(tài)保護(hù)設(shè)計(jì),實(shí)現(xiàn)穩(wěn)健
    發(fā)表于 08-19 17:11

    100G 高速線纜:睿海光電技術(shù)突破構(gòu)筑智算互聯(lián)的高效基石

    在人工智能大模型訓(xùn)練需求爆發(fā)與全球智算中心加速布局的背景下,數(shù)據(jù)中心內(nèi)部短距互聯(lián)的效率成為制約算力釋放的關(guān)鍵瓶頸。100G 高速線纜憑借其帶寬、低延遲的特性,已成為連接服務(wù)器、交換機(jī)與存儲(chǔ)設(shè)備
    的頭像 發(fā)表于 08-19 14:52 ?501次閱讀

    睿海光電高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    光電的InfiniBand兼容方案,實(shí)現(xiàn)千卡GPU集群的無損通信,模型訓(xùn)練周期縮短40%。 五、服務(wù)承諾:3年質(zhì)保+終身維修,全周期護(hù)航 睿海光電客戶為中心,提供3年超長(zhǎng)質(zhì)保與終身維修服務(wù)
    發(fā)表于 08-13 19:01

    無刷直流電機(jī)助力式EPS控制器設(shè)計(jì)與試驗(yàn)

    [摘要]基于無刷直流電機(jī)(BLDCM)模型和汽車電動(dòng)助力轉(zhuǎn)向(EPS)動(dòng)力學(xué)模型,構(gòu)建了BLDCM 控制仿真模型和 EPS性能仿真模型;設(shè)計(jì)
    發(fā)表于 07-08 19:28

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數(shù)據(jù)讀寫功能都包含客戶端和
    發(fā)表于 06-04 07:53

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    影響著模型能力的上限。隨著大模型技術(shù)的快速發(fā)展,數(shù)據(jù)標(biāo)注服務(wù)的重要性愈發(fā)凸顯,其面臨的挑戰(zhàn)也日益嚴(yán)峻。當(dāng)前,就標(biāo)貝科技看來,數(shù)據(jù)標(biāo)注服務(wù)已從簡(jiǎn)單的數(shù)據(jù)標(biāo)記,發(fā)展成為一門融合了人工智能、
    的頭像 發(fā)表于 03-21 10:30 ?2309次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    影響著模型能力的上限。隨著大模型技術(shù)的快速發(fā)展,數(shù)據(jù)標(biāo)注服務(wù)的重要性愈發(fā)凸顯,其面臨的挑戰(zhàn)也日益嚴(yán)峻。當(dāng)前,就標(biāo)貝科技看來,數(shù)據(jù)標(biāo)注服務(wù)已從簡(jiǎn)單的數(shù)據(jù)標(biāo)記,發(fā)展成為
    的頭像 發(fā)表于 03-21 10:27 ?881次閱讀
    標(biāo)貝數(shù)據(jù)標(biāo)注<b class='flag-5'>服務(wù)</b>:奠定大<b class='flag-5'>模型</b>訓(xùn)練的數(shù)據(jù)基石

    浪潮軟件率先推出政務(wù)服務(wù)模型,重塑全場(chǎng)景應(yīng)用

    濟(jì)南2025年3月12日?/美通社/ -- DeepSeek爆火加速了政務(wù)服務(wù)行業(yè)全面擁抱AI的步伐,全國(guó)各地紛紛加速推進(jìn)大模型在政務(wù)服務(wù)領(lǐng)域的探索與創(chuàng)新。作為數(shù)字政府領(lǐng)域的領(lǐng)導(dǎo)者企業(yè),浪潮軟件憑借
    的頭像 發(fā)表于 03-14 18:18 ?723次閱讀
    浪潮軟件率先推出政務(wù)<b class='flag-5'>服務(wù)</b>大<b class='flag-5'>模型</b>,重塑全場(chǎng)景應(yīng)用

    憶聯(lián)PCIe5.0 SSD軟硬協(xié)同的高可靠性,支撐大模型全流程訓(xùn)練

    深圳2025年3月11日?/美通社/ -- 當(dāng)前,大模型全流程訓(xùn)練對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)的要求已突破傳統(tǒng)邊界。企業(yè)級(jí)SSD作為AI算力基礎(chǔ)設(shè)施的核心組件,其高可靠性、高性能及智能化管理能力,正成為支撐大模型
    的頭像 發(fā)表于 03-12 10:18 ?890次閱讀
    憶聯(lián)PCIe5.0 SSD<b class='flag-5'>以</b>軟硬協(xié)同的高<b class='flag-5'>可靠</b>性,支撐大<b class='flag-5'>模型</b>全流程訓(xùn)練

    普強(qiáng)深思大模型智能機(jī)器人重塑企業(yè)高效服務(wù)新范式

    普強(qiáng)深思大模型智能機(jī)器人自研大模型為核心引擎,開創(chuàng)性實(shí)現(xiàn)全流程自動(dòng)化智能服務(wù),為企業(yè)客戶提供三大革新價(jià)值。
    的頭像 發(fā)表于 02-18 15:50 ?718次閱讀

    NVIDIA推出開放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務(wù),開放式 Llama Nemotron 大語(yǔ)言模型和 Cosmos Nemotron 視覺語(yǔ)言模型可在任何加速系統(tǒng)上為 AI 智能體提供強(qiáng)效助力。
    的頭像 發(fā)表于 01-09 11:11 ?1193次閱讀

    浪潮信息升級(jí)數(shù)據(jù)中心服務(wù)器故障智能診斷AIOps技術(shù)

    近日,浪潮信息對(duì)其數(shù)據(jù)中心服務(wù)器故障智能診斷AIOps技術(shù)進(jìn)行了全面升級(jí)。該技術(shù)旨在解決數(shù)據(jù)中心服務(wù)器日常巡檢中故障人工識(shí)別效率低、難以精準(zhǔn)定位的問題。 基于數(shù)百萬臺(tái)服務(wù)器的運(yùn)維管理經(jīng)
    的頭像 發(fā)表于 12-31 13:38 ?961次閱讀

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    模型可以提高客戶滿意度和服務(wù)質(zhì)量。新引入的模型需要能夠無縫集成到現(xiàn)有系統(tǒng)中,確保服務(wù)的連續(xù)性和穩(wěn)定性。因此,在選擇
    發(fā)表于 12-17 16:53