AI大模型已超出人類想象的速度,將我們帶入智能世界。算力、算法、數(shù)據(jù)構成了AI的三要素。算力、算法是AI大模型時代的工具,數(shù)據(jù)的規(guī)模和質量才真正決定了AI智能的高度。數(shù)據(jù)存儲將信息變?yōu)檎Z料庫、知識庫,正在和計算一起成為最重要的AI大模型基礎設施。
本文來自“《邁向智能世界白皮書2023版(合集)》”。高可靠、高性能、共享的數(shù)據(jù)存儲,成為以Oracle為代表的數(shù)據(jù)庫的最佳數(shù)據(jù)基礎設施。面向未來,對企業(yè)數(shù)據(jù)存儲進行了如下展望:
AI大模型將AI帶入新的發(fā)展階段。AI大模型需要更高效的海量原始數(shù)據(jù)收集和預處理,更高性能的訓練數(shù)據(jù)加載和模型數(shù)據(jù)保存,以及更加及時和精準的行業(yè)推理知識庫。以近存計算、向量存儲為代表的AI數(shù)據(jù)新范式正在蓬勃發(fā)展。
大數(shù)據(jù)應用經歷了歷史信息統(tǒng)計、未來趨勢預測階段,正在進入輔助實時精準決策、智能決策階段。以近存計算為代表的數(shù)據(jù)新范式,將大幅提升湖倉一體大數(shù)據(jù)平臺的分析效率。
以開源為基礎的分布式數(shù)據(jù)庫,正在承擔越來越關鍵的企業(yè)應用,新的分布式數(shù)據(jù)庫+共享存儲的高性能、高可靠架構正在形成。
多云成為企業(yè)數(shù)據(jù)中心新常態(tài),企業(yè)自建數(shù)據(jù)中心和公有云形成有效互補。云計算的建設模式從封閉全棧走向開放解耦,從而實現(xiàn)應用多云部署、數(shù)據(jù)/資源集中共享。
AI大模型應用聚集海量企業(yè)私域數(shù)據(jù),數(shù)據(jù)安全風險劇增。構建包括存儲內生安全在內的完整數(shù)據(jù)安全體系,迫在眉睫。
AI大模型推動數(shù)據(jù)中心的計算、存儲架構從以CPU為中心走向以數(shù)據(jù)為中心,新的系統(tǒng)架構、生態(tài)正在重新構建。
AI技術正在越來越多地融入在數(shù)據(jù)存儲產品及其管理,從而大幅改善數(shù)據(jù)基礎設施的SLA水平。
1、AI大模型
AI的發(fā)展遠超過預期,2022年末,當OpenAI發(fā)布ChatGPT時,沒有人能想到,AI大模型接下來將為人類社會帶來歷史性變革。
簡單來說,AI大模型時代的到來,存儲作為數(shù)據(jù)的關鍵載體,需要在三個方面演進,即海量非結構化數(shù)據(jù)的治理、10倍的性能提升、存儲內生安全。在滿足EB級海量擴展性的基礎之上,需要滿足百GBps級的帶寬和千萬級IOPS,實現(xiàn)10倍以上的性能提升。

企業(yè)在使用AI大模型、HPC、大數(shù)據(jù)時均需要豐富的原始數(shù)據(jù),它們的來源是相同的,均是企業(yè)所積累的生產交易數(shù)據(jù)、科研實驗數(shù)據(jù)和用戶行為數(shù)據(jù)。因此,大模型采用和HPC、大數(shù)據(jù)同源的建設模式是最經濟高效的,實現(xiàn)一份數(shù)據(jù)在不同環(huán)境中協(xié)同工作。

全閃存存儲將帶來性能大幅提升,加快AI大模型開發(fā)落地的速度;以數(shù)據(jù)為中心的架構可以帶來硬件資源的解耦與互聯(lián),加速數(shù)據(jù)的按需流動;數(shù)據(jù)編織、向量存儲與近存計算等新興數(shù)據(jù)處理技術,將最大程度降低企業(yè)整合數(shù)據(jù)、使用數(shù)據(jù)的門檻,滿足資源的高效利用,降低行業(yè)接入AI大模型的難度;存儲內生安全體系將保護企業(yè)核心私密數(shù)據(jù)資產,讓企業(yè)更加放心地使用AI大模型。

2、大數(shù)據(jù)
大數(shù)據(jù)應用的發(fā)展可以描述為傳統(tǒng)數(shù)據(jù)應用、預測分析和主動決策三個階段。
傳統(tǒng)數(shù)據(jù)倉庫時代:企業(yè)通過數(shù)據(jù)倉庫構建面向主題的、可隨時間變化的數(shù)據(jù)集合,從而實現(xiàn)對歷史數(shù)據(jù)進行準確的描述和統(tǒng)計,為分析決策服務,但僅能處理TB級結構化數(shù)據(jù)。
傳統(tǒng)數(shù)據(jù)湖時代:企業(yè)使用Hadoop技術構建數(shù)據(jù)湖,處理結構化、半結構化數(shù)據(jù),實現(xiàn)基于歷史數(shù)據(jù)預測未來的發(fā)展趨勢。這個階段形成了數(shù)據(jù)湖和數(shù)據(jù)倉庫并存的“煙囪”架構,數(shù)據(jù)需要在數(shù)據(jù)湖和數(shù)據(jù)倉庫之間流轉,因而無法實現(xiàn)實時決策、主動決策。
湖倉一體時代:企業(yè)開始嘗試從IT堆棧優(yōu)化上尋找實時決策、主動決策解決方案,將大數(shù)據(jù)平臺快速推向湖倉一體的新架構。其核心舉措是與存儲廠商聯(lián)合創(chuàng)新,將大數(shù)據(jù)IT堆棧存算解耦,以數(shù)據(jù)湖存儲實現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉庫共享同一份數(shù)據(jù),無需在數(shù)據(jù)湖和數(shù)據(jù)倉庫間進行數(shù)據(jù)流轉,從而實現(xiàn)實時、主動決策。

3、分布式數(shù)據(jù)庫
開源數(shù)據(jù)庫MySQL和PostgreSQL占據(jù)全球數(shù)據(jù)庫市場格局TOP2。開源數(shù)據(jù)庫正在重構企業(yè)核心系統(tǒng)。同時為確保業(yè)務平穩(wěn)運行,分布式數(shù)據(jù)庫存算分離架構正在成為事實標準。

目前,全球主要銀行均已通過存算分離架構分布式數(shù)據(jù)庫建設新核心系統(tǒng),亞馬遜Aurora、阿里PolarDB、華為GaussDB、騰訊TDSQL等主要新型數(shù)據(jù)庫廠商均已將其架構轉向存算分離,存算分離架構已經成為分布式數(shù)據(jù)庫建設的事實標準。
4、云原生
企業(yè)云計算基礎設施已經從單云走向多云。不論哪一朵云都無法同時滿足企業(yè)所有對應用與成本的訴求。因此,89%的企業(yè)選擇建設多個公有云和私有云并存的多云IT架構。
目前基礎設施面向多云打造的關鍵能力大致可分為兩類。第一類是使能數(shù)據(jù)跨云流動,如華為和NetApp存儲支持數(shù)據(jù)跨云分級、跨云備份能力,使數(shù)據(jù)始終使用性價比最高的存儲服務;另一類是數(shù)據(jù)跨云管理,讓用戶通過全局數(shù)據(jù)視圖把握數(shù)據(jù)總體情況,并將數(shù)據(jù)調度到產生價值最大的應用中。

企業(yè)采用開放解耦架構建設,讓硬件資源可被多個云共享,數(shù)據(jù)可在多個云間按需流動,方可真正發(fā)揮多云架構優(yōu)勢。

從硬件、平臺到應用,最優(yōu)的服務往往來自不同供應商,因此通過開放解耦的建設方式企業(yè)能搭建最優(yōu)的IT堆棧。以AI為例。當前市面上最為火熱的AI大模型供應商,如openAI、Meta等,其硬件基礎設施能力遠不如NVIDIA、DDN、華為等IT巨頭。沒有任何一個廠商能夠提供端到端的最優(yōu)AI訓練/推理方案,因此企業(yè)在搭建自己的AI訓練/推理集群時,會選擇開放解耦的架構,選擇最優(yōu)的硬件和訓練/推理模型。
5、非結構化數(shù)據(jù)
隨著5G、云計算、大數(shù)據(jù)、AI、高性能數(shù)據(jù)分析(HPDA)等新技術、新應用的蓬勃發(fā)展,企業(yè)非結構化數(shù)據(jù)快速增長,如視頻,語音,圖片,文件等,容量正在從PB到EB級跨越。例如,一臺基因測序儀每年產生數(shù)據(jù)達到8.5PB,某運營商集團每天平均處理數(shù)據(jù)量達到15PB,一顆遙感衛(wèi)星每年采集數(shù)據(jù)量可以達到18PB,一輛自動駕駛訓練車每年產生訓練數(shù)據(jù)達到180PB。
首先需要讓數(shù)據(jù)“存得下”:以最低的成本、最小的機房空間、最低的功耗存下更多的數(shù)據(jù)。
其次要讓數(shù)據(jù)都要“流得動”:數(shù)據(jù)中心間和數(shù)據(jù)中心內的數(shù)據(jù)需要根據(jù)策略按需高效流動。
最后還需要讓數(shù)據(jù)“用得好”:企業(yè)的視頻、音頻、圖片、文本等多種混合負載應用都能滿足要求。
6、存儲內生安全
數(shù)據(jù)作為AI的根基,其重要性進一步凸顯,數(shù)據(jù)的安全就是企業(yè)核心資產的安全。據(jù)splunk公司發(fā)布的《2023年安全現(xiàn)狀報告》顯示,超過52%的組織遭受了惡意攻擊導致數(shù)據(jù)泄露,66%的機構遭受勒索軟件攻擊,數(shù)據(jù)安全的重要性正在不斷上升。
數(shù)據(jù)在產生、采集、傳輸、使用、銷毀的全生命周期處理過程中始終離不開存儲設備。存儲作為數(shù)據(jù)的最終載體,數(shù)據(jù)的“保險箱”,擁有近數(shù)據(jù)的保護能力,近介質的控制能力,在數(shù)據(jù)安全防護、數(shù)據(jù)備份與恢復、數(shù)據(jù)安全銷毀等領域有不可替代的作用。

存儲內生安全體系通過先天的架構與設計,不斷增強存儲的安全能力,包含兩個方面:存儲設備自身的安全能力、存儲的數(shù)據(jù)安全防護能力。

7、全場景閃存
根據(jù)市場統(tǒng)計到2022年,SSD的市場份額和出貨數(shù)量已經是機械盤的2倍以上,占比超過了65%。我們有理由相信企業(yè)正在迎來全面閃存化的時代。

企業(yè)級 SSD 的核心組成部分——NAND顆粒,很大程度上決定其成本。而3D NAND堆疊層數(shù)升級與QLC顆粒的應用,推動全閃存物料成本不斷降低。目前,主流顆粒廠商量產的3DNAND顆粒堆疊層數(shù)已經達到176L,并紛紛給出200層以上設計路標,比2018年提升接近2倍。除了堆疊層數(shù),在顆粒類型方面,TLC顆粒已經成為企業(yè)級SSD主流選擇,QLC SSD也已登上舞臺。

更多SSD內容,參考“2023年計算機SSD固態(tài)硬盤詞條報告”,“企業(yè)級SSD技術和行業(yè)發(fā)展(匯總) ”、“《中國企業(yè)級SSD行業(yè)技術合集》”、“《SSD技術白皮書系列》”和“《SSD介質技術》”。
8、以數(shù)據(jù)為中心的架構
近年來,AI和實時大數(shù)據(jù)分析應用蓬勃發(fā)展,以CPU為主的算力向CPU+GPU+NPU+DPU的多樣化算力發(fā)展。

未來,隨著AI、大數(shù)據(jù)等應用更高的性能時延要求、CPU性能增速放緩,在服務器架構演進為Composable架構的同時,存儲架構也將演進為以數(shù)據(jù)為中心的Composable架構,從而大幅提升存儲系統(tǒng)的性能。存儲系統(tǒng)的多樣化處理器(CPU、DPU)、內存池、閃存池、容量盤池,將通過新型數(shù)據(jù)總線互聯(lián),從而實現(xiàn)數(shù)據(jù)進入存儲系統(tǒng)之后可以直接存放至內存或閃存,避免CPU成為數(shù)據(jù)訪問的瓶頸。
9、AI賦能存儲
基于傳統(tǒng)AI實現(xiàn)性能、容量、備件故障等趨勢提前預測,降低異常發(fā)生概率;在復雜的異常處理場景,存儲管理系統(tǒng)可基于AI大模型快速強化交互邏輯,輔助人工快速定位問題,從而大幅縮短故障處理周期。

10、存儲綠色節(jié)能
在“碳達峰、碳中和”大背景下,綠色低碳成為數(shù)據(jù)中心的重要發(fā)展方向。存儲能耗在數(shù)據(jù)中心占比超過30%。因此,除了降低PUE之外,降低以存儲為代表的IT設備能耗,對于促進數(shù)據(jù)中心零碳排至關重要。

通過多協(xié)議融合和孤島融合,實現(xiàn)多合一,提升資源利用率。一套存儲可支持文件、對象、HDFS等多種協(xié)議,滿足多樣化需求,整合多種類型存儲;同時通過融合資源池,實現(xiàn)資源池化,從而提升利用率。
存儲有83%的能耗來自于存儲介質,在相同容量下,SSD相比機械硬盤的能耗降低70%,空間占用節(jié)省50%。通過大容量SSD和高密硬盤框,提升存儲容量功耗占比,減少相同數(shù)據(jù)量附帶產生的數(shù)據(jù)處理和存儲能耗,進而推動存儲單位容量能耗降低,用更小的空間存儲更大的容量。
審核編輯:黃飛
電子發(fā)燒友App










評論