存儲區(qū)域網(wǎng)絡(luò)可能很復(fù)雜。如果管理不善時,情況更加嚴(yán)重。故障排除非常困難,因為很少有好的設(shè)計,而且光纖通道標(biāo)準(zhǔn)的寬松程度會使互操作性成為問題。
光纖通道(FC)存儲區(qū)域網(wǎng)絡(luò)已被iSCSI SAN取代,成為很多數(shù)據(jù)中心的塊存儲選擇。然而,盡管iSCSI是成本更低的替代方案、更易于管理,還可使用熟悉的以太網(wǎng)網(wǎng)絡(luò)技術(shù),并且可以共享現(xiàn)有的LAN,但是當(dāng)需要高性能塊存儲時,F(xiàn)C仍然是首選協(xié)議。因此,盡管出現(xiàn)其他替代方案,它仍然是大多數(shù)企業(yè)中重要的存儲替代方案。
對于FC SAN,重要的是要了解常見問題,以便弄清楚如何診斷和解決問題,或者首先是如何防止出現(xiàn)問題。
常見問題
在復(fù)雜的存儲網(wǎng)絡(luò)中,很多事情都可能出錯。FC是從零開始構(gòu)建,以支持網(wǎng)絡(luò)存儲系統(tǒng),因此,對于管理,除了需要常規(guī)網(wǎng)絡(luò)知識,還需要大量的專業(yè)化知識。同時,還應(yīng)注意,在過去的幾年中,通過自動化某些功能并減少LUN配置等的所需步驟,F(xiàn)C SAN供應(yīng)商已經(jīng)簡化陣列管理。
也就是說,保持FC SAN的性能仍然是一個挑戰(zhàn),但是根據(jù)問題的不同,你可以將問題縮小到潛在的原因,以加快故障排除和解決的速度。主要常見問題包括以下:
1. 兼容性問題
盡管FC SAN已經(jīng)存在近三十年,但并不是所有設(shè)備都能很好地兼容。我們經(jīng)常會看到很多SAN問題源自不兼容的組件。所有存儲供應(yīng)商都會發(fā)布某種形式的支持矩陣(通常稱為硬件兼容性列表(HCL)),其中他們會記錄存儲陣列微碼、SAN交換機固件和主機硬件/軟件的經(jīng)過測試和受支持的配置。使用HCL以外的硬件或軟件,SAN可能會在一段時間內(nèi)正常運行,但是這種做法存在風(fēng)險,這會使故障排除性能問題變得更加困難。
2. 超出容量限制
顯然,飽和的SAN端口會導(dǎo)致瓶頸問題,而這些瓶頸問題可能會轉(zhuǎn)變成難以診斷的應(yīng)用程序問題。通常,我們很容易查看SAN的主機或存儲端口,并確定它是否100%繁忙,但我們很難確定過載的交換機間鏈接(ISL)是否是問題根源。有時I / O本身不是瓶頸,而是限制問題(例如風(fēng)扇比率-分區(qū)到存儲端口的主機總線適配器(HBA)的數(shù)量)-以及超過架構(gòu)中交換機的數(shù)量,從而導(dǎo)致連接問題。
FC交換機供應(yīng)商通常會提供軟件,以幫助檢測瓶頸問題,甚至可能提出解決方案。另外還有可用的第三方應(yīng)用程序,例如SolarWinds系列產(chǎn)品、NetApp的OnCommand應(yīng)用程序和用于SAN的IntelliMagic Vision,它們可以洞悉SAN的運行情況以跟蹤和緩解瓶頸。這些第三方工具通常支持多種不同的存儲品牌和型號,因此它們在混合供應(yīng)商環(huán)境中可能特別有用。這類工具已經(jīng)存在一段時間,最初統(tǒng)稱為存儲資源監(jiān)視器;這些工具在開始時并沒有引起關(guān)注,因為它們很復(fù)雜,但現(xiàn)在它們已經(jīng)精簡,并已增加功能和提高可用性。
3. 錯誤配置或分區(qū)
糟糕或不正確分區(qū)是SAN問題的最常見原因之一。也許是因為我們最經(jīng)常更改SAN分區(qū)。這也可能很常見,因為區(qū)域包含那些棘手的16位十六進制全球通用名稱(WWN)。
4. 易出故障的連接和電纜
當(dāng)光纖電纜發(fā)生故障時,似乎很少會完全失效。通常它們會出現(xiàn)間歇性問題,并緩慢失效。在這個過程中,應(yīng)用程序和管理員會適應(yīng)間歇性問題。由于大多數(shù)SAN環(huán)境支持多種電纜類型,這些問題可能會更加復(fù)雜,因此監(jiān)控工具會有所幫助,它們可從各種電纜介質(zhì)返回準(zhǔn)確結(jié)果。
5. 存儲陣列配置問題
每個品牌的存儲陣列的管理方式略有不同,但是它們都基于一些基本概念。LUN必須通過前端SAN端口創(chuàng)建并分配給HBA。當(dāng)存儲管理員在配置陣列時輸入錯誤時,經(jīng)常會出現(xiàn)問題。手動創(chuàng)建LUN是繁瑣的過程,因此容易出錯。
6. 主機配置問題
服務(wù)器方面很容易出現(xiàn)問題。網(wǎng)絡(luò)環(huán)境中的服務(wù)器代表著SAN組件堆棧的很大部分,其中包括卷管理器、操作系統(tǒng)、多路徑軟件、HBA驅(qū)動程序、HBA固件和HBA硬件。所有組件都必須根據(jù)存儲供應(yīng)商的規(guī)范進行配置;與供應(yīng)商規(guī)范的任何偏差都可能導(dǎo)致問題。在大多數(shù)企業(yè)中,服務(wù)器虛擬化顯著增加運行服務(wù)器的數(shù)量。除了增加服務(wù)器配置問題外,由于有大量其他服務(wù)器,虛擬服務(wù)器可能還需要服務(wù)器管理員進行一些特殊設(shè)置。
7. SAN硬件故障
在常見的SAN問題中,硬件故障排在最后,這是因為,盡管它通常是我們關(guān)注的首要問題,但實際很少發(fā)生這種問題。現(xiàn)在的SAN硬件非??煽?,但硬件確實偶爾會出現(xiàn)故障。影響主機訪問的常見故障是SFP端口故障、端口卡故障和整個交換機故障。
8. 緩慢的存儲響應(yīng)時間
存儲網(wǎng)絡(luò)是復(fù)雜的環(huán)境,其中包含很多組件,必須正確設(shè)置和仔細監(jiān)視,但是性能問題也可能是由存儲設(shè)備本身引起。數(shù)據(jù)存儲介質(zhì)將對整體SAN性能產(chǎn)生深遠影響。現(xiàn)在,大多數(shù)存儲陣列至少都包含SSD,因此,性能調(diào)整可能涉及切換到固態(tài)存儲或添加更多的SSD。如果很多應(yīng)用程序都需要高性能,則可能需要使用全閃存陣列。如果你堅持使用僅硬盤驅(qū)動器的陣列,那么就需要擠出額外的性能,但傳統(tǒng)的調(diào)整(例如,短暫敲擊磁盤驅(qū)動器)可能會帶來額外的麻煩。
問題確定
當(dāng)你對SAN進行故障排除時,你需要深入了解特定系統(tǒng)的所需配置和預(yù)期行為。當(dāng)發(fā)生問題時,通過排除SAN、主機和存儲中正常運行的組件,可以更好地瞄準(zhǔn)問題。
SAN。最近是否發(fā)生SAN變更?詢問一下其他人員,檢查SAN日志,然后將正在運行的配置與文檔進行比較。SAN報告時間或錯誤是否相關(guān)?查找失效端口、最近端口注銷或架構(gòu)重建。
主機。其他主機能否看到有問題的存儲?該主機能否看到其他存儲?HBA是否日志記錄在架構(gòu)中?最近是否發(fā)生任何主機更改?主機的系統(tǒng)消息日志中是否有與SAN相關(guān)的消息?
存儲。其他主機能否看到有問題的存儲?存儲端口是否日志記錄到架構(gòu)中?最近是否發(fā)生任何存儲更改?是否有存儲陣列日志報告錯誤?
如果使用變更管理軟件,則將顯著簡化上述所有檢查工作。變更管理應(yīng)用程序還可以幫助提醒支持人員注意可能被孤立或不包含在備份操作中的任何服務(wù)器或數(shù)據(jù)存儲。
避免將來出現(xiàn)問題
檢查支持矩陣
請定期檢查存儲供應(yīng)商的HCL和其他支持材料,以對比當(dāng)前支持的內(nèi)容與你的配置。并且,制造商不斷通過新代碼修復(fù)漏洞,你還應(yīng)檢查是否有任何更新,并保持軟件版本最新和受支持-這將有助于避免很多問題。
(1) 記錄SAN
這個很重要。在解決問題時,了解原始的SAN環(huán)境設(shè)計意圖非常重要。請確保文檔記錄了主機、HBA、WWN及其連接位置。其中應(yīng)包括存儲、存儲端口及其WWN。最后,SAN文檔應(yīng)描述架構(gòu)、ISL、區(qū)域集、區(qū)域和區(qū)域成員。
如果沒有原始設(shè)計文檔,則你應(yīng)該能夠使用SAN管理或變更管理應(yīng)用程序來發(fā)現(xiàn)和記錄所有網(wǎng)絡(luò)設(shè)備-而且,在很多情況下,還應(yīng)該記錄關(guān)鍵配置信息,例如網(wǎng)絡(luò)地址。
(2) 基準(zhǔn)化SAN性能
除非你記錄每天發(fā)生的事情,否則很難確定繁忙的端口是正常情況還是問題的罪魁禍?zhǔn)?。請至少記錄SAN中每個端口的平均端口利用率。如果你使用SAN監(jiān)視工具,則它可能可以做到這一點-實際上,在建立可接受的性能閾值后,當(dāng)出現(xiàn)異常時,大多數(shù)監(jiān)視應(yīng)用程序都會發(fā)送電子郵件或文本警報。SAN監(jiān)視應(yīng)用程序還提供儀表板,以實時了解網(wǎng)絡(luò)狀態(tài)和單個網(wǎng)絡(luò)組件。
(3) 計劃你的變更
為避免管理員引起的中斷,請使用SAN文檔來定義變更,然后再進行變更。如果你在執(zhí)行變更時才決定要做什么,那么你就錯了。而且,在變更發(fā)生后很容易忘記記錄變更。某些變更管理應(yīng)用程序還將使你能夠進行“假設(shè)分析”,以測試預(yù)期的變更對SAN環(huán)境或與其連接的存儲系統(tǒng)的影響。
(4) 備份配置
在每天SAN變更后,請備份并安全地存儲交換機配置。當(dāng)交換機出故障或在變更期間完全混亂,這將確保你可以從備份中快速回滾變更。為了更加安全,請配置備份應(yīng)用程序,以在日常數(shù)據(jù)備份操作期間定期備份所有關(guān)鍵配置文件。
當(dāng)某些事情在控制之中且網(wǎng)絡(luò)環(huán)境被很好地映射,解決SAN問題可能是相對容易的過程。 請將這些最佳做法作為日常SAN健康方案的一部分,以避免當(dāng)出現(xiàn)故障時造成更大的問題。
責(zé)編AJX
電子發(fā)燒友App










評論