災(zāi)備技術(shù)涉及的領(lǐng)域很多,有很多廠商提供了多種技術(shù)解決方案,當(dāng)前比較常見(jiàn)的數(shù)據(jù)復(fù)制技術(shù)有幾大類,例如基于傳統(tǒng)存儲(chǔ)的復(fù)制技術(shù),技術(shù)數(shù)據(jù)庫(kù)的復(fù)制技術(shù),基于存儲(chǔ)虛擬化網(wǎng)關(guān)的復(fù)制技術(shù),基于主機(jī)卷管理的復(fù)制技術(shù),基于備份的復(fù)制技術(shù)等等。
關(guān)于傳統(tǒng)存儲(chǔ)復(fù)制的痛點(diǎn),大家主要關(guān)心如下幾個(gè)方面:
1. 生產(chǎn)中心與同城災(zāi)備中心采用同步復(fù)制遇見(jiàn)的痛點(diǎn)
2. 存儲(chǔ)復(fù)制中的復(fù)制鏈路上的痛點(diǎn)
3. 存儲(chǔ)和主機(jī)密切相關(guān)的多路徑軟件的痛點(diǎn)
4. 基于存儲(chǔ)復(fù)制技術(shù)的兩地三中心解決方案的痛點(diǎn)
5. 雙活數(shù)據(jù)中心中仲裁技術(shù)的痛點(diǎn)
6. 數(shù)據(jù)復(fù)制所帶來(lái)的數(shù)據(jù)完整性,一致性的痛點(diǎn)
7. 數(shù)據(jù)復(fù)制的安全性的痛點(diǎn)
8. 災(zāi)難恢復(fù)演練中關(guān)心的問(wèn)題
下面逐一加以分析和總結(jié)
[*本文主要觀點(diǎn)來(lái)自多位社區(qū)專家及會(huì)員分享,由社區(qū)專家張鵬匯總、梳理]
一、生產(chǎn)中心與同城災(zāi)備中心采用同步復(fù)制遇見(jiàn)的痛點(diǎn)
[典型問(wèn)題]
同步復(fù)制技術(shù)讓生產(chǎn)和災(zāi)備中心的聯(lián)系過(guò)于緊密,這樣的技術(shù)風(fēng)險(xiǎn)點(diǎn)我們?cè)撊绾我?guī)避?
[問(wèn)題描述]
存儲(chǔ)同步復(fù)制技術(shù)通常應(yīng)用于生產(chǎn)和同城災(zāi)備中,同步技術(shù)將生產(chǎn)中心和同城中心的聯(lián)系過(guò)于緊密,生產(chǎn)中心的數(shù)據(jù)變化會(huì)及時(shí)同步到同城中心.
就像2015年銀監(jiān)會(huì)發(fā)布的162號(hào)文件中提到的,某銀行生產(chǎn)中心數(shù)據(jù)庫(kù)文件的損壞導(dǎo)致生產(chǎn)中心的數(shù)據(jù)庫(kù)故障,中斷業(yè)務(wù),由于該行同城災(zāi)備中心采用了存儲(chǔ)級(jí)同步復(fù)制技術(shù),數(shù)據(jù)庫(kù)損壞文件被復(fù)制到災(zāi)備中心,導(dǎo)致災(zāi)備中心也無(wú)法恢復(fù)業(yè)務(wù)。
這種問(wèn)題是不是技術(shù)上的必然風(fēng)險(xiǎn)點(diǎn)?廠商應(yīng)該如何以此為鑒改進(jìn)產(chǎn)品?用戶應(yīng)該采取何種措施規(guī)避這種風(fēng)險(xiǎn)?
[問(wèn)題描述]
還有朋友提出這樣的問(wèn)題:
“能否這樣理解:傳統(tǒng)存儲(chǔ)復(fù)制技術(shù)的致命弱點(diǎn)就是應(yīng)用如何隨生產(chǎn)變更而變更?”
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
關(guān)于這個(gè)問(wèn)題,可以談?wù)効勺匪莨δ艿臑?zāi)備解決方案。不管存儲(chǔ)復(fù)制采用同步還是異步復(fù)制技術(shù),都只能體現(xiàn)當(dāng)前或者某一個(gè)時(shí)間點(diǎn)的狀態(tài),不具備追溯功能的災(zāi)備解決方案,在應(yīng)對(duì)邏輯錯(cuò)誤或者上訴文件損壞的時(shí)候就顯得力不從心??煺占夹g(shù)是一種解決方案。并且很多第三代存儲(chǔ)都實(shí)現(xiàn)了不限數(shù)量,或不限頻率的快照解決方案。我們迫切希望傳統(tǒng)存儲(chǔ)廠商在更多的高端存儲(chǔ)解決方案中進(jìn)行改進(jìn)。
?觀點(diǎn)二:
可用多個(gè)存儲(chǔ)復(fù)制版本解決 (消耗大量存儲(chǔ)空間),保存一天前或一個(gè)星期前的 版本,再次保存一個(gè)同步版本。
?觀點(diǎn)三:
存儲(chǔ)級(jí)同步復(fù)制在生產(chǎn)端數(shù)據(jù)由于外部因素被損壞的時(shí)候,可能災(zāi)備端也難以幸免,因此可考慮進(jìn)行應(yīng)用級(jí)別的同步,同時(shí)增大備份頻率,將數(shù)據(jù)丟失降至最小。
觀點(diǎn)綜述:
同步復(fù)制的技術(shù)原理決定了生產(chǎn)中心和采用同步復(fù)制的同城災(zāi)備中心的數(shù)據(jù)改變是一致的,在存儲(chǔ)底層復(fù)制單元以上的錯(cuò)誤,例如邏輯上的錯(cuò)誤,同步復(fù)制會(huì)將錯(cuò)誤一并復(fù)制到災(zāi)備中心,為此出現(xiàn)此類錯(cuò)誤,是同步復(fù)制為之所痛的地方,如何防范呢,我們希望廠商能夠采用多副本的機(jī)制例如頻繁的快照技術(shù)提供可追溯的災(zāi)備解決方案,盡量減少發(fā)生此類故障時(shí)的損失。
二、存儲(chǔ)復(fù)制中的復(fù)制鏈路上的痛點(diǎn)
[典型問(wèn)題]
存儲(chǔ)同步復(fù)制技術(shù)中,遠(yuǎn)距離光纖傳輸?shù)难訒r(shí)、抖動(dòng)等線路問(wèn)題風(fēng)險(xiǎn)如何避免?
[問(wèn)題描述]
存儲(chǔ)同步復(fù)制技術(shù)通常應(yīng)用于生產(chǎn)和同城災(zāi)備中,生產(chǎn)存儲(chǔ)和同城災(zāi)備存儲(chǔ)通常采用光纖通道SAN網(wǎng)絡(luò)連接,其光纖線路距離通常為幾十公里,長(zhǎng)距離傳輸線路的不穩(wěn)定因素,例如延時(shí),抖動(dòng),都會(huì)給存儲(chǔ)復(fù)制帶來(lái)影響,有時(shí)甚至是災(zāi)難性的影響。
今天就來(lái)分析一下,存儲(chǔ)同步復(fù)制由于光纖網(wǎng)絡(luò)線路的問(wèn)題出現(xiàn)的風(fēng)險(xiǎn)。
同步復(fù)制出現(xiàn)鏈路抖動(dòng),會(huì)影響到生產(chǎn)運(yùn)行,那么異步復(fù)制出現(xiàn)鏈路抖動(dòng)會(huì)不會(huì)影響生產(chǎn)運(yùn)行呢?
同城災(zāi)備或異地災(zāi)備建設(shè)中,鏈路距離和網(wǎng)絡(luò)延遲對(duì)于應(yīng)用場(chǎng)景的考量如何?
在鏈路距離和延遲方面對(duì)于不同的場(chǎng)景要求也是不一樣的,是否有具體案例可以針對(duì)性的數(shù)量一下這方面的問(wèn)題,遇到問(wèn)題時(shí)對(duì)應(yīng)的解決方案又有那些?
網(wǎng)絡(luò)抖動(dòng)對(duì)于同城間基于存儲(chǔ)的數(shù)據(jù)同步復(fù)制的影響有多大?如何減少網(wǎng)絡(luò)抖動(dòng)的概率?
同城間基于存儲(chǔ)的數(shù)據(jù)同步復(fù)制方案受網(wǎng)絡(luò)抖動(dòng)尤其是頻繁發(fā)生抖動(dòng)的對(duì)源端主業(yè)務(wù)的影響程度有多大?要減少網(wǎng)絡(luò)抖動(dòng)發(fā)生的概率,在網(wǎng)絡(luò)設(shè)計(jì)及規(guī)劃時(shí)有什么需要注意的?
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
線路鏈路實(shí)施監(jiān)控跟蹤和運(yùn)維服務(wù)商鏈路穩(wěn)定性質(zhì)量有關(guān),相關(guān)線路鏈路應(yīng)急預(yù)案和恢復(fù)手冊(cè),希望對(duì)你有幫助,謝謝!
?觀點(diǎn)二:
關(guān)于延時(shí),一般沒(méi)有辦法,只能找運(yùn)營(yíng)商;
抖動(dòng)問(wèn)題給你兩個(gè)建議:
1、實(shí)時(shí)監(jiān)控SAN交換機(jī)級(jí)聯(lián)鏈路端口(porterrshow),一旦發(fā)現(xiàn)大量報(bào)錯(cuò),立刻disable這個(gè)端口;保證生產(chǎn)端可用。
2、采用iprouter鏈路(博科交換機(jī)的7800),將不同廠商的鏈路進(jìn)行綁定(目前在同步環(huán)境下的案例,但是異步情況下案例很多,按照原理應(yīng)該可以解決抖動(dòng),而且目前IP的延時(shí)也很短了)
?觀點(diǎn)三:
同城或異地災(zāi)備或者雙活鏈路抖動(dòng)是不可避免的,主要考慮的是應(yīng)用能夠接受的程度。目前來(lái)說(shuō)超過(guò)50KM距離的場(chǎng)景,應(yīng)該不會(huì)有廠家拍著胸脯打包票的。
?觀點(diǎn)四:
主要還是看系統(tǒng)的RPO和RTO的要求,有些災(zāi)備數(shù)據(jù)是異步復(fù)制的,有些實(shí)時(shí)同步的,對(duì)不一樣的系統(tǒng)采取的手段不一樣,有些就是實(shí)時(shí)的傳輸,異地Standby,還有一些是拷貝一些備份數(shù)據(jù)到異地之后進(jìn)行數(shù)據(jù)恢復(fù),金融行業(yè)對(duì)于實(shí)時(shí)性要求較高。
?觀點(diǎn)五:
例如網(wǎng)絡(luò)延遲較大時(shí)對(duì)證券行業(yè)有很大的影響,因?yàn)樽C券行業(yè)的特殊性要求數(shù)據(jù)傳輸實(shí)時(shí)性高
?觀點(diǎn)六:
實(shí)施前是要對(duì)運(yùn)營(yíng)商線路進(jìn)行檢測(cè)評(píng)估的。
?觀點(diǎn)七:
同城間距離及交易情況和RPO要求來(lái)評(píng)估鏈路類型和帶寬。前期需進(jìn)行光強(qiáng)度衰減和時(shí)延測(cè)試。
觀點(diǎn)綜述:
大家對(duì)復(fù)制技術(shù)中的鏈路環(huán)節(jié)還是尤為關(guān)注的,通過(guò)大家提出的問(wèn)題,我們不難發(fā)現(xiàn)遠(yuǎn)距離傳輸?shù)难訒r(shí)和抖動(dòng)問(wèn)題,一直是復(fù)制技術(shù)中的痛點(diǎn)。那么如何解決呢,看來(lái)大家更多寄希望于運(yùn)營(yíng)商是否能夠提供高質(zhì)量的線路。同時(shí)在運(yùn)維過(guò)程中加強(qiáng)監(jiān)控和應(yīng)急防范。
三、存儲(chǔ)和主機(jī)密切相關(guān)的多路徑軟件的痛點(diǎn)
[典型問(wèn)題]
多個(gè)廠商的多路徑軟件裝載在一臺(tái)主機(jī)上的風(fēng)險(xiǎn),以及多路徑軟件在存儲(chǔ)雙活架構(gòu)中的風(fēng)險(xiǎn)怎么辦?
[問(wèn)題描述]
主機(jī)連接存儲(chǔ)多路徑的問(wèn)題,這個(gè)問(wèn)題很早開(kāi)始就一直存在,主要是主機(jī)連接多個(gè)存儲(chǔ)時(shí),每個(gè)存儲(chǔ)廠商有獨(dú)立的多路徑軟件,主機(jī)上是否安裝多個(gè)廠商的多路徑軟件,一直是用戶困惑的;隨著雙活數(shù)據(jù)中心解決方案中存儲(chǔ)雙活的架構(gòu)出現(xiàn),主機(jī)多路徑在災(zāi)備技術(shù)中也占據(jù)著重要地位。
今天主要來(lái)分析一下兩個(gè)問(wèn)題:
老問(wèn)題:多個(gè)多路徑軟件裝載在一臺(tái)主機(jī)上帶來(lái)的風(fēng)險(xiǎn)?
新問(wèn)題:多路徑軟件在存儲(chǔ)雙活中的風(fēng)險(xiǎn)?
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
先談?wù)劺蠁?wèn)題:多個(gè)多路徑軟件裝載在一臺(tái)主機(jī)上帶來(lái)的風(fēng)險(xiǎn)?
我想在這個(gè)問(wèn)題上好多實(shí)施人員都會(huì)遇見(jiàn),多數(shù)的解決辦法是為了避免相互扯皮,在一臺(tái)主機(jī)上只裝一種多路徑軟件。實(shí)際應(yīng)用中,多個(gè)多路徑軟件在一臺(tái)機(jī)器上運(yùn)行,也是存在的。為了避免實(shí)施人員和客戶的困惑,我們更多的是要呼吁,存儲(chǔ)廠商盡量兼容操作系統(tǒng)廠商發(fā)布的原生多路徑軟件。主機(jī)的問(wèn)題讓主機(jī)去解決,存儲(chǔ)的問(wèn)題讓存儲(chǔ)去解決。
?觀點(diǎn)二:
再談?wù)勑聠?wèn)題:多路徑軟件在存儲(chǔ)雙活中的風(fēng)險(xiǎn)?
現(xiàn)階段存儲(chǔ)雙活架構(gòu)中多路徑軟件扮演了重要的角色,多路徑軟件是否可靠,設(shè)置是否正確,是架構(gòu)穩(wěn)定性的關(guān)鍵。考驗(yàn)廠商和實(shí)施團(tuán)隊(duì)的時(shí)候到了,請(qǐng)大家關(guān)注長(zhǎng)距離傳輸路徑和本地路徑是有區(qū)別的,多路徑中路徑的選擇是要充分考慮這個(gè)問(wèn)題,避免不必要的風(fēng)險(xiǎn)發(fā)生。
?觀點(diǎn)三:
有關(guān)一臺(tái)主機(jī)上安裝多種多路徑軟件的場(chǎng)景應(yīng)當(dāng)盡力避免,在源頭就減少這種情況的發(fā)生。舉個(gè)例子:使用powerpath的多路徑軟件,可以驅(qū)動(dòng)sdd,sddpcm的產(chǎn)品的盤(pán)符變化,導(dǎo)致管理和使用上的一系列問(wèn)題。
參考解決方案:
1. 可以考慮使用存儲(chǔ)虛擬網(wǎng)關(guān)
2. 同一種應(yīng)用盡量使用同品牌的存儲(chǔ),使用一種多路徑軟件進(jìn)行管理。
?觀點(diǎn)四:
生產(chǎn)環(huán)境中 應(yīng)避免 一個(gè)lpar使用多種存儲(chǔ) 安裝多個(gè)多路徑軟件問(wèn)題
?觀點(diǎn)五:
多個(gè)多路徑軟件裝載在一臺(tái)主機(jī)上帶來(lái)的風(fēng)險(xiǎn)?可能造成兼容性問(wèn)題
?觀點(diǎn)六:
多路徑軟件在存儲(chǔ)雙活中的風(fēng)險(xiǎn)?只使用存儲(chǔ)雙活設(shè)備指定的多路徑軟件即可。
?觀點(diǎn)七:
先談?wù)劺蠁?wèn)題:每一個(gè)廠商針對(duì)針對(duì)自家存儲(chǔ)設(shè)備的多路級(jí)管理軟件都會(huì)開(kāi)發(fā)一些高級(jí)功能、監(jiān)控功能和優(yōu)化手段;比如說(shuō):路徑不穩(wěn)定時(shí)候,多路徑管理軟件就會(huì)監(jiān)控一些參數(shù)指標(biāo),當(dāng)某些指標(biāo)達(dá)到一定數(shù)值,多路徑軟件就自動(dòng)執(zhí)行一些操作保證生產(chǎn)和性能;不同廠商的操作可能不同,因此可能產(chǎn)生一些故障;而且不好去解決。
?觀點(diǎn)八:
雙活環(huán)境下多路徑軟件,對(duì)路徑組合的監(jiān)控以及監(jiān)控參數(shù)更加多了;判斷項(xiàng)也更多了,我也感覺(jué)到參數(shù)設(shè)置對(duì)架構(gòu)穩(wěn)定性至關(guān)重要。
觀點(diǎn)綜述:
主機(jī)端多路徑兼容的問(wèn)題一直是大家關(guān)注的問(wèn)題,值得一提的是,更多的廠商已經(jīng)通過(guò)支持操作系統(tǒng)原生的多路徑軟件而解決兼容性的問(wèn)題了,雖然原生多路徑和廠商特有的多路徑軟件有一些功能上的差異和缺失,但是隨著技術(shù)的革新,未來(lái)應(yīng)該會(huì)有好的改變。存儲(chǔ)雙活解決方案中多路徑軟件起著重要的作用,希望大家在使用過(guò)程中得以重視,合理配置,強(qiáng)加監(jiān)控,防范風(fēng)險(xiǎn)。
四、基于存儲(chǔ)復(fù)制技術(shù)的兩地三中心解決方案的痛點(diǎn)
[典型問(wèn)題]
兩地三中心的存儲(chǔ)復(fù)制技術(shù)中,三角形復(fù)制架構(gòu),生產(chǎn)到異地的復(fù)制鏈路真的有用嗎?
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
經(jīng)??吹胶吐?tīng)到的架構(gòu)是這樣的。理論上生產(chǎn)數(shù)據(jù)復(fù)制到異地的備份也會(huì)對(duì)數(shù)據(jù)有保障,但是架構(gòu)越復(fù)雜,維護(hù),操作起來(lái)也越復(fù)雜,往往這樣的架構(gòu)最后出問(wèn)題的并不是數(shù)據(jù)復(fù)制鏈路本身。而是在生產(chǎn)系統(tǒng)故障的時(shí)候業(yè)務(wù)割接時(shí)候的其他問(wèn)題。
舉個(gè)簡(jiǎn)單的例子,剛剛做雙機(jī)結(jié)構(gòu)的時(shí)候。是微軟win2000+sql2000的架構(gòu),做的過(guò)程是裝好兩臺(tái)系統(tǒng),配置雙機(jī)結(jié)構(gòu),然后在主機(jī)上安裝SQL,這樣備機(jī)也同時(shí)安裝上了sql2000,當(dāng)主機(jī)掛掉,備機(jī)會(huì)自動(dòng)接替主機(jī)工作,到這里位置一切都很理想,但是很快我們就放棄了這種結(jié)構(gòu),因?yàn)?,當(dāng)主機(jī)故障,備機(jī)切換了以后。我無(wú)法在線把主機(jī)在添加到這個(gè)雙機(jī)結(jié)構(gòu)中,只能把整套雙機(jī)環(huán)境全全部推了重來(lái),2,兩臺(tái)機(jī)器不能同時(shí)啟動(dòng),否則會(huì)因?yàn)闋?zhēng)搶資源而導(dǎo)致雙機(jī)結(jié)構(gòu)崩潰。
現(xiàn)在的技術(shù)發(fā)展的自然比起零幾年的時(shí)候要先進(jìn)了許多,但同樣會(huì)因?yàn)槟承l件至于而導(dǎo)致這種理想的架構(gòu)真的在出現(xiàn)故障的時(shí)候能理想的實(shí)現(xiàn)智能接管。所以雙活也好。兩地三中心也好。有成熟的容災(zāi)方案,做定期的容災(zāi)演練是保證系統(tǒng)架構(gòu)運(yùn)行的根本。,如同拿著倚天劍的人一定要是個(gè)武林高手。否則可能傷到的會(huì)是自己。
?觀點(diǎn)二:
這個(gè)問(wèn)題很奇特,當(dāng)然是由用的,沒(méi)有建它做什么,關(guān)鍵看你為什么要建,目的是什么,建災(zāi)備的需求,響應(yīng)級(jí)別。
如果說(shuō)你是認(rèn)為,本地雙活完全能滿足生產(chǎn)環(huán)境的高可用需求,那就要看是否能滿足用戶的業(yè)務(wù)和管理需求,有不少企業(yè)做災(zāi)備不是為了別的就是為了審計(jì)或等保的需要。
你有沒(méi)有聽(tīng)說(shuō)過(guò)某個(gè)IDC機(jī)房因失火,造成對(duì)外業(yè)務(wù)全部中斷的情況,雖然可能,但基本沒(méi)有發(fā)生過(guò)。那做了數(shù)據(jù)同步建了災(zāi)備機(jī)房是否就安全了,如果恰巧2個(gè)機(jī)房相聚數(shù)十公里卻在同一個(gè)地震帶上時(shí)會(huì)發(fā)生什么...............
這也就是開(kāi)始說(shuō)的,為啥要建災(zāi)備,目的、需求、預(yù)算要先搞清楚,才能設(shè)計(jì)建設(shè)有效的災(zāi)備環(huán)境。
?觀點(diǎn)三:
在災(zāi)備系統(tǒng)上見(jiàn)過(guò)這樣的系統(tǒng),但是業(yè)務(wù)生產(chǎn)上沒(méi)有見(jiàn)過(guò)有客戶這么花氣力。
災(zāi)備系統(tǒng)是A--B---C,但C不復(fù)制到A,是一個(gè)不閉合的三角模型。即使是一個(gè)災(zāi)備三中心,也是相當(dāng)花錢的。備份存儲(chǔ)都是EMC DataDomain的高端產(chǎn)品,都是窄帶復(fù)制傳輸,運(yùn)行也沒(méi)有問(wèn)題。恢復(fù)驗(yàn)證也測(cè)試過(guò),安全性確實(shí)有提高,但是三中心數(shù)據(jù)一致的滯后性還是很明顯,基本都在3H左右,數(shù)據(jù)量大的時(shí)候滯后更多??上攵?,如果是業(yè)務(wù)上三中心互備,算上SAN網(wǎng)絡(luò)、設(shè)備、存儲(chǔ),估計(jì)不是特大公司都不會(huì)采用了吧。
?觀點(diǎn)四:
還是有用的,當(dāng)同城災(zāi)備中心的異地中心鏈路有問(wèn)題的時(shí)候,異步數(shù)據(jù)將自動(dòng)的通過(guò)生產(chǎn)中心到異地災(zāi)備中心鏈路進(jìn)行數(shù)據(jù)傳輸
觀點(diǎn)綜述:
大家談到了兩地三中心災(zāi)備架構(gòu)的重要性,其實(shí)這點(diǎn)我們都是認(rèn)可的。大家可能沒(méi)有理解這個(gè)問(wèn)題的真正含義,這里主要想描述的是很多廠商和客戶想要達(dá)到的三角形閉合的兩地三中心架構(gòu),主要糾結(jié)在A和C 是否有必要連接。
在真實(shí)的災(zāi)難場(chǎng)景中,生產(chǎn)中心發(fā)生災(zāi)難,肯定是優(yōu)先選擇同城災(zāi)備中心的,因?yàn)橥菫?zāi)備中心的綜合配置多數(shù)都優(yōu)于異地災(zāi)備中心。只有生產(chǎn)和同城都發(fā)生災(zāi)難,這種區(qū)域性災(zāi)難的發(fā)生才考慮異地災(zāi)備中心接管。所以我個(gè)人認(rèn)為過(guò)多關(guān)注與A-C的閉環(huán)架構(gòu)沒(méi)有太多必要。
五、雙活數(shù)據(jù)中心中仲裁技術(shù)的痛點(diǎn)
[典型問(wèn)題]
Quorum/Tie-Breaker對(duì)于避免腦裂和場(chǎng)地分割有效嗎?仲裁技術(shù)是否會(huì)給生產(chǎn)數(shù)據(jù)中心帶來(lái)風(fēng)險(xiǎn)?
仲裁機(jī)制會(huì)不會(huì)同樣帶來(lái)對(duì)生產(chǎn)數(shù)據(jù)中心的風(fēng)險(xiǎn)?多數(shù)用戶真的做到第三數(shù)據(jù)中心仲裁了嗎?
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
仲裁機(jī)制還是有必要的。如果兩個(gè)數(shù)據(jù)中心斷開(kāi),至少仲裁服務(wù)器能在其中一邊把應(yīng)用拉起,避免腦裂。如果能有第三數(shù)據(jù)中心仲裁的話,那樣最好。
?觀點(diǎn)二:
跨數(shù)據(jù)中心的存儲(chǔ)集群技術(shù),必須要有仲裁機(jī)制作為保障,希望廠商在這方面加強(qiáng)技術(shù)改進(jìn),不要讓原本作為防范機(jī)制成為風(fēng)險(xiǎn)的隱患。
觀點(diǎn)綜述:
關(guān)于防范腦裂的仲裁問(wèn)題不僅僅是在存儲(chǔ)雙活解決方案,虛擬化存儲(chǔ)雙活解決方案中用到,在主機(jī)HA的方案中更為廣泛的應(yīng)用。腦裂一直是集群技術(shù)中的痛點(diǎn),為了避免腦裂的發(fā)生,廠商想出了多種辦法,其中包括仲裁機(jī)制。在這里引出這個(gè)痛點(diǎn)主要是想提醒更多的用戶慎重看待每一個(gè)風(fēng)險(xiǎn)點(diǎn),仲裁也許是解決腦裂的一個(gè)好辦法,但是它也許也隱藏著其他隱患。如何防范,需要加強(qiáng)運(yùn)維和應(yīng)急處置。
六、數(shù)據(jù)復(fù)制所帶來(lái)的數(shù)據(jù)完整性,一致性的痛點(diǎn)
[典型問(wèn)題]
通過(guò)存儲(chǔ)復(fù)制技術(shù),在手工暫停存儲(chǔ)復(fù)制后,災(zāi)備端數(shù)據(jù)庫(kù)仍然有一定幾率拉不起來(lái)。存儲(chǔ)復(fù)制的目標(biāo)端如何保證數(shù)據(jù)庫(kù)能夠拉起來(lái)?
同步復(fù)制和異步復(fù)制是否成功,如何驗(yàn)證?有哪些方法?
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
一般情況下,只要你能保證所有卷組的設(shè)置了一致性情況是能保證的。如果還是不行,你可以寫(xiě)一個(gè)腳本,先將oracle處于backup狀態(tài),立刻停止復(fù)制(只對(duì)同步有用);再將oracle數(shù)據(jù)庫(kù)處于正常狀態(tài)。
?觀點(diǎn)二:
只遇到過(guò)同步復(fù)制,2邊數(shù)據(jù)不一致的問(wèn)題
?觀點(diǎn)三:
復(fù)制是否成功,主要看存儲(chǔ)管理界面顯示的狀態(tài),是否有復(fù)制中斷,但是不能確保數(shù)據(jù)完整和一致性。
觀點(diǎn)綜述:
歸結(jié)起來(lái)還是災(zāi)備數(shù)據(jù)和源數(shù)據(jù)一致性完整性的問(wèn)題,看來(lái)大家在實(shí)際環(huán)境中確實(shí)遇見(jiàn)過(guò)災(zāi)備數(shù)據(jù)不可用的情況,這的確是數(shù)據(jù)復(fù)制中最大的痛。雖然存儲(chǔ)層面可以通過(guò)設(shè)備狀態(tài),日志等方式監(jiān)控復(fù)制的完成情況,但是無(wú)法從業(yè)務(wù)數(shù)據(jù)層面來(lái)做數(shù)據(jù)的檢查。需要通過(guò)工具或管理方法定期從業(yè)務(wù)數(shù)據(jù)層面來(lái)做檢查。來(lái)驗(yàn)證災(zāi)備數(shù)據(jù)一定與生產(chǎn)數(shù)據(jù)一致性,防范真正災(zāi)難發(fā)生了,災(zāi)備數(shù)據(jù)不可用的風(fēng)險(xiǎn)。
七、數(shù)據(jù)復(fù)制的安全性的痛點(diǎn)
[典型問(wèn)題]
如何保證存儲(chǔ)復(fù)制技術(shù)中,數(shù)據(jù)傳輸?shù)陌踩院涂煽啃?存儲(chǔ)加密技術(shù)給數(shù)據(jù)傳輸帶來(lái)的影響有多大?
[問(wèn)題描述]
數(shù)據(jù)傳輸?shù)陌踩恢笔潜O(jiān)管機(jī)構(gòu)的關(guān)注點(diǎn),存儲(chǔ)復(fù)制就涉及到數(shù)據(jù)傳輸,那么如何保證安全不被篡改和非法獲取呢?是加密技術(shù)嗎?
那么問(wèn)題來(lái)了:目前廠商的產(chǎn)品中是否都具備加密技術(shù)?這些加密真的可靠嗎?加密給效率帶來(lái)的影響是否很大?有用戶真正在使用嗎?
關(guān)于加密,這里想談一個(gè)問(wèn)題,數(shù)據(jù)傳輸時(shí)是否需要增加加密功能,開(kāi)啟加密功能對(duì)復(fù)制的影響有多大?
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
存儲(chǔ)級(jí)別的復(fù)制都會(huì)自帶校驗(yàn)和加密,校驗(yàn)?zāi)鼙WC收發(fā)數(shù)據(jù)一致,加密能保證數(shù)據(jù)安全。存儲(chǔ)上的數(shù)據(jù)本來(lái)也不是明文而是數(shù)據(jù)塊,因此再加密后,數(shù)據(jù)一般很難破解。倒是存儲(chǔ)換下來(lái)的壞盤(pán),如果重要,建議購(gòu)買留盤(pán)服務(wù)?,F(xiàn)在采用存儲(chǔ)級(jí)別的復(fù)制的客戶也很多了,實(shí)施順利的,現(xiàn)在也少有聽(tīng)到故障重重的案例。
?觀點(diǎn)二:
加密解密這種對(duì)數(shù)據(jù)的附加操作,是否會(huì)對(duì)數(shù)據(jù)完整性有影響。其實(shí)這個(gè)問(wèn)題和數(shù)據(jù)傳輸是否壓縮,是否去重類似。加解密,壓縮,去重,這些對(duì)數(shù)據(jù)的操作,正常情況下是對(duì)數(shù)據(jù)完整性無(wú)影響的,當(dāng)然也存在異常的因素。數(shù)據(jù)遠(yuǎn)距離傳輸不管是否經(jīng)過(guò)加密,壓縮,去重等加工操作,數(shù)據(jù)的完整性都存在異常的可能。那么我們所關(guān)注是否有一種機(jī)制,可以定期去檢查復(fù)制兩端的數(shù)據(jù)一致性。
?觀點(diǎn)三:
網(wǎng)絡(luò)層面考慮使用安全性較高的專線線路,可保證傳輸安全。
觀點(diǎn)綜述:
首先安全是任何時(shí)候都必須關(guān)注的。安全分為數(shù)據(jù)完整性,數(shù)據(jù)可靠性,數(shù)據(jù)防篡改性等等。災(zāi)備是為了防范數(shù)據(jù)丟失的安全風(fēng)險(xiǎn),同時(shí)也要綜合考慮數(shù)據(jù)的安全性。所采用的安全手段應(yīng)該是對(duì)數(shù)據(jù)安全有利的,而不會(huì)反而成為風(fēng)險(xiǎn)隱患或性能隱患。
八、災(zāi)難恢復(fù)演練中關(guān)心的問(wèn)題
[典型問(wèn)題]
上了災(zāi)備后,怎么進(jìn)行演練?
多長(zhǎng)時(shí)間進(jìn)行一次災(zāi)備演練?
切換后對(duì)數(shù)據(jù)是否異常有什么好的方法進(jìn)行驗(yàn)證碼?
演練中你曾經(jīng)跳進(jìn)過(guò)哪些坑?
[觀點(diǎn)總結(jié)]
?觀點(diǎn)一:
主要是手工切換,一年一次或者兩次。
?觀點(diǎn)二:
演練是必須的過(guò)程,一年一次是必要的。每次演練都可能能發(fā)現(xiàn)之前的手冊(cè)的不完善,并加以補(bǔ)充完善。還有演練需要有實(shí)績(jī)業(yè)務(wù)支持才能驗(yàn)證其有效性。災(zāi)難時(shí)的應(yīng)急預(yù)案要實(shí)現(xiàn)準(zhǔn)備好,應(yīng)急流出要梳理清楚。系統(tǒng)相關(guān)業(yè)務(wù)、技術(shù)人員的應(yīng)急手順書(shū)都要有,并且經(jīng)過(guò)培訓(xùn)和模擬測(cè)試。災(zāi)備系統(tǒng)演練時(shí)需要退避生產(chǎn)系統(tǒng),網(wǎng)絡(luò)、存儲(chǔ)、主機(jī)從災(zāi)備端開(kāi)啟后,模擬生產(chǎn)環(huán)境進(jìn)行測(cè)試,網(wǎng)絡(luò)外部接口全部封閉,避免不正常的業(yè)務(wù)數(shù)據(jù)通過(guò)接口流出,造成其他在線系統(tǒng)的異常。演練過(guò)后能鏟掉災(zāi)備環(huán)境的數(shù)據(jù),恢復(fù)生產(chǎn)環(huán)境的網(wǎng)絡(luò)存儲(chǔ)主機(jī)。
?觀點(diǎn)三:
模擬演練,一般一年要做一次,可以安排在業(yè)務(wù)非高峰時(shí)段,證券行業(yè)比較特殊,一般每年會(huì)有那么兩次演練。
?觀點(diǎn)四:
災(zāi)備演練每年至少演練一次,演練類型可以是模擬演練、實(shí)戰(zhàn)演練、部分演練和全面演練。大多企業(yè)采用模擬演練。
?觀點(diǎn)五:
廠家提供的災(zāi)備方案通常只能提供底層的存儲(chǔ)接管和應(yīng)用的啟停。真正實(shí)施的時(shí)候一定要熟練掌握本地應(yīng)用系統(tǒng)的技術(shù)人員協(xié)同實(shí)施。我碰到過(guò)廠家實(shí)施災(zāi)備系統(tǒng)后(WAS+DB2)操作系統(tǒng)切換,WAS應(yīng)用確實(shí)在備機(jī)上自動(dòng)啟動(dòng)起來(lái)了,但是因?yàn)閷?shí)施時(shí)應(yīng)用程序包沒(méi)有放到共享存儲(chǔ)中,兩臺(tái)機(jī)器本地存儲(chǔ)各放了一份。導(dǎo)致新的WAS運(yùn)行的程序包是最老的版本,導(dǎo)致切換失敗。
?觀點(diǎn)六:
版本不一致這個(gè)也是一個(gè)問(wèn)題
?觀點(diǎn)七:
做好數(shù)據(jù)同步,確保容災(zāi)端的數(shù)據(jù)和應(yīng)用都是最新的,配置文件也不能錯(cuò)
?觀點(diǎn)八:
切換后注意對(duì)關(guān)聯(lián)系統(tǒng)的影響,注意IP地址,確認(rèn)業(yè)務(wù)運(yùn)行在哪一端了。(網(wǎng)絡(luò)策略很重要)演練盡可能減少對(duì)生產(chǎn)的影響。
評(píng)論