2011年12月22日,在工業(yè)信息化部、信息化推進(jìn)司、中國數(shù)據(jù)中心產(chǎn)業(yè)聯(lián)盟的支持下,中國IDC產(chǎn)業(yè)聯(lián)盟網(wǎng)承辦2011中國數(shù)據(jù)中心建設(shè)與運(yùn)維高層論壇開幕了,此次論壇以“領(lǐng)先科技,締造未來”為主題,與會(huì)將就新一代數(shù)據(jù)中心規(guī)劃,建設(shè),運(yùn)維,和安全等實(shí)質(zhì)性問題進(jìn)行廣泛探討和互動(dòng)交流。機(jī)房360對(duì)本次高層論壇做了全程直播。以下是王加?xùn)|演講的全文實(shí)錄:
王加?xùn)|:各位來賓大家下午好,現(xiàn)在由我給大家介紹一下SNA存儲(chǔ)網(wǎng)絡(luò)故障,排錯(cuò)方案。我們這個(gè)主題跟今天上午,包括今天下午大部分主題發(fā)言范圍,可能差距比較大一些,并沒有涉及到一些基礎(chǔ)系統(tǒng)建設(shè),包括運(yùn)維。我們這個(gè)
系統(tǒng)解決方案是用戶的
服務(wù)器,網(wǎng)絡(luò)設(shè)備,包括存儲(chǔ)系統(tǒng)已經(jīng)上線以后,他的各種業(yè)務(wù)系統(tǒng)已經(jīng)上線以后,如果出現(xiàn)后端
服務(wù)器跟存儲(chǔ)系統(tǒng)之間性能比拼,就可能用到我們SNA的解決方案。所以,還是一個(gè)比較細(xì)分的市場(chǎng),我是負(fù)責(zé)數(shù)據(jù)存儲(chǔ)網(wǎng)絡(luò)這塊業(yè)務(wù)在亞洲的市場(chǎng)拓展。
我們本次大概會(huì)有下面幾個(gè)部分,一個(gè)是國內(nèi)外大型機(jī)構(gòu)數(shù)據(jù)中心系統(tǒng)及維護(hù)模式不同,包括部署工具之前和之后的場(chǎng)景。另外,我們會(huì)簡單介紹一下存儲(chǔ)網(wǎng)絡(luò)分析幾個(gè)典型應(yīng)用場(chǎng)景,最后就我們的解決方案做一個(gè)簡單介紹,包括也會(huì)提到我們目前在上海,包括北京、上海的客戶案例。首先我們看一下大型機(jī)構(gòu)數(shù)據(jù)中心在國內(nèi)外系統(tǒng)維護(hù)模式不同,這是一個(gè)ESG創(chuàng)始人講的一段話,現(xiàn)在IT系統(tǒng)越來越復(fù)雜,問題也越來越多,在應(yīng)用各個(gè)當(dāng)中也提出越來越多的挑戰(zhàn),我們需要使用一些好的工具,或者是維護(hù)的解決方案定義出問題來。
這個(gè)是國外大型機(jī)構(gòu)跟國內(nèi)大型機(jī)構(gòu)目前一些不同,我們?cè)趪鴥?nèi)跟很多機(jī)構(gòu)用戶做過很多交流,國外目前,其實(shí)我們發(fā)現(xiàn)他稅金規(guī)模已經(jīng)相當(dāng)龐大,不說現(xiàn)在,即便10年以前。我們發(fā)現(xiàn)包括美國,在歐洲并不是一些很知名類似于金融,證券,運(yùn)營商這種客戶,他的數(shù)據(jù)中心與我們10年以后,中國很多大型機(jī)構(gòu)基本上還要大很多。因?yàn)檫@幾年國內(nèi)數(shù)據(jù)機(jī)房建設(shè)也越來越大,規(guī)模也越來越大,部署的系統(tǒng)和業(yè)務(wù)越來越大,也有趕超的趨勢(shì)。目前來講,相對(duì)是小一些。
那么,國內(nèi)因?yàn)橐?guī)模比較大出的問題也非常多,目前相對(duì)來講,國內(nèi)因?yàn)橐?guī)模的問題相對(duì)還小一些。我們跟很多金融企業(yè)溝通起來,很多問題還是僅限于線,包括鏈路的問題等等,很多問題可能通過應(yīng)用跟系統(tǒng)本身提供的一些管理軟件也可以得到解決,碰到非常復(fù)雜的問題前幾年并不是特別多。這幾年規(guī)模慢慢大起來以后,問題也慢慢出來了。在國外的話,他的用戶碰到問題的時(shí)候,除了使用像系統(tǒng)廠商提供的一些管理系統(tǒng),還有一些
服務(wù)器的管理系統(tǒng),網(wǎng)絡(luò)設(shè)備與網(wǎng)絡(luò)設(shè)備的管理系統(tǒng),智能設(shè)備與智能設(shè)備的管理系統(tǒng)。除此之外,還有很多第三方網(wǎng)管工具,或者是管理工具,包括比方說我們上了這種業(yè)務(wù)系統(tǒng)以后,我們碰到這種應(yīng)用性能的問題,我這個(gè)業(yè)務(wù)系統(tǒng),對(duì)終端用戶連上來以后覺得非常慢,打開一個(gè)頁面查一個(gè)東西,可能幾十秒鐘出不來結(jié)果,這就是性能的問題。
實(shí)際上來講,國外的公司現(xiàn)在已經(jīng)越來越多利用第三方整個(gè)工具,包括我下面提的應(yīng)用性能管理的問題,典型代表像美國一些公司,大家可能對(duì)Snifer都比較熟悉,對(duì)你以太網(wǎng)進(jìn)行監(jiān)控和分析。國內(nèi)目前來看,我們碰到大部分問題,尤其企業(yè)一些基本客戶還是比較傾向于碰到問題的時(shí)候,尤其稍微復(fù)雜的問題都還是叫廠商過來,他們也買了廠商7×24小時(shí)的服務(wù),一個(gè)電話就過來,廠商也非常重視,因?yàn)槭谴蟮臋C(jī)構(gòu)用戶。所以,出現(xiàn)問題的時(shí)候,像包括
服務(wù)器,數(shù)據(jù)庫,中間件,交換機(jī),存儲(chǔ)設(shè)備都會(huì)過來,不行就做多方會(huì)診解決問題,目前這種情況還是比較多一些。
那么,自己獨(dú)立配置一些第三方診斷,運(yùn)維工具來進(jìn)行診斷,目前這種情況還不是非常多。這個(gè)就是剛才我提到的,這是通過美國一個(gè)公司生成業(yè)務(wù)拓?fù)鋱D,從這個(gè)圖上面可以容易讓你知道,一個(gè)用戶請(qǐng)求經(jīng)過每一步的研究,會(huì)很方便找到問題在哪一個(gè)點(diǎn)。但是,我們知道一旦問題點(diǎn),比如這張圖里面最右邊的數(shù)據(jù)庫,
服務(wù)器跟系統(tǒng)之間的時(shí)候,這個(gè)時(shí)候帶來的問題就兩個(gè)方向。一個(gè)方向你如果查數(shù)據(jù)庫內(nèi)部資源,比如
服務(wù)器內(nèi)部像CPU,內(nèi)存,網(wǎng)絡(luò),各種資源進(jìn)程如果都非常正常的話,你數(shù)據(jù)庫
服務(wù)器對(duì)客戶端請(qǐng)求仍然非常慢。那問題就在什么地方呢?肯定跟后端存儲(chǔ)網(wǎng)絡(luò)有關(guān)系。
但是,即便剛剛提到的數(shù)據(jù)庫
服務(wù)器本身都有正常,并不一定是后端存儲(chǔ)的問題。所以,我們這個(gè)分析工具就應(yīng)該在這個(gè)地方,用在數(shù)據(jù)庫
服務(wù)器跟交換機(jī),存儲(chǔ)之間這個(gè)環(huán)節(jié)。我們通過相應(yīng)的數(shù)據(jù),進(jìn)行一定的分析,并且非常明確的告訴用戶,性能的慢或者不穩(wěn)定,各種問題,根源到底是不是存儲(chǔ)系統(tǒng),是不是交換機(jī),或者是不是我這個(gè)
服務(wù)器。所以,這是我們適用的范圍。
那么,一個(gè)典型的部署,我們這個(gè)產(chǎn)品是Xgig,一般是終端用戶報(bào)告我的業(yè)務(wù)系統(tǒng)慢,我用的ERP慢,計(jì)費(fèi)系統(tǒng)慢,供應(yīng)鏈管理系統(tǒng)慢,慢可能就會(huì)聯(lián)絡(luò)到存儲(chǔ)管理員,可能會(huì)懷疑存儲(chǔ)系統(tǒng)慢及存儲(chǔ)網(wǎng)絡(luò)慢。那么存儲(chǔ)管理員第一步會(huì)使用一些存儲(chǔ)資源管理,或者SNA的管理人員進(jìn)行定位。如果你找到了很簡單,你可能通過一個(gè)手段消除這個(gè)問題的根源,應(yīng)用性能的豐富。如果找不到問題,就進(jìn)一步通過設(shè)備管理工具進(jìn)行定位,如果找到了OP,找不到可能這個(gè)時(shí)候就沒辦法聯(lián)系廠商。但是,用戶自己可能會(huì)覺得是
服務(wù)器問題,有一個(gè)初斷,或者是存儲(chǔ)的問題,相應(yīng)會(huì)把廠商叫過來。當(dāng)然先通過電話,電話不行再通過上門服務(wù)。你懷疑這個(gè)節(jié)點(diǎn)確實(shí)有問題解決了,結(jié)果不了就得叫另外一個(gè)長上過來。
如果大家都看不到問題的話,把大家都叫在一起進(jìn)行多方會(huì)診。但是有些問題,剛才談存儲(chǔ)網(wǎng)絡(luò)復(fù)雜以后有些問題不是這么簡單的,可能從某一方,從
服務(wù)器自身來看,看你上面記錄,進(jìn)程資源情況都很好,交換機(jī)也好的,存儲(chǔ)系統(tǒng)能力也很好,可能存儲(chǔ)廠商人員可能會(huì)通過密碼登入內(nèi)部,這也是好的。這個(gè)問題怎么辦呢?最終結(jié)果,往往還是說要部署我們第三方工具,來抓一些數(shù)據(jù)進(jìn)行一個(gè)分析,最終進(jìn)行定義。如果數(shù)據(jù)中心里面事先部署了SNA的分析工具,這個(gè)情況就跟剛才不大一樣。一般如果有問題打給存儲(chǔ)管理員,存儲(chǔ)管理員如果找到問題就OK,如果覺得一看性能沒問題,直接就進(jìn)行排除,應(yīng)用慢就找其他環(huán)節(jié),就不是我后臺(tái)存儲(chǔ)網(wǎng)絡(luò)的問題。如果通過工具一看,如果慢的根源就在存儲(chǔ)網(wǎng)絡(luò),我們就抓一些數(shù)據(jù)來進(jìn)行分析,這個(gè)問題在什么地方,可能是什么原因,包括存儲(chǔ)網(wǎng)絡(luò)存儲(chǔ)和
服務(wù)器的理解情況,使問題得到解決,如果解決不了,我也可以很快把抓的數(shù)據(jù)發(fā)給廠商。因?yàn)檫@些廠商都會(huì)看的懂我們抓的數(shù)據(jù),他們很快就會(huì)對(duì)一些問題,給客戶一個(gè)解釋。
當(dāng)然,沒必要等用戶跑到現(xiàn)場(chǎng)來抓數(shù)據(jù)進(jìn)行分析,也耽誤了很多時(shí)間。我們前面談到存儲(chǔ)網(wǎng)絡(luò)分析工具,目前常用的幾個(gè)場(chǎng)景有這么幾個(gè)地方,一個(gè)因?yàn)闃I(yè)務(wù)慢,這可能是我們碰到最多問題,你等到業(yè)務(wù)上線以后,可能平常應(yīng)該很正常。在某些時(shí)段,或者某些場(chǎng)合下面你會(huì)發(fā)現(xiàn)性能不好,剛才講了你可以聯(lián)通,但是大家體驗(yàn)不好,查個(gè)東西,寫個(gè)數(shù)據(jù)很難忍受,他這種情況比較容易解決。還有業(yè)務(wù)系統(tǒng)沒有規(guī)律的,包括不穩(wěn)定的情況,這兩種情況是更好使用我們的產(chǎn)品。下面會(huì)談四種常見案例,第一種就是我們看到應(yīng)用系統(tǒng)的可用性。應(yīng)用系統(tǒng)一般都在
服務(wù)器上面,訪問后端存儲(chǔ)系統(tǒng),如果慢的話?我們可以把我們工具通過光纖分路器拿出來進(jìn)行分析,來判斷是不是在存儲(chǔ)網(wǎng)絡(luò)這一側(cè)出現(xiàn)問題。
第二向一些,如果大的數(shù)據(jù)中心我們就會(huì)做遠(yuǎn)程災(zāi)備,建災(zāi)備中心。災(zāi)備中心兩端設(shè)備會(huì)定期進(jìn)行備份,這個(gè)時(shí)候我們就可以來看,相當(dāng)于復(fù)制的性能到底怎么樣。還有我們會(huì)做一些對(duì)數(shù)據(jù)中心存儲(chǔ)系統(tǒng)一側(cè)進(jìn)行監(jiān)測(cè),當(dāng)然這還不止電子商務(wù)網(wǎng)站,一般企業(yè)應(yīng)用,只要把存儲(chǔ)這一側(cè)監(jiān)測(cè)起來,所有業(yè)務(wù)系統(tǒng),訪問存儲(chǔ)這一端如果慢很快就可以找到根源,進(jìn)行集中監(jiān)控。
還有現(xiàn)在很多集成系統(tǒng)廠商把老的東西和新的東西整合在一起,所有
服務(wù)器都通過存儲(chǔ)網(wǎng)絡(luò)統(tǒng)一訪問存儲(chǔ)信息化系統(tǒng),有他來分配數(shù)據(jù)整體到哪些具體上面。往往這個(gè)時(shí)候,我們發(fā)現(xiàn)很多用戶也碰到一些快慢問題,你反而沒上信息化之前是好的,上了信息化之后反而問題更多。這種場(chǎng)合也非常適合用我們這個(gè)東西,我們?cè)谔摂M化系統(tǒng)前端和后端都把這個(gè)抓下來進(jìn)行分析,我們就要比較一下,比方說前端后端延遲到底怎么樣,很容易得到問題的答案。
下面我們稍微簡單看一下捷迪訊公司一些業(yè)務(wù),包括我們產(chǎn)品的情況。捷迪訊公司是99年加拿大JDS和美國Uniphase合并而成,總部設(shè)在美國硅谷Milpitas,NASDAQ上市公司。2009年7月15日收購美國Finisar公司協(xié)議工具部門,踏入存儲(chǔ)網(wǎng)絡(luò)測(cè)試領(lǐng)域,我們涉及FC協(xié)議分析,SAS,SATA協(xié)議,iSCS,CIFS,NFS協(xié)議都非常擅長,我們有一個(gè)MedusaLabs實(shí)驗(yàn)室,進(jìn)行一些測(cè)試服務(wù)。這是使用我們這個(gè)產(chǎn)品的客戶,基本上可以看到,業(yè)界從做存儲(chǔ)網(wǎng)卡到存儲(chǔ)交換機(jī),到存儲(chǔ)系統(tǒng),甚至包括存儲(chǔ)硬盤都是我們客戶。
我們現(xiàn)在這個(gè)產(chǎn)品還抓了數(shù)據(jù)格式,各個(gè)廠商,基本上用戶數(shù)據(jù)中心里面涉及的主機(jī),交換機(jī)等等都會(huì)認(rèn)識(shí),他們的工程師也都會(huì)用我們這個(gè)工具進(jìn)行分析。這個(gè)展品就是我們前面提到Xgig的產(chǎn)品,其實(shí)是一個(gè)硬件設(shè)備。當(dāng)然了,我們具體的配置,管理,分析也是通過軟件來做的,設(shè)備的主要目的是為了把存儲(chǔ)網(wǎng)絡(luò)鏈路上的數(shù)據(jù)拿下來存在里面,然后我這個(gè)電腦裝的軟件,把系統(tǒng)設(shè)備找出來進(jìn)行分析,找出問題根源。
這是幾個(gè)協(xié)議,一個(gè)是FibreChannel,還有存儲(chǔ)交換機(jī),還有主力系統(tǒng),現(xiàn)在都有8G,還有廠商正在研究16G協(xié)議,真正用戶部署還得2年以后。以太網(wǎng)這塊,包括像1個(gè)3,10個(gè)G,40G都可以進(jìn)行分析,另外還有SaaS的協(xié)議也都可以做分析。這是我們軟件的一個(gè)運(yùn)行界面,通過界面可以看到,這是XgigFC協(xié)議分析解碼界面,左下角基本上類似于Xgig的界面,從這當(dāng)中進(jìn)行解碼出來。這個(gè)是對(duì)抓的數(shù)據(jù)進(jìn)行一個(gè)系統(tǒng)專家分析,告訴你什么地方有什么問題,紅色的表示出錯(cuò),紅色是警告。前面也提到為了應(yīng)用我們解決方案,首先第一步要從鏈路上把這個(gè)拿下來,要經(jīng)過高密度分光路器,這是一個(gè)實(shí)際圖,這是一個(gè)機(jī)架設(shè)備,4個(gè)小模塊,每個(gè)模塊有四組,每一組有三個(gè)端口,其中前面兩個(gè)端口相當(dāng)于一進(jìn)一出。第三個(gè)端口把兩個(gè)方向數(shù)據(jù),可以拿出來,跟我們工具的連接是這樣的。
我們可以看到第三個(gè)端口,出來的兩個(gè)鏈路數(shù)據(jù)直接可以接到我們工具這兩個(gè)端口上。右上角這個(gè)圖,如果接在交換機(jī)和傳統(tǒng)設(shè)備之間的話,高密度分裝器如何連接的。下面舉兩個(gè)案例,這是國內(nèi)銀行間互聯(lián)機(jī)構(gòu)。他們今年3月份出了一個(gè)問題,每天晚上9點(diǎn)多鐘,基本上這個(gè)時(shí)間,跨行間交易,業(yè)績就會(huì)堵住,在交易大屏幕上可以看到瞬間業(yè)務(wù)訂單就堵塞在那邊,下不下去。
這左邊是一個(gè)數(shù)據(jù)庫
服務(wù)器,IBM,中間四臺(tái)是光纖通道存儲(chǔ)交換機(jī),右邊這臺(tái)是一個(gè)OEM的高端存儲(chǔ),你看走的雙鏈路,
服務(wù)器是兩條鏈路連兩個(gè)交換機(jī),兩個(gè)交換機(jī)連另外兩個(gè)交換機(jī),這兩個(gè)交換機(jī)互相做災(zāi)備。當(dāng)時(shí)其實(shí)用戶沒有用這個(gè)功能之前,找這個(gè)問題已經(jīng)分析了兩三個(gè)月,總會(huì)擔(dān)心會(huì)不會(huì)有根源的問題發(fā)現(xiàn)。為此,用戶這邊包括很多戰(zhàn)略管理人員經(jīng)常通宵達(dá)旦把廠商的人叫過來分析,也分析不出來,一個(gè)IBM,每個(gè)人看自己系統(tǒng)都完全沒有問題,都非常正常,但是這個(gè)問題基本上每天都出現(xiàn)。當(dāng)然,也不是一定某一個(gè)時(shí)間點(diǎn)出現(xiàn),但都會(huì)出現(xiàn)。所以,這個(gè)問題比較復(fù)雜。
我們實(shí)際上現(xiàn)在,當(dāng)然這個(gè)解決方案沒有用到分裝器,我們通過交換機(jī)上做端口競相,分別把
服務(wù)器連兩個(gè)交換機(jī)的兩個(gè)鏈路,以及右邊這兩個(gè)交換機(jī)連存儲(chǔ)兩個(gè)鏈路應(yīng)該競相出來,連在我們這個(gè)設(shè)備,把數(shù)據(jù)抓起來,抓了之后就可以進(jìn)行分析。他這個(gè)系統(tǒng)里面也是一個(gè)多路徑,
服務(wù)器端是負(fù)載均衡的兩條鏈路到這個(gè)系統(tǒng)里來。這個(gè)我們抓過來以后做一定分析,找到這個(gè)流量圖,右邊紅線這個(gè)地方流量基本上就消失了,沒地方要了。這邊是我們專家分析的一些結(jié)果,順著這個(gè)結(jié)果去找根源,發(fā)現(xiàn)他是在第二套鏈路,右邊交換機(jī)連存儲(chǔ)系統(tǒng),這個(gè)鏈路上面,在某一個(gè)時(shí)刻,多少,多少秒,過來的32個(gè)訪問存儲(chǔ)命令全部都掛在那邊,什么意思呢?我讀寫存儲(chǔ)系統(tǒng)的命令,存儲(chǔ)系統(tǒng)完全沒有響應(yīng),掛的時(shí)間是2.6秒鐘。因?yàn)檎碇v的話,你要發(fā)一個(gè)毒的命令到存儲(chǔ)系統(tǒng),存儲(chǔ)系統(tǒng)應(yīng)該回第一個(gè)數(shù)據(jù),第二個(gè)數(shù)據(jù)回來,一個(gè)寫命令,寫在存儲(chǔ)系統(tǒng)上,存儲(chǔ)系統(tǒng)就說你可以寫了,下面存儲(chǔ)器就把這個(gè)寫出來。所以,這些存儲(chǔ)系統(tǒng)都沒有響應(yīng),我們判斷存儲(chǔ)系統(tǒng)這個(gè)時(shí)候內(nèi)部是掛掉的。當(dāng)然,掛的時(shí)間不是很長,2.6秒鐘,但是對(duì)業(yè)務(wù)影響非常關(guān)鍵,我們同時(shí)發(fā)現(xiàn)他跨行間的交易一下子就堵塞了,所以這是很嚴(yán)重的問題。
這是我們具體某一個(gè)命令,你看這上面是讀的命令,下面這行是2.588的地方,這是一個(gè)具體展示。剛剛講的這個(gè)例子問題是在存儲(chǔ)設(shè)備,存儲(chǔ)系統(tǒng)內(nèi)部的問題。我現(xiàn)在講這是一個(gè)北京四大行之一,這個(gè)是今年6月份的時(shí)候,他們要上第三方交易平臺(tái),有一個(gè)上限結(jié)果出問題上不了。因?yàn)檫@個(gè)服務(wù)者考慮這個(gè)系統(tǒng)連起來之后,超過三個(gè)多小時(shí)磁盤找不到了,盤掉了。這個(gè)問題根源是存儲(chǔ)系統(tǒng)那端發(fā)了一個(gè)正常的數(shù)據(jù)包,就是我們現(xiàn)在上面這個(gè)線停在這個(gè)地方,發(fā)了一個(gè)包,發(fā)了一個(gè)主機(jī),結(jié)果主機(jī)存儲(chǔ)門檻碰到這個(gè)包可能有問題,就掛掉了。操作系統(tǒng)過了幾秒鐘之后就提醒應(yīng)用,磁盤也看不見。
去年還是前年在上海有一個(gè)證券交易中心,在這個(gè)地方也出現(xiàn)問題,當(dāng)時(shí)部署我們系統(tǒng)也是15分鐘沒有搞定,之前也是IBM跟EMC重組,大概將近1個(gè)多月也是不知道怎么回事,分析完以后從三個(gè)點(diǎn)一看就是這個(gè)分析系統(tǒng)性能問題,美國研發(fā)也確認(rèn)存儲(chǔ)系統(tǒng)里面有問題,他自己看設(shè)備管理器原來都是很正常的。那么,這個(gè)是我們?cè)趪獗容^多的一些大型客戶成功案例,包括從運(yùn)營商經(jīng)營,證券,大的企業(yè),超算中心也算的非常多。我的介紹就到這里,大家如果以后對(duì)存儲(chǔ)網(wǎng)絡(luò)這塊新的排錯(cuò),調(diào)優(yōu)有什么問題可以聯(lián)系我們?cè)诟鞯氐姆种C(jī)構(gòu),謝謝大家。