半年籌備,三個月遷移,揭秘華新水泥的公有云遷移之路
2020 年 1 月 16 日,華新水泥將所有業(yè)務(wù)生產(chǎn)系統(tǒng)成功遷移至華為云上。1 月 23 日,由于新冠肺炎的蔓延,武漢宣布封城,而這家數(shù)據(jù)中心位于武漢的傳統(tǒng)制造企業(yè),因為及時遷移至公有云,公司業(yè)務(wù)和系統(tǒng)運(yùn)維在疫情期間均未受到影響。
“真的很慶幸,我們在這個時間節(jié)點完成了公司業(yè)務(wù)生產(chǎn)系統(tǒng)的公有云遷移,”在采訪中,華新水泥數(shù)創(chuàng)中心系統(tǒng)運(yùn)維部劉哲松部長表示:“整個封城期間交通管制,運(yùn)維人員無法前往公司機(jī)房,但公司業(yè)務(wù)與系統(tǒng)運(yùn)維沒有受到絲毫影響,所有 IT 問題在線解決。”
據(jù)了解,整個華新水泥上云項目前后共有 30 多個工程師參與其中,包括華新水泥方的實施人員、業(yè)務(wù)測試人員、開發(fā)人員和華為方的實施人員。
為什么要上公有云?
華新水泥始創(chuàng)于 1907 年,是一家百年企業(yè),在國內(nèi)外共有 150 個左右分公司,員工人數(shù)約有 18000,2018 年的營收為 320 億。
作為一家典型的傳統(tǒng)制造企業(yè),其核心系統(tǒng)都有哪些呢?劉哲松表示:“在華新水泥比較重要的核心系統(tǒng)包含兩類,一類是生產(chǎn)系統(tǒng),即與生產(chǎn)運(yùn)行相關(guān)的系統(tǒng),例如 DCS 控制系統(tǒng),另一類是業(yè)務(wù)系統(tǒng),例如我們常說的 ERP 系統(tǒng)、營銷物流采購系統(tǒng)等,華新水泥的 ERP 系統(tǒng)是采用的 SAP,營銷物流采購系統(tǒng)主要是一些自開發(fā)系統(tǒng)。”
為什么會有上云的想法呢?劉哲松表示:“這個想法我們有了很久了,同時也做了很多調(diào)研和論證,如果非要說原因,大致可以從費(fèi)用和自用架構(gòu)優(yōu)化兩個方面來講?!?/p>
費(fèi)用
大部分企業(yè)上云的主要目的是降低成本,華新水泥也不例外。在前期評估中他們發(fā)現(xiàn),如果上了公有云,年度運(yùn)維成本至少可以節(jié)約 30% 到 40%。其中,節(jié)約的費(fèi)用主要來自專線費(fèi)用、維保費(fèi)用和電費(fèi)。
專線費(fèi)用:華新水泥之前使用的是星型的網(wǎng)絡(luò)結(jié)構(gòu),全國分公司都需要拉一條專線到武漢總公司;
維保費(fèi)用:上云之前,華新水泥每年需要支付高額的硬件維保費(fèi)用,包括但不限于服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備、機(jī)房設(shè)施、發(fā)電機(jī)等等;
電費(fèi):華新水泥兩個機(jī)房每年的電費(fèi)大致在一百多萬,上云的話,電費(fèi)可以節(jié)約 50% 左右。
自有架構(gòu)的限制
選擇上公有云的另一個重要原因是原本的自有架構(gòu)在很多方面都有掣肘,不夠靈活高效。劉哲松表示:“我們原來的自有架構(gòu)會受限于運(yùn)營商網(wǎng)絡(luò)、園區(qū)電力、網(wǎng)絡(luò)以及機(jī)器的資源利用率,同時還有資源采購周期。”
運(yùn)營商網(wǎng)絡(luò):為什么會說受制于運(yùn)營商呢?舉個最簡單的例子,如果因為某些原因,道路光纖被挖斷,那么我們能做的只有報修,沒有其它辦法,何時恢復(fù),那就要看運(yùn)營商的搶救速度。
園區(qū)電力:一旦停電,機(jī)房的電力就會自動切換至發(fā)電機(jī)供電,這就要保證在出現(xiàn)問題時,發(fā)電機(jī)是可以正常使用的,不僅需要定期維護(hù)保養(yǎng)測試,還需要購置柴油自行加灌;
網(wǎng)路問題:華新水泥實現(xiàn)了三網(wǎng)聯(lián)通,同時接入了電信、移動和聯(lián)通,但是要做到每個業(yè)務(wù)系統(tǒng)的實時三網(wǎng)聯(lián)通代價較大,所以部分業(yè)務(wù)是單線網(wǎng)絡(luò)。另外,制造型企業(yè)一般使用的是二級網(wǎng)絡(luò)資源,在速率、帶寬與穩(wěn)定性方面都有所限制;
資源利用率:公有云的最大特征是可以彈性伸縮,上云之后資源利用率會得到很大的提升;華新水泥的 IT 資產(chǎn)折舊是 8 年,其中核心設(shè)備會根據(jù)健康狀態(tài)提前更換,其它設(shè)備基本是會使用到 8 年折舊周期,甚至可能會使用更長時間,而公有云提供商的設(shè)備資源通常上三到五年,相比之下,故障率會少很多。
資源采購周期:通常,華新水泥的采購從提交申請,到審批、招投標(biāo)定標(biāo)、到貨,差不多要 30 天,而云上部署 0.5-1 小時即可。
技術(shù)選型
2014 年,華新水泥主要是以虛擬化為主,使用的是微軟 Hyper-V,2017 年,華新水泥與 IBM 合作上線了一套基于 OpenStack 的私有云系統(tǒng),2018 年,隨著公有云技術(shù)的不斷成熟、用戶數(shù)量的增加、云上成本的下降,華新水泥開始開始調(diào)研公有云項目,2019 年,華新水泥正式啟動項目組來調(diào)研。
2019 年 3-9 月,項目組在調(diào)研了半年之后,決定要將公司系統(tǒng)搬上公有云。那么,問題來了,要上哪朵云呢?
據(jù)了解,華新水泥項目組先是從 IDC 報告中選擇了目前中國市場份額排名前十的公有云供應(yīng)商,最后重點調(diào)研了四家公有云廠商:亞馬遜、阿里、騰訊和華為。然后根據(jù)現(xiàn)有的技術(shù)架構(gòu)和需求,梳理出當(dāng)前容量需求,架構(gòu)設(shè)計,整體評估該項目的費(fèi)用、后期長續(xù)費(fèi)用及售后服務(wù)等,有的放矢地去評估每家廠商。
由于華新水泥的 ERP 系統(tǒng)使用的是 SAP,因此 SAP 的云上認(rèn)證資質(zhì)很重要。經(jīng)過綜合考慮,華新水泥決定在三家公有云上先后做了 POC、遷移 Demo、性能測試以及一些運(yùn)維工作,結(jié)果發(fā)現(xiàn)這三者各有優(yōu)勢。劉哲松認(rèn)為:“沒有一朵云是完美的,各有特點,需要根據(jù)自身需求進(jìn)行選擇”。
華為云:它的最大優(yōu)勢是本身就是設(shè)備制造商,在成本方面具備一定優(yōu)勢,但不足是整個技術(shù)棧和工具不是很豐富,互聯(lián)網(wǎng)思維也沒有其它家成熟;
亞馬遜(AWS):它的最大優(yōu)勢是技術(shù)和架構(gòu)很成熟,并且 AWS 擁有一個殺手锏是可以提供 Oracle DBaaS 服務(wù)。但是 AWS 也有很多局限性,第一,AWS 在國內(nèi)的數(shù)據(jù)中心主要分布在兩個地方:北京和寧夏,并由國內(nèi)兩家運(yùn)營商分開運(yùn)維,這就意味著在最開始就要決定是選擇在北京還是寧夏;第二,AWS 的收費(fèi)模式與其它云商略有不同;第三,要考慮 AWS 公司的特殊性和中美大環(huán)境。
阿里云:目前阿里云是中國公有云市場份額的第一,大致可以達(dá)到 60%-70%,但中小客戶比例較大,因此對于 B 端客戶的運(yùn)維服務(wù)會更多地依賴外部協(xié)同。
最后,華新水泥對三家云商進(jìn)行了招投標(biāo),招標(biāo)前給出了一份十分詳細(xì)的評分細(xì)則,包括各種資源的費(fèi)用、SLA 服務(wù)等級協(xié)議、實施周期、投入人員的級別和數(shù)量等等。經(jīng)過綜合考慮和費(fèi)用評估,最終選定了華為云。
遷移過程
2019 年 9 月到 2020 年 1 月,華新水泥整個遷移共歷時三個多月,遷移過程可以按業(yè)務(wù)關(guān)聯(lián)性、系統(tǒng)復(fù)雜度等維度,劃分為 4 個階段。
第一階段是遷移準(zhǔn)備: 這一階段需要將所有業(yè)務(wù)系統(tǒng)關(guān)鍵信息整理出來,包括所有業(yè)務(wù)的關(guān)聯(lián)性關(guān)系、應(yīng)用組件版本、調(diào)用關(guān)系配置文件信息、IP 連接改造成域名連接等等。
第二階段是網(wǎng)絡(luò)環(huán)境準(zhǔn)備: 這一階段主要是進(jìn)行云上網(wǎng)絡(luò)環(huán)境規(guī)劃和配置、專線拉通和聯(lián)調(diào)、VPN 配置和專線形成冗余。
其中,網(wǎng)絡(luò)環(huán)境配置是根據(jù)網(wǎng)絡(luò)架構(gòu)拓?fù)鋪韺嵤┡渲镁W(wǎng)絡(luò),創(chuàng)建相應(yīng)的 VPC 和子網(wǎng), 通過專線網(wǎng)關(guān)連接到 IDC 網(wǎng)絡(luò)環(huán)境,通過路由配置打通云上和云下的網(wǎng)絡(luò)。
而 Poc 測試則是選擇比較典型和核心的業(yè)務(wù)系統(tǒng)進(jìn)行 poc 測試上云,測試出這些業(yè)務(wù)系統(tǒng)上云的風(fēng)險點和難點,進(jìn)行相應(yīng)的方案規(guī)劃和規(guī)避,降低風(fēng)險和難點。
第三階段是遷移獨立業(yè)務(wù)系統(tǒng):通過第一階段整理的信息將業(yè)務(wù)系統(tǒng)分成獨立的業(yè)務(wù)系統(tǒng)和關(guān)聯(lián)的業(yè)務(wù)系統(tǒng),并把獨立的業(yè)務(wù)系統(tǒng)和主機(jī)遷移上云。
這個階段雖然是遷移獨立業(yè)務(wù)系統(tǒng),但存在疏忽潛在業(yè)務(wù)流程關(guān)聯(lián)的風(fēng)險,需要仔細(xì)核對分析。遷移過程中也會有很多難點,例如很多業(yè)務(wù)系統(tǒng)使用的是 Windows 2003 32 位系統(tǒng),存在很高的鏡像改造風(fēng)險,需要在公有云上進(jìn)行穩(wěn)定性測試;Redhat6.2 系統(tǒng)同樣需要鏡像改造,測試周期長,甚至可能會拖整個遷移周期的后腿;殺毒系統(tǒng)可能會攔截遷移工具端口,導(dǎo)致遷移失?。煌瑫r,還需要建立域控系統(tǒng),將云上新建的輔助域控升級成為主域。
第四階段是遷移關(guān)聯(lián)的業(yè)務(wù)系統(tǒng):將所有與業(yè)務(wù)關(guān)聯(lián)的系統(tǒng)一并遷移上云。這一階段幾乎把所有的核心業(yè)務(wù)系統(tǒng)都遷移上云了,遷移難度和工作量可想而知。
由于這個階段涉及到的業(yè)務(wù)系統(tǒng)都是相互關(guān)聯(lián)的,所以在業(yè)務(wù)關(guān)聯(lián)性聯(lián)調(diào)和 IP 改造方面存在很大風(fēng)險。與前一階段一樣,Windows 2003 32 位系統(tǒng)和 Redhat6.2 系統(tǒng)都需要進(jìn)行鏡像改造和測試,另外還需留意第二階段的應(yīng)用與第三階段應(yīng)用是否有相互調(diào)用的情況,如果有就要多次割接。
以 AIX 小機(jī)的 Oracle 遷移為例,華新水泥采用的方案是 XTTS(Cross Platform Transportable Tablespaces) 表空間復(fù)制。Oracle 11.2.0.4 中引入了增強(qiáng)版的 XTTS 技術(shù),在數(shù)據(jù)量較大的情況下,傳統(tǒng)的 TTS 很難滿足要求,而 XTTS 則可以在生產(chǎn)庫保持正常運(yùn)行的情況下,傳送所有表空間數(shù)據(jù)文件,通過不斷生成增量備份進(jìn)行數(shù)據(jù)恢復(fù),最大程度減少遷移所需要的停機(jī)時間。
完成這四個階段的遷移之后,華新水泥的下一步是實施容災(zāi)備份,包括同城容災(zāi)和異地容災(zāi)。其中同城容災(zāi)是采用華為云跨 AZ 容災(zāi),RPO=0,RTO<15 分鐘,而異地容災(zāi)采用的是跨 Region 容災(zāi),主系統(tǒng)和容災(zāi)系統(tǒng)部署在不同城市,可抵抗地域級災(zāi)害。
實施效果
據(jù)了解,目前華新水泥遷移到華為云上的系統(tǒng)共有 40 余套,所有虛擬機(jī)的數(shù)量為 200+,整體數(shù)據(jù)量約為 65TB。
華新水泥整個實施方案中比較獨特的一點是,它將生產(chǎn)系統(tǒng)完全遷移到了公有云上,而大多數(shù)的開發(fā)測試系統(tǒng)卻留在了本地。為什么會選擇這樣的部署方式呢?
據(jù)了解,這種選型方案主要是出于兩方面的考慮,一方面是為了保護(hù)資產(chǎn)投資,華新水泥原來自建機(jī)房的設(shè)備不可能完全變賣,為了充分利用資源,在其上運(yùn)行了開發(fā)測試系統(tǒng),等這部分設(shè)備快到使用壽命時,在逐步將開發(fā)測試遷移到公有云。另一方面,考慮到開發(fā)測試系統(tǒng)對 SLA 的要求沒有那么高,目前自建機(jī)房的設(shè)備足以支撐。
經(jīng)驗總結(jié)
傳統(tǒng)企業(yè)上云絕不是一件可以跟風(fēng)、隨潮流的事情,“遷移上云項目的整體規(guī)劃和步驟是非常重要的”,劉哲松表示:“因為系統(tǒng)遷移會涉及到停機(jī),而停機(jī)就意味著實際的損失。”
另外,劉哲松認(rèn)為傳統(tǒng)企業(yè)上云一定要做好整個項目組的配置,內(nèi)部與外部都要有技術(shù)匹配的成員。如果完全外包,那么這個項目一定是做不好的,因為外部顧問對系統(tǒng)架構(gòu)、系統(tǒng)之間的聯(lián)系,甚至是系統(tǒng)原本就存在的“坑”是完全不清楚的;其次,如果外部顧問能力不夠,那么這個項目也很難完成,從客戶的角度來看,完成一個公有云項目,即使是提前做了調(diào)研和 Demo,但仍是有很多公有云中的特有設(shè)置,需要專業(yè)人士,甚至是原廠工程師來共同實施。
編輯:李佳婷
監(jiān)督:0571-85871667
投稿:news@ccement.com