一、產品背景

隨著我國進入信息化時代,企業對信息化技術的依賴越來越強。在計算機技術高速發展的今天,存儲作為計算機的一個重要功能在不斷發展著。然而在傳統的計算資源與存儲資源分離的體系架構下,光靠越來越快、核數越來越多的CPU是不夠的,瓶頸在于傳統存儲的硬盤讀寫太慢了,計算主機上大部分的CPU計算能力都空閑或者說在等待存儲數據傳輸過來,這種不匹配的架構已經不能滿足企業IT數據中心高速發展和變化的需求。
擴展困難:
傳統存儲SAN/NAS通過添加新的存儲柜擴容升級(Scale Up),但是這種方法并不能帶來同倍的性能提升。存儲訪問性能并不能隨著虛擬機數據量增加而線性增加,致使存儲訪問性能最終成為數據中心性能和容量的瓶頸。
性能瓶頸
虛擬化將多個業務系統打包成獨立的虛擬機同時運行,眾多虛擬機的同時運行使得整個存儲系統基本都是隨機I/O讀寫,現有存儲通常采用SATA/SAS機械磁盤實現,無法應對大量并發隨機讀寫請求。
服務質量保證問題
虛擬化數據中心中運行著大量不同的應用,這些應用通常對應不同的服務等級。現有存儲為20年前的設計,并沒有考慮虛擬化環境中的應用負載,利用現有存儲很難為不同的應用負載制定存儲性能策略,以適應不同的應用負載。
管理復雜
IT管理員不僅需要同時管理計算和存儲兩套系統,還往往需要面對專有化設備的配置,非常繁瑣。傳統網絡存儲架構SAN/NAS起初是為靜態負載場景設計,對于動態變化的負載,其管理運維就會變得相對復雜。
硬件專有化,成本高
在未來,企業用戶在構建信息系統時最關注的應該是存儲系統的設計與配備。主流存儲廠商使用自行設計的專有芯片去優化I/O路徑,如利用專有芯片做數據壓縮,去冗等。這些專有化硬件帶來的高額研發和生產成本必然會提升存儲系統的總體擁有成本。在政府、醫療、石油、電力、頂級互聯網等超大型信息化應用環境中,普通的存儲產品已經無法滿足爆炸增長的數據業務需求,同時對硬件平臺的性能、價格也會有個更高的要求,更需要一個分布式架構的計算存儲資源池來解脫對性能與價格的束縛。
二、Datapp MergCloud系統設計理念
2.1 分布式計算
Datapp MergCloud采用數據融池分布式集群架構,每一個數據節點都有能力承擔另一數據節點的功能,節點之間用內部的分布式協議完成相互協作和通信,系統中的任意組件都不會成為瓶頸,不但能夠實現橫向擴展,還具備與各種先進的網絡存儲解決方案相同甚至更好的企業級數據管理功能,包括高可用性、備份、快照、災難恢復等。
2.2 系統冗余
Datapp MergCloud始終把可靠性作為系統設計的最高優先級。在實際環境中,任何硬件都無法保證100%可靠,磁盤可能損壞從而導致服務器宕機。為處理這些不可預期的硬件錯誤,保證數據的完整以及業務的連續性,MergCloud采用信息稀疏矩陣算法及加密技術將數據平均分散至每個物理數據節點上,即便一個元數據服務器停機,也完全不影響元數據服務;同一份數據塊也會復制到不同的物理數據節點,防止單點故障。
2.3 虛擬化
Datapp MergCloud 是面向虛擬化環境設計的分布式存儲系統,能夠支持虛擬機遷移和高可用性等的管理功能。MergCloud能夠在不停虛機的情況下實現集群系統升級,可感知數據塊的熱點,調度數據塊到距離VM最近的節點,較少遠程I/O的訪問。
2.4 分層存儲
Datapp MergCloud充分利用了企業級固態硬盤的技術優勢,采用連續自適應數據分片技術對數據進行切分,細粒度可達4KB,同時記錄和分析數據的冷熱程度,將熱門數據分布式地存儲在SSD空間以獲得最高性能,將“冷”數據或非常用數據遷移至大容量機械硬盤空間上。
2.5 自動化管理運維
Datapp MergCloud從部署、日常管理、容錯處理都力爭做到自動化。MergCloud的安裝部署非常簡單迅速,只需簡單配置IP地址和服務器角色等信息就能在1小時內完成安裝部署;當硬盤損壞,數據可靠性降低時,MergCloud會觸發自動修復將數據復制到健康的節點,整個過程無需人工參與。MergCloud提供了Web可視化管理和豐富的分析功能,可以采集和分析當前系統的多維指標,并設置預警,第一時間通知管理員。
三、系統架構及產品功能

Datapp MergCloud是一個由多個高性能服務器節點組成的可實現橫向擴展的集群系統, 集群系統包含有處理器、內存和SSD高速存儲器以及SATA大容量存儲器,每臺計算節點都運行一個標準的管理程序,通過先進的數據管理功能,形成冗余的Server-SAN超融合計算存儲平臺。在這平臺上用戶可以在任意節點上啟動VM,這些VM可像使用本地存儲一樣創建出虛擬盤。
3.1 按需Scale-out擴展
MergCloud摒棄了傳統的通過擴展磁盤柜擴展容量的方式,而是通過添加新的服務器節點同時獲得存儲容量和性能的水平擴展,擴展后的Rack空間、容量和性能是可預估的,能極大幫助企業IT選擇最合適的軟硬件解決方案。

在MergCloud超融合架構中,每一次水平擴展都具有如下特性:
? 自動負載均衡
擴展節點后,MergCloud會根據集群中各個服務器節點的負載和容量使用情況做負載均衡,以達到整個系統的負載均衡,避免單點過熱的情況出現。
? 擴展無需暫停業務
水平擴展只需要將部署了MergCloud的新節點和原有集群連接到同一網絡,通過圖形控制臺或者命令將新節點添加到MergCloud集群中即可,整個擴容過程不會影響任何服務,虛擬機無需停機。
? 即刻生效
節點被添加到集群,該新增節點的計算和存儲資源會通過一輪“心跳”向集群匯報,集群系統的整體容量和性能也隨之線性擴展,此后新節點的資源就會被MergCloud接管。
3.2 數據保護
數據高可靠性是MergCloud設計中非常重要的一點:
? 彈性多副本和智能修復
同一份數據可以有多個副本,副本會分布到不同的物理節點,即便一個節點損壞也不會影響數據的可用性和可靠性。
? 數據塊校驗
為防止數據的靜默損壞,MergCloud會對每個數據塊做校驗,通過周期性地掃描數據塊的校驗值發現損壞的數據塊,并進行修復。
3.3 冷熱數據分層存儲
MergCloud可管理服務器節點上所有的本地存儲盤,當需要進行數據讀取時,MergCloud會按照4kB細粒度大小統計所有數據塊訪問頻度,根據其最近的熱度,將熱數據保存在SSD中,并將冷數據替換到SATA盤中。MergCloud還進一步優化文件系統,通過將隨機的小I/O寫請求合并成一個大I/O寫請求,順序寫到SSD日志中,既減少對SSD的擦寫,提高SSD壽命,又大大提升了I/O吞吐量。

3.4 主動自愈式數據容錯

Datapp MergCloud在多節點上可實現多副本的方式來提供數據冗余和高可用特性,并能夠進行主動式的自愈修復。MergCloud對每個虛擬存儲盤支持1~3個不同的副本,因此用戶可以根據業務需求靈活的制定業務所需要的副本數。
同一份數據的多個副本會分布到不同的物理服務器節點上,即便一個服務器節點損壞也不會影響數據的可用性和可靠性。MergCloud會周期性的掃描系統中可用的數據塊,一旦發現某個數據塊的可靠性級別低于設定值,就會觸發智能恢復。例如用戶設定某個虛擬盤副本數為三份,同一份數據會復制到三個不同的物理服務器上,假使某臺服務器損壞得數據副本數減少,MergCloud會及時發現這一事件,并將數據恢復到另一臺健康的物理服務器,以確保三副本的數據可靠性。
3.5 業務連續性
3.5.1 不停機擴容
Datapp MergCloud在擴容升級過程無需暫停任何服務,用戶虛擬機里的業務無需中斷。
3.5.2 硬盤熱插拔
當磁盤損壞需要更換的時候,無需停機斷電,用好的磁盤替換損壞的磁盤即可,MergCloud可以自動將順壞磁盤的數據恢復出來。
3.5.3 存儲服務自動重連
網絡分區在分布式系統里是很常見的錯誤,這類錯誤會導致分布式存儲暫時不可用,MergCloud支持虛擬機自動重連存儲服務的機制,使得虛擬機I/O不會受短暫網絡錯誤影響。
3.5.4 VM熱遷移
MergCloud天然支持虛擬機熱遷移,允許在不關閉虛擬機的情況下,將其轉移到另一臺物理服務器上運行。MergCloud是一款分布式塊存儲系統,虛擬機熱遷移不再需要遷移本地存儲盤,僅僅需要拷貝內存和CPU狀態,因此極大的提高了虛擬機熱遷移的速度,提升業務的連續性。
3.6 快照與精簡配置
Datapp MergCloud能夠對數據進行快速的快照保護動作,其快照只是對元數據的一個拷貝,不影響其系統的運行。每一個快照都是獨立的,用戶可修改刪除任何一個時間點的快照而不影響后續的快照,同時,用戶也可以在幾秒內將任何一個存儲盤回滾到任何一個時間點的快照上。
MergCloud還能夠提供精簡配置功能。依托精簡配置的功能,用戶可以劃分出大于當前實際容量的存儲空間,而磁盤只有寫入實際數據時才會被消耗存儲空間。這項功能為公有云提供了強力的容量許可支持,為私有云客戶也節約了成本支持,實現真正的按需購買。
3.7自動化運維管理
Datapp MergCloud可實現自動運維管理。在統一管理平臺上,可提供硬件管理、虛擬化平臺管理、資源池管理,以及在統一資源池之上的虛擬機數據管理、應用管理等功能。同時也能完成對全系統各種資源的生命周期維護。
MergCloud的管理平臺可以部署在其中一個計算節點上,也可以部署在多臺計算集群上實現高可用。能夠提供以下功能:
應用自動部署:通過鏡像模板自動部署應用,包括創建虛擬機、安裝OS、配置網絡、安裝應用,應用拓撲等一系列的操作;
統一資源管理:建立統一的資源管理模型對使用者提供統一的資源管理視圖,包括各種資源的監控以及預警;
硬件自動探測與恢復:系統能夠自動發現并掃描內部的硬件信息,并自動完成軟件的安裝、配置并加入資源池;同時能夠快速發現新加入的硬件并自動加入資源池;硬件發生故障后能夠自動探測,故障解決后也能夠自動恢復。