Linux 后臺(tái)開發(fā)必知的 I/O 優(yōu)化知識(shí)總結(jié)
IO性能的發(fā)展,明顯落后于CPU的發(fā)展。Memchached也好,NoSql也好,這些流行技術(shù)的背后都在直接或者間接地回避IO瓶頸,從而提高系統(tǒng)性能
一、IO 系統(tǒng)的分層
上圖層次比較多,但總的就是三部分。磁盤(存儲(chǔ))、VM(卷管理)和文件系統(tǒng)。專有名詞不好理解,打個(gè)比方說:磁盤就相當(dāng)于一塊待用的空地;LVM相當(dāng)于空地上的圍墻(把空地劃分成多個(gè)部分);文件系統(tǒng)則相當(dāng)于每塊空地上建的樓房(決定了有多少房間、房屋編號(hào)如何,能容納多少人?。欢孔永锩孀〉娜?,則相當(dāng)于系統(tǒng)里面存的數(shù)據(jù)。
1.1 文件系統(tǒng)—數(shù)據(jù)如何存放?
對(duì)應(yīng)了上圖的File System和Buffer Cache。
File System(文件系統(tǒng)):解決了空間管理的問題,即:數(shù)據(jù)如何存放、讀取。
Buffer Cache:解決數(shù)據(jù)緩沖的問題。對(duì)讀,進(jìn)行cache,即:緩存經(jīng)常要用到的數(shù)據(jù);對(duì)寫,進(jìn)行buffer,緩沖一定數(shù)據(jù)以后,一次性進(jìn)行寫入。
1.2 VM—磁盤空間不足了怎么辦?
對(duì)應(yīng)上圖的Vol Mgmt。
VM其實(shí)跟IO沒有必然聯(lián)系。他是處于文件系統(tǒng)和磁盤(存儲(chǔ))中間的一層。VM屏蔽了底層磁盤對(duì)上層文件系統(tǒng)的影響。當(dāng)沒有VM的時(shí)候,文件系統(tǒng)直接使用存儲(chǔ)上的地址空間,因此文件系統(tǒng)直接受限于物理硬盤,這時(shí)如果發(fā)生磁盤空間不足的情況,對(duì)應(yīng)用而言將是一場(chǎng)噩夢(mèng),不得不新增硬盤,然后重新進(jìn)行數(shù)據(jù)復(fù)制。而VM則可以實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展,而對(duì)文件系統(tǒng)沒有影響。另外,VM也可以把多個(gè)磁盤合并成一個(gè)磁盤,對(duì)文件系統(tǒng)呈現(xiàn)統(tǒng)一的地址空間,這個(gè)特性的殺傷力不言而喻。
1.3 存儲(chǔ)—數(shù)據(jù)放在哪兒?如何訪問?如何提高IO速度?
對(duì)應(yīng)上圖的Device Driver、IO Channel和Disk Device
數(shù)據(jù)最終會(huì)放在這里,因此,效率、數(shù)據(jù)安全、容災(zāi)是這里需要考慮的問題。而提高存儲(chǔ)的性能,則可以直接提高物理IO的性能。
1.4 Logical IO vs Physical IO
邏輯IO是操作系統(tǒng)發(fā)起的IO,這個(gè)數(shù)據(jù)可能會(huì)放在磁盤上,也可能會(huì)放在內(nèi)存(文件系統(tǒng)的Cache)里。
物理IO是設(shè)備驅(qū)動(dòng)發(fā)起的IO,這個(gè)數(shù)據(jù)最終會(huì)落在磁盤上。
邏輯IO和物理IO不是一一對(duì)應(yīng)的。
二、IO 模型
這部分的東西在網(wǎng)絡(luò)編程經(jīng)常能看到,不過在所有IO處理中都是類似的。
2.1 IO請(qǐng)求的兩個(gè)階段
等待資源階段:IO請(qǐng)求一般需要請(qǐng)求特殊的資源(如磁盤、RAM、文件),當(dāng)資源被上一個(gè)使用者使用沒有被釋放時(shí),IO請(qǐng)求就會(huì)被阻塞,直到能夠使用這個(gè)資源。
使用資源階段:真正進(jìn)行數(shù)據(jù)接收和發(fā)生。
2.2 在等待數(shù)據(jù)階段,IO分為阻塞IO和非阻塞IO。
阻塞IO:資源不可用時(shí),IO請(qǐng)求一直阻塞,直到反饋結(jié)果(有數(shù)據(jù)或超時(shí))。
非阻塞IO:資源不可用時(shí),IO請(qǐng)求離開返回,返回?cái)?shù)據(jù)標(biāo)識(shí)資源不可用
2.3 在使用資源階段,IO分為同步IO和異步IO。
同步IO:應(yīng)用阻塞在發(fā)送或接收數(shù)據(jù)的狀態(tài),直到數(shù)據(jù)成功傳輸或返回失敗。
異步IO:應(yīng)用發(fā)送或接收數(shù)據(jù)后立刻返回,數(shù)據(jù)寫入OS緩存,由OS完成數(shù)據(jù)發(fā)送或接收,并返回成功或失敗的信息給應(yīng)用。
2.4 按照Unix的5個(gè)IO模型劃分
- 阻塞IO
- 非阻塞IO
- IO復(fù)用
- 信號(hào)驅(qū)動(dòng)的IO
- 異步IO
從性能上看,異步IO的性能無疑是最好的。
2.5 各種IO的特點(diǎn)
阻塞IO:使用簡(jiǎn)單,但隨之而來的問題就是會(huì)形成阻塞,需要獨(dú)立線程配合,而這些線程在大多數(shù)時(shí)候都是沒有進(jìn)行運(yùn)算的。
非阻塞IO:采用輪詢方式,不會(huì)形成線程的阻塞。
同步IO:同步IO保證一個(gè)IO操作結(jié)束之后才會(huì)返回,因此同步IO效率會(huì)低一些,但是對(duì)應(yīng)用來說,編程方式會(huì)簡(jiǎn)單。
異步IO:由于異步IO請(qǐng)求只是寫入了緩存,從緩存到硬盤是否成功不可知,因此異步IO相當(dāng)于把一個(gè)IO拆成了兩部分,一是發(fā)起請(qǐng)求,二是獲取處理結(jié)果。因此,對(duì)應(yīng)用來說增加了復(fù)雜性。但是異步IO的性能是所有很好的,而且異步的思想貫穿了IT系統(tǒng)放放面面。
詳細(xì)參考:Linux網(wǎng)絡(luò)IO精華指南
三、最重要的三個(gè)指標(biāo)
3.1 IOPS
IOPS,即每秒鐘處理的IO請(qǐng)求數(shù)量。IOPS是隨機(jī)訪問類型業(yè)務(wù)(OLTP類)很重要的一個(gè)參考指標(biāo)。
3.12 一塊物理硬盤能提供多少IOPS?
從磁盤上進(jìn)行數(shù)據(jù)讀取時(shí),比較重要的幾個(gè)時(shí)間是:尋址時(shí)間(找到數(shù)據(jù)塊的起始位置),旋轉(zhuǎn)時(shí)間(等待磁盤旋轉(zhuǎn)到數(shù)據(jù)塊的起始位置),傳輸時(shí)間(讀取數(shù)據(jù)的時(shí)間和返回的時(shí)間)。其中尋址時(shí)間是固定的(磁頭定位到數(shù)據(jù)的存儲(chǔ)的扇區(qū)即可),旋轉(zhuǎn)時(shí)間受磁盤轉(zhuǎn)速的影響,傳輸時(shí)間受數(shù)據(jù)量大小的影響和接口類型的影響(不同的硬盤接口速度不同),但是在隨機(jī)訪問類業(yè)務(wù)中,他的時(shí)間也很少。因此,在硬盤接口相同的情況下,IOPS主要受限于尋址時(shí)間和傳輸時(shí)間。以一個(gè)15K的硬盤為例,尋址時(shí)間固定為4ms,旋轉(zhuǎn)時(shí)間為60s/15000*1/2(最多轉(zhuǎn)半圈)=2ms,一般計(jì)算IOPS都忽略傳輸時(shí)間。1000ms/6ms=167個(gè)IOPS。
3.13 OS的一次IO請(qǐng)求對(duì)應(yīng)物理硬盤一個(gè)IO嗎?
在沒有文件系統(tǒng)、沒有VM(卷管理)、沒有RAID、沒有存儲(chǔ)設(shè)備的情況下,這個(gè)答案還是成立的。但是當(dāng)這么多中間層加進(jìn)去以后,這個(gè)答案就不是這樣了。物理硬盤提供的IO是有限的,也是整個(gè)IO系統(tǒng)存在瓶頸的最大根源。所以,如果一塊硬盤不能提供,那么多塊在一起并行處理,這不就行了嗎?確實(shí)是這樣的??梢钥吹剑绞歉叨说拇鎯?chǔ)設(shè)備的cache越大,硬盤越多,一方面通過cache異步處理IO,另一方面通過盤數(shù)增加,盡可能把一個(gè)OS的IO分布到不同硬盤上,從而提高性能。文件系統(tǒng)則是在cache上會(huì)影響,而VM則可能是一個(gè)IO分布到多個(gè)不同設(shè)備上(Striping)。
所以,一個(gè)OS的IO在經(jīng)過多個(gè)中間層以后,發(fā)生在物理磁盤上的IO是不確定的??赡苁且粚?duì)一個(gè),也可能一個(gè)對(duì)應(yīng)多個(gè)。
3.14 IOPS能算出來嗎?
對(duì)單塊磁盤的IOPS的計(jì)算沒有沒問題,但是當(dāng)系統(tǒng)后面接的是一個(gè)存儲(chǔ)系統(tǒng)時(shí)、考慮不同讀寫比例,IOPS則很難計(jì)算,而需要根據(jù)實(shí)際情況進(jìn)行測(cè)試。主要的因素有:存儲(chǔ)系統(tǒng)本身有自己的緩存。緩存大小直接影響IOPS,理論上說,緩存越大能cache的東西越多,在cache命中率保持的情況下,IOPS會(huì)越高。
RAID級(jí)別。不同的RAID級(jí)別影響了物理IO的效率。
讀寫混合比例。對(duì)讀操作,一般只要cache能足夠大,可以大大減少物理IO,而都在cache中進(jìn)行;對(duì)寫操作,不論cache有多大,最終的寫還是會(huì)落到磁盤上。因此,100%寫的IOPS要越獄小于100%的讀的IOPS。同時(shí),100%寫的IOPS大致等同于存儲(chǔ)設(shè)備能提供的物理的IOPS。
一次IO請(qǐng)求數(shù)據(jù)量的多少。一次讀寫1KB和一次讀寫1MB,顯而易見,結(jié)果是完全不同的。
當(dāng)時(shí)上面N多因素混合在一起以后,IOPS的值就變得撲朔迷離了。所以,一般需要通過實(shí)際應(yīng)用的測(cè)試才能獲得。
3.2 IO Response Time
即IO的響應(yīng)時(shí)間。IO響應(yīng)時(shí)間是從操作系統(tǒng)內(nèi)核發(fā)出一個(gè)IO請(qǐng)求到接收到IO響應(yīng)的時(shí)間。因此,IO Response time除了包括磁盤獲取數(shù)據(jù)的時(shí)間,還包括了操作系統(tǒng)以及在存儲(chǔ)系統(tǒng)內(nèi)部IO等待的時(shí)間。一般看,隨IOPS增加,因?yàn)镮O出現(xiàn)等待,IO響應(yīng)時(shí)間也會(huì)隨之增加。對(duì)一個(gè)OLTP系統(tǒng),10ms以內(nèi)的響應(yīng)時(shí)間,是比較合理的。下面是一些IO性能示例:
一個(gè)8K的IO會(huì)比一個(gè)64K的IO速度快,因?yàn)閿?shù)據(jù)讀取的少些。
一個(gè)64K的IO會(huì)比8個(gè)8K的IO速度快,因?yàn)榍罢咧徽?qǐng)求了一個(gè)IO而后者是8個(gè)IO。
串行IO會(huì)比隨機(jī)IO快,因?yàn)榇蠭O相對(duì)隨機(jī)IO說,即便沒有Cache,串行IO在磁盤處理上也會(huì)少些操作。
需要注意,IOPS與IO Response Time有著密切的聯(lián)系。一般情況下,IOPS增加,說明IO請(qǐng)求多了,IO Response Time會(huì)相應(yīng)增加。但是會(huì)出現(xiàn)IOPS一直增加,但是IO Response Time變得非常慢,超過20ms甚至幾十ms,這時(shí)候的IOPS雖然還在提高,但是意義已經(jīng)不大,因?yàn)檎麄€(gè)IO系統(tǒng)的服務(wù)時(shí)間已經(jīng)不可取。
3.3 Throughput
為吞吐量。這個(gè)指標(biāo)衡量標(biāo)識(shí)了最大的數(shù)據(jù)傳輸量。如上說明,這個(gè)值在順序訪問或者大數(shù)據(jù)量訪問的情況下會(huì)比較重要。尤其在大數(shù)據(jù)量寫的時(shí)候。
吞吐量不像IOPS影響因素很多,吞吐量一般受限于一些比較固定的因素,如:網(wǎng)絡(luò)帶寬、IO傳輸接口的帶寬、硬盤接口帶寬等。一般他的值就等于上面幾個(gè)地方中某一個(gè)的瓶頸。
3.4 一些概念
3.41 IO Chunk Size
即單個(gè)IO操作請(qǐng)求數(shù)據(jù)的大小。一次IO操作是指從發(fā)出IO請(qǐng)求到返回?cái)?shù)據(jù)的過程。IO Chunk Size與應(yīng)用或業(yè)務(wù)邏輯有著很密切的關(guān)系。比如像Oracle一類數(shù)據(jù)庫,由于其block size一般為8K,讀取、寫入時(shí)都此為單位,因此,8K為這個(gè)系統(tǒng)主要的IO Chunk Size。IO Chunk Size小,考驗(yàn)的是IO系統(tǒng)的IOPS能力;IO Chunk Size大,考驗(yàn)的時(shí)候IO系統(tǒng)的IO吞吐量。
3.42 Queue Deep
熟悉數(shù)據(jù)庫的人都知道,SQL是可以批量提交的,這樣可以大大提高操作效率。IO請(qǐng)求也是一樣,IO請(qǐng)求可以積累一定數(shù)據(jù),然后一次提交到存儲(chǔ)系統(tǒng),這樣一些相鄰的數(shù)據(jù)塊操作可以進(jìn)行合并,減少物理IO數(shù)。而且Queue Deep如其名,就是設(shè)置一起提交的IO請(qǐng)求數(shù)量的。一般Queue Deep在IO驅(qū)動(dòng)層面上進(jìn)行配置。
Queue Deep與IOPS有著密切關(guān)系。Queue Deep主要考慮批量提交IO請(qǐng)求,自然只有IOPS是瓶頸的時(shí)候才會(huì)有意義,如果IO都是大IO,磁盤已經(jīng)成瓶頸,Queue Deep意義也就不大了。一般來說,IOPS的峰值會(huì)隨著Queue Deep的增加而增加(不會(huì)非常顯著),Queue Deep一般小于256。
3,43 隨機(jī)訪問(隨機(jī)IO)、順序訪問(順序IO)
隨機(jī)訪問的特點(diǎn)是每次IO請(qǐng)求的數(shù)據(jù)在磁盤上的位置跨度很大(如:分布在不同的扇區(qū)),因此N個(gè)非常小的IO請(qǐng)求(如:1K),必須以N次IO請(qǐng)求才能獲取到相應(yīng)的數(shù)據(jù)。
順序訪問的特點(diǎn)跟隨機(jī)訪問相反,它請(qǐng)求的數(shù)據(jù)在磁盤的位置是連續(xù)的。當(dāng)系統(tǒng)發(fā)起N個(gè)非常小的IO請(qǐng)求(如:1K)時(shí),因?yàn)橐淮蜪O是有代價(jià)的,系統(tǒng)會(huì)取完整的一塊數(shù)據(jù)(如4K、8K),所以當(dāng)?shù)谝淮蜪O完成時(shí),后續(xù)IO請(qǐng)求的數(shù)據(jù)可能已經(jīng)有了。這樣可以減少IO請(qǐng)求的次數(shù)。這也就是所謂的預(yù)取。
隨機(jī)訪問和順序訪問同樣是有應(yīng)用決定的。如數(shù)據(jù)庫、小文件的存儲(chǔ)的業(yè)務(wù),大多是隨機(jī)IO。而視頻類業(yè)務(wù)、大文件存取,則大多為順序IO。
3.44 選取合理的觀察指標(biāo):
以上各指標(biāo)中,不用的應(yīng)用場(chǎng)景需要觀察不同的指標(biāo),因?yàn)閼?yīng)用場(chǎng)景不同,有些指標(biāo)甚至是沒有意義的。
隨機(jī)訪問和IOPS: 在隨機(jī)訪問場(chǎng)景下,IOPS往往會(huì)到達(dá)瓶頸,而這個(gè)時(shí)候去觀察Throughput,則往往遠(yuǎn)低于理論值。
順序訪問和Throughput:在順序訪問的場(chǎng)景下,Throughput往往會(huì)達(dá)到瓶頸(磁盤限制或者帶寬),而這時(shí)候去觀察IOPS,往往很小。
文件系統(tǒng)各有不同,其最主要的目標(biāo)就是解決磁盤空間的管理問題,同時(shí)提供高效性、安全性。如果在分布式環(huán)境下,則有相應(yīng)的分布式文件系統(tǒng)。Linux上有ext系列,Windows上有Fat和NTFS。如圖為一個(gè)linux下文件系統(tǒng)的結(jié)構(gòu)。
其中VFS(Virtual File System)是Linux Kernel文件系統(tǒng)的一個(gè)模塊,簡(jiǎn)單看就是一個(gè)Adapter,對(duì)下屏蔽了下層不同文件系統(tǒng)之間的差異,對(duì)上為操作系統(tǒng)提供了統(tǒng)一的接口.
中間部分為各個(gè)不同文件系統(tǒng)的實(shí)現(xiàn)。
再往下是Buffer Cache和Driver。
詳細(xì)學(xué)習(xí):深入理解Linux 的Page Cache
四、文件系統(tǒng)的結(jié)構(gòu)
各種文件系統(tǒng)實(shí)現(xiàn)方式不同,因此性能、管理性、可靠性等也有所不同。下面為Linux Ext2(Ext3)的一個(gè)大致文件系統(tǒng)的結(jié)構(gòu)。
Boot Block存放了引導(dǎo)程序。
Super Block存放了整個(gè)文件系統(tǒng)的一些全局參數(shù),如:卷名、狀態(tài)、塊大小、塊總數(shù)。他在文件系統(tǒng)被mount時(shí)讀入內(nèi)存,在umount時(shí)被釋放。
上圖描述了Ext2文件系統(tǒng)中很重要的三個(gè)數(shù)據(jù)結(jié)構(gòu)和他們之間的關(guān)系。
Inode:Inode是文件系統(tǒng)中最重要的一個(gè)結(jié)構(gòu)。如圖,他里面記錄了文件相關(guān)的所有信息,也就是我們常說的meta信息。包括:文件類型、權(quán)限、所有者、大小、atime等。Inode里面也保存了指向?qū)嶋H文件內(nèi)容信息的索引。其中這種索引分幾類:
直接索引:直接指向?qū)嶋H內(nèi)容信息,公有12個(gè)。因此如果,一個(gè)文件系統(tǒng)block size為1k,那么直接索引到的內(nèi)容最大為12k
- 間接索引
- 兩級(jí)間接索引
- 三級(jí)間接索引
如圖:
Directory代表了文件系統(tǒng)中的目錄,包括了當(dāng)前目錄中的所有Inode信息。其中每行只有兩個(gè)信息,一個(gè)是文件名,一個(gè)是其對(duì)應(yīng)的Inode。需要注意,Directory不是文件系統(tǒng)中的一個(gè)特殊結(jié)構(gòu),他實(shí)際上也是一個(gè)文件,有自己的Inode,而它的文件內(nèi)容信息里面,包括了上面看到的那些文件名和Inode的對(duì)應(yīng)關(guān)系。如下圖:
Data Block即存放文件的時(shí)間內(nèi)容塊。Data Block大小必須為磁盤的數(shù)據(jù)塊大小的整數(shù)倍,磁盤一般為512字節(jié),因此Data Block一般為1K、2K、4K。
Buffer & Cache
雖然Buffer和Cache放在一起了,但是在實(shí)際過程中Buffer和Cache是完全不同了。Buffer一般對(duì)于寫而言,也叫“緩沖區(qū)”,緩沖使得多個(gè)小的數(shù)據(jù)塊能夠合并成一個(gè)大數(shù)據(jù)塊,一次性寫入;Cache一般對(duì)于讀而且,也叫“緩存”,避免頻繁的磁盤讀取。如圖為Linux的free命令,其中也是把Buffer和Cache進(jìn)行區(qū)分,這兩部分都算在了free的內(nèi)存。
Buffer Cache
Buffer Cache中的緩存,本質(zhì)與所有的緩存都是一樣,數(shù)據(jù)結(jié)構(gòu)也是類似,下圖為VxSF的一個(gè)Buffer Cache結(jié)構(gòu)。
這個(gè)數(shù)據(jù)結(jié)構(gòu)與memcached和Oracle SGA的buffer何等相似。左側(cè)的hash chain完成數(shù)據(jù)塊的尋址,上方的的鏈表記錄了數(shù)據(jù)塊的狀態(tài)。
Buffer vs Direct I/O
文件系統(tǒng)的Buffer和Cache在某些情況下確實(shí)提高了速度,但是反之也會(huì)帶來一些負(fù)面影響。一方面文件系統(tǒng)增加了一個(gè)中間層,另外一方面,當(dāng)Cache使用不當(dāng)、配置不好或者有些業(yè)務(wù)無法獲取cache帶來的好處時(shí),cache則成為了一種負(fù)擔(dān)。
適合Cache的業(yè)務(wù):串行的大數(shù)據(jù)量業(yè)務(wù),如:NFS、FTP。
不適合Cache的業(yè)務(wù):隨機(jī)IO的業(yè)務(wù)。如:Oracle,小文件讀取。
塊設(shè)備、字符設(shè)備、裸設(shè)備
這幾個(gè)東西看得很暈,找了一些資料也沒有找到很準(zhǔn)確的說明。
從硬件設(shè)備的角度來看,
- 塊設(shè)備就是以塊(比如磁盤扇區(qū))為單位收發(fā)數(shù)據(jù)的設(shè)備,它們支持緩沖和隨機(jī)訪問(不必順序讀取塊,而是可以在任何時(shí)候訪問任何塊)等特性。塊設(shè)備包括硬盤、CD-ROM 和 RAM 盤。
- 字符設(shè)備則沒有可以進(jìn)行物理尋址的媒體。字符設(shè)備包括串行端口和磁帶設(shè)備,只能逐字符地讀取這些設(shè)備中的數(shù)據(jù)。
從操作系統(tǒng)的角度看(對(duì)應(yīng)操作系統(tǒng)的設(shè)備文件類型的b和c),
# ls -l /dev/*lvbrw------- 1 root system 22, 2 May 15 2007 lv crw------- 2 root system 22, 2 May 15 2007 rlv1.2.3.
- 塊設(shè)備能支持緩沖和隨機(jī)讀寫。即讀取和寫入時(shí),可以是任意長度的數(shù)據(jù)。最小為1byte。對(duì)塊設(shè)備,你可以成功執(zhí)行下列命令:dd if=/dev/zero of=/dev/vg01/lv bs=1 count=1。即:在設(shè)備中寫入一個(gè)字節(jié)。硬件設(shè)備是不支持這樣的操作的(最小是512),這個(gè)時(shí)候,操作系統(tǒng)首先完成一個(gè)讀?。ㄈ?K,操作系統(tǒng)最小的讀寫單位,為硬件設(shè)備支持的數(shù)據(jù)塊的整數(shù)倍),再更改這1k上的數(shù)據(jù),然后寫入設(shè)備。
- 字符設(shè)備只能支持固定長度數(shù)據(jù)的讀取和寫入,這里的長度就是操作系統(tǒng)能支持的最小讀寫單位,如1K,所以塊設(shè)備的緩沖功能,這里就沒有了,需要使用者自己來完成。由于讀寫時(shí)不經(jīng)過任何緩沖區(qū),此時(shí)執(zhí)行dd if=/dev/zero of=/dev/vg01/lv bs=1 count=1,這個(gè)命令將會(huì)出錯(cuò),因?yàn)檫@里的bs(block size)太小,系統(tǒng)無法支持。如果執(zhí)行dd if=/dev/zero of=/dev/vg01/lv bs=1024 count=1,則可以成功。這里的block size有OS內(nèi)核參數(shù)決定。
如上,相比之下,字符設(shè)備在使用更為直接,而塊設(shè)備更為靈活。文件系統(tǒng)一般建立在塊設(shè)備上,而為了追求高性能,使用字符設(shè)備則是更好的選擇,如Oracle的裸設(shè)備使用。
裸設(shè)備
裸設(shè)備也叫裸分區(qū),就是沒有經(jīng)過格式化、沒有文件系統(tǒng)的一塊存儲(chǔ)空間??梢詫懭攵M(jìn)制內(nèi)容,但是內(nèi)容的格式、其中信息的組織等問題,需要使用它的人來完成。文件系統(tǒng)就是建立在裸設(shè)備之上,并完成裸設(shè)備空間的管理。
CIO
CIO即并行IO(Concurrent IO)。在文件系統(tǒng)中,當(dāng)某個(gè)文件被多個(gè)進(jìn)程同時(shí)訪問時(shí),就出現(xiàn)了Inode競(jìng)爭(zhēng)的問題。一般地,讀操作使用的共享鎖,即:多個(gè)讀操作可以并發(fā)進(jìn)行,而寫操作使用排他鎖。當(dāng)鎖被寫進(jìn)程占用時(shí),其他所有操作均阻塞。因此,當(dāng)這樣的情況出現(xiàn)時(shí),整個(gè)應(yīng)用的性能將會(huì)大大降低。如圖:
CIO就是為了解決這個(gè)問題。而且CIO帶來的性能提高直逼裸設(shè)備。當(dāng)文件系統(tǒng)支持CIO并開啟CIO時(shí),CIO默認(rèn)會(huì)開啟文件系統(tǒng)的Direct IO,即:讓IO操作不經(jīng)過Buffer直接進(jìn)行底層數(shù)據(jù)操作。由于不經(jīng)過數(shù)據(jù)Buffer,在文件系統(tǒng)層面就無需考慮數(shù)據(jù)一致性的問題,因此,讀寫操作可以并行執(zhí)行。
在最終進(jìn)行數(shù)據(jù)存儲(chǔ)的時(shí)候,所有操作都會(huì)串行執(zhí)行,CIO把這個(gè)事情交個(gè)了底層的driver。
LVM(邏輯卷管理),位于操作系統(tǒng)和硬盤之間,LVM屏蔽了底層硬盤帶來的復(fù)雜性。最簡(jiǎn)單的,LVM使得N塊硬盤在OS看來成為一塊硬盤,大大提高了系統(tǒng)可用性。
LVM的引入,使得文件系統(tǒng)和底層磁盤之間的關(guān)系變得更為靈活,而且更方便關(guān)系。LVM有以下特點(diǎn):
- 統(tǒng)一進(jìn)行磁盤管理。按需分配空間,提供動(dòng)態(tài)擴(kuò)展。
- 條帶化(Striped)
- 鏡像(mirrored)
- 快照(snapshot)
LVM可以做動(dòng)態(tài)磁盤擴(kuò)展,想想看,當(dāng)系統(tǒng)管理員發(fā)現(xiàn)應(yīng)用空間不足時(shí),敲兩個(gè)命令就完成空間擴(kuò)展,估計(jì)做夢(mèng)都要笑醒:)
LVM的磁盤管理方式
LVM中有幾個(gè)很重要的概念:
- PV(physical volume):物理卷。在LVM中,一個(gè)PV對(duì)應(yīng)就是操作系統(tǒng)能看見的一塊物理磁盤,或者由存儲(chǔ)設(shè)備分配操作系統(tǒng)的lun。一塊磁盤唯一對(duì)應(yīng)一個(gè)PV,PV創(chuàng)建以后,說明這塊空間可以納入到LVM的管理。創(chuàng)建PV時(shí),可以指定PV大小,即可以把整個(gè)磁盤的部分納入PV,而不是全部磁盤。這點(diǎn)在表面上看沒有什么意義,但是如果主機(jī)后面接的是存儲(chǔ)設(shè)備的話就很有意義了,因?yàn)榇鎯?chǔ)設(shè)備分配的lun是可以動(dòng)態(tài)擴(kuò)展的,只有當(dāng)PV可以動(dòng)態(tài)擴(kuò)展,這種擴(kuò)展性才能向上延伸。
- VG(volume group):卷組。一個(gè)VG是多個(gè)PV的集合,簡(jiǎn)單說就是一個(gè)VG就是一個(gè)磁盤資源池。VG對(duì)上屏蔽了多個(gè)物理磁盤,上層是使用時(shí)只需考慮空間大小的問題,而VG解決的空間的如何在多個(gè)PV上連續(xù)的問題。
- LV(logical volume):邏輯卷。LV是最終可供使用卷,LV在VG中創(chuàng)建,有了VG,LV創(chuàng)建是只需考慮空間大小等問題,對(duì)LV而言,他看到的是一直聯(lián)系的地址空間,不用考慮多塊硬盤的問題。
有了上面三個(gè),LVM把單個(gè)的磁盤抽象成了一組連續(xù)的、可隨意分配的地址空間。除上面三個(gè)概念外,還有一些其他概念:
- PE(physical extend): 物理擴(kuò)展塊。LVM在創(chuàng)建PV,不會(huì)按字節(jié)方式去進(jìn)行空間管理。而是按PE為單位。PE為空間管理的最小單位。即:如果一個(gè)1024M的物理盤,LVM的PE為4M,那么LVM管理空間時(shí),會(huì)按照256個(gè)PE去管理。分配時(shí),也是按照分配了多少PE、剩余多少PE考慮。
- LE(logical extend):邏輯擴(kuò)展塊。類似PV,LE是創(chuàng)建LV考慮,當(dāng)LV需要?jiǎng)討B(tài)擴(kuò)展時(shí),每次最小的擴(kuò)展單位。
對(duì)于上面幾個(gè)概念,無需刻意去記住,當(dāng)你需要做這么一個(gè)東西時(shí),這些概念是自然而然的。PV把物理硬盤轉(zhuǎn)換成LVM中對(duì)于的邏輯(解決如何管理物理硬盤的問題),VG是PV的集合(解決如何組合PV的問題),LV是VG上空間的再劃分(解決如何給OS使用空間的問題);而PE、LE則是空間分配時(shí)的單位。
如圖,為兩塊18G的磁盤組成了一個(gè)36G的VG。此VG上劃分了3個(gè)LV。其PE和LE都為4M。其中LV1只用到了sda的空間,而LV2和LV3使用到了兩塊磁盤。
串聯(lián)、條帶化、鏡像
串聯(lián)(Concatenation): 按順序使用磁盤,一個(gè)磁盤使用完以后使用后續(xù)的磁盤。
條帶化(Striping): 交替使用不同磁盤的空間。條帶化使得IO操作可以并行,因此是提高IO性能的關(guān)鍵。另外,Striping也是RAID的基礎(chǔ)。如:VG有2個(gè)PV,LV做了條帶數(shù)量為2的條帶化,條帶大小為8K,那么當(dāng)OS發(fā)起一個(gè)16K的寫操作時(shí),那么剛好這2個(gè)PV對(duì)應(yīng)的磁盤可以對(duì)整個(gè)寫入操作進(jìn)行并行寫入。
Striping帶來好處有:
并發(fā)進(jìn)行數(shù)據(jù)處理。讀寫操作可以同時(shí)發(fā)送在多個(gè)磁盤上,大大提高了性能。
Striping帶來的問題:
- 數(shù)據(jù)完整性的風(fēng)險(xiǎn)。Striping導(dǎo)致一份完整的數(shù)據(jù)被分布到多個(gè)磁盤上,任何一個(gè)磁盤上的數(shù)據(jù)都是不完整,也無法進(jìn)行還原。一個(gè)條帶的損壞會(huì)導(dǎo)致所有數(shù)據(jù)的失效。因此這個(gè)問題只能通過存儲(chǔ)設(shè)備來彌補(bǔ)。
- 條帶大小的設(shè)定很大程度決定了Striping帶來的好處。如果條帶設(shè)置過大,一個(gè)IO操作最終還是發(fā)生在一個(gè)磁盤上,無法帶來并行的好處;當(dāng)條帶設(shè)置國小,本來一次并行IO可以完成的事情會(huì)最終導(dǎo)致了多次并行IO。
鏡像(mirror)
如同名字。LVM提供LV鏡像的功能。即當(dāng)一個(gè)LV進(jìn)行IO操作時(shí),相同的操作發(fā)生在另外一個(gè)LV上。這樣的功能為數(shù)據(jù)的安全性提供了支持。如圖,一份數(shù)據(jù)被同時(shí)寫入兩個(gè)不同的PV。
使用mirror時(shí),可以獲得一些好處:
- 讀取操作可以從兩個(gè)磁盤上獲取,因此讀效率會(huì)更好些。
- 數(shù)據(jù)完整復(fù)雜了一份,安全性更高。
但是,伴隨也存在一些問題:
- 所有的寫操作都會(huì)同時(shí)發(fā)送在兩個(gè)磁盤上,因此實(shí)際發(fā)送的IO是請(qǐng)求IO的2倍
- 由于寫操作在兩個(gè)磁盤上發(fā)生,因此一些完整的寫操作需要兩邊都完成了才算完成,帶來了額外負(fù)擔(dān)。
- 在處理串行IO時(shí),有些IO走一個(gè)磁盤,另外一些IO走另外的磁盤,一個(gè)完整的IO請(qǐng)求會(huì)被打亂,LVM需要進(jìn)行IO數(shù)據(jù)的合并,才能提供給上層。像一些如預(yù)讀的功能,由于有了多個(gè)數(shù)據(jù)獲取同道,也會(huì)存在額外的負(fù)擔(dān)。
快照(Snapshot)
快照如其名,他保存了某一時(shí)間點(diǎn)磁盤的狀態(tài),而后續(xù)數(shù)據(jù)的變化不會(huì)影響快照,因此,快照是一種備份很好手段。
但是快照由于保存了某一時(shí)間點(diǎn)數(shù)據(jù)的狀態(tài),因此在數(shù)據(jù)變化時(shí),這部分?jǐn)?shù)據(jù)需要寫到其他地方,隨著而來回帶來一些問題。關(guān)于這塊,后續(xù)存儲(chǔ)也涉及到類似的問題,后面再說。
這部分值得一說的是多路徑問題。IO部分的高可用性在整個(gè)應(yīng)用系統(tǒng)中可以說是最關(guān)鍵的,應(yīng)用層可以壞掉一兩臺(tái)機(jī)器沒有問題,但是如果IO不通了,整個(gè)系統(tǒng)都沒法使用。如圖為一個(gè)典型的SAN網(wǎng)絡(luò),從主機(jī)到磁盤,所有路徑上都提供了冗余,以備發(fā)生通路中斷的情況。
如上圖結(jié)構(gòu),由于存在兩條路徑,對(duì)于存儲(chǔ)劃分的一個(gè)空間,在OS端會(huì)看到兩個(gè)(兩塊磁盤或者兩個(gè)lun)??膳碌氖?,OS并不知道這兩個(gè)東西對(duì)應(yīng)的其實(shí)是一塊空間,如果路徑再多,則OS會(huì)看到更多。還是那句經(jīng)典的話,“計(jì)算機(jī)中碰到的問題,往往可以通過增加的一個(gè)中間層來解決”,于是有了多路徑軟件。他提供了以下特性:
- 把多個(gè)映射到同一塊空間的路徑合并為一個(gè)提供給主機(jī)
- 提供fail over的支持。當(dāng)一條通路出現(xiàn)問題時(shí),及時(shí)切換到其他通路
- 提供load balance的支持。即同時(shí)使用多條路徑進(jìn)行數(shù)據(jù)傳送,發(fā)揮多路徑的資源優(yōu)勢(shì),提高系統(tǒng)整體帶寬。
Fail over的能力一般OS也可能支持,而load balance則需要與存儲(chǔ)配合,所以需要根據(jù)存儲(chǔ)不同配置安裝不同的多通路軟件。
多路徑除了解決了高可用性,同時(shí),多條路徑也可以同時(shí)工作,提高系統(tǒng)性能。
Raid很基礎(chǔ),但是在存儲(chǔ)系統(tǒng)中占據(jù)非常重要的地位,所有涉及存儲(chǔ)的書籍都會(huì)提到RAID。RAID通過磁盤冗余的方式提高了可用性和可高性,一方面增加了數(shù)據(jù)讀寫速度,另一方面增加了數(shù)據(jù)的安全性。
RAID 0
對(duì)數(shù)據(jù)進(jìn)行條帶化。使用兩個(gè)磁盤交替存放連續(xù)數(shù)據(jù)。因此可以實(shí)現(xiàn)并發(fā)讀寫,但帶來的問題是如果一個(gè)磁盤損壞,另外一個(gè)磁盤的數(shù)據(jù)將失去意義。RAID 0最少需要2塊盤。
RAID 1
對(duì)數(shù)據(jù)進(jìn)行鏡像。數(shù)據(jù)寫入時(shí),相同的數(shù)據(jù)同時(shí)寫入兩塊盤。因此兩個(gè)盤的數(shù)據(jù)完全一致,如果一塊盤損壞,另外一塊盤可以頂替使用,RAID 1帶來了很好的可靠性。同時(shí)讀的時(shí)候,數(shù)據(jù)可以從兩個(gè)盤上進(jìn)行讀取。但是RAID 1帶來的問題就是空間的浪費(fèi)。兩塊盤只提供了一塊盤的空間。RAID 1最少需要2塊盤。
RAID 5
使用多余的一塊校驗(yàn)盤。數(shù)據(jù)寫入時(shí),RAID 5需要對(duì)數(shù)據(jù)進(jìn)行計(jì)算,以便得出校驗(yàn)位。因此,在寫性能上RAID 5會(huì)有損失。但是RAID 5兼顧了性能和安全性。當(dāng)有一塊磁盤損壞時(shí),RAID 5可以通過其他盤上的數(shù)據(jù)對(duì)其進(jìn)行恢復(fù)。
如圖可以看出,右下角為p的就是校驗(yàn)數(shù)據(jù)??梢钥吹絉AID 5的校驗(yàn)數(shù)據(jù)依次分布在不同的盤上,這樣可以避免出現(xiàn)熱點(diǎn)盤(因?yàn)樗袑懖僮骱透虏僮鞫夹枰薷男r?yàn)信息,如果校驗(yàn)都在一個(gè)盤做,會(huì)導(dǎo)致這個(gè)盤成為寫瓶頸,從而拖累整體性能,RAID 4的問題)。RAID 5最少需要3塊盤。
RAID 6
RAID 6與RAID 5類似。但是提供了兩塊校驗(yàn)盤(下圖右下角為p和q的)。安全性更高,寫性能更差了。RAID 0最少需要4塊盤。
RAID 10(Striped mirror)
RAID 10是RAID 0 和RAID 1的結(jié)合,同時(shí)兼顧了二者的特點(diǎn),提供了高性能,但是同時(shí)空間使用也是最大。RAID 10最少需要4塊盤。
需要注意,使用RAID 10來稱呼其實(shí)很容易產(chǎn)生混淆,因?yàn)镽AID 0+1和RAID 10基本上只是兩個(gè)數(shù)字交換了一下位置,但是對(duì)RAID來說就是兩個(gè)不同的組成。因此,更容易理解的方式是“Striped mirrors”,即:條帶化后的鏡像——RAID 10;或者“mirrored stripes”,即:鏡像后的條帶化。比較RAID 10和RAID 0+1,雖然最終都是用到了4塊盤,但是在數(shù)據(jù)組織上有所不同,從而帶來問題。RAID 10在可用性上是要高于RAID 0+1的:
- RAID 0+1 任何一塊盤損壞,將失去冗余。如圖4塊盤中,右側(cè)一組損壞一塊盤,左側(cè)一組損壞一塊盤,整個(gè)盤陣將無法使用。而RAID 10左右各損壞一塊盤,盤陣仍然可以工作。
- RAID 0+1 損壞后的恢復(fù)過程會(huì)更慢。因?yàn)橄冉?jīng)過的mirror,所以左右兩組中保存的都是完整的數(shù)據(jù),數(shù)據(jù)恢復(fù)時(shí),需要完整恢復(fù)所以數(shù)據(jù)。而RAID 10因?yàn)橄葪l帶化,因此損壞數(shù)據(jù)以后,恢復(fù)的只是本條帶的數(shù)據(jù)。如圖4塊盤,數(shù)據(jù)少了一半。
RAID 50
RAID 50 同RAID 10,先做條帶化以后,在做RAID 5。兼顧性能,同時(shí)又保證空間的利用率。RAID 50最少需要6塊盤。
總結(jié):
- RAID與LVM中的條帶化原理上類似,只是實(shí)現(xiàn)層面不同。在存儲(chǔ)上實(shí)現(xiàn)的RAID一般有專門的芯片來完成,因此速度上遠(yuǎn)比LVM塊。也稱硬RAID。
- 如上介紹,RAID的使用是有風(fēng)險(xiǎn)的,如RAID 0,一塊盤損壞會(huì)導(dǎo)致所有數(shù)據(jù)丟失。因此,在實(shí)際使用中,高性能環(huán)境會(huì)使用RAID 10,兼顧性能和安全;一般情況下使用RAID 5(RAID 50),兼顧空間利用率和性能;
DAS、SAN和NAS
DAS:有PATA、SATA、SAS等,主要是磁盤數(shù)據(jù)傳輸協(xié)議。
- 單臺(tái)主機(jī)。在這種情況下,存儲(chǔ)作為主機(jī)的一個(gè)或多個(gè)磁盤存在,這樣局限性也是很明顯的。由于受限于主機(jī)空間,一個(gè)主機(jī)只能裝一塊到幾塊硬盤,而硬盤空間時(shí)受限的,當(dāng)磁盤滿了以后,你不得不為主機(jī)更換更大空間的硬盤。
- 獨(dú)立存儲(chǔ)空間。為了解決空間的問題,于是考慮把磁盤獨(dú)立出來,于是有了DAS(Direct Attached Storage),即:直連存儲(chǔ)。DAS就是一組磁盤的集合體,數(shù)據(jù)讀取和寫入等也都是由主機(jī)來控制。但是,隨之而來,DAS又面臨了一個(gè)他無法解決的問題——存儲(chǔ)空間的共享。接某個(gè)主機(jī)的JBOD(Just a Bunch Of Disks,磁盤組),只能這個(gè)主機(jī)使用,其他主機(jī)無法用。因此,如果DAS解決空間了,那么他無法解決的就是如果讓空間能夠在多個(gè)機(jī)器共享。因?yàn)镈AS可以理解為與磁盤交互,DAS處理問題的層面相對(duì)更低。使用協(xié)議都是跟磁盤交互的協(xié)議
- 獨(dú)立的存儲(chǔ)網(wǎng)絡(luò)。為了解決共享的問題,借鑒以太網(wǎng)的思想,于是有了SAN(Storage Area Network),即:存儲(chǔ)網(wǎng)絡(luò)。對(duì)于SAN網(wǎng)絡(luò),你能看到兩個(gè)非常特點(diǎn),一個(gè)就是光纖網(wǎng)絡(luò),另一個(gè)是光纖交換機(jī)。SAN網(wǎng)絡(luò)由于不會(huì)之間跟磁盤交互,他考慮的更多是數(shù)據(jù)存取的問題,因此使用的協(xié)議相對(duì)DAS層面更高一些。光纖網(wǎng)絡(luò):對(duì)于存儲(chǔ)來說,與以太網(wǎng)很大的一個(gè)不同就是他對(duì)帶寬的要求非常高,因此SAN網(wǎng)絡(luò)下,光纖成為了其連接的基礎(chǔ)。而其上的光纖協(xié)議相比以太網(wǎng)協(xié)議而言,也被設(shè)計(jì)的更為簡(jiǎn)潔,性能也更高。光纖交換機(jī):這個(gè)類似以太網(wǎng),如果想要做到真正的“網(wǎng)絡(luò)”,交換機(jī)是基礎(chǔ)。
- 網(wǎng)絡(luò)文件系統(tǒng)。存儲(chǔ)空間可以共享,那文件也是可以共享的。NAS(Network attached storage)相對(duì)上面兩個(gè),看待問題的層面更高,NAS是在文件系統(tǒng)級(jí)別看待問題。因此他面的不再是存儲(chǔ)空間,而是單個(gè)的文件。因此,當(dāng)NAS和SAN、DAS放在一起時(shí),很容易引起混淆。NAS從文件的層面考慮共享,因此NAS相關(guān)協(xié)議都是文件控制協(xié)議。NAS解決的是文件共享的問題;SAN(DAS)解決的是存儲(chǔ)空間的問題。NAS要處理的對(duì)象是文件;SAN(DAS)要處理的是磁盤。為NAS服務(wù)的主機(jī)必須是一個(gè)完整的主機(jī)(有OS、有文件系統(tǒng),而存儲(chǔ)則不一定有,因?yàn)榭梢运竺嬗纸恿艘粋€(gè)SAN網(wǎng)絡(luò)),他考慮的是如何在各個(gè)主機(jī)直接高效的共享文件;為SAN提供服務(wù)的是存儲(chǔ)設(shè)備(可以是個(gè)完整的主機(jī),也可以是部分),它考慮的是數(shù)據(jù)怎么分布到不同磁盤。NAS使用的協(xié)議是控制文件的(即:對(duì)文件的讀寫等);SAN使用的協(xié)議是控制存儲(chǔ)空間的(即:把多長的一串二進(jìn)制寫到某個(gè)地址)
如圖,對(duì)NAS、SAN、DAS的組成協(xié)議進(jìn)行了劃分,從這里也能很清晰的看出他們之間的差別。
NAS:涉及SMB協(xié)議、NFS協(xié)議,都是網(wǎng)絡(luò)文件系統(tǒng)的協(xié)議。
SAN:有FC、iSCSI、AOE,都是網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議。
DAS:有PATA、SATA、SAS等,主要是磁盤數(shù)據(jù)傳輸協(xié)議。
從DAS到SAN,在到NAS,在不同層面對(duì)存儲(chǔ)方案進(jìn)行的補(bǔ)充,也可以看到一種從低級(jí)到高級(jí)的發(fā)展趨勢(shì)。而現(xiàn)在我們??吹揭恍┓植际轿募到y(tǒng)(如hadoop等)、數(shù)據(jù)庫的sharding等,從存儲(chǔ)的角度來說,則是在OS層面(應(yīng)用)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。從這也能看到一種技術(shù)發(fā)展的趨勢(shì)。
跑在以太網(wǎng)上的SAN
SAN網(wǎng)絡(luò)并不是只能使用光纖和光纖協(xié)議,當(dāng)初之所以使用FC,傳輸效率是一個(gè)很大的問題,但是以太網(wǎng)發(fā)展到今天被不斷的完善、加強(qiáng),帶寬的問題也被不斷的解決。因此,以太網(wǎng)上的SAN或許會(huì)成為一個(gè)趨勢(shì)。
如圖兩個(gè)FC的SAN網(wǎng)絡(luò),通過FCIP實(shí)現(xiàn)了兩個(gè)SAN網(wǎng)絡(luò)數(shù)據(jù)在IP網(wǎng)絡(luò)上的傳輸。這個(gè)時(shí)候SAN網(wǎng)絡(luò)還是以FC協(xié)議為基礎(chǔ),還是使用光纖。
iFCP
通過iFCP方式,SAN網(wǎng)絡(luò)由FC的SAN網(wǎng)絡(luò)演變?yōu)镮P SAN網(wǎng)絡(luò),整個(gè)SAN網(wǎng)絡(luò)都基于了IP方式。但是主機(jī)和存儲(chǔ)直接使用的還是FC協(xié)議。只是在接入SAN網(wǎng)絡(luò)的時(shí)候通過iFCP進(jìn)行了轉(zhuǎn)換
iSCSI
iSCSI是比較主流的IP SAN的提供方式,而且其效率也得到了認(rèn)可。
對(duì)于iSCSI,最重要的一點(diǎn)就是SCSI協(xié)議。SCSI(Small Computer Systems Interface)協(xié)議是計(jì)算機(jī)內(nèi)部的一個(gè)通用協(xié)議。是一組標(biāo)準(zhǔn)集,它定義了與大量設(shè)備(主要是與存儲(chǔ)相關(guān)的設(shè)備)通信所需的接口和協(xié)議。如圖,SCSI為block device drivers之下。
從SCIS的分層來看,共分三層:
高層:提供了與OS各種設(shè)備之間的接口,實(shí)現(xiàn)把OS如:Linux的VFS請(qǐng)求轉(zhuǎn)換為SCSI請(qǐng)求
中間層:實(shí)現(xiàn)高層和底層之間的轉(zhuǎn)換,類似一個(gè)協(xié)議網(wǎng)關(guān)。
底層:完成于具體物理設(shè)備之間的交互,實(shí)現(xiàn)真正的數(shù)據(jù)處理。