在媒體行業(yè),Signiant已經(jīng)聞名于大型文檔的遷移。一些廣播公司,影視公司,游戲公司等類似的公司使用Signiant Media Shuttle,Signiant Media Exchange 和 Signiant Manager+Agents這樣的工具來(lái)提高大型文檔傳送的流程速度。通過(guò)分析在云中擴(kuò)張的工作負(fù)載,以達(dá)到將大型文檔傳輸?shù)慕鉀Q方案應(yīng)用于大數(shù)據(jù)的數(shù)據(jù)傳輸。
Signiant SkyDrop
Signiant的SkyDrop是一項(xiàng)為AWS用戶提供大量數(shù)據(jù)移入Amazon S3的新興服務(wù),這項(xiàng)服務(wù)使AWS用戶不用再擔(dān)心附加的云基礎(chǔ)設(shè)施管理。SkyDrop是一項(xiàng)混合的軟件即服務(wù)(SaaS),這意味著Signiant管理服務(wù)器端。Amazon Elastic Cloud Compute(AmazonEC2)實(shí)例在SkyDrop服務(wù)器運(yùn)行,Amazon Simple Storage Service(Amazon S3)傳輸組建,但最終用戶運(yùn)行的是一個(gè)輕的,客戶端代理的程序。用戶僅僅需要安裝一個(gè)AWS認(rèn)證的本地客戶端,并設(shè)置要使用的Amazon S3桶,然后再將文件移入監(jiān)控文件夾。對(duì)于頻繁將大數(shù)據(jù)工作負(fù)載移入Amazon S3的用戶,相比于Amazon EMR和Amazon Redshift,SkyDrop更加容易上手。
當(dāng)用戶使用Signiant的SkyDrop向Amazon S3傳送文件時(shí),其后臺(tái)在高容量傳輸周期中自動(dòng)縮放。SkyDrop的后臺(tái)跨多個(gè)AWS可用區(qū)域,在多個(gè)Amazon EC2平臺(tái)中負(fù)載平衡,所以這樣不通過(guò)復(fù)雜設(shè)定的服務(wù)變得非常可靠。
就像在之前討論的解決方法一樣,Signiant的加速文件傳輸協(xié)議使用混合TCP和UDP,對(duì)遠(yuǎn)距離大文檔的傳輸來(lái)說(shuō),Signiant可以最小化廣域網(wǎng)延遲所產(chǎn)生的影響,從而導(dǎo)致相對(duì)來(lái)說(shuō)較快的轉(zhuǎn)移速度。Signiant宣傳道其傳輸速率比FTP快200倍。重要的是,Signiant文檔傳輸協(xié)議同時(shí)支持2項(xiàng)功能,而這在Tsunami UDP中不支持:AES-256位加密和智能傳輸重試。如果傳輸數(shù)據(jù)被任何原因中斷,傳輸將會(huì)從中斷的地方重啟(運(yùn)用大量文檔重啟算法)。如果文檔已經(jīng)存在于Amazon S3并且未被改變,SkyDrop將不會(huì)更新文檔。
Signiant SkyDrop同時(shí)支持使用清單進(jìn)行批量文檔傳輸,所以用戶可以有效地轉(zhuǎn)移大量微小文檔。用戶需要事先在大量小文檔中匯總壓縮數(shù)據(jù),這是為了通過(guò)緊密匹配文檔與默認(rèn)HDFS區(qū)塊大小來(lái)優(yōu)化大數(shù)據(jù)性能。如果用戶的數(shù)據(jù)是通過(guò)GZIP等類似的形式壓縮,那么數(shù)據(jù)將不可分離并且允許多個(gè)映射并行處理設(shè)定數(shù)據(jù),這提高了大數(shù)據(jù)的性能。或者,用戶只是將不同文件錄入的數(shù)據(jù)載入Amazon Redshift表中。
一旦文檔到達(dá)以AWS為基礎(chǔ)的Signiant SkyDrop后端,HTTPS使用多部分上傳API,使文檔被安全地轉(zhuǎn)移到Amazon S3上。
SkyDrop帶有一個(gè)Windows或Mac的圖形客戶端,命令行接口,還具有多種提供一個(gè)SDK的編程語(yǔ)言。
設(shè)置Signiant SkyDrop
1 通過(guò)AWS Marketplace登錄Signiant SkyDrop
2 在需要上傳文檔的Amazon S3桶中創(chuàng)建一個(gè)有讀/寫(xiě)權(quán)限的IAM用戶。
3 安裝SkyDrop客戶端并添加剛剛創(chuàng)建的用戶名加上上傳文檔的Amazon S3的桶。
4 將文檔拖入在SkyDrop中配置的指定保密文件夾中。片刻后,它會(huì)出現(xiàn)在Amazon S3上。
設(shè)置命令行界面(CLI)
1 通過(guò)加添加用戶憑據(jù)配置SkyDropCLI,針對(duì)亞馬遜S3存儲(chǔ)和關(guān)鍵config.cfg文件。
2 使用CLI命令傳輸單個(gè)文件,只需使用-d上傳參數(shù)。在下面的例子中Matt用位于us-east-1的m3.xlarge Amazon EC2實(shí)例在沒(méi)有干擾的情況下運(yùn)行,這都基于AWS的Amazon LinuxAMI。Matt傳輸一個(gè)1 GiB的未壓縮文件,并用dd以美國(guó)標(biāo)準(zhǔn)升成到Amazon S3的桶。重要的是,這個(gè)文件位于EC2實(shí)例存儲(chǔ),從而使亞馬遜的彈性塊存儲(chǔ)(Amazon EBS)的吞吐量不會(huì)成為一個(gè)扭曲測(cè)試的瓶頸。在這種情況下的平均傳輸速率大約是630Mbps。
skydrop -d upload /media/ephemeral0/test-1GiB.img
一個(gè)更復(fù)雜的文檔傳輸可能涉及大量的文檔中列表,在清單中,每行一個(gè)文檔:
skydrop -d upload @mainfest. txt -z -i
在這種情況下,使用交互移動(dòng)(-i)以看到實(shí)時(shí)文件傳輸?shù)慕y(tǒng)計(jì)數(shù)據(jù),并在傳輸結(jié)束時(shí)生成詳細(xì)的傳輸統(tǒng)計(jì)數(shù)據(jù)(-Z)。
結(jié)論
Signiant的SkyDrop是一種高速的將大數(shù)據(jù)移入云端的簡(jiǎn)便方法。因?yàn)樗荢aaS的解決方案,它很容易使用,用戶不必?fù)?dān)心需要部署和維護(hù)一個(gè)高度可用和高性能的文件傳輸系統(tǒng)架構(gòu)。SkyDrop使用Signiant的加速文件傳輸協(xié)議,它轉(zhuǎn)移到了Amazon EC2為基礎(chǔ)的后端,然后優(yōu)化轉(zhuǎn)移到Amazon S3,這樣用戶就可以顯著減少數(shù)據(jù)移入云中的速度。最后,SkyDrop在交通和智能文檔傳送中重試,而加密意味著用戶可以安全可靠地傳送文檔。
原文鏈接: http://blogs.aws.amazon.com/bigdata/post/Tx2QZODBZN1RD1I/Moving-Big-Data-Into-the-Cloud-using-Signiant-SkyDrop
如您需要了解AWS最新資訊或是技術(shù)文檔可訪問(wèn)AWS中文技術(shù)社區(qū);如您有更多的疑問(wèn)請(qǐng)?jiān)贏WS技術(shù)論壇提出,稍后會(huì)有專家進(jìn)行答疑。
訂閱“AWS中文技術(shù)社區(qū)”微信公眾號(hào),實(shí)時(shí)掌握AWS技術(shù)及產(chǎn)品消息!
AWS中文技術(shù)社區(qū)為廣大開(kāi)發(fā)者提供了一個(gè)Amazon Web Service技術(shù)交流平臺(tái),推送AWS最新資訊、技術(shù)視頻、技術(shù)文檔、精彩技術(shù)博文等相關(guān)精彩內(nèi)容,更有AWS社區(qū)專家與您直接溝通交流!快加入AWS中文技術(shù)社區(qū),更快更好的了解AWS云計(jì)算技術(shù)。
(譯者/李雪 責(zé)編/王玉平)