7月10日,亞馬遜AWS 產品拓展經理莊富任在主題為“解析大數據分析服務”的在線培訓中,為我們講述了如何利用AWS Kinesis 實現實時數據流采集和處理, 并配合AWS Hadoop EMR集群分析非結構化數據, 以及數據倉庫Redshift 進行高效結構化數據分析,并結合客戶案例為例說明這些服務的實際應用場景。
訂閱“AWS中文技術社區”微信公眾號,實時掌握AWS技術及產品消息!
AWS中文技術社區為廣大開發者提供了一個Amazon Web Service技術交流平臺,推送AWS最新資訊、技術視頻、技術文檔、精彩技術博文等相關精彩內容,更有AWS社區專家與您直接溝通交流!快加入AWS中文技術社區,更快更好的了解AWS云計算技術。
為了幫助大家更好的復習本次培訓的相關內容,了解AWS云平臺數據分析服務的使用技巧及相關資訊,CSDN整理了本次培訓最后的QA如下:
Q1:亞馬遜推薦將最佳實踐存放在S3,這會不會失去數據本地性,例如以前的服務器數據和計算是在一起,現在數據與計算分開是不是意味著處理數據的時候會有延遲?
答:對于AWS來講,S3與EC2、EMR和Glacier都是在同一個可用區,那么每一個服務都是用高速網絡連接在一起,用戶幾乎感覺不到在做I /O或者是數據的吞吐量的瓶頸,所以這上面不會存在任何的瓶頸。
Q2:如何將業務數據導入到AWS云上?
答:這是用戶常問的一個問題,任何一個處理大數據的人都會遇到這個問題,無論用戶是在云計算上還是自己購買存儲設備,都會遇到數據載入的問題。
對于AWS云來講,亞馬遜提供很多不同的工具,第一個最簡單的就是用互聯網,只要用戶的互聯網出口帶寬是足夠的,因為不同公司的出口帶寬也都不同,但只要出口帶寬能保證,就能進入互聯網,就不會有瓶頸。另外,S3提供了一個切片工具,比如一個文件有100M,切片工具可以將其切成10個小文件,上傳到互聯網,然后S3會自動將文件進行聚合,這是其中的一個方式。第二個方式是專線傳輸,如果用戶的數據很大,達到PB級別的話,就可以通過專線傳輸到AWS云。
Q3:如何保證數據的安全性?數據保密性達到什么程度?
答:從分析層面來看,第一,數據上傳到AWS云上是一個網絡的傳輸過程,其中當然有一些加密的工具,用戶可以將數據進行加密來保存,數據的傳輸是一個加密的過程,只要數據傳輸到AWS云,亞馬遜當然也提供一些在存儲方面的加密工具,用戶可以根據需要進行加密。
重點是只要用戶的數據上傳到AWS,那么亞馬遜都不會去看或者是移動用戶的數據,總之亞馬遜能夠保證不移動或是查看用戶的數據。
Q4:PB級的數據處理是否推薦MySQL?
答:如果用戶知道MPP數據的發展或是關系型數據庫到所謂的以列存儲的MPP數據倉庫的演進,都應該知道這些都是為了取代關系型數據庫的,所以如果說是PB級的數據分析,我認為并不那么適合用MySQL。
Q5:RedShift是否可以達到像EMR水平擴展的性能?
答:可以的,EMR沒有限制說用戶需要幾臺機器,你要100臺或者1000臺都沒有問題,因為對于Hadopp這個框架來講就可以達到這么多,對于Redshift數據倉庫來講,目前是可以達到100個節點,亞馬遜有一個不斷的演進,目前PB級適用于大部分的實例,擴充到100個或200個節點的時候,亞馬遜會不斷去做一個產品的評估,事實上MPP級數據,數據倉庫就足夠用戶使用。
如您需要了解AWS最新資訊或是技術文檔可訪問AWS中文技術社區;如您有更多的疑問請在AWS技術論壇提出,稍后會有專家進行答疑。