1. Manhattan,Twitter規(guī)模的實(shí)時(shí)、多租戶(hù)分布式數(shù)據(jù)庫(kù)
Twitter的實(shí)時(shí)特性導(dǎo)致當(dāng)下任何開(kāi)源系統(tǒng)都無(wú)法滿(mǎn)足其低延遲的需求。我們花費(fèi)了大量時(shí)間來(lái)滿(mǎn)足不同產(chǎn)品的需求,提供新的存儲(chǔ)容量,耗費(fèi)人力、流程以滿(mǎn)足使用需求。但是依照我們?cè)赥witter規(guī)模下的開(kāi)發(fā)運(yùn)行生產(chǎn)存儲(chǔ)經(jīng)驗(yàn),這種狀態(tài)是不可持續(xù)的。所有我們?cè)噲D構(gòu)建下一代Twitter分布式系統(tǒng)――我們稱(chēng)之為Manhattan 。Manhattan 不但需要滿(mǎn)足現(xiàn)有需求,還需要迎合未來(lái)潛在的需求,以下是設(shè)計(jì)目標(biāo):
Manhattan 的主要特性。Manhattan 共分為如下 4 層:
支持多租戶(hù)――允許多個(gè)不同應(yīng)用程序共享同一資源――這從一開(kāi)始就是一個(gè)關(guān)鍵需求。Twitter先前使用的系統(tǒng)中,我們?yōu)槊總€(gè)特征構(gòu)建外部集群。這增加了操作負(fù)擔(dān),浪費(fèi)資源,并且阻礙了客戶(hù)推出新功能的速度。允許多個(gè)用戶(hù)使用同一組群將增強(qiáng)運(yùn)行系統(tǒng)的競(jìng)爭(zhēng)力。我們現(xiàn)在必須要考慮隔離性,資源管理,多個(gè)用戶(hù)能力模型,速率限制,QoS以及配額等等。為了給客戶(hù)提供所需的可視性,我們?cè)O(shè)計(jì)了自己的速率限制服務(wù)來(lái)增強(qiáng)用戶(hù)對(duì)資源和配額的使用。
孫元浩,2003年加入英特爾,曾是英特爾亞太研發(fā)有限公司數(shù)據(jù)中心軟件部亞太區(qū)CTO,負(fù)責(zé)英特爾Hadoop發(fā)行版的研發(fā)和產(chǎn)品化工作。 2013年離開(kāi)英特爾創(chuàng)辦星環(huán)科技,推出國(guó)內(nèi)首個(gè)基于Spark的大數(shù)據(jù)平臺(tái)產(chǎn)品,在中國(guó)成功建立數(shù)個(gè)Spark成功案例。
孫元浩認(rèn)為現(xiàn)在把Spark作為M/R執(zhí)行引擎內(nèi)嵌在我們的產(chǎn)品中,在兩大類(lèi)應(yīng)用實(shí)踐中比較成功,一類(lèi)是通過(guò)PL/SQL進(jìn)行交互式數(shù)據(jù)統(tǒng)計(jì)和分析,結(jié)合可視化工具為用戶(hù)提供了高速的大數(shù)據(jù)探索能力。另一類(lèi)應(yīng)用是做數(shù)據(jù)挖掘,因?yàn)镾park充分利用內(nèi)存進(jìn)行緩存,利用DAG消除不必要的步驟,所以比較合適做迭代式的運(yùn)算。而有相當(dāng)一部分機(jī)器學(xué)習(xí)算法是通過(guò)多次迭代收斂的算法,所以適合用Spark來(lái)實(shí)現(xiàn)。我們把一些常用的算法并行化用Spark實(shí)現(xiàn),可以從R語(yǔ)言中方便地調(diào)用,降低了用戶(hù)進(jìn)行數(shù)據(jù)挖掘的學(xué)習(xí)成本。
他表示Spark目前在技術(shù)上已經(jīng)不存在大的困難了,我們已經(jīng)在一些用戶(hù)的核心業(yè)務(wù)系統(tǒng)中部署我們自己的Spark版本,而且是7x24小時(shí)不間斷運(yùn)行,穩(wěn)定性已得到驗(yàn)證。我們也把Spark成功地應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)中,無(wú)需編程幾乎全程可視化。如果說(shuō)目前面臨的最大困難,主要是在客戶(hù)認(rèn)知上,還需要更多的成功案例和技術(shù)推廣。
隨著數(shù)據(jù)體積的激增,MySQL+memcache已經(jīng)滿(mǎn)足不了大型互聯(lián)網(wǎng)類(lèi)應(yīng)用的需求,許多機(jī)構(gòu)也紛紛選擇Redis作為其架構(gòu)上的補(bǔ)充,然而Redis的使用門(mén)檻并不低,比如不支持SQL等,這里為大家分享Redis的使用全攻略。
Redis的一個(gè)重要特性就是它并非通常意義上的數(shù)據(jù)庫(kù),雖然稱(chēng)之為數(shù)據(jù)庫(kù)是因?yàn)樗梢詾槟愦鎯?chǔ)和維護(hù)數(shù)據(jù),但它并不像關(guān)系數(shù)據(jù)庫(kù)那樣提供任何的SQL方言。不過(guò)不用擔(dān)心,Redis并不是吞噬數(shù)據(jù)的黑洞,它只是不支持SQL及相關(guān)功能,但卻提供了穩(wěn)健的協(xié)議用于與之交互。
Redis是基于key-value范式存儲(chǔ)數(shù)據(jù),不像RDBMS中的字段名稱(chēng),這里的key是Redis中的重要組成部分,所以我們必須在處理key時(shí)多加小心。在下面的講述中,Redis并沒(méi)有table的概念,所以像"SELECT username from users WHERE user_id=123;"這種簡(jiǎn)單任務(wù)都只能換種方式實(shí)現(xiàn),為了達(dá)到這種目的,在Redis上,一種方式是通過(guò)key "user:123:username"來(lái)獲取結(jié)果value。如你所見(jiàn),key的定義中攜帶了神秘信息(像user ids)。在Redis中,key的重要性可見(jiàn)一斑。
NOSQL有以下優(yōu)勢(shì):
2014年3月26日,LSI加速技術(shù)創(chuàng)新峰會(huì)(AIS)首次登陸中國(guó),這也是LSI首次選擇在美國(guó)之外的地區(qū)召開(kāi)峰會(huì),本次峰會(huì)主題為“數(shù)據(jù)即商機(jī)”。參展的產(chǎn)品主要是針對(duì)數(shù)據(jù)中心的存儲(chǔ)解決方案,包括針對(duì)企業(yè)級(jí)大型數(shù)據(jù)中心的12 Gb/s SAS MegaRAID解決方案,針對(duì)中小企業(yè)的Syncro CS解決方案以及Nytro閃存解決方案,雖然沒(méi)有新品發(fā)布,每種解決方案對(duì)傳統(tǒng)存儲(chǔ)市場(chǎng)來(lái)說(shuō)都是一場(chǎng)變革。
LSI公司CTO辦公室高級(jí)技術(shù)專(zhuān)家Robert Ober則將其進(jìn)一步細(xì)化為數(shù)據(jù)中心三大硬件創(chuàng)新和六大趨勢(shì),三大創(chuàng)新分別為:硬件的智能化、整個(gè)數(shù)據(jù)中心的可靠性以及大數(shù)據(jù)分析所需的分布式系統(tǒng)架構(gòu)。六大趨勢(shì)分別為:
4月9日云存儲(chǔ)服務(wù)商Dropbox發(fā)布數(shù)項(xiàng)新應(yīng)用,如照片應(yīng)用Carousel允許用戶(hù)瀏覽和共享存儲(chǔ)在云服務(wù)中的圖片。而移動(dòng)電子郵件Mailbox的亮點(diǎn)是通過(guò)將重要附件保存在云服務(wù)中來(lái)減少垃圾郵件。該公司CEO德魯?休斯頓(Drew Houston)將公司的新舉措稱(chēng)為開(kāi)啟“第二篇章”,旨在發(fā)揮Dropbox的現(xiàn)有優(yōu)勢(shì),使用戶(hù)擁有更多理由忠誠(chéng)于Dropbox 的云存儲(chǔ)服務(wù)。
前美國(guó)國(guó)務(wù)卿康多莉扎?賴(lài)斯 (Condoleezza Rice)也閃亮加盟Dropbox,成為公司第四位董事會(huì)成員。去年,賴(lài)斯經(jīng)營(yíng)的國(guó)際咨詢(xún)公司RiceHadleyGates一直在為Dropbox的管理提供咨詢(xún)。休斯頓(Drew Houston)表示,雖然其他企業(yè)的存儲(chǔ)服務(wù)價(jià)格更低,但僅Dropbox一家能夠?qū)崿F(xiàn)文件在多個(gè)設(shè)備之間的同步。谷歌、微軟和蘋(píng)果雖都提供免費(fèi)服務(wù),但用戶(hù)只能在專(zhuān)屬這些企業(yè)的設(shè)備或應(yīng)用中使用。Dropbox扮演著瑞士一般的中立國(guó)角色,可允許用戶(hù)將運(yùn)行Windows系統(tǒng)的筆記本電腦上的文件,在 iPhone或Android平板中進(jìn)行無(wú)縫更新。
作為OpenStack的人氣存儲(chǔ)技術(shù)之一,Ceph與Swift和GlusterFS一樣有著各自的優(yōu)勢(shì):GlusterFS更適合Hadoop類(lèi)型的服務(wù);Swift適合更多人訪(fǎng)問(wèn);Ceph的未來(lái)更被看好,并已得到許多知名機(jī)構(gòu)的支持,比如CERN和天河2。
Ceph事實(shí)上是目前OpenStack生態(tài)系統(tǒng)中呼聲最高的開(kāi)源存儲(chǔ)解決方案。這一點(diǎn)從筆者在OpenStack 2013 HongKong Summit上的親身體驗(yàn)可以得到印證。目前,以HP、Dell、Intel等為代表的企業(yè)IT領(lǐng)導(dǎo)廠(chǎng)商,和以Mirantis、eNovance、United Stack為代表的若干OpenStack社區(qū)新興廠(chǎng)商,都將Ceph作為重要的乃至于首選的開(kāi)源存儲(chǔ)解決方案,詳細(xì)內(nèi)容請(qǐng)點(diǎn)擊 原文。
其他云計(jì)算熱點(diǎn)新聞: Hadoop集群環(huán)境下網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)與優(yōu)化、 CloudFoundry架構(gòu)優(yōu)化:NATS集群化方案、 EMC:大數(shù)據(jù)時(shí)代中對(duì)于數(shù)據(jù)保護(hù)的重新定義、 從火種到核心,淺析Hadoop大數(shù)據(jù)用戶(hù)的演變、 云計(jì)算戰(zhàn)爭(zhēng):OpenStack vs. VMware,更多云資訊請(qǐng)繼續(xù)關(guān)注CSDN 云計(jì)算頻道 。(審校/仲浩)
以“
云計(jì)算大數(shù)據(jù) 推動(dòng)智慧中國(guó) ”為主題的
第六屆中國(guó)云計(jì)算大會(huì) 將于5月20-23日在北京國(guó)家會(huì)議中心隆重舉辦。產(chǎn)業(yè)觀察、技術(shù)培訓(xùn)、主題論壇、行業(yè)研討,內(nèi)容豐富,干貨十足。票價(jià)優(yōu)惠,馬上
報(bào)名 !