編者按:CSDN “開源技術大會?2014” (OSTC?2014 )將于2014年3月30日在北京麗亭華苑酒店召開。我們將陸續發布參會講師的系列采訪,談談他們將在本次活動分享的內容。
本期,我們采訪的是騰訊TDW開源項目負責人、騰訊高級工程師趙偉。
趙偉
趙偉,騰訊數據平臺部高級工程師,騰訊大數據平臺分布式數據倉庫(TDW)的技術負責人,開源軟件愛好者,是騰訊內部Hive、Pig、PostgreSQL、ZFS等開源技術的引入和推廣者。目前主要負責TDW平臺的穩定性、性能、易用性建設,同時負責TDW對外開源工作。
TDW,騰訊分布式數據倉庫項目,在Hadoop的基礎上開發的騰訊內部最大的離線數據處理平臺。TDW支持Oracle功能兼容的SQL語法,支持PB及的存儲和TB及的計算等。
以下是采訪記錄。
CSDN:請簡單的介紹一下TDW項目的應用場景。
趙偉:這個項目主要的應用場景是構建低成本的數據倉庫。我們知道傳統的數據倉庫需要專用的硬件和昂貴的軟件授權,使用TDW,可以基于廉價的PC Server構建數據倉庫。我們希望通過開源的TDW,降低數據倉庫的成本和建設門檻,促進企業對數據價值的發掘,提升國內企業的信息化水平。
CSDN:TDW歷經4年研發,這四年間產品的設計思路和實現方式是否經歷了什么變化?
趙偉:TDW在過去幾年的設計思路一直是“開源軟件”+“騰訊定制和優化”。使用開源軟件,大大節省了我們的研發成本和時間,可以快速搭建起原型,比如TDW核心的查詢引擎,是基于apache hive這個開源軟件。但是僅僅使用開源軟件,又不能完全滿足騰訊的業務需求,因此,我們需要再開源軟件基礎上,根據騰訊的業務特點,進行定制和優化。在TDW的研發過程中,我們基于hive和hadoop,依次經歷了數據倉庫功能完善、易用性建設、高可用和穩定性加強,性能和成本優化,安全建設等定制和優化。
CSDN:TDW在“騰訊海量數據處理平臺”中的位置及作用是怎樣的?
趙偉:TDW是騰訊海量數據處理平臺中最核心的模塊,它有以下幾個作用:
CSDN:作為一款分布式數據倉庫,TDW的技術架構是怎樣的?在TDW的設計和開發過程中最注重的是哪些部分?
趙偉:在架構上,TDW并沒有對開源軟件做大的修改。TDW的存儲和計算,主要采用hadoop的HDFS和MapReduce,TDW的SQL查詢引擎主要基于Hive。
TDW在研發的不同階段,有不同的側重點。在TDW研發開始那三年,我們主要對Hive進行定制和優化,使它更功能更豐富,更穩定,更易用。最近兩年,我們為了支撐更大規模的集群,在hadoop層做了大量優化,主要包括hadoop的master分散化和高可用。
CSDN:與其他類似分布式數據倉庫相比,TDW的優勢是什么?
趙偉:與其他商業數據庫比,當然是成本優勢。與社區的hive+hadoop比,TDW包含了大量功能,穩定性和性能優化,并且經過了騰訊生產環境的驗證。
CSDN:TDW今后的目標和開發計劃是什么?
趙偉:我們的目標有兩個:一個是使TDW運行效率更高,用戶體驗更好,包括將一些新的存儲計算引擎引入到TDW中,提供更快速的查詢分析響應;另外一個是更節省成本,我們將持續優化我們的存儲策略和計算機模型,使TDW的運營成本計量下降。
接下來一段時間的開發計劃大致有:
CSDN:您能否簡單談下您在本次大會上要分享的話題。
趙偉:我本次大會上的議題是《基于開源軟件構建騰訊大數據平臺》,希望跟大家分享TDW所使用的開源軟件,以及基于之上的各種優化,以及TDW對外開源進展。
延伸閱讀
據悉,騰訊未來會對一系列項目進行開源,CSDN CODE將會對此進行持續系列報道,敬請關注。
2014年3月30日,由CSDN主辦的“開源技術大會?2014”將在北京麗亭華苑酒店召開。多位開源界資深人士將出席大會并發表演講,歡迎大家親臨現場與大牛零距離交流。
>>>大會官網:http://ostc.csdn.net/