優化時,把hive sql當作map reduce程序來讀,會成心想不到的欣喜。
理解hadoop的核心能力,是hive優化的根本。這是這1年來,項目組所有成員寶貴的經驗總結。
長時間視察hadoop處理數據的進程,有幾個顯著的特點:
1.不怕數據多,就怕數據傾斜。
2.對jobs數比較多的作業運行效力相對照較低,比如即便有幾百行的表,如果屢次關聯屢次匯總,產生10幾個jobs,沒半小時是跑不完的。map reduce作業初始化的時間是比較長的。
3.對sum,count來講,不存在數據傾斜問題。
4.對count(distinct ),效力較低,數據量1多,準出問題,如果是多count(distinct )效力更低。
優化可以從幾個方面著手:
1. 好的模型設計事半功倍。
2. 解決數據傾斜問題。
3. 減少job數。
4. 設置公道的map reduce的task數,能有效提升性能。(比如,10w+級別的計算,用160個reduce,那是相當的浪費,1個足夠)。
5. 自己動手寫sql解決數據傾斜問題是個不錯的選擇。set hive.groupby.skewindata=true;這是通用的算法優化,但算法優化總是漠視業務,習慣性提供通用的解決方法。 Etl開發人員更了解業務,更了解數據,所以通過業務邏輯解決傾斜的方法常常更精確,更有效。
6. 對count(distinct)采取漠視的方法,特別數據大的時候很容易產生傾斜問題,不抱僥幸心理。自己動手,豐衣足食。
7. 對小文件進行合并,是行至有效的提高調度效力的方法,假設我們的作業設置公道的文件數,對云梯的整體調度效力也會產生積極的影響。
8. 優化時掌控整體,單個作業最優不如整體最優。
遷移和優化進程中的案例:
問題1:如日志中,常會有信息丟失的問題,比如全網日志中的user_id,如果取其中的user_id和bmw_users關聯,就會碰到數據傾斜的問題。
方法:解決數據傾斜問題
解決方法1. User_id為空的不參與關聯,例如:
Select *
From log a
Join bmw_users b
On a.user_id is not null
And a.user_id = b.user_id
Union all
Select *
from log a
where a.user_id is null.
解決方法2 :
Select *
from log a
left outer join bmw_users b
on case when a.user_id is null then concat(‘dp_hive’,rand() ) else a.user_id end = b.user_id;
總結:2比1效力更好,不但io少了,而且作業數也少了。1方法log讀取兩次,jobs是2。2方法job數是1 。這個優化合適無效id(比如⑼9,’’,null等)產生的傾斜問題。把空值的key變成1個字符串加上隨機數,就可以把傾斜的數據分到不同的reduce上 ,解決數據傾斜問題。由于空值不參與關聯,即便分到不同的reduce上,也不影響終究的結果。附上hadoop通用關聯的實現方法(關聯通過2次排序實現的,關聯的列為parition key,關聯的列c1和表的tag組成排序的group key,根據parition key分配reduce。同1reduce內根據group key排序)。
問題2:不同數據類型id的關聯會產生數據傾斜問題。
1張表s8的日志,每一個商品1條記錄,要和商品表關聯。但關聯卻碰到傾斜的問題。s8的日志中有字符串商品id,也有數字的商品id,類型是string的,但商品中的數字id是bigint的。猜想問題的緣由是把s8的商品id轉成數字id做hash來分配reduce,所以字符串id的s8日志,都到1個reduce上了,解決的方法驗證了這個猜想。
方法:把數字類型轉換成字符串類型
Select * from s8_log a
Left outer join r_auction_auctions b
On a.auction_id = cast(b.auction_id as string);
問題3:利用hive 對UNION ALL的優化的特性
hive對union all優化只局限于非嵌套查詢。
比如以下的例子:
select * from
(select * from t1
Group by c1,c2,c3
Union all
Select * from t2
Group by c1,c2,c3) t3
Group by c1,c2,c3;
從業務邏輯上說,子查詢內的group by 怎樣都看顯很多余(功能上的過剩,除非有count(distinct)),如果不是由于hive bug或性能上的考量(曾出現如果不子查詢group by ,數據得不到正確的結果的hive bug)。所以這個hive按經驗轉換成
select * from
(select * from t1
Union all
Select * from t2
) t3
Group by c1,c2,c3;
經過測試,并未出現union all的hive bug,數據是1致的。mr的作業數有3減少到1。
t1相當于1個目錄,t2相當于1個目錄,那末對map reduce程序來講,t1,t2可以做為map reduce 作業的mutli inputs。那末,這可以通過1個map reduce 來解決這個問題。Hadoop的計算框架,不怕數據多,就怕作業數多。
但如果換成是其他計算平臺如oracle,那就不1定了,由于把大的輸入拆成兩個輸入,分別排序匯總后merge(假設兩個子排序是并行的話),是有可能性能更優的(比如希爾排序比冒泡排序的性能更優)。
問題4:比如推行效果表要和商品表關聯,效果表中的auction id列既有商品id,也有數字id,和商品表關聯得到商品的信息。那末以下的hive sql性能會比較好
Select * from effect a
Join (select auction_id as auction_id from auctions
Union all
Select auction_string_id as auction_id from auctions
) b
On a.auction_id = b.auction_id。
比分別過濾數字id,字符串id然后分別和商品表關聯性能要好。
這樣寫的好處,1個MR作業,商品表只讀取1次,推行效果表只讀取1次。把這個sql換成MR代碼的話,map的時候,把a表的記錄打上標簽a,商品表記錄每讀取1條,打上標簽b,變成兩個<key ,value>對,<b,數字id>,<b,字符串id>。所以商品表的hdfs讀只會是1次。
問題5:先join生成臨時表,在union all還是寫嵌套查詢,這是個問題。比如以下例子:
Select *
From (select *
From t1
Uion all
select *
From t4
Union all
Select *
From t2
Join t3
On t2.id = t3.id
) x
Group by c1,c2;
這個會有4個jobs。假設先join生成臨時表的話t5,然后union all,會變成2個jobs。
Insert overwrite table t5
Select *
From t2
Join t3
On t2.id = t3.id
;
Select * from (t1 union all t4 union all t5) ;
hive在union all優化上可以做得更智能(把子查詢當作臨時表),這樣可以減少開發人員的負擔。出現這個問題的緣由應當是union all目前的優化只局限于非嵌套查詢。如果寫MR程序這1點也不是問題,就是multi inputs。
問題6:使用map join解決數據傾斜的常景下小表關聯大表的問題,但如果小表很大,怎樣解決。這個使用的頻率非常高,但如果小表很大,大到map join會出現bug或異常,這時候就需要特別的處理。云瑞和玉璣提供了非常給力的解決方案。以下例子:
Select * from log a
Left outer join members b
On a.memberid = b.memberid.
Members有600w+的記錄,把members分發到所有的map上也是個不小的開消,而且map join不支持這么大的小表。如果用普通的join,又會碰到數據傾斜的問題。
解決方法:
Select /*+mapjoin(x)*/* from log a
Left outer join (select /*+mapjoin(c)*/d.*
From (select distinct memberid from log ) c
Join members d
On c.memberid = d.memberid
)x
On a.memberid = b.memberid。
先根據log取所有的memberid,然后mapjoin 關聯members取今天有日志的members的信息,然后在和log做mapjoin。
假設,log里memberid有上百萬個,這就又回到原來map join問題。所幸,逐日的會員uv不會太多,有交易的會員不會太多,有點擊的會員不會太多,有傭金的會員不會太多等等。所以這個方法能解決很多場景下的數據傾斜問題。
問題7:HIVE下通用的數據傾斜解決方法,double被關聯的相對較小的表,這個方法在mr的程序里經常使用。還是剛才的那個問題:
Select * from log a
Left outer join (select /*+mapjoin(e)*/
memberid, number
From members d
Join num e
) b
On a.memberid= b.memberid
And mod(a.pvtime,30)+1=b.number。
Num表只有1列number,有30行,是1,30的自然數序列。就是把member表膨脹成30份,然后把log數據根據memberid和pvtime分到不同的reduce里去,這樣可以保證每一個reduce分配到的數據可以相對均勻。就目前測試來看,使用mapjoin的方案性能稍好。后面的方案合適在map join沒法解決問題的情況下。
長遠假想,把以下的優化方案做成通用的hive優化方法
1. 采樣log表,哪些memberid比較傾斜,得到1個結果表tmp1。由于對計算框架來講,所有的數據過來,他都是不知道數據散布情況的,所以采樣是其實不可少的。Stage1
2. 數據的散布符合社會學統計規則,貧富不均。傾斜的key不會太多,就像1個社會的富人不多,奇特的人不多1樣。所以tmp1記錄數會很少。把tmp1和members做map join生成tmp2,把tmp2讀到distribute file cache。這是1個map進程。Stage2
3. map讀入members和log,假設記錄來自log,則檢查memberid是不是在tmp2里,如果是,輸出到本地文件a,否則生成<memberid,value>的key,value對,假設記錄來自member,生成<memberid,value>的key,value對,進入reduce階段。Stage3.
4. 終究把a文件,把Stage3 reduce階段輸出的文件合并起寫到hdfs。
這個方法在hadoop里應當是能實現的。Stage2是1個map進程,可以和stage3的map進程可以合并成1個map進程。
這個方案目標就是:傾斜的數據用mapjoin,不傾斜的數據用普通的join,終究合并得到完全的結果。用hive sql寫的話,sql會變得很多段,而且log表會有屢次讀。傾斜的key始終是很少的,這個在絕大部份的業務背景下適用。那是不是可以作為hive針對數據傾斜join時候的通用算法呢?
問題8:多粒度(平級的)uv的計算優化,比如要計算店鋪的uv。還有要計算頁面的uv,pvip.
方案1:
Select shopid,count(distinct uid)
From log group by shopid;
Select pageid, count(distinct uid),
From log group by pageid;
由于存在數據傾斜問題,這個結果的運行時間是非常長的。
方案2:
From log
Insert overwrite table t1 (type=’1’)
Select shopid
Group by shopid ,acookie
Insert overwrite table t1 (type=’2’)
Group by pageid,acookie;
店鋪uv:
Select shopid,sum(1)
From t1
Where type =’1’
Group by shopid ;
頁面uv:
Select pageid,sum(1)
From t1
Where type =’1’
Group by pageid ;
這里使用了multi insert的方法,有效減少了hdfs讀,但multi insert會增加hdfs寫,多1次額外的map階段的hdfs寫。使用這個方法,可以順利的產出結果。
方案3:
Insert into t1
Select type,type_name,’’ as uid
From (
Select ‘page’ as type,
Pageid as type_name,
Uid
From log
Union all
Select ‘shop’ as type,
Shopid as type_name,
Uid
From log ) y
Group by type,type_name,uid;
Insert into t2
Select type,type_name,sum(1)
From t1
Group by type,type_name;
From t2
Insert into t3
Select type,type_name,uv
Where type=’page’
Select type,type_name,uv
Where type=’shop’ ;
終究得到兩個結果表t3,頁面uv表,t4,店鋪結果表。從io上來講,log1次讀。但比方案2少次hdfs寫(multi insert有時會增加額外的map階段hdfs寫)。作業數減少1個到3,有reduce的作業數由4減少到2,第3步是1個小表的map進程,分下表,計算資源消耗少。但方案2每一個都是大范圍的去重匯總計算。
這個優化的主要思路是,map reduce作業初始化話的時間是比較長,既然起來了,讓他多干點活,順便把頁面按uid去重的活也干了,省下log的1次讀和作業的初始化時間,省下網絡shuffle的io,但增加了本地磁盤讀寫。效力提升較多。
這個方案合適平級的不需要逐級向上匯總的多粒度uv計算,粒度越多,節省資源越多,比較通用。
問題9:多粒度,逐層向上匯總的uv結算。比如4個維度,a,b,c,d,分別計算a,b,c,d,uv;
a,b,c,uv;a,b,uv;a;uv,total uv4個結果表。這可以用問題8的方案2,這里由于uv場景的特殊性,多粒度,逐層向上匯總,就能夠使用1次排序,所有uv計算受益的計算方法。
案例:目前mm_log日志1天有25億+的pv數,要從mm日志中計算uv,與ipuv,1總計算
3個粒度的結果表
(memberid,siteid,adzoneid,province,uv,ipuv) R_TABLE_4
(memberid,siteid,adzoneid,uv,ipuv) R_TABLE_3
(memberid,siteid,uv,ipuv) R_TABLE_2
第1步:按memberid,siteid,adzoneid,province,使用group去重,產生臨時表,對cookie,ip
打上標簽放1起,1起去重,臨時表叫T_4;
Select memberid,siteid,adzoneid,province,type,user
From(
Select memberid,siteid,adzoneid,province,‘a’ type ,cookie as user from mm_log where ds=20101205
Union all
Select memberid,siteid,adzoneid,province,‘i’ type ,ip as user from mm_log where ds=20101205
) x group by memberid,siteid,adzoneid,province,type,user ;
第2步:排名,產生表T_4_NUM.Hadoop最強大和核心能力就是parition 和 sort.按type,acookie分組,
Type,acookie,memberid,siteid,adzoneid,province排名。
Select * ,
row_number(type,user,memberid,siteid,adzoneid ) as adzone_num ,
row_number(type,user,memberid,siteid ) as site_num,
row_number(type,user,memberid ) as member_num,
row_number(type,user ) as total_num
from (select * from T_4 distribute by type,user sort by type,user, memberid,siteid,adzoneid ) x;
這樣就能夠得到不同層次粒度上user的排名,相同的user id在不同的粒度層次上,排名等于1的記錄只有1條。取排名等于1的做sum,效果相當于Group by user去重后做sum操作。
第3步:不同粒度uv統計,先從最細粒度的開始統計,產生結果表R_TABLE_4,這時候,結果集只有10w的級別。
如統計memberid,siteid,adzoneid,provinceid粒度的uv使用的方法就是
Select memberid,siteid,adzoneid, provinceid,
sum(case when type =’a’ then cast(1) as bigint end ) as province_uv ,
sum(case when type =’i’ then cast(1) as bigint end ) as province_ip ,
sum(case when adzone_num =1 and type =’a’ then cast(1) as bigint end ) as adzone_uv ,
sum(case when adzone_num =1 and type =’i’ then cast(1) as bigint end ) as adzone_ip ,
sum(case when site_num =1 and type =’a’ then cast(1) as bigint end ) as site_uv ,
sum(case when site_num =1 and type =’i’ then cast(1) as bigint end ) as site_ip ,
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈