日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > php開源 > 綜合技術 > R-FCN:基于區域的全卷積網絡來檢測物體

R-FCN:基于區域的全卷積網絡來檢測物體

來源:程序員人生   發布時間:2016-07-06 13:20:59 閱讀次數:9172次

原文標題為“R-FCN: Object Detection via Region-based Fully Convolutional Networks ”,作者代季峰 1,14年畢業的清華博士到微軟亞洲研究院的視覺計算組,CVPR 16 兩篇1作的會議主持人~ ╰(°▽°)╯ 同時公布了源碼~ 2

后面主要內容為原文隨意的翻譯或概括。必有不緊貼原文原意的地方,歪曲請指出,否則求放過~

1. 簡介

物體檢測的深度網絡按感興趣區域 (RoI) 池化層分為兩大主流:同享計算的全卷積子網絡 (每一個子網絡與 RoI 無關) 和 不同享計算的作用于各自 RoI 的子網絡。工程分類結構 (如 Alexnet 和 VGG Nets) 造成這樣的分流。而工程上的圖象分類結構被設計為兩個子網絡——1個后綴1個空間池化層的卷積子網絡和多個全連接層。因此,圖象分類網絡中最后的空間池化層自然變成了物體檢測網絡中的 RoI 池化層。

最近幾年來,諸如殘差網絡和 GoogLeNets 等先進的圖象分類網絡為全卷積網絡。類似地,自然會想到用在物體檢測中用全卷積網絡 (隱藏層不包括作用于 RoI 的子網絡)。但是,物體檢測工作中的經驗表明,這樣天真的解決方案的檢測效果遠差于該網絡的分類效果。 為彌補為難,更快 R-CNN 檢測器不自然地在兩卷積層間插入RoI 池化層,這樣更深的作用于各 RoI 的子網絡雖精度更高,但各個 RoI 計算不同享所以速度慢。

為難在于:物體分類要求平移不變性越大越好 (圖象中物體的移動不用辨別),而物體檢測要求有平移變化。所以,ImageNet 分類領先的結果證明盡量有平移不變性的全卷積結構更受親睞。另外一方面,物體檢測任務需要1些平移變化的定位表示。比如,物體的平移應當使網絡產生響應,這些響應對描寫候選框覆蓋真實物體的好壞是成心義的。我們假定圖象分類網絡的卷積層越深,則該網絡對平移越不敏感。

我曾看到的為難包括:

a) Kaggle 中的白鯨身份辨認。剛開始很多人嘗試從圖象到坐標的直接回歸,到后面有幾位心善的大哥分享了自己手動標定后白鯨的圖象坐標,后來顯著的進展大多是由于把白鯨的位置檢測和身份辨認問題簡化為白鯨的身份辨認問題。
b) Caffe 用于物體檢測時的均值收斂問題。

消除為難,在網絡的卷積層間插入 RoI 池化層。這類具體到區域的操作在不同區域間跑時不再有平移不變性。但是,該設計因引入相當數目的按區域操作層 (region-wise layers) 而犧牲了訓練和測試效力。

本文,我們為物體檢測推出了基于區域的全卷積網絡 (R-FCN),采取全卷積網絡結構作為 FCN,為給 FCN 引入平移變化,用專門的卷積層構建位置敏感分數地圖 (position-sensitive score maps)。每一個空間敏感地圖編碼感興趣區域的相對空間位置信息。 在FCN上面增加1個位置敏感 RoI 池化層來監管這些分數地圖。

2. 方法

(1) 簡介

效仿 R-CNN,采取流行的物體檢測策略,包括區域建議和區域分類兩步。不依賴區域建議的方法確切存在 (SSD 和 Yolo 弟兄),基于區域的系統在不同 benchmarks 上仍然精度領先。用更快 R-CNN 中的區域建議網絡 (RPN) 提取候選區域,該 RPN 為全卷積網絡。效仿更快 R-CNN,同享 RPN 和 R-FCN 的特點。

這里寫圖片描述

RPN 給出感興趣區域,R-FCN 對該感興趣區域分類。R-FCN 在與 RPN 同享的卷積層后多加1個卷積層。所以,R-FCN 與 RPN 1樣,輸入為整幅圖象。但 R-FCN 最后1個卷積層的輸出從整幅圖象的卷積響應圖象中分割出感興趣區域的卷積響應圖象。

這里寫圖片描述

R-FCN 最后1個卷積層在整幅圖象上為每類生成k2個位置敏感分數圖,有C類物體外加1個背景,因此有k2(C+1)個通道的輸出層。k2個分數圖對應描寫位置的空間網格。比如,k×k=3×3,則9個分數圖編碼單個物體類的 {top?left,top?center,top?right,...,bottom?right}。

R-FCN 最后用位置敏感 RoI 池化層,給每一個 RoI 1個分數。選擇性池化圖解:看上圖的橙色響應圖象 (top?left),摳出橙色方塊 RoI,池化橙色方塊 RoI 得到橙色小方塊 (分數);其它色彩的響應圖象同理。對所有色彩的小方塊投票 (或池化) 得到1類的響應結果。

選擇性池化是跨通道的,投票部份的池化為所有通道的池化。而1般池化都在通道內。

R-FCN 最后1個卷積層的輸出為何會具有相對空間位置這樣的物理意義 (top-left,top-center,…,bottom-right)?

原文為“With end-to-end training, this RoI layer shepherds the last convolutional layer to learn specialized position-sensitive score maps.”。所以,假定端到端訓練后每層真有相對位置的意義,那末投票前的輸入1定位置敏感。投票后面的內容用作分類。

端到端訓練先自行腦補:
假定已知原圖象與真實物體的邊界框中心坐標和寬高,把1個物體的邊界框中心坐標分成k2個網格的中心坐標,寬高縮放為物體寬高的1k倍,得到每一個網格的掩碼。用原圖象和每類物體的網格在整幅圖象中的掩碼端到端訓練全卷積網絡。挺像圖象分割~

(2) 基礎結構

ResNet⑴01 網絡有100個卷積層,1個全局平均池化層和1個1000類的全連接層。僅用ImageNet預訓練的該網絡的卷積層計算特點圖。

(3) 位置敏感分數圖

對 R-FCN 的卷積響應圖象按 RPN 的結果分割出來感興趣區域,對單通道的感興趣區域分成k×k個網格,每一個網格平均池化,然后所有通道再平均池化。
其實不是這樣的~ 由于 RoI 覆蓋的所有面積的橙色方片都是左上位置的響應。

“To explicitly encode position information into each RoI, we divide each RoI rectangle into k×k bins by a regular grid.” 這句話應對應下圖 (對應后面效果圖的黃色虛線部份):

這里寫圖片描述

對1個大小為w×h的 RoI,1個桶 (bin) 的大小為wk×hk,最后1個卷積層為每類產生k2個分數圖。對第(i,j)個桶 (0i,jk?1),定義1個位置敏感 RoI 池化操作:

rc(i,j|Θ)=1n(x,y)bin(i,j)zi,j,c(x+x0,y+y0|Θ)

其中,rc(i,j|Θ)為第c類第(i,j)個箱子的池化響應,zi,j,ck2(C+1)個分數圖中的輸出,(x0,y0)為 RoI 的左上角坐標,n為桶里的像素總數,且Θ為網絡的參數。

桶對應后面效果圖的黃色實線部份,1個桶只摳了每類的每一個相對空間位置通道中 RoI 的對應相對空間位置的分數圖,其它的部份拋棄。

(4) 分類

對該 RoI 每類的所有相對空間位置的分數平均池化 (或投票)。

rc(Θ)=i,jrc(i,j|Θ)

Softmax 回歸分類。

(5) 定位

k2(C+1)維的卷積層后,增加1個4 生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 久久精品久久久久久 | 国产成人精品视频在线 | 日韩激情一区二区 | 久久中国国产 | 国产精品久久久久久久久久久免费看 | 国产片一区二区 | 激情综合五月 | 久久久精品一区二区 | 成人在线亚洲 | 在线一区二区三区做爰视频网站 | 日韩在线精品视频 | 99视频这里有精品 | 国产一区二区三区免费视频 | 亚洲免费a| 国产精品久久久久久久电影 | 国产一卡二卡在线视频 | 国产成人精品不卡 | 久久免费毛片视频 | 久久久蜜桃 | 国产一区福利 | 欧美一级xxx | 日韩成人资源 | 亚洲欧洲在线观看 | 亚洲国产精品一区二区第一页 | 国内毛片毛片 | 中文字幕一区二区三区四区在线观看 | 亚洲一区二区三区四区精品 | 国产1区2区在线观看 | 国产精品久久久久久久久久久久午夜片 | 精品视频在线一区 | 国产精品视频免费 | 黄视频在线播放 | 国产伦精品一区二区三区视频金莲 | 国产一区二区观看 | 国产精品三级在线 | 国产一区二区三区精品在线观看 | 精品高清视频 | 91精品www| 91麻豆精品国产91久久久久久久久 | 日韩国产一区在线 | 99精品在线观看 |