把高糊視(shi)頻變清晰,對于 AI 而(er)言算(suan)不上新鮮事(shi)。
但如果是實時處(chu)理(li),而且速(su)度比主流方法還快了 9 倍(bei)呢?

而且計算量降低(di)了,重建圖像的質量卻(que)還(huan)非常能打:

這種圖像(xiang)質量和(he)速度性能之(zhi)間的平衡到底是怎么做到的?
今天就來(lai)看看東南大學的(de)研究者(zhe)們(men)帶來(lai)的(de)最新研究:4K 視頻實時(shi)超分辨率系統 EGVSR。

GAN 保證重建質量
為(wei)了使(shi)模(mo)型具有良好(hao)的(de)感(gan)知質量(liang),生成對抗網絡(luo) GAN 成為(wei)了超分辨率研究中廣泛使(shi)用的(de)一種方法。
比如,要處理 VSR 任務中大規(gui)模的(de)(de)分辨率退(tui)化,就(jiu)常常依靠(kao) GAN 的(de)(de)深度特(te)征學習能力。
于是參考 TecoGAN 的設(she)計,EGVSR 系統(tong)引入(ru)了空間-時間對(dui)抗結構,用來(lai)幫(bang)助判(pan)別器理解和學習空間-時間信息的分(fen)布。
也避(bi)免了傳統 GAN 在時域遇到的不穩(wen)定效應。
同時,研究者(zhe)參照高效 CNN 架構,為 EGVSR 設計(ji)了一個輕量級的網絡結構:

▲ EGVSR 生成(cheng)器的部分框架
其中,生成器部分分為(wei) FNet 模塊和 SRNet 模塊,分別用(yong)于光流估計(ji)和視頻幀超(chao)分辨率。
接下來,就是增強 EGVSR 的實時(shi)處(chu)理能力(li)了。
三種方法提升速度
研(yan)究者主要通過三種方(fang)法來提高網絡訓練和推(tui)理的(de)速度。
一、對 BN 層進行優化。
在 EGVSR 網絡中,FNet 模塊里(li)大量使用了 BN(批量歸一(yi)化(hua))層。
因此,研究者省去計算 BN 的(de)環節(jie),將其轉換為矩(ju)陣(zhen)形式,利(li)用(yong) 1×1 卷積層(ceng)來(lai)實現和替(ti)換 BN 層(ceng):

優化之后,速(su)度就提(ti)高了 5% 左右。
二、尋找高效的上采樣方法。
上采樣層(Upsampling layer)是超分(fen)辨率網絡中最重要的部分(fen)之(zhi)一(yi)。
因此,在(zai)保持其他網絡(luo)(luo)結構和(he)配置的情況(kuang)下,研(yan)究者希望從以下三種(zhong)上采樣方法中(zhong),選擇出一種(zhong)在(zai)實(shi)際 SR 網絡(luo)(luo)中(zhong)效(xiao)率(lv)最高(gao)的:
A. 調整大小卷(juan)積(ji)(使用雙線性插值)
B. 去卷積(Deconvolution)
C. 子像素卷(juan)積(Sub-pixel convolution)
在使用這三種方法(fa)訓練了(le)多組(zu) SR 網(wang)絡后,可以看(kan)到子像素卷積方法(fa)的效(xiao)果最佳:

三、設計一種適合硬件部署的高效卷積算法
傳(chuan)統(tong)的樸素卷(juan)積(Nna?ve Convolution)方法使用了 6 個循環結構,這導(dao)致它的計算效率(lv)相當低。
因此,研究(jiu)者(zhe)們使用(yong)矩陣乘(cheng)法(MatMul)算法通過逆向 col2im 轉換得到所需的(de)輸出特征結果。
這樣(yang),就(jiu)將(jiang)卷積(ji)計算(suan)轉(zhuan)換為了矩陣乘法。
也就通過內存空間(jian)節(jie)省了推(tui)理時間(jian),最終提高計算效率。
性能提升 7.92 倍
那(nei)么最終(zhong)速(su)度提升的效果如何呢?

可以(yi)看到,在(zai)使(shi)用 CPU 時,對比經典的 TecoGAN 算法,VESPCN 的速度最高能提升(sheng) 9.05 倍。
而在(zai)使(shi)用(yong) GPU 加速時,VESPCN 最高(gao)也能(neng)比 TecoGAN 的性能(neng)提升 7.92 倍。
如果(guo)從總計(ji)算成本(ben)來看,EGVSR 僅為 VESPCN 的(de) 29.57%,SOFVSR 的(de) 12.63%,FRVSR 和 TecoGAN 的(de) 14.96%。
與此同時,EGVSR 也取得了較高的圖像細節(jie)重(zhong)建質量,結(jie)果最接(jie)近 GT(Ground Truth)圖像:

而(er)對于多張圖像之間(jian)的(de)連貫性評估,研究者(zhe)們引(yin)入了兩(liang)個指標來衡量 VSR 結果與相應的(de) GT 參考結果之間(jian)的(de)差(cha)異:
tOF:測量從序(xu)列中估(gu)計的運動的像素(su)差異;
tLP:使用深度(du)特征圖測量感知上的變化(hua)。
從結果可以看(kan)到 VESPCN 的分數(shu)最小:

這說(shuo)明了在滿(man)足時間連貫(guan)性(xing)的(de)情況下,EGVSR 網絡(luo)可以恢復更多的(de)空間細節(jie),滿(man)足人眼的(de)主觀感受。
所(suo)有實(shi)驗的(de)結果都表明,EGVSR 確實(shi)在保(bao)證 VSR 高視覺質量的(de)前提下(xia),將計算負(fu)載降低到最低要(yao)求,完(wan)成了 4K VSR 在硬件平臺上(shang)的(de)實(shi)時實(shi)現。
研究團隊
論文(wen)的前(qian)三位作者都來自東南大學(xue)的國際(ji)信(xin)息顯示與可(ke)視(shi)化(hua)聯合研究實驗(yan)室(shi)。
一作 Yanpeng Cao 目前研究生在(zai)讀,主要研究方(fang)向為加密域(yu)圖像(xiang)處理(li)和(he)圖像(xiang)超分(fen)辨率等領(ling)域(yu)。
其余兩(liang)位分別是 Chengcheng Wang 和 Changjun Song。
最后一(yi)位作(zuo)者 He Li 來自劍橋(qiao)大學的工程系。
論文地址:
//arxiv.org/abs/2107.05307
下載:
//github.com/Thmen/EGVSR
廣告聲明(ming):文(wen)內含有(you)的(de)對外跳轉鏈接(jie)(包括不限于超(chao)鏈接(jie)、二維碼、口令(ling)等形式(shi)),用于傳遞更(geng)多信息,節省甄選時間,結果僅(jin)供參考,IT之家所有(you)文(wen)章均包含本聲明(ming)。