Gaegul's devlog
[논문 리뷰] Free-form Video Inpainting with 3D Gated Convolution and Temporal PatchGAN_ICCV 2019 본문
[논문 리뷰] Free-form Video Inpainting with 3D Gated Convolution and Temporal PatchGAN_ICCV 2019
부지런깨꾹이 2021. 9. 18. 21:04Gated Convolution ?
Gating y,x 와 Feature y,x 는 각각 다른 weights에 대한 convolution 연산 결과이다.
O y,x 는 ReLU 나 LeakyReLu 와 같은 activation 함수와 sigmoid 함수 결과를 element-wise product(내적곱)을 한다. 다시 말하지면, 일반적인 convolution 연산을 하듯 Feature y,x 를 추출하고 해당 이미지에서 soft mask인 Gating y,x를 얻는다. 그 다음, Gating y,x에 시그모이드 함수를 취해 gating을 0(invalid) 또는 1 (valid)사이로 만든다. 다음 Feature y,x는 LeakyReLU 와 같은 original activation function 을 취해 이 둘을 element-wise product를 하여 valid feature일 확률이 강한 feature에는 더욱 어텐션을 주도록 연산이 된다. 이를 dynamic feature selection mechanism for each channel and each spatial location를 학습한다고 한다.
[ Main Contribution ]
1. image inpainting 의 work를 확장하고 free-form video inpainting을 위한 첫번째 learning-based model을 제안. FaceForencis 와 저자들의 dataset에 state-of-the-art 결과를 얻음.
2. temporal consistency 와 비디오 퀄리티를 높이기 위한 novel한 Temporal PatchGAN discriminator를 소개함.
3. free-form masks를 생성하기 위한 새로운 알고리즘 디자인.
4. free-form video inpainting dataset 을 수집함.
[ Methodology ]
1) Video Inpainting Generator
본 논문의 저자들은 single stage UNet-like network을 확장시키고, gated convolutional layer를 통합한다. 학습을 시키는 동안, 우리는 gt video frames 과 마스크를 합친 마스크를 씌운 input video을 인풋으로 넣는다. generator 모델은 마스크 씌운 영역을 채우고, output video frames을 생성한다.
2) Spatial-temporally Aware 3D Gated Convolution
vanilla convolution layer 에서, 모든 픽섹들을 유효한 것으로 다뤄진다. 하지만, 인패인팅 문제에서 마스크가 씌어진 부분은 black pixel로 채워진다. 그래서 convolutional layer를 위한 input feature들은 invalid pixel 또는 synthesized pixel 을 포함한다. 3D Gated Convolution이기 때문에 위에서 설명한 gated convolution 로짓과 비슷하다. 차이점이라고 하면 단지, t (2D -> 3D)가 추가된 로짓이다.
3) Loss Function
- Masked L1 loss : l1 loss는 pixel-level features에 포커스 한다.
- Perceptual loss : Perceptual loss 은 우선 style transfer을 위한 image 콘텐츠를 보관하기 위해 제안되며, 현재는 L1 손실로 인한 흐릿함을 완화하기 위해 영상 인페인팅 및 초고해상도용으로 널리 사용되고 있다.
- Style loss : auto-correlation(Gram matrix)가 첫번째로 freature에 적용되는 것 만 제외하면 Style loss는 Perceptual loss와 비슷하다.
- Temporal PatchGAN loss : inpainting 문제안에서 free-from video 를 위해, 마스크는 비디오 어디서든 존재할 수 있기 때문에 각 frame안에서 global하고 local feature를 고려해야 한다. 또한, 이 feature들의 temporal consistency를 고려해야 한다. free-form video inpainting 문제의 경우 마스크는 비디오의 어디에나 있을 수 있으므로 각 프레임의 전역 및 로컬 특징과 이러한 기능의 일시적 일관성을 고려해야 한다. 나이브한 아이디어는 각각 세 가지 측면에 손실 함수를 적용하는 것이다. 그러나 경험적으로 이러한 손실 함수의 가중치를 균형잡기 어렵다는 것을 발견했으며, 특히 그 중 일부가 GAN 손실인 경우가 그렇다.. (GAN loss를 추가하는 것은 이미지 인페인팅 결과를 더 현실적으로 만들기 위한 매우 일반적인 전략이다).
4) Free-form Mask
[ Experiment / Result ]
데이터 셋은 FaceForencies , Free-Form Video Inpainting dataset 으로 실험하였다.
평가 metric은 총 3가지로, MSE(Mean Square Error)와 LPIPS(Learned Perceptual Image Patch Similarity) 로 이미지의 품질을 평가하였다. 더 나아가, video quality 와 temporal consistency 를 평가하기 위해 본 저자들은 FID(Frchet Inception Distance)를 측정하였다. quantitive result는 다음과 같다.
(마지막 3D Gated (OURS) 결과를 디테일하게 보면 된다.)
[ References ]
- https://arxiv.org/pdf/1904.10247.pdf