목록Artificial Intelligence/Research Paper 리뷰 📖 (17)
Gaegul's devlog
논문 읽기에 앞서서.. deblurring 은 나의 석사 지도 교수님의 메인 분야였다. 하지만, 석사 연구할 당시에는 deblurring 관련 논문을 깊게 읽어본 적이 없었다. (나의 메인 연구가 아니였기에..) 하지만 최근에 관심이 생긴 "high-level 비전인 object detection이나 semantic segmantation의 성능을 높이기 위해 픽셀단(low-level)에서 개선을 시키면 인식률을 높이는데 도움이 되지 않을까?" 하는 단순한 생각을 시작으로 관심을 갖게 되었다. 예를 들면, 움직이는 흐름 또는 속도에 따라서 풍경과 객체에 블러가 생기게 되는데 이러한 블러리해진 객체는 (조금 멀리 있는 객체가 빠르게 움직이면 더 인식률이 떨어지지 않을까?) 인식률이 떨어질 것이다. 또한, ..
오랜만에 논문 리뷰를 해보려한다! 석사 졸업하고 취준 하느라 한동안 논문을 깊게 읽지 못했는데 최근 high-level Vision인 object detection, semantic segmentation에 관심이 생겨서 관련 논문을 읽어보려 한다. object detection, semantic segmentation 관련 논문이라면 워낙 많은 도메인에서 사용하기 때문에 상당히 많지만 그 중에서도 object detection을 하는데 bounding box를 조금 더 정밀하게 예측하는 논문이 눈에 들어와서 한번 읽어보려고 한다. 논문 제목은 "Side-Aware Boundary Localization forMore Precise Object Detection"이다. Let's Go👉🏻 Abstract..
오늘 리뷰할 논문은 CLIP과 STLYEGAN2, 두 아키텍처를 이용한 text-driven image generation 논문이다. 본 연구는 text prompt에 따른 이미지 생성을 목표로 하며 본 논문에서는 3가지 테크닉을 제안한다. 1. text-guided latent optimization 하나의 이미지의 manipulation을 적용하기 위해 iteration으로 optimization 하는 방법. 변화는 잘 되지만 optimization을 위해 300 iteration 을 돌아야 하기 때문에 비효율적이다. 또한, disentanglement 가 안된다. 학습 loss는 다음 수식과 같다. G는 사전 훈련된 StyleGAN이다. GAN Generator 와 Dclip은 두 인수의 CLIP ..
안녕하세요! 오랜만에 돌아온 논문 리뷰 입니다. 오늘은 요즘 핫한 text to image generation task의 cvpr 21 에 어셉된 페이퍼인 TediGAN을 리뷰하고자 합니다! TediGAN의 주된 테스크는 다양한 가이드 (e.g. sketch, semantic label, textual description)를 컨디션으로 주면 이미지 synthesis에 포커싱하여 생성하는 것 입니다. 본격적으로 설명하기 앞서 TediGAN의 베이스 모델인 StyleGAN에 대해 살짝 알고 가면 좋을 것 같아 설명해보려 합니다! StyleGAN은 input vector z로 부터 직접 이미지를 생성하는 것이 아니라, mapping network을 거쳐 intermediate vector W로 먼저 변환한 ..
오랜만에 논문 리뷰로 돌아왔다! (최근 블로그에 너무 소홀했음,, 이제 다시 열심히 정리해야겠다! 앗짜!!!) 최근 Transformer가 Vision분야로 넘어와서 다양한 task에서 SOTA를 찍었고, Transformer의 가장 핵심적인 아이디어인 self-attention이 이미지의 중요한 feature 정보를 파악하는데 용이하고, 또 cnn보단 조금 더 멀리 있는 feature 정보까지 파악할 수 있다는 점에서 많은 주목을 받았다. 그리고 이 후, self attention의 효과를 다양한 방법으로 시도하려는 연구가 많이 나오고 있다. 본 논문은 MLP 기반의 논문이며 self attention 대신에 fc(mlp)로만 self attention의 효과를 입증하는 논문이다. CycleMLP가 나..
본 논문은 model-based reinforcement learning으로 선(stroke)만으로 이미지를 생성할 수 있다. 본 논문의 task는 주어진 이미지와 유사한 그림을 생성하기 위해 캔버스에 선을 순차적으로 그릴 수 있는 painting agent를 훈련한다. Main Contribution real-world images을 paint하기 위한 agent를 학습하기 위해 3가지 챌린지. 1. 인간처럼 그림을 그리려면 agent가 주어진 대상 이미지를 순서 있는 stroke(스트로크)로 분해할 수 있는 능력이 필요하다. 그럴려면 현재 캔버스의 status을 이해하면서, future stroke에 대해 미ㄹ리 알 수 있어야 한다. 이것이 가능하게 하려면 한가지 방법은 각 step에서 stroke ..
이번 논문 리뷰는 Image inpainting 논문 중에 Gated Convolution을 통해 마스크 부분을 제너레이팅 하는 대표적인inpainting 논문이다. Gated Convolution의 개념이 조금은 생소할 수 있지만, 본 논문의 key idea 이기에 한번 공부해보려한다. 기존 Convolution 연산의 한계 공간적으로 공유된 convolution 필터가 모든 input pixel 또는 feature을 동일한 유효한 것으로 취급하기 때문에 이미지 구멍 채우기에 자연스럽게 적합하지 않다. 마스크 부분을 채우는 경우, 각 레이어에 대한 입력은 구멍 외부의 유효한 pixel / feature과 마스크된 영역의 유효하지 않은 픽셀로 구성된다. convolution 연산은 모든 유효, 무효 및 ..
0. Abstract 본 논문은 새로운 flow-based video completion algorithm 을 설명한다. 그들의 방법은 우선 motion edge 을 extract 하고 complete한다. 그리고 샤프한 motion edge를 가지고 piecewise-smooth flow completion을 가이드하기 위해 사용한다. 현재 존재하는 방법들은 인접한 프레임들 사이의 local flow connection 사이 색상을 propagate 한다. 그러나 움직임 경계가 관통할 수 없는 장벽을 형성하기 때문에 비디오의 모든 누락된 영역에 이러한 방식으로 도달할 수 있는 것은 아니다. flow-edge guided 방법은 일시적으로 먼 프레임에 local이 아닌 flow guided을 도입하여 모..
0. Abstract 본 논문은 convolution layer 대신 mlp layer를 통해서 long range denpency 와 postitional pattern을 캡쳐하는 측면에서 더 효율적이고 나은 결과를 위한 MLP 네트워크를 설계한다. 특히, 본 논문의 저자들은 FC에 local prior를 추가하는 structural re-parameterization technical을 제안한다. 구체적으로, training time 동안 RepMLP 내부의 convolutional layer를 설계하고, test(inference) time에 그것들을 FC로 합친다. 그 결과, CIFAR 데이터셋에서 심플한 MLP 모델은 CNN과 매우 비슷한 performance를 보인다. 일반적인 CNN 모델안에..
Gated Convolution ? Gating y,x 와 Feature y,x 는 각각 다른 weights에 대한 convolution 연산 결과이다. O y,x 는 ReLU 나 LeakyReLu 와 같은 activation 함수와 sigmoid 함수 결과를 element-wise product(내적곱)을 한다. 다시 말하지면, 일반적인 convolution 연산을 하듯 Feature y,x 를 추출하고 해당 이미지에서 soft mask인 Gating y,x를 얻는다. 그 다음, Gating y,x에 시그모이드 함수를 취해 gating을 0(invalid) 또는 1 (valid)사이로 만든다. 다음 Feature y,x는 LeakyReLU 와 같은 original activation function 을..