다음으로 이어서 이야기해 볼 논문은 OC-SORT이며, 선형 운동을 가정하는 Kalman Filter의 문제점을 해결한 논문이다. Introduction 본 연구는 다중 객체 추적(MOT)을 위한 기존의 SORT에서 사용했던 Kalman Filter(KF) 기반 방법의 문제점을 해결하기 위해 OC-SORT라는 새로운 방법을 제안한다. Kalman Filter 기반 방법은 객체가 선형적으로 움직인다는 가정을 전제로 하기 때문에 장시간의 움직임에 대한 선형 추정치는 부정확할 수 있다. 또한, Kalman Filter 매개변수를 업데이트할 수 있는 측정값이 오랜 time step동안 없는 경우, 사후 업데이트를 위해 선험적 상태 추정을 신뢰하는 것으로 알려져 있으며, 이로 인해 오차가 누적된다. 이 연구에서..
최근 많은 Multi-Object Tracker (MOT)가 나오고 있는데 그 중에 속도와 성능이 좋은 tracker 3 가지를 소개하려고 한다!BytetrackOC-SortBoosttrack다음과 같은 순서대로 진행해보려고 한다. bytetrack은 딥러닝을 사용한 것이 아니라 비교적 심플한 후처리 알고리즘으로 tracking 성능을 향상시킨 방법이다. 높은 confidence score를 갖는 detection box만 사용하는 것이 아니라 대부분의 detection box 결과값(low confidence detection box + high confidence detection box = byte = 2가지 스텝)을 Kalman filter가 예측하는 추정값과 연관시킨다. confindence가..
논문 읽기에 앞서서..deblurring 은 나의 석사 지도 교수님의 메인 분야였다. 하지만, 석사 연구할 당시에는 deblurring 관련 논문을 깊게 읽어본 적이 없었다. (나의 메인 연구가 아니였기에..) 하지만 최근에 관심이 생긴 "high-level 비전인 object detection이나 semantic segmantation의 성능을 높이기 위해 픽셀단(low-level)에서 개선을 시키면 인식률을 높이는데 도움이 되지 않을까?" 하는 단순한 생각을 시작으로 관심을 갖게 되었다. 예를 들면, 움직이는 흐름 또는 속도에 따라서 풍경과 객체에 블러가 생기게 되는데 이러한 블러리해진 객체는 (조금 멀리 있는 객체가 빠르게 움직이면 더 인식률이 떨어지지 않을까?) 인식률이 떨어질 것이다. 또한, m..
오랜만에 논문 리뷰를 해보려한다! 석사 졸업하고 취준 하느라 한동안 논문을 깊게 읽지 못했는데 최근 high-level Vision인 object detection, semantic segmentation에 관심이 생겨서 관련 논문을 읽어보려 한다. object detection, semantic segmentation 관련 논문이라면 워낙 많은 도메인에서 사용하기 때문에 상당히 많지만 그 중에서도 object detection을 하는데 bounding box를 조금 더 정밀하게 예측하는 논문이 눈에 들어와서 한번 읽어보려고 한다. 논문 제목은 "Side-Aware Boundary Localization forMore Precise Object Detection"이다. Let's Go👉🏻 Abs..
오늘 리뷰할 논문은 CLIP과 STLYEGAN2, 두 아키텍처를 이용한 text-driven image generation 논문이다. 본 연구는 text prompt에 따른 이미지 생성을 목표로 하며 본 논문에서는 3가지 테크닉을 제안한다. 1. text-guided latent optimization 하나의 이미지의 manipulation을 적용하기 위해 iteration으로 optimization 하는 방법. 변화는 잘 되지만 optimization을 위해 300 iteration 을 돌아야 하기 때문에 비효율적이다. 또한, disentanglement 가 안된다. 학습 loss는 다음 수식과 같다. G는 사전 훈련된 StyleGAN이다. GAN Generator 와 Dclip은 두 인수의 CLIP ..
안녕하세요! 오랜만에 돌아온 논문 리뷰 입니다. 오늘은 요즘 핫한 text to image generation task의 cvpr 21 에 어셉된 페이퍼인 TediGAN을 리뷰하고자 합니다! TediGAN의 주된 테스크는 다양한 가이드 (e.g. sketch, semantic label, textual description)를 컨디션으로 주면 이미지 synthesis에 포커싱하여 생성하는 것 입니다. 본격적으로 설명하기 앞서 TediGAN의 베이스 모델인 StyleGAN에 대해 살짝 알고 가면 좋을 것 같아 설명해보려 합니다! StyleGAN은 input vector z로 부터 직접 이미지를 생성하는 것이 아니라, mapping network을 거쳐 intermediate vector W로 먼저 변환한 ..
오랜만에 논문 리뷰로 돌아왔다! (최근 블로그에 너무 소홀했음,, 이제 다시 열심히 정리해야겠다! 앗짜!!!) 최근 Transformer가 Vision분야로 넘어와서 다양한 task에서 SOTA를 찍었고, Transformer의 가장 핵심적인 아이디어인 self-attention이 이미지의 중요한 feature 정보를 파악하는데 용이하고, 또 cnn보단 조금 더 멀리 있는 feature 정보까지 파악할 수 있다는 점에서 많은 주목을 받았다. 그리고 이 후, self attention의 효과를 다양한 방법으로 시도하려는 연구가 많이 나오고 있다. 본 논문은 MLP 기반의 논문이며 self attention 대신에 fc(mlp)로만 self attention의 효과를 입증하는 논문이다. CycleMLP가 나..
본 논문은 model-based reinforcement learning으로 선(stroke)만으로 이미지를 생성할 수 있다. 본 논문의 task는 주어진 이미지와 유사한 그림을 생성하기 위해 캔버스에 선을 순차적으로 그릴 수 있는 painting agent를 훈련한다. Main Contribution real-world images을 paint하기 위한 agent를 학습하기 위해 3가지 챌린지. 1. 인간처럼 그림을 그리려면 agent가 주어진 대상 이미지를 순서 있는 stroke(스트로크)로 분해할 수 있는 능력이 필요하다. 그럴려면 현재 캔버스의 status을 이해하면서, future stroke에 대해 미ㄹ리 알 수 있어야 한다. 이것이 가능하게 하려면 한가지 방법은 각 step에서 stroke ..
이번 논문 리뷰는 Image inpainting 논문 중에 Gated Convolution을 통해 마스크 부분을 제너레이팅 하는 대표적인inpainting 논문이다. Gated Convolution의 개념이 조금은 생소할 수 있지만, 본 논문의 key idea 이기에 한번 공부해보려한다. 기존 Convolution 연산의 한계 공간적으로 공유된 convolution 필터가 모든 input pixel 또는 feature을 동일한 유효한 것으로 취급하기 때문에 이미지 구멍 채우기에 자연스럽게 적합하지 않다. 마스크 부분을 채우는 경우, 각 레이어에 대한 입력은 구멍 외부의 유효한 pixel / feature과 마스크된 영역의 유효하지 않은 픽셀로 구성된다. convolution 연산은 모든 유효, 무효 및 ..
0. Abstract 본 논문은 새로운 flow-based video completion algorithm 을 설명한다. 그들의 방법은 우선 motion edge 을 extract 하고 complete한다. 그리고 샤프한 motion edge를 가지고 piecewise-smooth flow completion을 가이드하기 위해 사용한다. 현재 존재하는 방법들은 인접한 프레임들 사이의 local flow connection 사이 색상을 propagate 한다. 그러나 움직임 경계가 관통할 수 없는 장벽을 형성하기 때문에 비디오의 모든 누락된 영역에 이러한 방식으로 도달할 수 있는 것은 아니다. flow-edge guided 방법은 일시적으로 먼 프레임에 local이 아닌 flow guided을 도입하여 모..