Gaegul's devlog
[AI News] 23.03.29 이미지 생성 AI 모델 ‘칼로'의 진화!, “사진 한 장으로 다채로운 프로필 이미지 그려낸다” 본문
[AI News] 23.03.29 이미지 생성 AI 모델 ‘칼로'의 진화!, “사진 한 장으로 다채로운 프로필 이미지 그려낸다”
부지런깨꾹이 2023. 3. 29. 10:37이번 카카오브레인팀의 이미지 생성 AI 모델의 "칼로"에 새로운 AI 프로필 서비스가 출시되었다는 소식이다.
단 1장의 사진으로 다양한 스타일의 프로필 이미지 최대 140장까지 제공하며, 생성된 AI 프로필 이미지는 자유롭게 다운로드 및 공유가 가능하다.
본문 요약
- 카카오브레인이 자사 이미지 생성 AI 모델 ‘칼로(Karlo)’를 기반으로 한 이미지 생성 및 공유 플랫폼 ‘비 디스커버(B^ DISCOVER)’에 ‘AI 프로필’ 서비스를 28일 추가.
- ‘AI 프로필’은 사용자가 지정한 이미지를 바탕으로 AI가 다양한 프로필 이미지를 생성하는 서비스다. 이용 방법은 간단하다. ‘비 디스커버’ 앱에서 사용자의 연령과 성별을 선택하고, 사용자의 사진 파일 하나만 업로드한 후 ‘생성(Generate)’버튼을 클릭하면 된다.
- AI는 업로드된 이미지와 사용자 정보에 기반해 판타지(Fantasy), 타임슬립(Timeslip), 일상(Daily) 등 다양한 콘셉트의 프로필 이미지 100개를 약 1분 이내로 그려낸다.
- 생성된 100장의 이미지 외에 새로운 이미지가 보고 싶을 경우, 추가 생성도 가능하다. ‘추가 생성(Generate More)’ 버튼을 누르면, 2회에 한해 1회당 20장씩 새로운 이미지를 확인.
- 이로써 사용자가 입력한 이미지 하나로 총 140개의 AI 프로필 이미지를 만들어볼 수 있는 셈이다. 무엇보다 AI가 얼굴 이미지만 생성하는 것이 아니라, 각 콘셉트에 어울리는 배경까지 함께 그려내 완성도 높은 프로필 이미지를 만들어내는 것이 특징이다.
- 사용자는 생성된 AI 프로필 이미지를 자유롭게 다운로드 및 공유할 수 있으며, SNS 프로필로도 활용 가능하다. ‘비 디스커버’의 ‘AI 프로필’ 서비스는 건당 6,600원($4.99)이며, 제작된 프로필 이미지는 결제 후 1년 동안 ‘비 디스커버’ 앱에 저장 가능.
- 지난해 10월 출시된 ‘비 디스커버’의 누적 이미지 생성 건수는 3월 초 1,100만 회를 돌파했다. ‘비 디스커버’는 생성된 이미지 ‘좋아요(Like)’ 기능, 프롬프트 ‘검색(Search)’ 기능, ‘탐색(Explore)’ 기능 등을 통해 칼로가 생성한 이미지를 더 많은 사용자들이 공유하고 즐길 수 있는 서비스로 발전하고 있다. 특히, 지난달 22일부터 3월 23일까지 최근 31일간 ‘비 디스커버’ 사용자의 평균 앱 체류시간은 27분 6초를 기록했다.
- 한편 카카오브레인은 소속 연구원이 주도한 연구 논문 ‘일반화 가능한 내재적 신경 표현을 위한 데이터 패턴 합성 방법(Generalizable Implicit Neural Representations with Instance Pattern Composers)’을 컴퓨터 비전 및 패턴 인식 분야의 세계 최고 AI 학회 ‘CVPR 2023’에 제출했으며, 제출된 전체 논문 중 상위 2.5%에 선정돼 세계적으로 카카오브레인의 AI 연구 역량을 입증.
추가 조사
1. 칼로의 성능은 어떤가? 정말 생성을 잘 할까?
Image Variation
- 특징을 잘 잡아내는 듯하나, 그림체나 스타일은 잘 잡아내지 못하는 것 같다.
- variation의 weight 값을 조절할 수 있으면 좋을 듯하다. 지금 생성 결과는 variation의 정도가 작아보이진 않음.
2. 일반화 가능한 내재적 신경 표현을 위한 데이터 패턴 합성 방법(Generalizable Implicit Neural Representations with Instance Pattern Composers) 논문 훑어보기!
최근 CVPR 에 어셉된 뜨근뜨근한 페이퍼라 하기에 궁금해졌다. abstract 부분을 번역해서 가져와 봤다!
Despite recent advances in implicit neural representations (INRs), it remains challenging for a coordinate-based multi-layer perceptron (MLP) of INRs to learn a common representation across data instances and generalize it for unseen instances. In this work, we introduce a simple yet effective framework for generalizable INRs that enables a coordinate-based MLP to represent complex data instances by modulating only a small set of weights in an early MLP layer as an instance pattern composer; the remaining MLP weights learn pattern composition rules for common representations across instances. Our generalizable INR framework is fully compatible with existing meta-learning and hyper networks in learning to predict the modulated weight for unseen instances. Extensive experiments demonstrate that our method achieves high performance on a wide range of domains such as an audio, image, and 3D object, while the ablation study validates our weight modulation.
최근 암묵적 신경 표현(INR)의 발전에도 불구하고 INR의 좌표 기반 다층 퍼셉트론(MLP)이 데이터 인스턴스 간의 공통 표현을 학습하고 보이지 않는 인스턴스에 대해 일반화하는 것은 여전히 어려운 일입니다. 이 작업에서, 우리는 좌표 기반 MLP가 초기 MLP 계층에서 인스턴스 패턴 작성기로 작은 가중치 세트만 변조하여 복잡한 데이터 인스턴스를 나타낼 수 있도록 하는 일반화 가능한 INR을 위한 간단하지만 효과적인 프레임워크를 소개합니다. 나머지 MLP 가중치는 인스턴스 간의 공통 표현에 대한 패턴 구성 규칙을 학습합니다. 우리의 일반화 가능한 INR 프레임워크는 보이지 않는 인스턴스에 대한 변조된 가중치를 예측하는 학습에서 기존 메타 학습 및 하이퍼 네트워크와 완전히 호환됩니다. 광범위한 실험은 우리의 방법이 오디오, 이미지 및 3D 객체와 같은 광범위한 영역에서 높은 성능을 달성하는 반면 ablation study는 가중치 변조를 검증한다는 것을 보여줍니다.
느낀점
- Generative Model의 아버지인 DALLE2와의 데모 결과가 궁금하여 비교해보았다.
- OPENAI의 DALLE2와 비교했을 때 이미지 품질과 생성 결과는 차이가 있어보인다. (물론, 다양한 이미지로 테스트를 해보지 않았기에 어떤 이미지가 더 잘 생성되는지 안되는지 알 수는 없다.) 해상도의 차이는 컴퓨팅 리소스가 가장 큰 원인일 것 같다.
- 또한, DALLE2가 이미지를 이해하여 사물의 특징을 잘 잡아 생성하는 듯 보인다. (개구리의 눈, 맥북의 사과의 위치를 보면 알 수 있음.)
- 반대로, 칼로는 사과가 개구리의 눈에 달리는 현상이 나타남 ㅠㅠ
달리2 는 여기서 데모 체험을 해볼 수 있다! 🤩
https://openai.com/product/dall-e-2
출처
https://www.aitimes.kr/news/articleView.html?idxno=27659