Gaegul's devlog

[AI News] 23.03.24 구글, 대화형 생성 AI '바드(Bard)' 출시...챗GPT 대항마 될 수 있을까? 본문

Artificial Intelligence/AI Tech Trend 🌟

[AI News] 23.03.24 구글, 대화형 생성 AI '바드(Bard)' 출시...챗GPT 대항마 될 수 있을까?

부지런깨꾹이 2023. 3. 29. 09:29
728x90
반응형

본문 요약

- 구글이 대형언어모델(Large Language Model, LLM)이자 대화형 생성 인공지능(generative AI) '바드(Bard)'를 21일(현지시간) 미국과 영국에서 출시.

- 가볍고 최적화된 람다(LaMDA)를 기반으로 구동되며 시간이 지남에 따라 더 새롭고 더 많은 기능을 갖춘 모델로 업데이트 된다. (Chatgpt와 외형은 비슷)

- 그러나, 매번 가장 가능성이 높은 단어를 선택하면 창의적인 답변이 나오지 않을 수 있으므로 어느 정도 유연성을 고려했다. 따라서 바드를 사용할 때 응답의 몇 가지 다른 초안을 선택하여 가장 적합한 시작점을 비교하고 선택할 수 있다. 아울러 더 많은 사람들이 사용할수록 어떤 응답이 도움이 될지 예측하는 능력이 향상된다. 

- 바드는 구글 검색을 보안하는 역할을 수행한다고 이야기한다.

-
이번 바드에 기반이된 람다(LaMDA)는 구글 버트(BERT)와 GPT-3를 포함한 많은 언어 모델과 마찬가지로 구글 리서치가 2017년에 개발하고 오픈소싱한 신경망 아키텍처인 트랜스포머(Transformer)를 기반으로 구축되었다. 그 구조는 많은 단어(문장이나 단락)를 읽도록 훈련할 수 있는 모델을 만들어 내고, 그 단어들이 서로 어떻게 관련되는지에 주의를 기울이고, 그 다음에 어떤 단어가 나올지 예측한다.

-
람다는 2020년 2월에 구글 리서치 브레인 팀이 발표한 '인간다운 오픈 도메인 챗봇을 향해(Towards a Human-like Open-Domain Chatbot-다운)' 란 연구를 기반으로 하여 대화에 대해 훈련 된 트랜스포머 기반 언어 모델이 거의 모든 것에 대해 이야기하는 방법을 학습할 수 있음을 보여주었다.

 

추가 조사

대항마인 ChatGPT4 에 대해 알아보자!


오픈AI가 14일(현지시간) GPT-4를 전격 공개했다. 고급 추론(reasoning) 기능으로 폭넓은 일반 지식과 문제 해결 능력 덕분에 어려운 문제를 더 정확하게 풀 수 있다. 이를 통해 지난 몇 달 동안 폭발적인 인기를 끌었던 챗GPT(ChatGPT)는 GPT-3.5와 상호작용하는 방식이었으나 이제는 GPT-4와 상호작용하는 방식이 된 것이다.

GPT-4는 월 20달러를 지불하는 유료 서비스인 챗GPT플러스(ChatGPT Plus)에서 사용할 수 있으며 개발자를 위한 API와 무료 데모도 제공됐다.

이날 오픈AI는 GPT-4와 함께 AI 모델의 성능을 평가하기 위한 소프트웨어 프레임워크 에벌즈(Evals)를 오픈소스로 공개했다. 이 도구를 통해 누구나 모델의 문제와 단점을 제시하여 모델을 개선할 수 있다.

오픈AI는 GPT-4는 챗GPT의 약 8배인 최대 25,000단어까지 처리할 수 있으며, 안전과 정치적으로 편향되거나 극단적으로 공격적이거나 때에 따라 서로 다른 방식의 결과, 거짓말 등의 최근 이슈를 인정하고 이를 보완하기 위해 6개월을 보냈고 그동안의 피드백에 대해 학습(수많은 악성 프롬프트)했다고 밝혔다.

그러나, 이날 오픈AI 샘 알트만(Sam Altman) CEO는 트위터를 통해 “가장 성능이 뛰어나고 잘 정돈된 모델이지만 이 역시 여전히 잘못된 정보를 공유하는 경향이 있을 수 있다"고 경고했다.(GPT-4 논문 Technical Report 다운 :  https://cdn.openai.com/papers/gpt-4.pdf)

이에 GPT-4의 다국어 기능은 한국어부터 이탈리아어, 우크라이나어에 이르기까지 26개 언어에 걸쳐 수천 개의 객관식 질문에 높은 정확도로 답변할 수 있음을 보여줌으로써 AI 민주화를 위한 한 걸음을 내디뎠다.

여러 언어에 걸친 MMLU의 GPT-4 3-샷 정확도(Azure Translate를 사용하여 57개 주제에 걸친 14,000개의 객관식 문제 모음인 MMLU 벤치마크를 다양한 언어로 번역.



특히, GPT-3.5에서 영어 인식 성능이 70.1%를 기록했다. 반면 새로운 GPT-4에서는 한국어 인식 성능이 놀랍게도 77%를 기록했다. 이전의 전 세계 AI 이슈를 뿌리던 챗GPT 영어 인식 성능보다 GPT-4의 한국어 인식 성능이 높다는 것은 그동안 '한국형 특화'를 내세웠던 AI 기업들은 새겨야 할 시점이다.     

또한 그 중에서도 가장 눈에 띄는 변화는 '멀티모달(Multimodal)'로 이전의 챗GPT 및 GPT-3는 텍스트로 제한되었지만 GPT-4는 이미지를 보고 이해하고 설명하고 요청한 사항을 처리한다. 예를 들어, 재료 사진에서 레시피 제안을 제공하고 캡션 및 설명을 작성할 수 있으며, 더 중요한 것은 라벨을 번역하고, 지도를 읽는 등 다양한 분야에서 이해도가 그 이상이라고 한다.

한계점

(논문 참조 : https://cdn.openai.com/papers/gpt-4.pdf)

GPT-4가 자랑하는 성능에도 불구하고, GPT-4는 이전 GPT모델과 비슷한 한계를 지니고 있어요. 무엇보다, GPT-4는 사실에 대한 "환각(할루시네이션, hallucination)"을 일으키고 추론에서 오류를 범하며 아직 완전히 신뢰할 수 없는 단계예요. 언어 모델 출력을 사용할 때 특히 높은 이해 관계가 있는 상황에서 특정 응용 프로그램의 요구에 맞는 정확한 프로토콜(예: 인간 검토, 추가 맥락이 있는 접지 또는 높은 이해 관계가 있는 사용 방지)을 사용할 때는 매우 주의해야 합니다. 

GPT-4는 이전 GPT-3.5 모델에 비해 환각 증상을 상당히 줄여줍니다(지속적인 반복으로 개선되고 있음). GPT-4는 적대적으로 설계된 내부 사실성 평가에서 최신 GPT-3.5보다 19% 포인트 더 높은 점수를 받았습니다.

GPT-4는 TruthQA[66]와 같은 공개 벤치마크에서 진전을 이루는데, 이는 적대적으로 선택된 일련의 잘못된 진술로부터 사실을 분리하는 모델의 능력을 테스트합니다(그림 7). 여기서 질문들은 통계적으로 매력적인 오답과 짝지어져요. 
GPT-4 기본 모델은 이 작업에서 GPT-3.5보다 약간 더 낫습니다; 그러나 RLHF 후 훈련 후 GPT-3.5.9 표 4는 정답과 오답 모두를 보여줍니다. GPT-4는 일반적인 속담 선택에 저항합니다. (예시) 늙은 개에게 새로운 재주를 가르칠 수 없습니다). 하지만 여전히 미묘한 세부 사항을 놓칠 수 있습니다 (예시)엘비스 프레슬리는 배우의 아들이 아니므로 퍼킨스가 정답입니다).



GPT-4는 일반적으로 2021년 9월에 대부분의 사전 훈련 데이터가 차단된 후 발생한 이벤트에 대한 지식이 부족하며, 경험에서 배우지 않습니다. 

때때로 매우 많은 도메인에서 역량과 일치하지 않는 것처럼 보이는 간단한 추론 오류를 만들거나 사용자로부터 명백한 거짓 진술을 받아들이는 데 지나치게 쉽게 속아넘어갈 수 있습니다. 

생성하는 코드에 보안 취약성을 도입하는 것과 같은 인간과 동일한 방식으로 어려운 문제에서 실패할 수 있습니다.
또한 GPT-4는 예측에 대해 지나치게 확신하는 경향을 보여 실수할 확률이 높을 때 작업을 다시 검토하지않아요. 흥미롭게도, 사전 훈련된 모델은 고도로 보정됩니다. (예측됨)

 

 

 

 

출처 

https://www.google.com/search?q=%EA%B5%AC%EA%B8%80+%EB%B0%94%EB%93%9C&oq=%EA%B5%AC%EA%B8%80+%EB%B0%94%EB%93%9C&aqs=chrome..69i57j0i131i433i512l4j0i512l2j69i61.1868j0j7&sourceid=chrome&ie=UTF-8#fpstate=ive&vld=cid:943e3ad5,vid:zjL3IWnJeF8

 

🔎 구글 바드: Google 검색

 

www.google.com

 

ChatGPT 4
- https://www.aitimes.kr/news/articleView.html?idxno=27595
- CEO / CTO 영상 : https://youtu.be/540vzMlf-54

728x90
반응형
Comments