챗GPT의 열풍으로 대규모 언어모델(LLM)의 경쟁이 치열해진 가운데 텍스트, 이미지, 음성, 영상이 추가 된 대규모 멀티모달 모델(LMM)이 등장해 이목이 집중되었습니다.
텍스트만 학습하던 대규모 언어모델이 이미지와 영상을 학습하고 그에 맞는 상호 작용을 하면서 '대규모 멀티모달 모델(LMM)이 LLM을 대체할 것이라는 전망이 나왔습니다.
오픈AI와 구글 등 LMM 개발에 속도를 내고 있다고 합니다. LLM과 LMM은 무엇이 다른지, 빅테크들은 LMM으로 무엇을 얻고자 하는지 함께 볼까요?😎
📢Today's topic
1. LMM 선두자가 누구? 오픈AI, GPT-4V(ision) 공개
2. 구글, 내달 제미니(Gemini) 출시 임박
3. D-1 미리보는 웹 트렌드 웨비나 무료 신청하기📢
1.LMM은 오픈AI가 선두한다! GPT-4V(ison) 공개
지난 달 25일 오픈AI CEO 샘 알트만은 새로운 시각적 모델 GPT-4V(ision)을 발표했습니다. 3월 출시한 GPT-4에 음성 및 이미지 학습 기능을 추가하여 다중 모드 모델 전환과 함께 검색과 질문, 분석과 답변까지 받을 수 있습니다. 사실상 전 세계에서 처음으로 대중화된 LMM 서비스입니다.
9월 29일에는 마이크로소프트 연구자들이 GPT-4V를 이용해 실험을 진행한 논문이 공개되었는데 단순한 이미지 해석부터 엑스레이 이미지를 보고 병명을 제시한다거나 인물의 표정을 유추하는 등 시각적 프롬프트를 이해하고 인간과 상호작용이 가능하다고 판단했습니다.
오픈AI는 작년 말 GPT-4V를 위한 학습을 마치고 올해에는 알파 그룹의 사용자에게 접근을 부여한 뒤 테스트를 진행하여 GPT-4V의 신뢰도를 높였습니다. 이 기능은 챗GPT 플러스, 챗GPT 엔터프라이즈 구독자에게 제공됩니다.
일각에서는 오픈AI의 GPT-4V 등장이 구글의 차세대 LLM '제미니(Gemini)' 출시 임박을 의식하여 선수를 친 것 아니냐는 분석입니다.🤔
오픈AI가 LMM의 선두를 차지했다면 구글은 반격을 준비하고 있습니다. 지난 18호 뉴스레터에서 제미니(Gemini)의 출시 소식을 다루었는데요. 제미니도 텍스트 뿐만 아니라 이미지로 대화할 수 있는 멀티모달입니다.
12일(현지시간) 구글 부사장 시시 샤오(Sissie Hsiao)는 "케이크를 굽고 얼리는 단계를 보여주는 이미지를 만들어 달라고 요청하면 제미니가 실제로 그 이미지를 만들어준다. 제미니가 만든 이미지는 인터넷에서 가져온 것도 아니었다"고 전했습니다.
제미니는 유튜브 동영상과 댓글 등 방대한 양의 데이터를 학습하고 100만 단어에 달하는 메모리 용량을 보유하고 있으며 매개변수가 약 1조개에 달하는 것으로 알려졌습니다. 제미니를 활용하여 차트 분석 또는 그래픽 생성 기능, 텍스트 또는 음성 명령으로 소프트웨어를 통제하는 기능을 제공하는데 사용할지 고려 중에 있습니다.
마무리 인사👋🏻👋🏻
대규모 멀티모달은 생성형 AI 시장에 변화의 물결을 일으키고 있습니다. 시장조사 기관 ABI리서치에 따르면 멀티모달 AI로 자율주행, 로봇, 스마트홈, 의료 등 AI 산업의 새로운 중심이 될 것으로 예측하였습니다.
다만 긍정적인 영향만 고려하며 맹목적인 사용은 지양되어야 합니다. 기술이 고도화 되어도 딥페이크, 환각, 가짜뉴스 등 부작용은 피할 수 없을 것입니다. 생성형 AI는 지금 시대에 피할 수 없는 '성장 동력 아이템'입니다. AI와 올바르게 함께하는 법을 배우고 기준을 확립한다면 우리의 삶과 비즈니스에 훌륭한 조력자가 될 것입니다. 앞으로 대규모 멀티모달 모델이 기존 언어 모델의 활용폭을 얼마나 넓혀 줄 수 있을 지 기대가 큽니다.🧐
[무료 신청] W3C TPAC 톺아보기 웨비나가 하루 남았어요!
2023.10.26(목) 13:00~17:00 Online webinar
안녕하세요! W3C TPAC 2023 톺아보기 웨비나에 여러분을 초대합니다.
구루미는 2년 연속 W3C TPAC 실버 스폰서를 지원하고 있습니다. 웨비나를 통해 인사이트와 최신 웹 트렌드를 국내에 공유하기 위한 자리를 마련하고자 합니다. 구글, LG전자, 삼성전자 등 연사자 분들의 다양한 세션이 준비되어 있으니 많은 관심 부탁드립니다.