내후년엔 AI가 학습할 데이터 없어..위법알고도 AI 데이터 학습 총력 #45호

사람 음성을 학습해 모방하는 인공지능(AI) 도구 '보이스 엔진' 공개

2024. 4. 8.

구루미 AI Newsletter

이 메일이 잘 안보이시나요?

2024.04.09｜045호｜구독하기

"2년 뒤에는 AI가

학습할 데이터 없어🙅🏻‍♀️"

안녕하세요! 이번 주 수요일은 대한민국 제 22대 국회의원 선거가 예정되어 있어 법정공휴일로 하루 먼저 화요일에 뉴스레터를 전달드리게 되었습니다:) 이번 주 구루미 AI 뉴스레터 45호의 주제는 'AI 학습용 데이터의 확보와 고갈'에 대해 이야기 나누어 보려고 합니다.

월스트리트저널은 1일(현지시간) 오픈AI나 구글 등이 대형언어모델(LLM) 데이터 수요가 증가하며 향후 2년 내 수요가 공급을 초과하는 사태가 발생할 것으로 내다보았습니다.

오픈AI의 챗GPT 등장과 함께 빅테크들은 AI 시장에 뛰어들었습니다. 생성형 인공지능의 개발 경쟁이 붙으며 빅테크들은 데이터 확보를 위한 싸움에 불이 붙었습니다. 뉴스 보도 기사, 작가, 예술가 등 저작권 침해를 받는 사례들이 끊이지 않았고 현재도 싸움이 진행 중입니다.

소식통에 따르면 2021년 오픈AI가 GPT-4 모델을 개발하면서 기존 수집한 AI 데이터가 고갈될 위기에 처해 유튜브 영상과 팟캐스트의 콘텐츠를 무단으로 사용했다는 내용을 전했습니다. 점차적으로 대규모 언어모델을 학습시킬 양질의 데이터는 한정되어 있어 점차 데이터 확보를 위한 경쟁은 심화되고 저작권에 대한 문제는 커질 것으로 전망됩니다.

📢Today's topic

1. 2026년이면 AI가 학습할 데이터 고갈...AI 발전에 걸림돌

2. 빅테크들, 위법 가능성 인지하고도 AI 학습 데이터 마구잡이 수집

3. 애플, AI 학습용 데이터에 1300억 투자...경쟁사와 격차 좁힐 의도

1. 2026년이면 AI가 학습할 데이터 고갈...AI 발전에 걸림돌

<이미지- Forbes>

월스트리트저널(WSJ)는 1일(현지시간) 'AI 개발을 위해서 경쟁하는 기업들이 새로운 문제에 빠르게 직면하고 있으며 데이터를 많이 소비하는 기업에게는 인터넷은 매우 작다.'고 말했습니다.

파블로 비라로보스 에포크 연구원은 컴퓨터 과학원리 중 '친칠라 스케일링 법칙'에 따라 오픈AI가 개발하고 있는 'GPT-5'는 60조 개에서 최대 100조 개의 토큰을 학습할 것으로 전망하였습니다. (GPT-4는 최대 12조 개 토큰을 학습한 것으로 알려져 있습니다.) GPT-5를 훈련시키는 데 GPT-4 보다 최대 8배가 넘는 데이터가 필요하다는 이야기인데 오픈AI가 GPT-5에 사용 가능한 데이터는 끌어모아도 10-20조개가 모자랄 것으로 예측되었습니다.

양질의 데이터를 더 많이 빠른 시간안에 확보하는 것은 AI 기술 발전을 좌지우지하는 키가 될 것입니다. 지난 1일(현지시간) 오픈AI는 자사 블로그를 통해 로그인 없이 누구나 사용가능 하도록 개방했습니다. 이 역시 데이터 확보를 위한 그림으로 해석됩니다. 이용 절차의 간소화로 이용자를 확대하고 데이터 수집량이 늘 것으로 기대하고 있습니다. 또한 경쟁사인 구글의 유튜브 동영상 녹취본까지도 활용이 가능한지를 논의했다고 WSJ는 전했습니다.

AI 학습용 데이터가 빠르게 고갈되고 있는 것은 언론사, 소셜 매체 등 저작권 보호를 위해 AI용 데이터 학습을 금지했기 때문입니다. 뉴욕타임즈는 오픈AI에게 데이터 무단학습에 대한 소송을 제기한 상태이며 이러한 소송은 빈번하게 등장하고 있습니다. 최근 프랑스 경쟁관리국은 언론사의 뉴스콘텐츠 무단사용으로 구글에 2억 5000만 유로(약 3600억 원)의 과징금을 부과하였습니다. 양질의 콘텐츠를 확보하기 위해서는 미디어 매체사들, 저작권자들과 빅테크들 간의 원활한 합의가 조속히 필요한 상황입니다.

2. 빅테크들, 위법 가능성 인지하고도 AI 학습 데이터 마구잡이 수집

<이미지 -Business Insider>

오픈AI는 지난 2021년 부터 AI훈련에 쓰일 양질의 텍스트 데이터 부족에 부딛혔습니다. GPT-3의 경우 온라인 무료 오픈소스 플랫폼에 업로드된 데이터 토큰을 3천억 여 개를 수집하여 사용했으나 더 나은 GPT-4를 개발하기 위해서는 더 큰 규모의 학습 데이터가 필요해졌습니다.

8일 뉴욕타임스에 따르면 오픈AI는 학습할 데이터 부족을 극복하기 위하여 유튜브 영상에서 자동으로 스크립트를 추출하는 위스퍼(Whisper)라는 소프트웨어를 개발한 것으로 알려져있습니다. 오픈AI는 유튜브 영상을 무단 사용하여 음성을 텍스트로 변환하여 'GPT-4'를 훈련시켰습니다. 이 문제를 구글도 인지하고 있었지만 막지 않았다는 주장도 나왔습니다. 데이터 부족은 비단 오픈AI만의 문제가 아니라 오픈AI의 행동을 문제 삼을 경우, 향후 구글 또한 데이터를 활용하지 못하게 된다고 판단한 것으로 보입니다. (유튜브는 규정을 통해 플랫폼에 올라온 영상을 무단 사용 및 재활용 하는 것을 금지하고 있습니다.)

뉴욕타임스는 메타도 온라인상의 콘텐츠를 무단으로 사용했다며 "메타는 자사가 운영하는 페이스북·인스타그램 게시물뿐 아니라 소설과 에세이 등 저작물까지 무단으로 AI 훈련에 사용하고 있다"고 밝혔습니다. 메타는 챗GPT를 따라잡으려면 더 많은 학습 데이터가 필요하다고 보고 웹 상에 있는 책, 에세이 등 저작권 동의를 받지 않은 데이터를 소송으로 이어질 수 있더라도 확보하는 방안을 논의했습니다.

✅관련 기사

What to Know About Tech Companies Using A.I. to Teach Their Own A.I. - NYTimes
법적 리스크보단 AI 학습 데이터가 먼저?...대담해진 테크 기업들 - 디지털투데이

3. 애플, AI 학습용 데이터에 1300억 투자...경쟁사와 격차 좁힐 의도

< 이미지 - apple insider>

애플은 6일 애플인사이더를 통해서 셔터스톡의 수백만 장의 이미지 라이선스를 계약했다고 밝혔습니다. 최대 5천만 달러(약 677억원)의 비용을 지불할 것으로 밝혔으며 추가로 주요 언론사와 출판사 등 수년간의 뉴스 기사 등 콘텐츠를 이용하는 대가로 최소 5천만 달러를 지불하는 조건을 제시했습니다. (애플이 접촉한 미디어는 콘데 나스트와 잡지사 보그, 뉴요커, NBC뉴스, 피플지 등을 소유한 IAC 그룹입니다.)

애플의 이번 결정은 AI 시장에서 경쟁력 확보를 위한 것으로 지난 2월 주주총회에서 팀 쿡CEO가 "생성형AI는 놀라운 돌파구가 될 수 있다. 상당한 투자 진행중으로 연 내 생성형 AI 계획을 밝히겠다"고 언급했습니다. 애플은 '야악스' 코드명을 가진 대규모 언어모델을 시험하고 있으며 생성형 AI 챗봇인 '애플GPT'도 시험 중입니다. 오는 6월 10일 열리는 자사 개발자 행사 ‘Apple Worldwide Developer Conference(WWDC 2024)′에서 생성형 AI에 대한 청사진과 iOS 18에 새롭게 도입될 AI 기능들을 공개할 것으로 전망됩니다.

현재 오픈AI, 구글, 메타 등 빅테크들은 뉴스 미디어와의 콘텐츠 사용 계약을 체결 중에 있습니다. 오픈AI는 지난해 12월 다국적 미디어 그룹 악셀 스프링어와 뉴스 콘텐츠 사용 계약을 체결하였으며 그 규모는 2억 500만~5000만 달러로 알려져 있습니다. 미국 CNN방송, 폭스, 타임 등과도 계약을 논의 중으로 알려져 있습니다.

✅관련 기사

Apple licenses millions of Shutterstock images to train its AI models - apple insider

마무리 인사👋🏻

생성형 AI는 대규모 언어모델의 데이터를 학습해야 발전할 수 있습니다. 마치 AI칩 확보를 위한 전쟁과도 같습니다. 빅테크들은 고갈될지 모르는 데이터를 확보하기 위해 소송을 감수하고서라도 저작권이 있는 데이터를 확보하려고 애를 쓰고 있습니다. 저작권 자들과의 라이선스 협상이 오래걸릴 것이라는 이유에서 빠르게 좋은 퀄리티의 데이터를 확보하기 위함입니다. 하지만 이런 데이터 사용은 추후 뭇매를 맞을 화살로 돌아오게 될 것입니다. 저작권이 있는 데이터는 정당한 대가를 지불받고 생성형 AI 시장이 상부상조할 수 있는 건강한 생성형AI 시장이 되길 기대해봅니다.🫶🏻

내일은 제 22대 대한민국 국회의원 선거날로 법정공휴일입니다. 모두 평안한 하루 보내시고 다음 주 수요일에 찾아 뵙겠습니다😎

AI Weekly News (24.4월 2주차)

[글로벌 뉴스]

메타, 5월부터 AI 생성 콘텐츠에 '꼬리표' 붙인다

메타, 인스타그램과 페이스북 등 자사 플랫폼에 게시되는 인공지능 생성 콘텐츠에 ‘AI로 만들었음(Made with AI)' 워터마크 5월부터 부착 예정 'AI 생성 콘텐츠 식별을 위한 조처'
中 바이두, '자기 목소리' AI 비서 생성 기능 선봬

중국 바이두, 인공지능 음성 비서 '어니봇'에 사용자들이 목소리를 생성할수 있는 기능 선보여 "앱에서 '나의 목소리 생성 기능'을 사용하여 자신의 목소리를 본딴 AI 은성비서를 만들수 있어"
머스크가 오픈AI 소송한 진짜 이유...결국 "미친 AI 인재전쟁" 때문

머스크 지난 3일 X에 “오픈AI가 대규모 보상 제안을 앞세운 공격적인 스카우트로 테슬라 엔지니어들을 빼가고 있다" 공식적으로는 오픈AI가 비영리법인 사명을 등지고 영리에 몰두하면서 퇴색했다는 명분을 들었지만 실상은 미국의 투자금 조달이나 인재영입 시장에서 오픈AI가 블랙홀처럼 자원을 빨아들이고 있기 때문에 소송한 것으로 예측
오픈AI, '달리 3'에 이미지 편집 기능 추가

오픈AI, 인공지능 이미지 생성기 ‘달리3’를 업데이트 새로운 편집 기능으로 사용 편의성 강화
챗GPT에 235조 검색광고 날아갈 판…구글 "AI 검색 돈 내야" [팩플]

구글, 생성 인공지능(AI) 기반 유료 검색 서비스 출시를 검토 중인 것으로 알려졌다. 구글에서 AI 유료 검색 서비스가 나온다면 자사 핵심 사업인 검색 엔진을 유료화 한 첫 사례
"AI, 창작자 권리 침해 NO"…빌리 아일리쉬 등 음악인 공개서한

BBC 등 복수의 외신에 따르면 예술가권리연합(The Artist Rights Alliance)은 지난 3일(현지시간) 이같은 내용을 담은 공개서한 발표

[국내 뉴스]

네이버-삼성, 차세대 AI칩 '마하2' 개발 착수

네이버,삼성전자와 함께 차세대 AI 칩 마하2 개발에 돌입… 네이버가 핵심 SW를 설계하고 삼성전자가 칩 디자인·생산을 맡는 방식으로 진행
정부 “AI G3도약 골든타임 2년”… AI 일상화에 올해 7102억 투입

향후 2, 3년 내 국내 경제 전반에 성공적으로 인공지능이 도입으로 2026년부터 매년 310조 원에 달하는 경제효과가 창출되는 것으로 분석. 막대한 경제적 파급효과가 있는 ‘AI 임팩트’를 위해 정부는 삼성전자 네이버 카카오 SK텔레콤 등 주요 정보통신기술(ICT) 기업 수장과 학계 전문가를 총동원해 ‘AI전략최고위협의회’ 꾸려
카카오, AI 개발 자회사 ‘카카오브레인‘ 합병 검토

카카오, 인공지능(AI) 전문 자회사 ‘카카오브레인’를 본사 조직으로 흡수·합병 "AI 서비스 강화에 초점을 맞추어 수조원 이상의 막대한 자금을 투입하는 AI 원천 모델 개발에 자체모델은 물론 외부모델도 적극 활용해 속도감 있게 AI 기술과 관련 서비스를 선보이겠다는 전략"