오픈AI의 자사 웹 크롤러인 GPT봇은 정보 수집, 이용을 원하지 않는 사이트 소유자에게 데이터 수집을 차단할 수 있습니다. GPT봇 차단율은 인기 사이트 상위 100개 중 15%에 달하며 로이터 통신, 뉴욕타임스, CNN 등 주요 언론사가 대거 포함되었습니다. 생성형 AI 개발사들은 데이터를 학습할때 필요한 텍스트의 범위를 공개하지 않기에 생성형 AI의 무분별한 데이터 수집과 저작권 침해를 막기 위한 조치로 보여집니다.
로이터 관계자는 "지적재산권은 사업의 생명선이기 때문에 콘텐츠의 저작권을 보호하는 것이 필수적"이라고 밝혔습니다. 구글은 지난 5월 뉴욕타임스와 뉴스콘텐츠 사용료로 3년에 걸쳐 1억 달러를 지급하기로 합의하였습니다.
오픈AI·美 출판업계 결국 '저작권 소송전'
<이미지-메타>
오픈AI가 유료 서비스인 GPT-4를 출시하며 크게 흑자 전환을 하자 미국 내 테크업계와 콘텐츠 업계 간의 전쟁이 본격적으로 대두되었습니다. 해외에서는 이미 생성형 AI 개발사를 상대로 한 법적 분쟁이 활발합니다. 오픈AI, 메타, 구글, MS, 스태빌리티AI 등 동의 없이 사용된 저작물로 인해 소송까지 이어졌습니다.
올해 6월 소설가, 코미디언 등이 오픈AI를 상대로 디지털 밀레니엄 저작권법(DMCA)과 불공정 경쟁법 위반, 부당 이득 소송을 제기하였습니다. 구체적으로 7,185권에 달하는 책을 챗GPT 데이터 학습을 위해 동의없이 스크랩했다는 입장입니다.
오픈AI는 1일(현지시간) 미국 캘리포니아 법원에 제출한 기각 신청서를 통해 "저작권 법의 목적은 작가 아이디어를 보호함에 따라 과학·예술의 진보를 촉진하는 것이지 기초적 아이디어나 문장 내 구성요소까지 보호하는 것은 아니다"라고 처음으로 입장을 밝혔습니다.
이 소송은 앞으로 끊임없이 제기될 '생성형 AI 저작권 침해' 공방에서 중요한 쟁점을 담고 있습니다. 국내에서도 AI 기업과 콘텐츠 소유자의 입장은 팽팽하게 맞설 것으로 보이는데요. AI와 함께 살아가기 위해 누구의 손을 들어줘야 하는 것일까요?
생성형 AI의 데이터 학습에 가장 핵심적인 부분인 뉴스 콘텐츠를 무단으로 사용하는 일은 명백한 저작권 침해라며 언론사들은 AI 기술 기업이 저작권자들과 협의에 적극 나설 것을 촉구하였습니다. 한국신문협회와 온라인신문협회의 입장을 들어볼까요?
한국신문협회 "AI 학습에 뉴스 무단 활용은 저작권 침해"
<로고-한국신문협회>
한국신문협회가 네이버, 카카오, 구글코리아, 마이크로소프트 등 국내외 대형IT 기업에 생성형 AI의 뉴스 저작권 침해 방지를 위한 5대 요구사항을 전달했다고 지난 23일 밝혔습니다.
<생성형 AI의 뉴스 저작권 침해 방지 5대 요구사항>
✅뉴스 저작권자와 이용기준 협의
✅글로벌 AI 원칙 준용 공표
✅생성형 AI 학습데이터의 출처 등 공개
✅뉴스 콘텐츠 이용방식 구체적 명시
✅뉴스 저작물에 대한 적정한 대가 산정기준 마련
신문협회는 의견서에서 "언론사가 막대한 투자와 수많은 정제과정을 거쳐 생산한 뉴스 콘텐츠를 생성형 AI 개발 기업이 저작권자의 사전 동의나 학습 데이터의 이용 출처 등을 명기하지 않고 활용하는 등 저작권 침해행위가 광범위하게 발생해 뉴스 콘텐츠의 가치가 훼손되고 있다"고 지적했습니다.
온신협 "생성형 AI의 뉴스 저작권 침해 등에 관한 우리의 입장"
<로고-온라인신문협회>
한국신문협회에 이어 한국온라인신문협회(이하 온신협)도 같은 입장을 표명했습니다. 온신협은 31일 <생성형AI의 뉴스 저작권 침해 등에 관한 우리의 입장> 성명서에서 △뉴스 콘텐츠 저작권자인 언론사의 권리 존중 △TDM(Text and Data Mining) 면책 규정 도입 반대 △AI 학습 시 뉴스 콘텐츠에 대한 정당한 대가 지불 등 3대 원칙을 공식 표명했습니다.
온신협은 "생성형AI는 학습 데이터 습득 과정에서 법적으로 저작권 침해로 인정되는 저작물(뉴스)의 복제 및 전송을 할 수 밖에 없기 때문에 저작권자인 언론사의 명시적 동의를 받아야한다"며 "빅테크 기업들이 해외 주요 언론사들과 협의에 나서고 있는 이유도 뉴스 콘텐츠의 합법적인 사용을 위해서다. 한국에서도 이 같은 협의 과정이 필요하다." 고 주장했습니다.
네이버는 '하이퍼클로바X'를 공개하며 국내 AI 시장의 블루칩으로 관심이 집중되고 있는 가운데 한국신문협회, 온신협이 주장하는 언론사 콘텐츠 데이터 사용료에 대해 어떤 입장을 내놓았을까요?
#3 네이버 하이퍼클로바X 공개...뉴스 이용료 지급은 미정
네이버 최수연 대표 "현재 상황에서는 명확한 답변 내놓기 어려워"
<이미지-네이버>
네이버가 지난 24일 한국어 기반 생성형 AI '하이퍼클로바X'를 공개했습니다. 하이퍼클로바X는 네이버가 2021년 세계에서 세번째로 공개한 LLM '하이퍼클로바'의 업그레이드 버전으로 한국어에 최적화되어 GPT-3.5와 비교해 한국어를 6,500배 이상 학습했습니다. 네이버는 하이퍼클로버X가 데이터를 학습하는 과정에서 얼마나 많은 양의 뉴스를 활용했는지 공개하지 않았습니다.
최수연 대표는 "현재까지 네이버 AI가 학습한 데이터는 기존 규제와 약관에 근거를 두고 학습했기 때문에 별도의 대가 지급과 관련해 논의하고 있진 않다”며 "(AI 학습에) 언론사에서 동의하지 않으면 활용하지 않는 방향으로 계획을 잡고 있다"고 말했습니다.
생성형 AI 서비스를 운영하기 위해서는 양질의 데이터가 필수적인 상황에서 '언론사 저작권'에 대한 신문협회와의 협의가 원만하게 흘러갈 수 있을지 귀추가 주목됩니다.