본문 바로가기
카테고리 없음

AI가 우리 글을 먹었다 — 학습 데이터와 2조 원 합의, 그리고 한국 현황

by 보랏빛 물결 2026. 5. 31.

생성형 AI가 어디서, 어떤 글을 학습했는지가 더 이상 추상적인 논쟁이 아니게 됐습니다. 2026년 4월 미국 법원은 앤트로픽을 상대로 한 저작권 집단소송의 최종 승인 심리를 진행 중이고, 합의 규모만 15억 달러, 우리 돈으로 약 2조 원에 이릅니다. 이 글은 AI가 사용한 학습 데이터가 왜 문제가 됐는지, 2조 원 합의가 남기는 의미가 무엇인지, 그리고 한국 현황은 어디까지 와 있는지를 차근차근 짚어봅니다. 콘텐츠를 만드는 분도, AI 서비스를 준비하는 분도 한 번쯤 들여다볼 만한 이야기예요.

학습 데이터

앤트로픽은 'Claude(클로드)'라는 AI 챗봇을 만드는 회사입니다. OpenAI의 GPT와 함께 현재 가장 주목받는 생성형 AI 중 하나죠. 이 회사가 클로드를 학습시키기 위해 사용한 데이터가 문제의 출발점이었습니다. AI를 학습시키려면 어마어마한 양의 텍스트가 필요해요. 많으면 많을수록, 다양하면 다양할수록 AI는 더 자연스럽게 언어를 이해하고 생성하게 되거든요.

조사에 따르면 앤트로픽은 'Books3'라는 불법 복제 도서 데이터베이스에서 700만 권이 넘는 책을 다운로드해 AI 학습에 활용했습니다. 비단 앤트로픽만의 이야기가 아닙니다. OpenAI의 GPT, 메타의 LLaMA도 Books3를 사용한 것으로 알려져 있어요. 다만 앤트로픽은 이번 소송의 당사자가 됐고, 결국 합의 테이블에 앉게 됐죠.

요리사가 레시피 책을 보고 요리를 배우는 건 자연스러운 일입니다. 그런데 그 책 700만 권을 누군가 불법으로 복사해서 학생 한 명을 가르치고, 그 학생이 시장에 나가 같은 요리를 팔기 시작했다면 작가는 어떤 기분일까요. 미국 작가들이 분노한 건 바로 그 대목이었습니다. AI의 능력 자체가 문제가 아니라, 그 능력을 만든 재료가 어떤 경로로 모였는가가 핵심이었던 것입니다.

2조 원 합의

소송은 2023년 안드레아 바르츠, 찰스 그레이버 등 작가들이 제기하며 시작됐습니다. "내 책을 허락도 없이 AI 학습에 썼다"는 주장이었죠. 처음에 앤트로픽은 이를 강하게 부인했지만, 결국 2025년 9월 15억 달러 규모의 합의안에 동의했습니다. 합의 내용을 들여다보면 꽤 구체적이에요. 저작권이 인정된 도서 1권당 3,000달러, 약 417만 원을 지급합니다. 총 50만 권 이상이 대상이고, 해당 데이터를 삭제하는 조건까지 포함돼 있어요.

단순히 돈으로 무마하는 것이 아니라, AI 학습에 사용한 데이터 자체를 지워야 한다는 점이 의미심장합니다. 작가 측 대리인은 이 합의를 두고 "AI 시대 최초의 저작권 인정 사례"라고 평가했어요. 법원이 최종 승인하면 단순한 한 건의 합의가 아니라, AI와 저작권의 경계를 새로 긋는 선례가 됩니다.

2026년 4월, 미국 캘리포니아 북부 연방법원이 최종 공정성 심리를 진행 중입니다. 법원이 합의안을 승인하면 AI 업계 전반에 파장이 클 거예요. 현재 진행 중인 40건 이상의 유사 소송에 직접적인 영향을 미치게 되니까요. 학습 데이터를 어떻게 모으느냐가 더 이상 백그라운드의 기술 문제가 아니라, 회사의 존립을 좌우할 수도 있는 변수가 된 셈입니다.

AI 저작권

한국 현황

한국이라고 해서 이 이슈에서 자유롭지는 않습니다. 2025년 1월, KBS·MBC·SBS 지상파 3사가 네이버를 상대로 소송을 제기했어요. 네이버의 생성형 AI '하이퍼클로바X'가 자사의 뉴스 기사를 허락 없이 학습 데이터로 사용했다는 이유였습니다. 저작권법 위반과 부정경쟁방지법 위반을 동시에 주장했죠. 2026년 1월 3차 변론에서는 침해 주장 기사 목록이 9만 7천여 건에 달했습니다.

규모는 다르지만 구도는 똑같아요. 콘텐츠를 만든 사람과, 그 콘텐츠로 학습한 AI 사이의 갈등이죠. 2026년 1월 시행된 인공지능기본법은 생성형 AI를 법적으로 정의하는 첫 틀을 만들었지만, 저작권 문제에 대한 구체적인 기준은 아직 만들어지는 중입니다. 이번 앤트로픽 합의가 한국의 유사 소송에 어떤 영향을 줄지 법조계가 예의주시하는 이유가 여기에 있어요.

흐름은 분명합니다. 인터넷에 공개된 데이터를 마음껏 긁어모아 학습시키는 방식은 점점 위험해지고 있어요. 창작자와 라이선스 계약을 맺거나, 처음부터 저작권 문제가 없는 데이터만 사용하거나, 새로운 방식의 데이터 생태계를 만들어야 합니다. 일부 AI 기업들은 이미 뉴스 매체, 출판사, 음악 저작권 단체와 라이선스 협약을 맺고 있죠. AI가 자라려면 인간의 창작물이 필요하고, 그 창작물에는 값을 치러야 한다는 원칙이 조금씩 자리를 잡고 있는 중입니다.

한 줄로 정리하면 이렇습니다. AI는 우리 글을 먹고 자랐다, 이제 그 밥값을 누가 어떻게 치를 것인가. 그게 이 시대가 우리에게 던지는 질문이라고 느낍니다. 창작자 입장이라면 주요 AI의 학습 데이터 opt-out 정책을 한 번 확인해두는 게 좋고, AI 서비스를 준비하고 있다면 지금 당장 부담스럽더라도 라이선스 구조를 미리 그려두는 것이 결국 가장 싼 길입니다.😊 IP 리스크는 보통 한참 뒤에 청구서로 돌아오니까요. 이 분야에 대해 더 궁금한 점이 있다면 편하게 문의해주세요.


소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 블로그 이름