[1주1책]박태웅의 AI강의_오리지널의 실종 편

박태웅 작가(한빛미디어 이사회 의장)는 언론인출신입니다. 닷컴 버블시절에 언론사를 떠나 인터넷 회사를 창업하여 IT회사 경영자로 변신하였습니다. 박태웅작가 이름을 다시 주목하게 된 것은 ‘눈 떠보니 선진국’이라는 책을 통해서입니다.

이 책을 읽으면서 박작가가 경영의 세계에서 다시 저널리즘의 세계로 귀환했다고 느꼈습니다. 그는 이 책에서 어쩌다 선진국이 되버린 한국이 진짜 선진국이 되기 위해 무엇을 해야 할지를 논했습니다.

박작가는 2023년 ‘박태웅의 AI강의’라는 제목의 책을 출간했습니다. 박작가는 챗GPT의 등장으로 인해 거대언어모델과 생성형 AI가 대세를 이루는 것을 보면서 특유의 호기심과 학습력을 발휘하여 복잡한 생성형 AI흐름을 잘 정리하여 호평을 받았습니다.

박작가는 올 9월에 다시 ‘박태웅의 AI강의 2025’라는 제목으로 업그레이드 버전을 출간하였습니다. AI이슈의 경우 관련 기사를 매일 읽는 것보다 정보와 인사이트를 종합화한 책 한권을 차분하게 읽는 것이 AI흐름 이해에 더 도움이 됩니다.

그는 인공지능 관련 동향을 계속 추적하면서 핵심 이슈를 정리정돈하는 저널리스트다운 솜씨를 발휘합니다. 이를 테면 그는 뉴스의 단편성과 일시성을 잘 보완해주는 서술 방식을 구사하면서 나아가 우리가 생각해야할 포인트도 잘 짚어줍니다.

저는 인공지능의 윤리 중 ‘오리지널의 실종, 검색의 종말’편을 골라서 발췌독서하였습니다.

1.오리지널의 실종

거대한 생성형 인공지능이 대세가 되면 우리는 어떤 것들을 보고 겪게 될까요? 미래를 다 예측하긴 어렵지만, 분명해 보이는 여러 가지 일들 중 첫 번째는 바로 ‘오리지널의 실종’입니다.

2.실험

일본 이화학연구소RIKEN의 하타야 류이치로 연구팀이 〈대규모 생성모델이 미래의 데이터 세트를 손상시킬 것인가?〉라는 논문을 발표했습니다.

연구팀은 대규모 텍스트-이미지 생성모델인 달리2DALL・E 2, 미드저니, 스테이블 디퓨전 등의 인공지능이 사람이 그린 그림 대신 인공지능이 생성한 이미지로 학습하면 어떻게 될까를 실험했습니다.

AI 생성 이미지를 각각 0퍼센트, 20퍼센트, 40퍼센트, 80퍼센트씩 섞은 데이터 세트를 만들어 AI 이미지 프로그램을 학습시켰습니다.

3.인공지능의 성능 저하

그 결과는 다음과 같았습니다. 사람이 만든 원본 이미지로만 학습한 생성모델이 만든 1,000개의 이미지 중 75.6퍼센트가 이전에 보지 못했던 새로운 이미지였습니다. 이 비율은 AI가 생성한 이미지가 많이 섞일수록 낮아져서, AI가 생성한 이미지가 20퍼센트 섞인 데이터로 학습한 AI는 74.5퍼센트, 40퍼센트에선 72.6퍼센트, 80퍼센트에선 65.3퍼센트로 성능이 떨어졌습니다.

인공지능이 그린 그림이 많아질수록 인공지능의 성능이 나빠지는 현상입니다.

4. 종의 근친 교배와 같은 현상

인공지능이 만든 데이터로 학습한 인공지능이 대를 거쳐 가면서 아주 쉽게 붕괴한다는 것을 확인한 다른 논문도 있습니다.

옥스포드대학교의 컴퓨터 과학자 일리아 슈마일로프Ilia Shumailov 등이 쓴 〈재귀적 생성 데이터로 훈련한 인공지능 모델의 붕괴AI models collapse when trained on recursively generated data〉에 따르면 인공지능이 생성한 학습 데이터로 훈련한 인공지능은 마치 종의 근친교배와도 같이 붕괴해버립니다.

5.오차 증폭

생성모델은 자신이 생성한 데이터로 훈련을 거듭할 수록 점차 원본 데이터의 분포를 잃어가게 되는데 특히 분포의 꼬리부분, 즉 빈도가 낮은 부분을 쉽게 잃게됩니다. 대를 거듭할 수록 오차가 증폭되는데 이유는 다음과 같습니다.

첫째, 통계적 오차: 충분히 많은 예시를 보지 못해서 생기는 오차

둘째, 표현력 오차: AI 모델이 복잡한 현실을 완벽히 표현하지 못해서 생기는 오차

셋째, 근사 오차: AI가 학습하는 방식 자체의 한계로 인한 오차

이 세 가지 오차가 쌓이면서 AI는 점점 현실과 멀어지게 됩니다. 이것이 바로 모델 붕괴 현상입니다.

이런 현상이 심각한 것은 인터넷에서 인공지능으로 생성한 콘텐츠의 양이 급속도로 늘어나고 있기 때문입니다.

6.표절작 폭증

세계적인 SF 출판사 클라크스월드Clarkesworld가 넘쳐나는 표절작 때문에 신작 공모를 무기한 중단했다고 〈가디언〉이 2023년 2월 21일 보도했습니다.

표절작이 무려 전체의 38퍼센트에 이르렀기 때문입니다. 창업자이자 편집장인 닐 클라크는 인공지능을 이용한 표절작이 걷잡을 수 없이 늘어나고 있다고 말했습니다. 평상시에는 10여 편의 표절작이 접수될 뿐이었지만 챗GPT가 발표된 후 엄청나게 늘어났다는 것입니다.

7.인공지능 생성 콘텐츠 비중

오리지널리티.AIoriginality.ai라는 곳에서 2019년부터 현재까지 구글 검색 결과에 얼마나 많은 인공지능 생성 콘텐츠가 포함돼 있는지를 조사하고 있습니다.16 500개의 인기 검색어에서 상위 20개 검색 결과를 수집해 그중에서 인공지능이 생성한 콘텐츠의 비중을 조사합니다.

이 조사에 따르면 2019년 2월 2.27퍼센트에 그쳤던 인공지능 생성 콘텐츠의 비중은 2023년 6월 7.12퍼센트가 되더니, 2024년 6월에는 13.95퍼센트로 치솟습니다. 5년 사이 여섯 배, 최근 1년 사이 거의 두 배 가까이 늘었습니다.

8.구글 검색 트래픽도 잠식중

구글은 현재 검색 결과 상단에 AI가 정리한 주요 정보와 더 자세히 알아볼 수 있는 링크가 포함된 ‘AI 개요’를 서비스하고 있습니다. 2024년 6월 현재 전체 질의의 15퍼센트에 표시되고 있지만 한때는 84퍼센트까지 올라간 적도 있습니다.

이렇게 되면 어떤 결과가 나올까요? 그 정보들이 담긴 원본 사이트를 방문하는 비율이 줄어들기 시작하게 됩니다. 한 조사에 따르면 18퍼센트에서 심한 곳은 64퍼센트까지 트래픽이 떨어졌다고 합니다.

웹은 이미 인공지능이 생성한 저품질의 콘텐츠로 넘쳐나기 시작했습니다. 상위 검색 결과의 10퍼센트 이상을 이미 AI가 가져가고 있습니다. 그런데 양질의 자체 콘텐츠를 생산하는 곳으로 가는 트래픽을 구글이 AI 개요로 또 가로채버립니다.

9.개발자 공동체의 붕괴

스택오버플로Stack Overflow라는 사이트가 있습니다. “모든 개발자는 스택오버플로 탭을 열어두고 있습니다”라는 캐치프레이즈를 자랑하는 곳입니다. 전 세계의 개발자들이 개발을 하다 궁금한 게 생기거나 막힌 곳이 있으면 물어보고 답하는 게시판입니다.

챗GPT가 발표된 뒤 이 스택오버플로의 방문자 수가 급감하기 시작했습니다. 거의 모든 개발자들이 한두 번쯤은 스택오버플로에 올라온 코드를 그대로 복사해 사용한 적이 있는 훌륭한 공동체가 무너지고 있습니다.

10.생성형 인공지능의 모순

문제는 챗GPT가 프로그래밍을 학습한 대상이 바로 이 스택오버플로였다는 겁니다. 온라인 코드 저장소인 깃허브GitHub와 스택오버플로는 인공지능이 개발 공부를 하기 가장 좋은 두 개의 사이트였습니다. 그렇게 공부한 챗GPT가 스택오버플로의 트래픽을 빼앗아가고 있는 것입니다.

이제 몇 년 후의 인공지능들은 오리지널 학습 데이터를 찾는 데 아주 큰 비용을 치르게 될 것입니다. 우리는 인공지능이 또 하나의 오리지널을 무너뜨리는 장면을 보고 있습니다.