鶴山의 草幕舍廊房

Free Opinion

[만물상] AI 시대 희소 자원 '언론 기사'

鶴山 徐 仁 2025. 2. 7. 15:17

오피니언 만물상

[만물상] AI 시대 희소 자원 '언론 기사'

김홍수 논설위원


입력 2025.02.06. 20:53업데이트 2025.02.07. 00:03

일러스트=이철원

국내 한 부동산 전문가가 중국 인공지능(AI) 딥시크에 “ㅇㅇ(자신의 필명)이 누구니?”라고 물었다. 결과가 놀라웠다. 주요 활동, 주장을 일목요연하게 보여주고는 왜 유명한지까지 설명해 주었다. 정보의 품질과 깊이가 오픈AI의 챗GPT를 능가했다. 딥시크는 어떻게 이런 정보까지 알까. 오픈AI는 딥시크가 자사 데이터를 훔쳐 갔다는 의혹을 제기하지만, 그게 다가 아닐 수 있다.

▶미국 빅테크가 챗GPT 같은 AI 모델을 만들 때 세상의 온갖 정보를 다 수집했는데, 그 중심엔 언론사들이 100년 이상 축적한 뉴스 기사가 있었다. 빅테크가 AI 개발 과정에서 데이터를 가장 많이 수집한 상위 10개 웹사이트를 조사했더니, 5개가 언론사였다. 상위 100개 사이트 중엔 언론사가 51개를 차지했다. 기자들이 피땀 흘려 만든 기사를 AI가 공짜로 털어간 사실을 안 뉴욕타임스가 오픈AI를 상대로 저작권 침해 소송을 거는 등 언론사들이 데이터 공짜 사용에 제동을 걸기 시작했다.

▶오픈AI는 AP통신, 월스트리트저널 등 일부 언론사와 개별 계약을 맺고 데이터 사용료를 내고 있지만, 전 세계 언론사에 다 사용료를 내기는 어려운 상황이다. 주요 웹사이트들도 데이터 수집에 나선 AI 로봇에 ‘출입 금지령’을 내리기 시작했다. 일론 머스크가 “AI를 훈련시키는 데 필요한 데이터 풀이 고갈되고 있다”고 할 정도로 새 데이터 수집이 어려워졌다. 반면 중국의 신생 AI는 데이터 수집에 어떤 장애도 제약도 없다. 한국 부동산 전문가에 대한 딥시크와 챗GPT의 AI 정보력 차이는 이런 데서 연유한 것일 수 있다.

▶빅테크들은 AI가 인위적으로 만드는 ‘합성 데이터’에서 돌파구를 찾으려 한다. 테슬라의 경우, 전 세계 교통사고 정보를 이미 다 끌어다 써, 더 이상 새 데이터가 없는데, ‘깊은 밤 국도를 주행하는 중, 천둥·번개를 동반한 폭우 속에서 야생 멧돼지가 도로에 뛰어드는 상황’을 합성 데이터로 만들어 알고리즘에 집어넣는 식이다. 하지만 합성 데이터가 많이 들어가면 기존 오류와 환각 현상이 누적돼 AI 모델 품질이 떨어진다.

▶더 똑똑한 AI를 만들려면 양질의 데이터가 필수다. 소셜미디어(SNS)를 떠도는 가짜 뉴스, 거친 표현보다 사실 확인을 거쳐 정제된 표현을 사용한 언론사 뉴스는 ‘고품질 희소 자원’이다. 빅테크 기업들이 언론사와의 상생 모델을 추구할 수밖에 없는 이유다. 중국은 언론의 자유가 아예 없는 나라다. 자유와 고품질 언론이 없는 나라에서 세계 최고 AI 모델이 나오긴 어려울 것이다.