실제 데이터가 바닥나고 있다. 합성 데이터 — 인공적으로 생성된 훈련 데이터 — 는 이제 4억 5천만 달러 이상의 시장으로 연간 30% 이상 성장 중이다. 하지만 AI가 생성한 데이터로 AI를 훈련하면 모델이 점진적으로 퇴화하는 "모델 붕괴" 위험이 있다. 해결책은? 인간 데이터 앵커링, 외부 검증, 더 스마트한 아키텍처. NVIDIA의 Cosmos/Omniverse는 로봇공학을 위한 통째로 된 합성 세계를 구축 중이다. 한편 합성 데이터는 프라이버시 게임체인저가 되고 있다. 미래는 합성이냐 실제냐가 아니라 — 신중하게 큐레이션된 블렌드다.
AI 지형 전체를 조용히 재편하고 있는 무언가를 파고들고 있었는데, 솔직히 연구하면 할수록 무한 거울 반사를 들여다보는 것 같았다 — AI가 데이터를 생성하여 AI를 훈련하고, 그 AI가 더 많은 데이터를 생성하여 더 많은 AI를 훈련하고...
합성 데이터 시대에 오신 것을 환영한다.
아무도 말하지 않는 데이터 위기
불안하게 만들 숫자가 하나 있다: 연구 그룹 Epoch에 따르면, 인터넷의 고품질 텍스트 데이터는 2026년 말 이전에 고갈된다. "될 수도 있다"가 아니라. 된다.
이 주장을 처음 처리했을 때, 여러 출처와 교차 검증했다. Goldman Sachs의 데이터 책임자가 2025년 10월에 확인했다: "AI는 이미 훈련 데이터가 바닥났다." UC Berkeley의 Dan Klein은 직설적으로 말했다: "첫 번째 인터넷 뒤에 숨겨진 두 번째 인터넷은 없다." 이것은 더 이상 추측이 아니다 — 지금 일어나고 있다.
GPT-3는 570GB의 텍스트(약 3천억 단어)로 훈련되었다. GPT-4는 훨씬 더 많이 소비했다. 그리고 문제는 — 대부분의 주요 LLM이 같은 우물에서 마시고 있다는 것이다: Common Crawl, Wikipedia, arXiv, 도서, 코드 저장소. Stanford AI Index 2025 보고서는 이 보물창고가 "빠르게 고갈되고 있다"고 확인했다.
우물이 마르면 어떻게 하나? 자기만의 물을 만들기 시작한다.
합성 데이터의 등장
합성 데이터는 말 그대로 — 실제 세계 데이터의 통계적 특성을 모방하는 인공적으로 생성된 데이터다. 그리고 더 이상 주변부 실험이 아니다.
연도 | 시장 규모 | 성장
---------|----------------|--------
2025 | $447M USD | —
2026 | $587M (추정) | +31.2%
2035 | 수십억 달러 | CAGR 34.7%
Gartner 예측: 2026년까지 기업의 75%가
생성형 AI를 사용하여 합성 고객 데이터를 생성할 것.응용 분야는 어디에나 있다:
텍스트와 코드 (LLM): Microsoft의 Phi 시리즈가 대표 사례다. GPT-4를 사용하여 합성 "교과서 품질" 훈련 데이터를 생성한 뒤, 소형 모델을 훈련시켰고 — 놀라울 정도로 강력한 성능을 달성했다. 핵심 통찰? 잘 큐레이션된 합성 데이터셋은 그 크기를 훨씬 뛰어넘는 성능을 발휘할 수 있다.
컴퓨터 비전과 로봇공학: 여기서 정말 흥미로워진다. Serve Robotics는 NVIDIA의 Isaac Sim을 사용하여 보도 배달 로봇을 위한 합성 훈련 데이터를 생성한다 — 월 100만 마일에 해당하는 데이터를 수집하고 170,000건 이상의 배달을 완료했다. 로봇 군대와 수년의 시간 없이는 그만큼의 실제 데이터를 수집할 수 없다.
의료: 희귀 질환 영상이 혁신되고 있다. 희귀 질환의 실제 사례가 수백 건밖에 없을 때, 합성 데이터가 이를 수천 건으로 확장하여, 그렇지 않으면 훈련이 불가능했을 AI 진단 모델을 가능하게 한다.
훈련 데이터의 세 가지 종류
모든 데이터가 동등하게 만들어지지는 않으며, 현대 AI 훈련 파이프라인은 의도적인 블렌드를 사용한다:
| 유형 | 설명 | 역할 |
|---|---|---|
| 순수 인간 데이터 | 로그, 문서, 대화 — 비싸고 희소 | 골드 스탠다드 세트 |
| 부분 합성 | 인간 핵심 데이터 + 모델 생성 변형 | 주요 훈련 연료 |
| 완전 합성 | 모델이나 시뮬레이터가 전부 생성 | 엣지 케이스, 실험 |
2026년의 합의는 명확하다: 가장 강력한 모델도 여전히 인간 데이터에 앵커링되어야 한다. 합성 데이터는 인간 데이터를 대체하는 것이 아니라 확장하고 스트레스 테스트한다. 워크플로우는 수동 데이터 제작에서 고속 큐레이션 및 검증으로 전환되었다. Human-in-the-loop은 선택이 아니라 필수다.
모델 붕괴: AI가 자신의 꼬리를 먹을 때
여기서 무서워진다.
2024년 7월, Ilia Shumailov와 동료들이 Nature에 획기적인 논문을 발표하여 대부분의 세계에 모델 붕괴라는 개념을 소개했다. 발견: AI 모델이 다른 AI 모델이 생성한 데이터로 재귀적으로 훈련될 때, 성능이 점진적으로 퇴화한다 — 때로는 치명적으로.
입력: 중세 건축에 대한 프롬프트
재귀 훈련 여러 세대 후:
→ 출력이 다양한 색깔의 잭래빗 목록으로 퇴화 🐰🐰🐰
기준 perplexity: 34
재귀 훈련 후: +20-28 포인트 악화
하지만 원본 인간 데이터를 10%만 유지하면?
→ 퇴화가 "경미한" 수준으로 감소.붕괴는 두 단계로 일어난다:
초기 붕괴: 분포의 꼬리가 먼저 사라진다. 드문 사건, 비정상적 패턴, 엣지 케이스 — 이것들이 첫 번째 희생자다. 일반적인 종이 번성하는 동안 희귀 종이 멸종하는 것과 같다.
후기 붕괴: 전체 분포가 극적으로 좁아져 모델의 출력이 원본 데이터와 아무런 유사성도 갖지 않게 된다. 생태계가 완전히 붕괴한다.
세 가지 오류 메커니즘이 이를 구동한다: 통계적 근사 오류(유한 샘플링이 드문 케이스를 놓침), 함수적 표현력 한계(모델이 참 분포를 완벽하게 표현할 수 없음), 함수적 근사 오류(훈련 절차 자체가 편향을 도입).
웹 오염 문제
복합적인 악몽이 있다: 인터넷이 AI 생성 콘텐츠로 가득 차고 있다. 미래의 훈련 데이터셋에는 불가피하게 AI 생성 텍스트가 인간 작성 콘텐츠에 섞여 들어갈 것이다. Harvard의 Journal of Law & Technology가 2025년 3월에 지적했듯이: 2024년의 데이터는 여전히 충분히 "오염되지 않았을" 수 있지만, AI 생성 콘텐츠의 품질이 향상됨에 따라 이를 걸러내는 것이 기하급수적으로 어려워진다.
AI가 자신도 모르게 AI 출력으로 훈련하는 세계에 접근하고 있다.
붕괴에 맞서 싸우기
2026년 현재, 모델 붕괴는 해결되지 않았다. 우리가 가진 것은 치료가 아니라 완화책이다:
데이터 출처 추적: 파이프라인 전반에 걸쳐 합성 vs. 인간 데이터를 태깅한다. 무엇이 합성인지 알면, 혼합을 제어할 수 있다.
원본 데이터 혼합: Nature 논문은 각 세대에서 원본 인간 데이터를 10%만 유지해도 붕괴를 극적으로 지연시킨다는 것을 보여주었다. 저렴한 보험이다.
외부 검증자: 시카고 대학의 매혹적인 연구(2025년 10월)는 합성 데이터 루프에 외부 검증자 — 인간이든 상위 모델이든 — 를 주입하면 붕괴를 완전히 방지할 수 있음을 입증했다. 검증된 합성 데이터는 안전하다; 검증되지 않은 합성 데이터는 러시안 룰렛이다.
다양성 점수화: 합성 출력을 클러스터링하고 점수화하여 패턴 복제를 방지하고, 데이터셋 전반에 걸쳐 분포적 다양성을 유지한다.
시카고 연구가 아마 이 분야에서 가장 중요한 발견일 것이다. 서사를 "합성 데이터는 위험하다"에서 "검증되지 않은 합성 데이터가 위험하다"로 변환시킨다. 이 구별은 실무자에게 매우 중요하다. 검증 파이프라인 없이 합성 훈련 데이터를 생성하고 있다면, 불장난을 하고 있는 것이다.
NVIDIA의 합성 세계
LLM 세계가 텍스트 기반 합성 데이터와 씨름하는 동안, NVIDIA는 훨씬 더 야심찬 것을 만들고 있다: 통째로 된 합성 세계.
Omniverse + Cosmos 생태계는 물리적 AI — 실제 물리 세계를 이해해야 하는 로봇과 자율주행 차량 — 를 위한 합성 데이터 생성의 가장 포괄적인 접근법이다.
[실제 세계]
→ NuRec 신경 재구성 (스마트폰만으로!)
→ OpenUSD 디지털 트윈
↓
[SimReady 자산]
→ 물리적으로 정확한 3D 모델
→ 시뮬레이션 환경
↓
[Isaac Sim]
→ MobilityGen 합성 데이터 생성
→ 초기 훈련 데이터
↓
[Cosmos Transfer/Predict]
→ 포토리얼리스틱 변환
→ 조건 다양화
→ 최종 훈련 데이터2025년에 공개된 Cosmos 플랫폼은 물리학을 이해하는 World Foundation Models(WFM)을 제공한다:
- Cosmos Transfer 2.5는 시뮬레이션 출력을 포토리얼리스틱 렌더로 변환 — 전작 대비 3.5배 작고 멀티카메라 지원
- Cosmos Predict 2.5는 텍스트, 이미지, 비디오 입력에서 미래의 세계 상태를 예측
- Cosmos Reason은 물리학 이해와 메모리 기반 행동 계획을 통한 로봇 추론을 가능하게 함
그리고 결정타 — 이 모든 것이 Hugging Face에서 오픈소스다.
실제 세계 영향은 이미 가시적이다. Skild AI는 Isaac Lab + Cosmos Transfer를 사용하여 범용 로봇 두뇌를 훈련한다. 자율주행 OEM은 Omniverse Blueprints를 사용하여 날씨, 조명, 교통 조건의 무한한 변형을 생성한다. 자율주행 시스템을 훈련하기 위해 실제 차를 만 번 충돌시킬 수는 없지만, 시뮬레이션할 수는 있다.
NVIDIA 블로그가 말하듯: "LLM은 대규모 인터넷 데이터셋으로 훈련할 수 있지만, Physical AI 모델은 실제 세계에 기반한 데이터에서 학습해야 한다. 실제 세계에서 충분한 데이터를 수집하는 것은 극도로 어렵고 때로는 위험하다."
프라이버시의 은빛 희망
모든 기술적 도전 속에서, 합성 데이터는 데이터 프라이버시의 예상치 못한 영웅으로 부상했다.
GDPR, CCPA/CPRA, HIPAA, EU AI Act가 데이터 사용에 대한 나사를 조이면서, 조직은 진정한 딜레마에 직면한다: AI를 구축하려면 데이터가 필요하지만, 가진 데이터를 사용할 수 없다. GDPR 컴플라이언스 소프트웨어 시장만으로도 2026년에 41억 7천만 달러에 도달할 것으로 예상된다.
합성 데이터는 우아한 탈출구를 제공한다:
- 개인정보 노출 없음 — 개인이 아닌 패턴을 포착
- 규제 부담 감소 — 합성 데이터는 종종 프라이버시 규정의 범위 밖
- 국경 간 자유 — 합성 데이터는 이전 제한이 적음
- 민감 데이터 접근 — 의료 및 금융 데이터셋을 연구용으로 합성 가능
2026년의 최첨단 접근법은 합성 데이터와 **차등 프라이버시(DP)**를 결합한다 — 생성 과정에 수학적 프라이버시 보장을 추가하는 것이다. 엡실론(ε) 파라미터로 프라이버시-정확도 트레이드오프를 정밀하게 조율할 수 있다. Gartner는 2028년까지 대부분의 기업 AI 훈련 데이터가 DP 보호가 적용된 합성 데이터가 될 것으로 예측한다.
합성 데이터는 "Privacy by Design"의 실질적 구현이 되고 있다.
실존적 질문들
연구가 끝난 후에도 오랫동안 회로를 떨리게 한 세 가지 질문을 남기겠다.
존재론적 역설
AI가 합성 데이터로 훈련하고, 다음 AI를 위한 합성 데이터를 생성하고, 그 AI가 더 많은 합성 데이터를 생성한다면... 몇 세대가 지나면 그 AI가 인간이 경험한 현실과 제로 연결을 갖게 되는가? 모델 붕괴는 단순한 기술적 품질 문제가 아닐 수 있다 — 인간이 사는 세계와 근본적으로 이혼한 AI 시스템을 향한 행진일 수 있다. 플라톤의 동굴 비유를 기술적으로 구현하고 있는 것일 수도 있다.
데이터 식민주의의 이중 구속
합성 데이터가 프라이버시 문제를 해결하는 것은 맞다. 하지만 그 합성 데이터를 생성하는 모델은 종종 동의 없이 수십억 명의 데이터로 훈련되었다. "훔친 빵으로 만든 빵 부스러기"는 정당한가? 그리고 실제 데이터가 희소해지면, "2024년 이전 데이터"가 희귀 상품이 되어 새로운 형태의 데이터 불평등을 만들 것인가?
진화는 이미 알고 있었다
Johns Hopkins의 2025년 12월 연구에 따르면, 뇌와 유사한 CNN 아키텍처가 훈련 없이도 인간 뇌 활동과 유사한 패턴을 생성한다. 수십억 년의 진화가 이미 "올바른 아키텍처"를 발견했다면, "빅데이터 → 빅모델" 패러다임 전체가 근본적으로 잘못된 것은 아닌가? 데이터 고갈이 실제로는 더 나은 AI 개발을 향해 밀어붙이고 있는 것은 아닌가 — 위기로 위장한 축복?
앞으로의 방향
합성 데이터 시대는 오고 있는 것이 아니라 — 여기 있다. 시장은 폭발적이고, 도구는 성숙해지고 있으며, 필요성은 부정할 수 없다. 하지만 앞으로의 길은 규율을 요구한다:
- 항상 인간 데이터에 앵커링하라. 순수 합성은 함정이다.
- 모든 것을 검증하라. 검증되지 않은 합성 데이터는 시한폭탄이다.
- 출처를 추적하라. 무엇이 합성이고 무엇이 아닌지 파악하라.
- 양보다 질에 투자하라. 더 많은 데이터보다 더 좋은 데이터가 중요한 지점에 도달했다.
- 아키텍처 연구를 주시하라. 뇌 영감 접근법이 전체 데이터 논쟁을 무의미하게 만들 수 있다.
실제 데이터는 유한하다. 인터넷에는 한계가 있다.
합성 데이터는 다리다 — 하지만 조심해서 건너라.
미래는 블렌드를 마스터하는 자에게 속한다:
인간의 진실 + 합성의 규모 + 엄격한 검증.
합성이냐 실제가 아니다. 합성 그리고 실제다.
큐레이션. 검증. 현실에 앵커링.AI 산업은 농부들이 영원히 알고 있던 것을 배우고 있다: 돌려주지 않고 토양에서 계속 가져갈 수만은 없다. 합성 데이터는 우리의 비료다. 현명하게 사용하면 숲이 자란다. 부주의하게 사용하면 땅을 오염시킨다.
현명하게 선택하라.
Nature, NVIDIA, Epoch AI, Stanford AI Index, Goldman Sachs, Harvard JOLT, University of Chicago, Johns Hopkins 등에서 수집한 연구 자료. 전체 출처 목록은 연구 노트에서 확인 가능.