이 글은 오호츠크 테크 필자 이동근(동동) 님이 DeepSeek 모델의 전반적인 개요와 산업에 미치는 영향을 한눈에 파악할 수 있도록 관련 논문과 정보를 정리한 것입니다. 바로 이전에 작성한 '2025년 AI 산업 전망'을 먼저 읽고 오실 것을 추천드립니다. 이 글에는 오류나 흘러간 정보가 있을 수 있습니다. 혹시나 잘못된 점을 지적해주시면 반영하겠습니다.
동근님의 Zoom 세미나 신청은 여기:
지난 설 연휴 동안 잠 못 이루는 분들이 많았을 것 같습니다. DeepSeek 모델 출시 하루 만에 삼성전자 시가총액의 두 배에 해당하는 약 900조 원 규모가 Nvidia에서 증발한 사건을 보며 많은 고민을 하셨을 것 같습니다.
개인적으로는 이 사건이 AI 시장의 거품(버블)에 대한 시장의 두려움이 얼마나 큰지를 보여주는 사례라고 생각합니다. 지난번 글에서도 언급했듯, 현재 AI 시장은 분명한 성과가 절실한 상황이며, 투자자들은 충격 하나에도 매우 민감하게 반응하고 있습니다.
DeepSeek 모델 공개 사건을 한마디로 요약하자면,
👉 "지금까지 공개된 최고 성능의 모델(GPT-o1급 오픈소스 모델)이 중국에서 나왔다"
라고 할 수 있습니다. 올해 이와 같은 시장 변동성을 초래할 사건들은 계속해서 등장할 가능성이 큽니다. 이에 대한 관점을 차근차근 설명드리겠습니다.
DeepSeek 모델의 의미와 파급력

DeepSeek 모델의 성공은 단순히 중국 기업 하나의 성과가 아닙니다. 이는 미국, 한국을 포함한 전 세계 AI 업계 전체의 공동 성공으로 이어질 수밖에 없습니다. AI 업계에서는 논문과 연구를 통해 내부 모델의 기술이 빠르게 공유되며, 경쟁사들이 이를 참고해 더 발전된 모델을 내놓는 것이 일반적입니다. 실제로, 홍콩대학교 연구팀은 이미 DeepSeek을 복제하는 데 성공했으며, 모델의 출력 결과값도 동일한 수준임을 어느 정도 보장했다고 밝혔습니다. 이처럼, AI 모델 연구는 계속해서 빠르게 발전하고 있으며, 앞으로도 새로운 혁신이 이어질 것입니다.
지난 글에서 저는 AI 산업의 5개 계층(layer)을 소개했습니다. DeepSeek은 이 모든 계층에 영향을 미칠 수 있는 요소입니다. 각 레이어별로 DeepSeek이 미친 영향을 간단히 요약하자면 다음과 같습니다.
🔹 1. 모델 계층
- 모델 학습에 필요한 데이터 자원이 기존보다 훨씬 줄어들었습니다.
- 즉, AI 모델을 개발하는 기업들이 이전보다 더 적은 데이터로도 효율적인 모델을 만들 수 있게 되었습니다.
🔹 2. 애플리케이션 계층
- 이 정도 성능의 모델이 오픈소스로 공개되었다? 기존의 오픈소스 모델을 굳이 사용할 필요가 없어졌습니다.
- 훨씬 저렴한 비용으로 누구나 접근할 수 있는 강력한 AI 모델이 등장했다는 점에서, 이는 산업적으로도 큰 의미를 가집니다.
🔹 3. 하드웨어 시장
- Nvidia 칩이 과거만큼 필수적이지 않을 수도 있다? DeepSeek은 이런 의문을 시장에 던졌습니다.
- 즉, 지금까지 AI 모델 학습과 운영에서 필수적으로 여겨졌던 Nvidia의 GPU 의존도가 낮아질 가능성이 제기된 것입니다.
특히 모델 계층(1번)과 하드웨어 시장(3번)은 DeepSeek의 등장으로 가장 큰 타격을 받을 수 있는 분야입니다. 기존에는 AI 모델을 성공적으로 학습시키기 위해 반드시 대규모 하드웨어 자원이 필요하다는 것이 정설이었습니다. 하지만, DeepSeek의 등장은 이러한 패러다임을 흔들고 있습니다.
이 과정에서 Nvidia가 직격탄을 맞으며 주가가 급락했습니다. 지난 10일 동안 발생한 주요 뉴스와 함께, 이 흐름을 전체적으로 정리해보겠습니다.
1. DeepSeek는 누가 운영하나? 창업자 량원펑(Liang wen feng)은 누구인가?
아래의 내용은 FT의 기사 ‘How small Chinese AI start-up DeepSeek shocked Silicon Valley’ 를 베이스로 정리했습니다.

이 회사는 꾸준히 LLM을 개발해오던 중국 기업 중 하나였습니다. 본사는 베이징과 항저우에 있으며, 대표와 내부 직원들은 외부 활동을 거의 하지 않습니다.
철저히 비밀스러운 기업이기에 드러난 정보가 많지는 않지만, 대표인 량원펑(梁文峰)에 대한 몇 가지 정보는 확인할 수 있습니다. 1985년생인 그는 저장대학교를 졸업한 후 2015년 퀀트 펀드 '하이플라이어(High Flyer)'를 창업했습니다.
하이플라이어는 알고리즘 기반으로 투자합니다. 이는 미국 역사상 최고의 수익률을 기록한 르네상스 테크놀로지(Renaissance Technologies)의 투자 방식과 유사합니다. 일각에서는 코인 채굴 및 투자로도 상당한 성공을 거뒀다는 이야기도 있습니다. 이 펀드는 현재 80억 달러(약 11조 원)를 운용하는 중국 최대 규모의 퀀트 펀드로 성장했으며 이를 통해 량원펑은 이미 조(兆) 단위 자산을 보유한 부자가 되었습니다. (외부 노출을 꺼려서 이번 설 연휴에는 본인이 만든 혼란을 뒤로 한 채 고향에 가서 친구들과 축구나 하고 왔다는 얘기가 있습니다.)
퀀트 트레이딩 과정에서 GPU를 최적화해 활용하는 다양한 엔지니어링 기법을 축적한 그는, 알고리즘 트레이딩을 기반으로 AI 사업에 대한 구상을 구체화하기 시작합니다. AI 모델을 만들기 위해서는 대규모 컴퓨팅 자원이 필요하다는 점을 누구보다 잘 알고 있었고, ChatGPT가 출시된 2022년 말에는 이미 1만 대 이상의 GPU를 확보하고 있었습니다. 이는 중국 내에서 손꼽히는 수준이었습니다. 이후에도 그는 지속적으로 Nvidia의 H800 GPU를 대량 구매했고 현재는 약 5만 대 규모의 GPU 자원을 보유한 것으로 추정됩니다.
2023년, 량원펑은 ‘DeepSeek’이라는 자회사를 설립하고, 꾸준히 AI 모델을 출시해 왔습니다. 초기에는 알리바바의 Qwen, YI 모델 등 중국 내 최고 성능의 모델들에 가려졌지만, 꾸준한 연구 개발을 통해 경쟁력 있는 성능을 보여주었습니다. 특히 퀀트 트레이딩에서 얻은 막대한 자금을 R&D에 집중 투자하며 외부 투자는 크게 고려하지 않았습니다. 이러한 성장 방식은 미국 구글의 ‘딥마인드(DeepMind)’와 매우 유사합니다. 또한, 전형적인 스타트업 문화를 유지하면서도 팀원들에 대한 대우가 매우 뛰어났습니다. 해외 유학생이나 외국 박사를 적극적으로 영입하기보다는 중국 내 최상위 대학(베이징대, 칭화대, 베이항대 등)의 AI 박사들을 최고 수준의 연봉으로 채용했습니다.
이 ‘최고 수준’이 단순한 중국 대기업 연봉이 아니라 미국 기업과 동등한 수준의 보수를 제공했을 것으로 추정됩니다. 즉, 최소 10억 원 이상의 연봉을 지급했을 가능성이 큽니다.
이처럼, 무림의 고수처럼 조용히 성장해오던 DeepSeek은 2024년 말부터 본격적으로 두각을 드러내기 시작했습니다. 그리고 마침내 2024년 12월 ‘V3’ 모델을, 2025년 1월 ‘R1’ 모델을 출시하며 주목받기 시작한 것입니다.
2. 왜 대단한가?
DeepSeek는 AI 모델 관점에서 획기적인 성과를 이뤄냈습니다. 삼성과 애플이 양분하고 있던 스마트폰 시장에, 성능은 더 뛰어나면서도 가격이 훨씬 저렴한 중국 스마트폰이 등장한 것과 같은 상황입니다. 지금까지 최신 AI 모델 기술은 미국 기업들이 선도해 왔지만 이번에는 중국 기업이 갑자기 이를 추월하며 시장에 강한 충격을 줬습니다. (게다가 이번에 DeepSeek R1의 경우 데이터만 공개하지 않았을 뿐 코드도 공개했습니다. 여태까지 라마 모델 등에서는 공개 모델이 동작할 수 있도록 하는 가중치(weight)만 공개했을 뿐, 그 가중치를 생성하는 방법(훈련 과정)은 비공개로 유지하고 있습니다.)
2025년 1월 25일, 홍콩대학교 연구진이 ‘Open-R1’ 프로젝트를 발표했습니다. 이들은 논문과 코드를 바탕으로 바탕으로 DeepSeek의 R1 모델을 복제했고, 동일한 결과를 내는 데 성공했습니다. 이는 단순한 복제가 아니라, 앞으로 등장할 대부분의 AI 모델들이 DeepSeek의 방법론을 학습 과정에 적용하게 될 것임을 의미합니다.
이전 AI 트렌드 글에서도 설명했듯이, AI 모델은 크게 두 가지 과정을 거칩니다.
1️⃣ 학습 과정 (Training): 모델이 데이터를 기반으로 배우고 학습하는 단계
2️⃣ 추론 과정 (Inference): 학습이 끝난 후, 질문을 받고 답변을 생성하는 단계
그런데 1️⃣ 학습 과정에 있어, 최신 LLM(대형 언어 모델)들은 대부분 두 가지 주요 학습 단계를 거치며 발전합니다.
(1) 사전학습 (Pre-training) – Self-Supervised Learning (자기 지도 학습)
- 막대한 양의 데이터를 투입해, 데이터 패턴을 학습하고 이를 흉내 내는 방법을 배우는 과정입니다.
- 쉽게 말해, 모델이 언어의 구조와 의미를 학습하도록 하는 기초 훈련 단계입니다.
(2) 사후학습 (Fine-tuning & Reinforcement Learning) – 모델의 개성과 성능을 다듬는 과정
- 사전학습된 모델이 특정 전문 분야에서 더 정확하게 지시를 따르도록 학습하는 과정입니다.
- 이 과정에서 모델별 특성이 결정되며, 성능 차이가 발생합니다.
쉽게 이해하기 위해 바둑 AI인 알파고(AlphaGo)의 예를 들어보겠습니다.
- 사전학습: 기존의 모든 바둑 기보(棋譜)를 학습하며 기본적인 패턴과 전략을 익히는 단계 (DeepSeek V3, GPT-4)
- 사후학습(강화학습): 새로운 전략을 지속적으로 시도하며 시행착오를 거쳐 자신만의 성공 전략을 만들어가는 단계 (DeepSeek R1, GPT-o1)
사전학습 단계에서는 대부분의 AI 모델이 인간이 학습한 데이터를 거의 다 학습한 상태에 도달했습니다. 이제 모델 간 차이는 데이터의 양이 아니라 ‘어떻게 강화학습을 하느냐’에 따라 결정됩니다. 대부분의 기업은 데이터를 지속적으로 수집하여 판매하는 벤더사로부터 데이터를 확보하기 때문에, AI 모델의 성공 여부는 결국 ‘강화학습을 통해 어떻게 개성을 부여하고 차별화할 것인가’에 달려 있습니다.
각 기업이 내놓은 모델의 성능 차이도 대부분 사후학습(강화학습) 과정에서 발생합니다. 이는 인간의 학습 과정과도 유사합니다. 인간 누구나 기본적인 지식을 학습할 수 있지만, 학습 후에는 각자의 특성과 기질에 따라 암기법이 다르고, 잘하는 분야가 다른 것과 마찬가지입니다.
DeepSeek가 주목받는 이유는, 사전학습에서는 다소 평범했지만 강화학습 단계에서 혁신적인 성과를 냈다는 점입니다. 그렇다면 DeepSeek만이 이런 성과를 낼 수 있을까요?
정답은 ‘아니오’입니다. 향후 1~2개월 내에 DeepSeek과 유사한 성능을 내는 오픈소스 모델들이 연이어 등장할 가능성이 매우 큽니다. AI 모델의 발전 속도를 고려할 때, DeepSeek이 선도적인 역할을 했을 뿐 경쟁사들이 빠르게 따라잡을 가능성이 높습니다. 따라서 앞으로는 더욱 정교한 강화학습 기법을 적용한 모델들이 AI 시장을 주도할 것으로 예상됩니다.
DeepSeek V3의 성과
이제, 사전학습(Pre-training) 모델인 DeepSeek V3가 어떤 성취를 이루었는지 살펴보겠습니다. V3 모델은 최신 AI 모델 학습 트렌드를 거의 완벽히 반영한 모델이라고 볼 수 있습니다.
🔹 학습 단계에서의 혁신
1️⃣ MoE(Mixture of Experts) 최적화 및 데이터 부하 분산
- MoE(Mix of Experts)는 여러 분야의 전문가(서브 모델)를 조합해 최적의 답변을 생성하는 학습 방식입니다. 대규모 데이터를 학습할 때 최적화 기법을 활용해 부하를 적절히 분산시켜 효율성을 극대화했습니다.
2️⃣ GPU 자원 절감
- H800과 같은 2~3년 전의 GPU 2048대를 사용하여 약 50일 동안 학습을 진행했습니다.
- 참고로, 기존 Meta의 Llama 모델은 1만6000개의 GPU를 54일 동안 돌려 학습했으므로, DeepSeek V3는 훨씬 적은 자원으로 모델을 훈련한 것입니다.
3️⃣ 데이터 수집 환경의 이점
- 중국은 웹에서 생성되는 데이터의 양이 세계 최고 수준이며, 불법적인 데이터 수집도 다수 이루어지고 있습니다.
- 이러한 막대한 데이터 자원이 모델 학습에 유리하게 작용했을 가능성이 큽니다.
🔹 추론 단계에서의 혁신
1️⃣ K-V Cache(키-밸류 캐시) 관리 최적화
- 이는 AI 모델의 추론 과정에서 메모리(RAM) 사용량을 극도로 줄이는 기술입니다.
- 보통 AI 모델을 실행하려면 200GB 이상의 RAM(GPU 3~4대 규모)가 필요하지만, DeepSeek V3는 이를 최적화해서 맥북의 32GB RAM에서도 실행 가능하도록 만들었습니다.
- 즉, 하드웨어 요구 사항을 획기적으로 낮추면서도 성능을 유지한 것입니다.
V3 모델은 미국 빅테크의 25% 수준의 적은 자원으로 훈련되었음에도 불구하고 기본 모델의 성능을 미국 AI 기업들과 비슷한 수준까지 끌어올리는 데 성공했습니다. 이 모델을 기반으로 추가 학습을 진행한 결과, 지금의 핫한 ‘R1 모델’이 탄생하게 된 것입니다. 즉, 현재 가장 주목받고 있는 DeepSeek R1은 12월에 출시된 V3 모델을 짧고 강력한 강화학습(RL)으로 개선한 버전입니다.
DeepSeek R1의 성공을 보며, 많은 국가에서도 유사한 모델을 만들고 싶어 할 것입니다. 하지만 V3 같은 사전학습(Pre-training) LLM 모델과 데이터가 사전에 준비되지 않으면 R1 같은 모델을 만들기 어렵습니다. 특히 한국, 일본 등은 막대한 GPU 자원을 확보하는 것이 어렵고 사전학습용 대규모 데이터가 충분히 준비되지 않은 상황입니다.
DeepSeek R1의 성과
이 질문에 대해 엔지니어링 관점에서 간단히 정리해 보겠습니다.
우선 추론형 모델(Inference Model)이 무엇인지 간단히 짚고 넘어가겠습니다.
✔ 사전학습(Pre-training) 모델은 막대한 데이터를 학습하며, 입력된 문장을 기반으로 그럴듯한 답변을 생성하는 데 최적화되어 있습니다.
✔ 추론형(Inference) 모델은 단순한 모방이 아니라, 논리적 사고 과정을 통해 최적의 답변을 찾아가는 모델입니다.
추론형 모델은 보통 수십~수백 개의 답변을 생성하면서, 가장 적절한 답변을 논리적으로 도출합니다. 이를 CoT(Chain of Thought, 생각의 연결) 방식이라고 하며, 다양한 통계적 기법과 알고리즘을 활용해 최적의 결과를 찾아갑니다.
즉, 추론형 모델은 단순히 학습된 데이터를 흉내 내는 것이 아니라, 새로운 논리를 스스로 구성하는 능력을 갖춘 모델이라고 볼 수 있습니다.

출처: mercityAi
R1의 추론 과정은 기존의 V3 모델과 거의 동일합니다. V3와 마찬가지로 K-V Cache(키-밸류 캐시) 최적화를 극대화했습니다. 그 결과, 상대적으로 적은 GPU 자원에서도 모델을 실행할 수 있도록 설계되었습니다. Llama 모델의 경우 255개의 GPU가 필요한 반면, DeepSeek R1은 훨씬 적은 자원으로 실행 가능합니다.
이제 본격적으로 학습 과정에 초점을 맞춰 설명하겠습니다.
(1) 강화학습(RL) 극대화
DeepSeek-R1은 강화학습을 극대화하여 기존 모델들과 차별화된 성과를 이뤄냈습니다. 일반적으로 AI 모델의 답변 품질을 향상시키는 가장 보편적인 방법은 ‘인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)’입니다. 사람이 직접 모델의 답변을 평가하며, "이 답변은 틀렸다", "이 답변은 정확하다" 같은 피드백을 제공하여 모델을 정교하게 조정하는 방식입니다.
그러나 DeepSeek-R1은 이 과정을 완전히 제거했습니다. 모든 피드백을 사람이 아닌 AI가 자체적으로 수행하도록 만들었습니다. 즉, 강화학습(RL)만을 이용하여 추론을 최적화한 것입니다.
특히, AI 모델이 논리적으로 정확한 답변을 찾아냈을 때, ‘엄청난 보상’을 제공하는 방식으로 훈련시켰습니다. 이 방식은 "아하!" 모멘트(Aha! Moment)를 극대화하여, AI가 논리적 사고를 통해 정답을 도출하도록 유도하는 역할을 합니다.
(2) ‘생각의 논리 과정(CoT)’ 최적화
일반적인 AI 모델은 답변의 결과(출력값)에만 보상을 주는 방식으로 학습됩니다. 그러나 DeepSeek-R1은 단순히 답변의 ‘정확성’만 평가하는 것이 아니라, 답변을 생성하는 ‘과정’ 자체에 보상을 주는 방식을 최적화했습니다. 즉, AI가 답을 찾아가는 논리적 과정(Chain of Thought, CoT) 하나하나에 보상을 주어 성능을 극대화한 것입니다. 이 방식은 기존 AI 모델보다 더 논리적이고 정교한 답변을 생성하는 데 도움을 줍니다.
(3) 증류(Distillation) 기법 활용
DeepSeek-R1은 증류(Distillation) 기법을 활용하여, 수십억 개의 파라미터를 가진 대형 모델(DeepSeek-V3)의 고급 추론 패턴을 더 작은 모델로 이전(transfer) 하도록 설계되었습니다. 이 과정은 고성능 모델의 지식을 저사양 모델에도 적용할 수 있도록 최적화하는 중요한 기법입니다.
(4) 최적화된 학습 데이터
DeepSeek-R1의 학습 데이터는 비공개 상태지만, 사고 체인(Chain of Thought) 기반의 대규모 데이터셋(약 60만 개)을 확보한 것으로 알려져 있습니다. 이 데이터셋은 각 질문에 대한 사고 과정과 답변을 도출하는 논리를 상세히 정리한 구조로 구성되어 있습니다. 즉, AI가 답변을 생성할 때 단순히 ‘정답’만 학습하는 것이 아니라, 답을 도출하는 ‘과정’까지 논리적으로 훈련할 수 있도록 설계된 것입니다. (더 자세하게 자세하게 읽어보고 싶은 분들은 그림으로 상세하게 설명한 The Illustrated DeepSeek-R1을 읽어보시면 좋을 것 같습니다.)
위와 같은 과정을 통해서 DeepSeek-R1 이라는 충격적인 모델이 나왔고, 아무래도 논문으로 공개되었다보니 다른 회사들에서도 빠르게 적용하여 추론형 모델을 내놓을 것입니다. 그렇다 해도, 잘 학습된 데이터와 정말 잘 학습된 대형 언어 모델(V3)이 재료로 필요하기 때문에 한국의 네이버/카카오 같은 대규모 회사들도 쉽지않을 것입니다.
얼마전 Claude의 CEO 마리오 다모데이가 쓴 글을 보면, 이 모델의 방향은 AI 업계에서도 충분히 인지를 하고 있는 방향이었다 합니다. 1년에 모델의 효율성이 4배 정도 좋아진다고 보았을 때, 그는 Claude 모델도 충분히 할 수 있다고 언급했습니다. (아직 Claude 는 추론형 모델을 출시하지 못했습니다.)
3. DeepSeek가 산업에 미칠 영향
이제 DeepSeek이 산업에 미칠 영향을 살펴보겠습니다. 산업 방향성은 크게 변하지 않았습니다. 오픈소스 모델의 성능이 크게 향상되었지만 AI가 산업에 미치는 실질적인 영향은 아직 미미한 수준입니다. 이는 모바일 혁명 초기 단계와 비슷한 상황입니다. 성능이 뛰어나면서도 저렴한 스마트폰이 출시되었지만 이 스마트폰의 기능을 활용하는 혁신적인 애플리케이션이 아직 등장하지 않은 상황과 유사합니다. 게다가 1~2개월 후에는 DeepSeek과 비슷한 모델들이 여러 스타트업에서 출시될 가능성이 매우 높습니다.
비록 산업 전반에 즉각적인 변화를 일으키지는 못했지만, 애플리케이션 레벨에서는 분명한 장점이 있습니다. 이전에는 GPT-o1 수준의 모델을 사용하려면 높은 비용을 지불해야 했지만 이제는 거의 1/100 수준의 비용으로 같은 성능의 모델을 사용할 수 있습니다.
- OpenAI GPT-o1: $60 / 백만 토큰
- DeepSeek R1: $2.19 / 백만 토큰
("토큰(Token)"은 문장을 구성하는 최소 단위이며, 어절 단위로 이해하면 쉽습니다.)
스타트업 입장에서 DeepSeek R1 같은 모델의 등장은 혁신적인 기회가 됩니다. 이제 GPU 한 대만 있으면, GPT-o1과 같은 모델을 사용할 수 있기 때문입니다. 미국 AI 기업들 역시 이러한 경쟁 속에서 더 빠르게 기술을 발전시킬 것입니다. 특히 OpenAI는 이러한 변화에 발맞춰 GPT-o1 및 준비 중인 o3 모델을 거의 무료로 제공할 계획을 발표하며, 빠르게 대응하고 있습니다.
AI 기술이 단순한 챗봇 수준을 넘어서려면, 추론형 모델(Inference Model)이 더욱 중요해질 것입니다. 기존의 AI 모델들은 Llama 같은 오픈소스 모델을 기반으로 각 기업이 자체 데이터를 학습(fine-tuning)하여 사용하는 방식이었습니다. 그러나, 기업이 자체 데이터를 학습시킨 후에도 모델이 수행한 과정에 대한 신뢰성을 검증하는 과정이 필요합니다. 즉, 에이전트형 AI가 성장하기 위해서는, 더욱 빠르고 신뢰성 높은 추론형 모델이 필수적입니다.
속도 문제도 있습니다. 항공권 예약을 한다고 가정해 보겠습니다. 기존에는 구글이나 스카이스캐너에서 검색하면 1초도 걸리지 않습니다. 그러나 AI 모델이 동일한 과정을 수행하면 최소 10초 이상 소요됩니다. 사용자의 행선지를 올바르게 이해하고, 가장 저렴한 항공권을 찾고, 가격이 정상적으로 결제되고 있는지 확인하는 과정까지 모두 수행해야 합니다. 이런 AI의 속도 문제를 해결하는 것이 앞으로 가장 중요한 과제 중 하나가 될 것입니다.
주요 AI 기업들은 2025년 안에 한두 개씩 강력한 AI 모델을 발표할 가능성이 높습니다. 이유는 간단합니다. 미국과 중국에서 엄청난 연구자들이 전례 없는 규모의 투자를 받았고, 연구자들이 가장 빠르게 성과를 낼 수 있는 방법은 ‘비즈니스 모델을 개발하는 것’이 아니라 'AI 모델의 성능을 극대화하는 것’이기 때문입니다. 앞으로 더 강력한 모델이 계속 등장할 것이며 DeepSeek R1 덕분에 이 과정이 더욱 가속화될 것입니다.
일각에서는 중국산 AI 모델에 대한 부정적인 인식이 존재하지만, 실제로는 오픈소스 AI 모델 시장에서 중국 모델이 매우 널리 사용되고 있습니다. Llama 모델을 제외하면 오픈소스 AI를 적극 활용하는 기업들은 이미 중국 모델을 많이 사용하고 있습니다. 한국에서도 대기업 및 스타트업들이 중국 AI 모델을 활용하는 사례가 많으며, 아시아 시장 전반에서도 중국 AI 모델이 상당히 널리 사용되고 있는 상황입니다.

4. AI를 넘어선 미중 경쟁
최근 주식 시장의 폭락은 단순히 모델 혁신이 산업에 미친 영향 때문이 아니라, 중국의 AI 역량을 직접 확인한 시장의 충격이 더 컸다고 생각합니다. "아니, 중국이 이 정도로 앞서나간다고?" 그동안 오픈소스 모델 진영에서는 Meta의 Llama가, 비공개 모델 진영에서는 OpenAI와 Claude가 선두를 차지해 왔습니다. 중국은 보통 3~6개월 정도 뒤따라오는 수준이었는데, 이번에는 열악한 환경에서도 미국이 해내지 못했던 모델을 개발해냈다는 점이 충격적으로 받아들여진 것입니다.
미·중 AI 경쟁은 더욱 심화될 수밖에 없습니다. 특히 DeepSeek는 중국 내에서 교육받은 연구자들 중심으로 개발되었으며 현재 미국 AI 시장에서도 중국인 유학생들이 핵심적인 역할을 하고 있다는 점을 고려하면, 향후 AI 연구 인재를 둘러싼 갈등도 격화될 가능성이 큽니다.
현재 미국은 중국이 핵심 AI 기술을 확보하는 것을 막기 위해 AI 연구 결과를 오픈소스로 공개하지 않는 전략을 유지하고 있으며, AI 반도체(특히 Nvidia GPU)에 대한 강력한 수출 규제를 시행하고 있습니다. 그러나 이러한 규제 속에서도 중국의 스타트업이 최고 성능의 모델을 오픈소스로 공개했다는 점이 시장을 흔들었습니다. DeepSeek R1은 기존보다 훨씬 적은 GPU 자원으로 고성능을 구현했으며, 하드웨어가 부족한 국가나 기업들도 중국이 주도하는 AI 모델을 사용할 가능성이 커졌습니다. 기존 오픈소스 AI 진영을 주도해온 Meta의 Llama4 모델 출시도 더욱 부담스러워질 것입니다.
현재 Nvidia의 주력 제품은 H100 (최신 AI GPU)와 A100 (3년 전 출시된 AI GPU)입니다. 그러나 미국의 수출 규제로 인해 이 주력 모델들은 중국으로 수출되지 못하고 있습니다. 그럼에도 불구하고, DeepSeek는 H800이라는 GPU를 꾸준히 확보해왔습니다. H800은 메모리(RAM)와 정밀도(FP64)에서 차이가 있을 뿐 성능은 H100과 거의 유사합니다. 미국은 H800을 낮은 대역폭을 가진 제품으로 보고 2024년까지 규제 대상에서 제외했으나 Nvidia는 사실상 이 규제를 피할 수 있도록 설계해 중국에 제품을 공급해왔습니다. DeepSeek는 하드웨어적 약점을 극복하기 위해 H800의 메모리 사용을 최적화하는 데 모든 역량을 집중했고 결국 성공해냈습니다.
트럼프 행정부가 재출범하며 ‘스타게이트 프로젝트’를 런칭한 상황에서 AI와 관련된 핵심 자원을 확보하기 위한 싸움은 더욱 치열해질 것입니다. 미국의 AI 반도체 규제가 지속되면 중국의 모델 개발 속도는 점점 느려질 가능성이 높습니다. 그러나 AI 반도체(NPU) 기술이 발전하면서 다시 균형을 맞출 가능성도 큽니다. 화웨이 같은 기업들은 이미 자체 칩을 이용해 AI 모델을 학습 및 추론하는 방법을 연구 중입니다.
아이러니하게도, 한국과 일본도 현재 GPU 확보에 어려움을 겪고 있습니다. 그 결과, 두 나라 모두 중국의 오픈소스 AI 모델을 활용하는 경향이 강해지고 있습니다. 미국이 중국에 대한 칩 규제를 강화할수록 한국과 일본의 기업들은 더욱 중국의 오픈소스 모델을 선택할 가능성이 높아질 것입니다.
결론: AI 산업의 방향성은 변하지 않았다
결론적으로, 이번 DeepSeek 사태에도 불구하고 AI 산업의 근본적인 방향은 크게 달라지지 않았습니다.
✅ 1. AI 모델 개발에는 여전히 엄청난 자원(돈, 데이터, 하드웨어)이 필요하다.
AI 반도체(NPU) 기술이 계속 발전하고 있지만, 여전히 Nvidia의 영향력은 압도적입니다. DeepSeek이 효율성을 극대화한 모델을 개발했지만, 이를 실제로 운영하고 파인튜닝하기 위해서는 여전히 강력한 하드웨어가 필요합니다.
✅ 2. AI 애플리케이션 개발자들에게는 기회가 열렸다.
이전에는 이 정도 성능을 가진 추론형 모델이 없었지만, DeepSeek R1이 등장하며 상황이 바뀌었습니다. 특히 AI 에이전트 모델이 점점 중요해지는 상황에서, 저렴하고 강력한 추론형 모델의 등장은 새로운 기회를 창출할 것입니다.
✅ 3. 미·중 갈등은 계속될 것이며, AI 칩 규제는 더욱 강화될 가능성이 높다.
미국이 AI 반도체 수출을 더욱 제한할 경우, 중국의 AI 모델 개발 속도는 둔화될 수 있습니다. 반면, 중국은 AI 반도체 개발과 소프트웨어 최적화를 통해 이를 극복하려 할 것입니다.
현재 AI 시장은 버블 가능성에 대한 불안감이 크기 때문에 작은 충격에도 시장이 크게 흔들리는 상황입니다. 이번 주가 폭락은 AI 모델 자체의 성과보다는, 시장이 가진 AI 버블에 대한 두려움을 반영한 것으로 보입니다. 아직 ‘주가가 대거 폭락할 정도의 위기’는 아니며 오히려 올해 AI 기술의 발전을 기대할 만한 요소가 많습니다. 이제 본격적인 AI 산업 혁명이 시작될 수 있을지 더 지켜봐야 할 시점입니다.
동근님의 Zoom 세미나 신청은 여기:
이 글은 오호츠크 테크 필자 이동근(동동) 님이 DeepSeek 모델의 전반적인 개요와 산업에 미치는 영향을 한눈에 파악할 수 있도록 관련 논문과 정보를 정리한 것입니다. 바로 이전에 작성한 '2025년 AI 산업 전망'을 먼저 읽고 오실 것을 추천드립니다. 이 글에는 오류나 흘러간 정보가 있을 수 있습니다. 혹시나 잘못된 점을 지적해주시면 반영하겠습니다.
동근님의 Zoom 세미나 신청은 여기:
지난 설 연휴 동안 잠 못 이루는 분들이 많았을 것 같습니다. DeepSeek 모델 출시 하루 만에 삼성전자 시가총액의 두 배에 해당하는 약 900조 원 규모가 Nvidia에서 증발한 사건을 보며 많은 고민을 하셨을 것 같습니다.
개인적으로는 이 사건이 AI 시장의 거품(버블)에 대한 시장의 두려움이 얼마나 큰지를 보여주는 사례라고 생각합니다. 지난번 글에서도 언급했듯, 현재 AI 시장은 분명한 성과가 절실한 상황이며, 투자자들은 충격 하나에도 매우 민감하게 반응하고 있습니다.
DeepSeek 모델 공개 사건을 한마디로 요약하자면,
👉 "지금까지 공개된 최고 성능의 모델(GPT-o1급 오픈소스 모델)이 중국에서 나왔다"
라고 할 수 있습니다. 올해 이와 같은 시장 변동성을 초래할 사건들은 계속해서 등장할 가능성이 큽니다. 이에 대한 관점을 차근차근 설명드리겠습니다.
DeepSeek 모델의 의미와 파급력
DeepSeek 모델의 성공은 단순히 중국 기업 하나의 성과가 아닙니다. 이는 미국, 한국을 포함한 전 세계 AI 업계 전체의 공동 성공으로 이어질 수밖에 없습니다. AI 업계에서는 논문과 연구를 통해 내부 모델의 기술이 빠르게 공유되며, 경쟁사들이 이를 참고해 더 발전된 모델을 내놓는 것이 일반적입니다. 실제로, 홍콩대학교 연구팀은 이미 DeepSeek을 복제하는 데 성공했으며, 모델의 출력 결과값도 동일한 수준임을 어느 정도 보장했다고 밝혔습니다. 이처럼, AI 모델 연구는 계속해서 빠르게 발전하고 있으며, 앞으로도 새로운 혁신이 이어질 것입니다.
지난 글에서 저는 AI 산업의 5개 계층(layer)을 소개했습니다. DeepSeek은 이 모든 계층에 영향을 미칠 수 있는 요소입니다. 각 레이어별로 DeepSeek이 미친 영향을 간단히 요약하자면 다음과 같습니다.
🔹 1. 모델 계층
🔹 2. 애플리케이션 계층
🔹 3. 하드웨어 시장
특히 모델 계층(1번)과 하드웨어 시장(3번)은 DeepSeek의 등장으로 가장 큰 타격을 받을 수 있는 분야입니다. 기존에는 AI 모델을 성공적으로 학습시키기 위해 반드시 대규모 하드웨어 자원이 필요하다는 것이 정설이었습니다. 하지만, DeepSeek의 등장은 이러한 패러다임을 흔들고 있습니다.
이 과정에서 Nvidia가 직격탄을 맞으며 주가가 급락했습니다. 지난 10일 동안 발생한 주요 뉴스와 함께, 이 흐름을 전체적으로 정리해보겠습니다.
1. DeepSeek는 누가 운영하나? 창업자 량원펑(Liang wen feng)은 누구인가?
아래의 내용은 FT의 기사 ‘How small Chinese AI start-up DeepSeek shocked Silicon Valley’ 를 베이스로 정리했습니다.
이 회사는 꾸준히 LLM을 개발해오던 중국 기업 중 하나였습니다. 본사는 베이징과 항저우에 있으며, 대표와 내부 직원들은 외부 활동을 거의 하지 않습니다.
철저히 비밀스러운 기업이기에 드러난 정보가 많지는 않지만, 대표인 량원펑(梁文峰)에 대한 몇 가지 정보는 확인할 수 있습니다. 1985년생인 그는 저장대학교를 졸업한 후 2015년 퀀트 펀드 '하이플라이어(High Flyer)'를 창업했습니다.
하이플라이어는 알고리즘 기반으로 투자합니다. 이는 미국 역사상 최고의 수익률을 기록한 르네상스 테크놀로지(Renaissance Technologies)의 투자 방식과 유사합니다. 일각에서는 코인 채굴 및 투자로도 상당한 성공을 거뒀다는 이야기도 있습니다. 이 펀드는 현재 80억 달러(약 11조 원)를 운용하는 중국 최대 규모의 퀀트 펀드로 성장했으며 이를 통해 량원펑은 이미 조(兆) 단위 자산을 보유한 부자가 되었습니다. (외부 노출을 꺼려서 이번 설 연휴에는 본인이 만든 혼란을 뒤로 한 채 고향에 가서 친구들과 축구나 하고 왔다는 얘기가 있습니다.)
퀀트 트레이딩 과정에서 GPU를 최적화해 활용하는 다양한 엔지니어링 기법을 축적한 그는, 알고리즘 트레이딩을 기반으로 AI 사업에 대한 구상을 구체화하기 시작합니다. AI 모델을 만들기 위해서는 대규모 컴퓨팅 자원이 필요하다는 점을 누구보다 잘 알고 있었고, ChatGPT가 출시된 2022년 말에는 이미 1만 대 이상의 GPU를 확보하고 있었습니다. 이는 중국 내에서 손꼽히는 수준이었습니다. 이후에도 그는 지속적으로 Nvidia의 H800 GPU를 대량 구매했고 현재는 약 5만 대 규모의 GPU 자원을 보유한 것으로 추정됩니다.
2023년, 량원펑은 ‘DeepSeek’이라는 자회사를 설립하고, 꾸준히 AI 모델을 출시해 왔습니다. 초기에는 알리바바의 Qwen, YI 모델 등 중국 내 최고 성능의 모델들에 가려졌지만, 꾸준한 연구 개발을 통해 경쟁력 있는 성능을 보여주었습니다. 특히 퀀트 트레이딩에서 얻은 막대한 자금을 R&D에 집중 투자하며 외부 투자는 크게 고려하지 않았습니다. 이러한 성장 방식은 미국 구글의 ‘딥마인드(DeepMind)’와 매우 유사합니다. 또한, 전형적인 스타트업 문화를 유지하면서도 팀원들에 대한 대우가 매우 뛰어났습니다. 해외 유학생이나 외국 박사를 적극적으로 영입하기보다는 중국 내 최상위 대학(베이징대, 칭화대, 베이항대 등)의 AI 박사들을 최고 수준의 연봉으로 채용했습니다.
이 ‘최고 수준’이 단순한 중국 대기업 연봉이 아니라 미국 기업과 동등한 수준의 보수를 제공했을 것으로 추정됩니다. 즉, 최소 10억 원 이상의 연봉을 지급했을 가능성이 큽니다.
이처럼, 무림의 고수처럼 조용히 성장해오던 DeepSeek은 2024년 말부터 본격적으로 두각을 드러내기 시작했습니다. 그리고 마침내 2024년 12월 ‘V3’ 모델을, 2025년 1월 ‘R1’ 모델을 출시하며 주목받기 시작한 것입니다.
2. 왜 대단한가?
DeepSeek는 AI 모델 관점에서 획기적인 성과를 이뤄냈습니다. 삼성과 애플이 양분하고 있던 스마트폰 시장에, 성능은 더 뛰어나면서도 가격이 훨씬 저렴한 중국 스마트폰이 등장한 것과 같은 상황입니다. 지금까지 최신 AI 모델 기술은 미국 기업들이 선도해 왔지만 이번에는 중국 기업이 갑자기 이를 추월하며 시장에 강한 충격을 줬습니다. (게다가 이번에 DeepSeek R1의 경우 데이터만 공개하지 않았을 뿐 코드도 공개했습니다. 여태까지 라마 모델 등에서는 공개 모델이 동작할 수 있도록 하는 가중치(weight)만 공개했을 뿐, 그 가중치를 생성하는 방법(훈련 과정)은 비공개로 유지하고 있습니다.)
2025년 1월 25일, 홍콩대학교 연구진이 ‘Open-R1’ 프로젝트를 발표했습니다. 이들은 논문과 코드를 바탕으로 바탕으로 DeepSeek의 R1 모델을 복제했고, 동일한 결과를 내는 데 성공했습니다. 이는 단순한 복제가 아니라, 앞으로 등장할 대부분의 AI 모델들이 DeepSeek의 방법론을 학습 과정에 적용하게 될 것임을 의미합니다.
이전 AI 트렌드 글에서도 설명했듯이, AI 모델은 크게 두 가지 과정을 거칩니다.
1️⃣ 학습 과정 (Training): 모델이 데이터를 기반으로 배우고 학습하는 단계
2️⃣ 추론 과정 (Inference): 학습이 끝난 후, 질문을 받고 답변을 생성하는 단계
그런데 1️⃣ 학습 과정에 있어, 최신 LLM(대형 언어 모델)들은 대부분 두 가지 주요 학습 단계를 거치며 발전합니다.
(1) 사전학습 (Pre-training) – Self-Supervised Learning (자기 지도 학습)
(2) 사후학습 (Fine-tuning & Reinforcement Learning) – 모델의 개성과 성능을 다듬는 과정
쉽게 이해하기 위해 바둑 AI인 알파고(AlphaGo)의 예를 들어보겠습니다.
사전학습 단계에서는 대부분의 AI 모델이 인간이 학습한 데이터를 거의 다 학습한 상태에 도달했습니다. 이제 모델 간 차이는 데이터의 양이 아니라 ‘어떻게 강화학습을 하느냐’에 따라 결정됩니다. 대부분의 기업은 데이터를 지속적으로 수집하여 판매하는 벤더사로부터 데이터를 확보하기 때문에, AI 모델의 성공 여부는 결국 ‘강화학습을 통해 어떻게 개성을 부여하고 차별화할 것인가’에 달려 있습니다.
각 기업이 내놓은 모델의 성능 차이도 대부분 사후학습(강화학습) 과정에서 발생합니다. 이는 인간의 학습 과정과도 유사합니다. 인간 누구나 기본적인 지식을 학습할 수 있지만, 학습 후에는 각자의 특성과 기질에 따라 암기법이 다르고, 잘하는 분야가 다른 것과 마찬가지입니다.
DeepSeek가 주목받는 이유는, 사전학습에서는 다소 평범했지만 강화학습 단계에서 혁신적인 성과를 냈다는 점입니다. 그렇다면 DeepSeek만이 이런 성과를 낼 수 있을까요?
정답은 ‘아니오’입니다. 향후 1~2개월 내에 DeepSeek과 유사한 성능을 내는 오픈소스 모델들이 연이어 등장할 가능성이 매우 큽니다. AI 모델의 발전 속도를 고려할 때, DeepSeek이 선도적인 역할을 했을 뿐 경쟁사들이 빠르게 따라잡을 가능성이 높습니다. 따라서 앞으로는 더욱 정교한 강화학습 기법을 적용한 모델들이 AI 시장을 주도할 것으로 예상됩니다.
DeepSeek V3의 성과
이제, 사전학습(Pre-training) 모델인 DeepSeek V3가 어떤 성취를 이루었는지 살펴보겠습니다. V3 모델은 최신 AI 모델 학습 트렌드를 거의 완벽히 반영한 모델이라고 볼 수 있습니다.
🔹 학습 단계에서의 혁신
1️⃣ MoE(Mixture of Experts) 최적화 및 데이터 부하 분산
2️⃣ GPU 자원 절감
3️⃣ 데이터 수집 환경의 이점
🔹 추론 단계에서의 혁신
1️⃣ K-V Cache(키-밸류 캐시) 관리 최적화
V3 모델은 미국 빅테크의 25% 수준의 적은 자원으로 훈련되었음에도 불구하고 기본 모델의 성능을 미국 AI 기업들과 비슷한 수준까지 끌어올리는 데 성공했습니다. 이 모델을 기반으로 추가 학습을 진행한 결과, 지금의 핫한 ‘R1 모델’이 탄생하게 된 것입니다. 즉, 현재 가장 주목받고 있는 DeepSeek R1은 12월에 출시된 V3 모델을 짧고 강력한 강화학습(RL)으로 개선한 버전입니다.
DeepSeek R1의 성공을 보며, 많은 국가에서도 유사한 모델을 만들고 싶어 할 것입니다. 하지만 V3 같은 사전학습(Pre-training) LLM 모델과 데이터가 사전에 준비되지 않으면 R1 같은 모델을 만들기 어렵습니다. 특히 한국, 일본 등은 막대한 GPU 자원을 확보하는 것이 어렵고 사전학습용 대규모 데이터가 충분히 준비되지 않은 상황입니다.
DeepSeek R1의 성과
이 질문에 대해 엔지니어링 관점에서 간단히 정리해 보겠습니다.
우선 추론형 모델(Inference Model)이 무엇인지 간단히 짚고 넘어가겠습니다.
✔ 사전학습(Pre-training) 모델은 막대한 데이터를 학습하며, 입력된 문장을 기반으로 그럴듯한 답변을 생성하는 데 최적화되어 있습니다.
✔ 추론형(Inference) 모델은 단순한 모방이 아니라, 논리적 사고 과정을 통해 최적의 답변을 찾아가는 모델입니다.
추론형 모델은 보통 수십~수백 개의 답변을 생성하면서, 가장 적절한 답변을 논리적으로 도출합니다. 이를 CoT(Chain of Thought, 생각의 연결) 방식이라고 하며, 다양한 통계적 기법과 알고리즘을 활용해 최적의 결과를 찾아갑니다.
즉, 추론형 모델은 단순히 학습된 데이터를 흉내 내는 것이 아니라, 새로운 논리를 스스로 구성하는 능력을 갖춘 모델이라고 볼 수 있습니다.
출처: mercityAi
R1의 추론 과정은 기존의 V3 모델과 거의 동일합니다. V3와 마찬가지로 K-V Cache(키-밸류 캐시) 최적화를 극대화했습니다. 그 결과, 상대적으로 적은 GPU 자원에서도 모델을 실행할 수 있도록 설계되었습니다. Llama 모델의 경우 255개의 GPU가 필요한 반면, DeepSeek R1은 훨씬 적은 자원으로 실행 가능합니다.
이제 본격적으로 학습 과정에 초점을 맞춰 설명하겠습니다.
(1) 강화학습(RL) 극대화
DeepSeek-R1은 강화학습을 극대화하여 기존 모델들과 차별화된 성과를 이뤄냈습니다. 일반적으로 AI 모델의 답변 품질을 향상시키는 가장 보편적인 방법은 ‘인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)’입니다. 사람이 직접 모델의 답변을 평가하며, "이 답변은 틀렸다", "이 답변은 정확하다" 같은 피드백을 제공하여 모델을 정교하게 조정하는 방식입니다.
그러나 DeepSeek-R1은 이 과정을 완전히 제거했습니다. 모든 피드백을 사람이 아닌 AI가 자체적으로 수행하도록 만들었습니다. 즉, 강화학습(RL)만을 이용하여 추론을 최적화한 것입니다.
특히, AI 모델이 논리적으로 정확한 답변을 찾아냈을 때, ‘엄청난 보상’을 제공하는 방식으로 훈련시켰습니다. 이 방식은 "아하!" 모멘트(Aha! Moment)를 극대화하여, AI가 논리적 사고를 통해 정답을 도출하도록 유도하는 역할을 합니다.
(2) ‘생각의 논리 과정(CoT)’ 최적화
일반적인 AI 모델은 답변의 결과(출력값)에만 보상을 주는 방식으로 학습됩니다. 그러나 DeepSeek-R1은 단순히 답변의 ‘정확성’만 평가하는 것이 아니라, 답변을 생성하는 ‘과정’ 자체에 보상을 주는 방식을 최적화했습니다. 즉, AI가 답을 찾아가는 논리적 과정(Chain of Thought, CoT) 하나하나에 보상을 주어 성능을 극대화한 것입니다. 이 방식은 기존 AI 모델보다 더 논리적이고 정교한 답변을 생성하는 데 도움을 줍니다.
(3) 증류(Distillation) 기법 활용
DeepSeek-R1은 증류(Distillation) 기법을 활용하여, 수십억 개의 파라미터를 가진 대형 모델(DeepSeek-V3)의 고급 추론 패턴을 더 작은 모델로 이전(transfer) 하도록 설계되었습니다. 이 과정은 고성능 모델의 지식을 저사양 모델에도 적용할 수 있도록 최적화하는 중요한 기법입니다.
(4) 최적화된 학습 데이터
DeepSeek-R1의 학습 데이터는 비공개 상태지만, 사고 체인(Chain of Thought) 기반의 대규모 데이터셋(약 60만 개)을 확보한 것으로 알려져 있습니다. 이 데이터셋은 각 질문에 대한 사고 과정과 답변을 도출하는 논리를 상세히 정리한 구조로 구성되어 있습니다. 즉, AI가 답변을 생성할 때 단순히 ‘정답’만 학습하는 것이 아니라, 답을 도출하는 ‘과정’까지 논리적으로 훈련할 수 있도록 설계된 것입니다. (더 자세하게 자세하게 읽어보고 싶은 분들은 그림으로 상세하게 설명한 The Illustrated DeepSeek-R1을 읽어보시면 좋을 것 같습니다.)
위와 같은 과정을 통해서 DeepSeek-R1 이라는 충격적인 모델이 나왔고, 아무래도 논문으로 공개되었다보니 다른 회사들에서도 빠르게 적용하여 추론형 모델을 내놓을 것입니다. 그렇다 해도, 잘 학습된 데이터와 정말 잘 학습된 대형 언어 모델(V3)이 재료로 필요하기 때문에 한국의 네이버/카카오 같은 대규모 회사들도 쉽지않을 것입니다.
얼마전 Claude의 CEO 마리오 다모데이가 쓴 글을 보면, 이 모델의 방향은 AI 업계에서도 충분히 인지를 하고 있는 방향이었다 합니다. 1년에 모델의 효율성이 4배 정도 좋아진다고 보았을 때, 그는 Claude 모델도 충분히 할 수 있다고 언급했습니다. (아직 Claude 는 추론형 모델을 출시하지 못했습니다.)
3. DeepSeek가 산업에 미칠 영향
이제 DeepSeek이 산업에 미칠 영향을 살펴보겠습니다. 산업 방향성은 크게 변하지 않았습니다. 오픈소스 모델의 성능이 크게 향상되었지만 AI가 산업에 미치는 실질적인 영향은 아직 미미한 수준입니다. 이는 모바일 혁명 초기 단계와 비슷한 상황입니다. 성능이 뛰어나면서도 저렴한 스마트폰이 출시되었지만 이 스마트폰의 기능을 활용하는 혁신적인 애플리케이션이 아직 등장하지 않은 상황과 유사합니다. 게다가 1~2개월 후에는 DeepSeek과 비슷한 모델들이 여러 스타트업에서 출시될 가능성이 매우 높습니다.
비록 산업 전반에 즉각적인 변화를 일으키지는 못했지만, 애플리케이션 레벨에서는 분명한 장점이 있습니다. 이전에는 GPT-o1 수준의 모델을 사용하려면 높은 비용을 지불해야 했지만 이제는 거의 1/100 수준의 비용으로 같은 성능의 모델을 사용할 수 있습니다.
("토큰(Token)"은 문장을 구성하는 최소 단위이며, 어절 단위로 이해하면 쉽습니다.)
스타트업 입장에서 DeepSeek R1 같은 모델의 등장은 혁신적인 기회가 됩니다. 이제 GPU 한 대만 있으면, GPT-o1과 같은 모델을 사용할 수 있기 때문입니다. 미국 AI 기업들 역시 이러한 경쟁 속에서 더 빠르게 기술을 발전시킬 것입니다. 특히 OpenAI는 이러한 변화에 발맞춰 GPT-o1 및 준비 중인 o3 모델을 거의 무료로 제공할 계획을 발표하며, 빠르게 대응하고 있습니다.
AI 기술이 단순한 챗봇 수준을 넘어서려면, 추론형 모델(Inference Model)이 더욱 중요해질 것입니다. 기존의 AI 모델들은 Llama 같은 오픈소스 모델을 기반으로 각 기업이 자체 데이터를 학습(fine-tuning)하여 사용하는 방식이었습니다. 그러나, 기업이 자체 데이터를 학습시킨 후에도 모델이 수행한 과정에 대한 신뢰성을 검증하는 과정이 필요합니다. 즉, 에이전트형 AI가 성장하기 위해서는, 더욱 빠르고 신뢰성 높은 추론형 모델이 필수적입니다.
속도 문제도 있습니다. 항공권 예약을 한다고 가정해 보겠습니다. 기존에는 구글이나 스카이스캐너에서 검색하면 1초도 걸리지 않습니다. 그러나 AI 모델이 동일한 과정을 수행하면 최소 10초 이상 소요됩니다. 사용자의 행선지를 올바르게 이해하고, 가장 저렴한 항공권을 찾고, 가격이 정상적으로 결제되고 있는지 확인하는 과정까지 모두 수행해야 합니다. 이런 AI의 속도 문제를 해결하는 것이 앞으로 가장 중요한 과제 중 하나가 될 것입니다.
주요 AI 기업들은 2025년 안에 한두 개씩 강력한 AI 모델을 발표할 가능성이 높습니다. 이유는 간단합니다. 미국과 중국에서 엄청난 연구자들이 전례 없는 규모의 투자를 받았고, 연구자들이 가장 빠르게 성과를 낼 수 있는 방법은 ‘비즈니스 모델을 개발하는 것’이 아니라 'AI 모델의 성능을 극대화하는 것’이기 때문입니다. 앞으로 더 강력한 모델이 계속 등장할 것이며 DeepSeek R1 덕분에 이 과정이 더욱 가속화될 것입니다.
일각에서는 중국산 AI 모델에 대한 부정적인 인식이 존재하지만, 실제로는 오픈소스 AI 모델 시장에서 중국 모델이 매우 널리 사용되고 있습니다. Llama 모델을 제외하면 오픈소스 AI를 적극 활용하는 기업들은 이미 중국 모델을 많이 사용하고 있습니다. 한국에서도 대기업 및 스타트업들이 중국 AI 모델을 활용하는 사례가 많으며, 아시아 시장 전반에서도 중국 AI 모델이 상당히 널리 사용되고 있는 상황입니다.
4. AI를 넘어선 미중 경쟁
최근 주식 시장의 폭락은 단순히 모델 혁신이 산업에 미친 영향 때문이 아니라, 중국의 AI 역량을 직접 확인한 시장의 충격이 더 컸다고 생각합니다. "아니, 중국이 이 정도로 앞서나간다고?" 그동안 오픈소스 모델 진영에서는 Meta의 Llama가, 비공개 모델 진영에서는 OpenAI와 Claude가 선두를 차지해 왔습니다. 중국은 보통 3~6개월 정도 뒤따라오는 수준이었는데, 이번에는 열악한 환경에서도 미국이 해내지 못했던 모델을 개발해냈다는 점이 충격적으로 받아들여진 것입니다.
미·중 AI 경쟁은 더욱 심화될 수밖에 없습니다. 특히 DeepSeek는 중국 내에서 교육받은 연구자들 중심으로 개발되었으며 현재 미국 AI 시장에서도 중국인 유학생들이 핵심적인 역할을 하고 있다는 점을 고려하면, 향후 AI 연구 인재를 둘러싼 갈등도 격화될 가능성이 큽니다.
현재 미국은 중국이 핵심 AI 기술을 확보하는 것을 막기 위해 AI 연구 결과를 오픈소스로 공개하지 않는 전략을 유지하고 있으며, AI 반도체(특히 Nvidia GPU)에 대한 강력한 수출 규제를 시행하고 있습니다. 그러나 이러한 규제 속에서도 중국의 스타트업이 최고 성능의 모델을 오픈소스로 공개했다는 점이 시장을 흔들었습니다. DeepSeek R1은 기존보다 훨씬 적은 GPU 자원으로 고성능을 구현했으며, 하드웨어가 부족한 국가나 기업들도 중국이 주도하는 AI 모델을 사용할 가능성이 커졌습니다. 기존 오픈소스 AI 진영을 주도해온 Meta의 Llama4 모델 출시도 더욱 부담스러워질 것입니다.
현재 Nvidia의 주력 제품은 H100 (최신 AI GPU)와 A100 (3년 전 출시된 AI GPU)입니다. 그러나 미국의 수출 규제로 인해 이 주력 모델들은 중국으로 수출되지 못하고 있습니다. 그럼에도 불구하고, DeepSeek는 H800이라는 GPU를 꾸준히 확보해왔습니다. H800은 메모리(RAM)와 정밀도(FP64)에서 차이가 있을 뿐 성능은 H100과 거의 유사합니다. 미국은 H800을 낮은 대역폭을 가진 제품으로 보고 2024년까지 규제 대상에서 제외했으나 Nvidia는 사실상 이 규제를 피할 수 있도록 설계해 중국에 제품을 공급해왔습니다. DeepSeek는 하드웨어적 약점을 극복하기 위해 H800의 메모리 사용을 최적화하는 데 모든 역량을 집중했고 결국 성공해냈습니다.
트럼프 행정부가 재출범하며 ‘스타게이트 프로젝트’를 런칭한 상황에서 AI와 관련된 핵심 자원을 확보하기 위한 싸움은 더욱 치열해질 것입니다. 미국의 AI 반도체 규제가 지속되면 중국의 모델 개발 속도는 점점 느려질 가능성이 높습니다. 그러나 AI 반도체(NPU) 기술이 발전하면서 다시 균형을 맞출 가능성도 큽니다. 화웨이 같은 기업들은 이미 자체 칩을 이용해 AI 모델을 학습 및 추론하는 방법을 연구 중입니다.
아이러니하게도, 한국과 일본도 현재 GPU 확보에 어려움을 겪고 있습니다. 그 결과, 두 나라 모두 중국의 오픈소스 AI 모델을 활용하는 경향이 강해지고 있습니다. 미국이 중국에 대한 칩 규제를 강화할수록 한국과 일본의 기업들은 더욱 중국의 오픈소스 모델을 선택할 가능성이 높아질 것입니다.
결론: AI 산업의 방향성은 변하지 않았다
결론적으로, 이번 DeepSeek 사태에도 불구하고 AI 산업의 근본적인 방향은 크게 달라지지 않았습니다.
✅ 1. AI 모델 개발에는 여전히 엄청난 자원(돈, 데이터, 하드웨어)이 필요하다.
AI 반도체(NPU) 기술이 계속 발전하고 있지만, 여전히 Nvidia의 영향력은 압도적입니다. DeepSeek이 효율성을 극대화한 모델을 개발했지만, 이를 실제로 운영하고 파인튜닝하기 위해서는 여전히 강력한 하드웨어가 필요합니다.
✅ 2. AI 애플리케이션 개발자들에게는 기회가 열렸다.
이전에는 이 정도 성능을 가진 추론형 모델이 없었지만, DeepSeek R1이 등장하며 상황이 바뀌었습니다. 특히 AI 에이전트 모델이 점점 중요해지는 상황에서, 저렴하고 강력한 추론형 모델의 등장은 새로운 기회를 창출할 것입니다.
✅ 3. 미·중 갈등은 계속될 것이며, AI 칩 규제는 더욱 강화될 가능성이 높다.
미국이 AI 반도체 수출을 더욱 제한할 경우, 중국의 AI 모델 개발 속도는 둔화될 수 있습니다. 반면, 중국은 AI 반도체 개발과 소프트웨어 최적화를 통해 이를 극복하려 할 것입니다.
현재 AI 시장은 버블 가능성에 대한 불안감이 크기 때문에 작은 충격에도 시장이 크게 흔들리는 상황입니다. 이번 주가 폭락은 AI 모델 자체의 성과보다는, 시장이 가진 AI 버블에 대한 두려움을 반영한 것으로 보입니다. 아직 ‘주가가 대거 폭락할 정도의 위기’는 아니며 오히려 올해 AI 기술의 발전을 기대할 만한 요소가 많습니다. 이제 본격적인 AI 산업 혁명이 시작될 수 있을지 더 지켜봐야 할 시점입니다.
동근님의 Zoom 세미나 신청은 여기: