'튜링 테스트'라는 프레임이 AI 기술 발전에 미친 악영향 (FT 칼럼)

2025-11-12

스탠퍼드대 에릭 브린욜프슨은 테크 기업들의 인공지능 기술 개발 목표가 어긋났다고 말한다. 기계가 왜 하찮은 인간의 지능 따위를 모방해야 하는가?


Date published: 09 November 2025

Tej Parikh

Source: FT.com


저는 이번 주 스탠퍼드 인간 중심 인공지능 연구소(Stanford Institute for Human-Centered Artificial Intelligence)의 교수이자 저자인 에릭 브린욜프슨(Erik Brynjolfsson) 교수와 대화를 나누었습니다.

최근 저는 기술의 발전이 ‘경로 의존성(path dependency)’에 의해 어떻게 형성되는가를 자주 생각하고 있습니다. 예를 들어 인터넷과 핵에너지는 모두 국방 프로젝트에서 비롯되었습니다. 실리콘밸리 또한 냉전 시기 전자산업의 붐 속에서 탄생했습니다. 오늘날에도 네트워크 효과는 iOS와 안드로이드라는 지배적 생태계를 중심으로 앱과 하드웨어 개발의 방향을 계속 이끌고 있습니다.

이런 생각의 흐름은 제가 작년에 브린욜프슨 교수와 진행했던 FT Economists Exchange 대담으로 이어졌습니다. 그 자리에서 그는 ‘튜링 함정(Turing Trap)’이라 부르는 자신의 이론을 설명했습니다. 인간과 닮은 인공지능이 어떻게 등장하게 되었는가에 대한 그의 견해였습니다.

이 개념은 수학자이자 컴퓨터 과학자인 앨런 튜링(Alan Turing)이 1950년에 제안한 ‘튜링 테스트’에서 비롯되었습니다. 이 테스트는 기계와 대화를 했을 때 그것이 인간과 구별되지 않는 지능적 행동을 보이는지를 판별하기 위한 것이었습니다.

브린욜프슨 교수는 이 아이디어가 여러 세대에 걸쳐 연구자들에게 “기계 속에 인간의 사고를 복제하라”는 영감을 주었다고 말했습니다. 그러나 대규모 언어 모델에 기반한 생성형 인공지능이 실제로 그런 인간 유사성을 달성하기 시작한 지금, 그는 애초에 그것이 잘못된 목표였을 수도 있다고 말합니다.

그는 인공지능, 그리고 더 넓게는 모든 기술이 인간의 전문성을 보완하고, 인간이 할 수 없는 일을 수행하는 데 초점을 맞추는 편이 훨씬 더 유익하다고 제안합니다. (이는 국제무역에서 데이비드 리카도가 주장한 ‘비교우위’ 이론을 떠올리게 합니다.) 반대로 인간의 모방에만 집착하는 것은 오히려 우리를 함정으로 이끌 수 있다고 그는 경고합니다.


"일부 생성형 인공지능 응용은 기술이 인간의 새로운 능력을 보완하고 확장하기보다, 기존 업무에서 인간을 흉내 내거나 대체하는 시스템에 보상을 주는 우리의 경향에서 비롯되었습니다.

이런 방향성은 기술을 ‘노동 대체’ 쪽으로 기울게 만듭니다. 생산성은 높아지지만, 그 이익은 기술과 자본을 통제하는 소수에게 집중됩니다. ‘함정’이란 바로 이 경제 권력의 집중에 관한 것입니다. 경제 권력이 정치 권력으로 이어지면, 다른 사람들은 그 구조를 바꿀 수 있는 수단을 잃게 됩니다.

그 결과 성장의 한계가 너무 낮게 설정될 위험이 있습니다. 예를 들어 헨리 포드가 '인간과 똑같이 달리거나 걷는 속도의 차량'을 만들겠다고만 생각했다면, 자동차 산업은 결코 지금처럼 발전하지 못했을 것입니다."


물론 대규모 언어 모델(LLM)은 이미 검색이나 분석 등 여러 영역에서 인간을 보완하는 데 쓰이고 있습니다. 하지만 최근에는 단순한 텍스트를 기반으로 광고나 영화를 만들어내는 응용 기술이 등장하면서, 일부 전문가들 사이에서는 이 기술이 결국 자신들을 완전히 대체할 것이라는 우려가 커지고 있습니다.

기술이 인간의 비교우위를 모방하는 것이 — 특히 창의적 분야에서 — 과연 바람직한 목표인가를 생각해보는 게 중요합니다. 우리는 이미 이런 모방의 충동을 강화하는 제도적 구조를 만들어왔기 때문입니다.


"모방은 단지 문화적으로 매력적인 것뿐 아니라, 제도적으로도 권장됩니다. 인간이 수행할 수 있는 과업이 존재한다는 사실은 '존재의 증거(existence proof)'가 되어, 모방을 자연스러운 기준점으로 만듭니다. 학위 논문 주제나 연구비 제안서에서도 더 안전하고, 더 설득력 있는 선택지가 됩니다. 반면 완전히 새로운 능력을 고안하는 일은 훨씬 더 많은 창의성을 요구합니다.

기업 경영자에게도 인력을 줄이는 것은 명확하게 측정 가능한 목표입니다. 이렇게 되면 이익이 노동자에게서 자본 소유자에게로 옮겨가며, 자본가에게는 자동화를 추진할 유인은 커지고, 인간을 보완하는 기술을 개발할 유인은 약해집니다. 혁신의 외부효과와 노동자의 협상력을 높이는 효과를 고려하면 이는 구조적인 왜곡입니다.

정책 입안자들도 이러한 기울기를 강화합니다. 대부분의 나라에서 자본에 대한 세금은 노동에 대한 세금보다 낮습니다. 자동화와 증강은 모두 가치 있고 수익성이 있을 수 있지만, 그 결과는 체계적으로 ‘인간 모방’ 쪽으로 기울게 됩니다. 비록 초인적이면서도 인간을 보완하는 시스템이 훨씬 더 큰 경제적 가치를 창출하고 불평등을 완화할 수 있음에도 말입니다."

이 지점에서 흥미로운 반문이 생깁니다. 만약 튜링 테스트가 그토록 매혹적인 목표가 아니었다면, 오늘날 기술은 어디까지 왔을까요? 제가 접한 몇 가지 상상은 이렇습니다. 인공팔/인공다리와 인공두뇌 기술이 수십 년은 더 앞서 있었을 수도 있습니다. 챗봇 대신 시각적 사고를 도와주는 ‘사고 도구(thought tools)’가 등장했을 수도 있습니다. 언어가 아닌 다른 감각적 인터페이스가 발전했을 수도 있고, 확률적 언어모델이 아닌 ‘추론할 수 있는 인공지능’이 존재했을지도 모릅니다.

물론 기술은 더 사악한 방향으로 진화했을 수도 있습니다. 혹은 2016년 영화 '컨택트(Arrival)'의 팬들이 상상하듯, 인간의 지능을 넘어서는 존재로 진화했을 가능성도 있습니다.



하지만 현실로 돌아와서, 지금 더 유용한 일은 생성형 인공지능과 인간이 앞으로 어떻게 함께 진화할 수 있을지를 상상해보는 일입니다.

이것은 단순히 일자리 손실을 줄이는 문제만은 아닙니다(어느 정도는 불가피할 수도 있습니다). 중요한 것은 기술이 더 큰 경제적·사회적 가치를 만들어내는 방향으로 발전하도록 하는 것입니다. 그렇게 해야 인간에게 새로운 기회가 생깁니다. 브린욜프슨 교수는 이 분야를 선도하고 있습니다.


“만약 우리가 처음부터 인간을 모방하는 대신 인간과 함께 능력을 확장하는 것을 북극성(지향점)으로 삼았다면, 우리는 더 일찍 인간의 의사결정을 향상시키고, 학습 속도를 높이며, 새로운 설계 공간을 여는 시스템을 개발하는 방향으로 나아갔을 것입니다. 인공지능을 인간과 비교하며 평가했을 것이지, 인간 대신 평가하지는 않았을 것입니다. 저의 회사 워크헬릭스(Workhelix)는 바로 그 점에 초점을 맞추고 있습니다.

나는 스탠퍼드 강의실에서 ‘에릭의 아바타(Erik avatar)’라는 AI 시스템을 만들었습니다. 이 아바타는 각 학생의 과제에 대해 개별적으로 상호작용하며 토론했습니다. 덕분에 학생들은 핵심 개념을 더 깊이 이해할 수 있었고, 동시에 실시간으로 자신의 답안을 방어해야 했습니다. 즉, AI가 대신 만들어준 과제를 그대로 제출하는 일은 불가능했습니다.

이러한 사고방식을 경제 전체로 확장한다면, 단순한 비용 절감이 아니라 품질, 혁신, 복지의 향상을 목표로 삼게 될 것입니다."

이미 이런 변화는 일부 영역에서 시작되었습니다. 소프트웨어 분야에서는 코드 ‘코파일럿(co-pilot)’이 탐색과 테스트의 범위를 확장하고 있습니다. 의료 분야에서는 구조화된 기록 작성 자동화가 의사들의 시간을 절약해주어, 그들이 공감과 판단에 더 집중할 수 있게 합니다.

브린욜프슨 교수는 “공통된 핵심은 업무 재배분”이라고 말합니다. 기계는 풍부한 학습 데이터가 존재하는 고빈도 활동을 처리하고, 인간은 ‘긴 꼬리(long tail)’에 해당하는 예외적 상황과 목표 설정에 집중하는 방식입니다. 그러나 이런 최적화를 거시적 수준에서 실현하려면, 일의 구조와 경제 시스템 전체를 재조직해야 합니다.


역사적으로 생산성이 급격히 향상된 시기는 언제나 새로운 범용 기술(general-purpose technology)에 맞춰 노동의 구조를 재편했을 때였습니다. 포드는 공장 구조를 바꾸어, 사람과 교체 가능한 부품, 이동식 조립라인, 전동 공구를 조합함으로써 노동자 한 명의 생산량을 몇 배로 늘렸습니다.

우리도 그렇게 해야 합니다. 인간과 기계가 결합된 시스템을 구축하여, 어느 한쪽만으로는 결코 할 수 없는 일을 함께 해내야 합니다.

이것은 창의적 영역에서도 가능합니다. 인공지능은 검색이나 초안 작성과 같은 비용이 큰 하위 작업을 자동화할 수 있고, 그 덕분에 인간 특유의 능력(취향, 스토리텔링, 진정성, 관계 형성)에 더 높은 가치를 부여할 수 있습니다. 하지만 이를 위해서는 확산이 필요합니다. 더 많은 창작자가 혜택을 누릴 수 있도록, 도구와 교육, 플랫폼이 저렴하고 폭넓게 보급되어야 합니다. 단지 AI를 직접 활용하는 기업들만 이익을 얻어서는 안 됩니다.


따라서, 비록 튜링 테스트가 기술 발전을 ‘모방’의 방향으로 이끌었더라도, 인간과 우리가 만든 기계 사이에 더 생산적이고 사회적으로 바람직한 노동 분업을 구축할 길은 여전히 남아 있습니다. 브린욜프슨 교수는 이를 위해 세 가지 제안을 내놓았습니다.


"첫째, 기업 레벨: 좋은 인공지능 도입이 무엇을 의미하는지에 대해 성과지표들을 재정의해야 합니다. 환자 치료 결과, 고객 만족도, 소프트웨어 품질과 같은 실용적 문제들을 인간과 기계가 함께 얼마나 잘 해결하는지에 초점을 맞추고 지표들을 개발해야 합니다.

둘째, 시장 레벨: AI가 사람을 대체하게 하는 게 아니라 사람을 보완하게 만들도록 유도하는 시장의 규칙이 필요합니다. 즉, 상호운용성과 데이터 이전 용이성, 그리고 조달 규칙 등의 측면에서 경쟁과 확산을 촉진해야 한다는 뜻입니다. 이는 인적 자본보다 자본 의존도를 더 우대하도록 되어있는 현재의 과세 제도와 회계 인센티브를 재조정해야 한다는 뜻입니다.

셋째, 사회적 레벨: 우리에겐 공공의 가치관과 가드레일이 필요합니다. 이는 어떤 일의 결과물을 평가할 때 품질을 기준으로 한다든가, 프라이버시와 지식재산을 보호하면서도 과감한 실험도 가능하게 하는 안전한 데이터 인프라를 구축하는 일 등에서 시작합니다. 의료와 금융산업처럼 외부효과가 있는 분야에서는 책임소재를 분명히 묻고 엄격한 감사를 받게 하되, 그 외의 분야에서는 실험정신이 얼어붙게 하지 말아야 합니다

결국, 우리가 사회적 인센티브를 '보완(augmentation)'이라는 면에 맞출 수 있다면, 기술의 한계와 기회의 한계는 함께 확장될 수 있습니다."



© The Financial Times Limited 2025. All Rights Reserved. Not to be redistributed, copied or modified in any way. Okhotsk Publishing is solely responsible for providing this translation and the Financial Times Limited does not accept any liability for the accuracy or quality of the translation.



이 칼럼에 대한 FT 독자 의견 (추천 순)


독자 App99

“LLM은 검색과 분석 같은 분야에서 이미 인간을 보완하고 있다.”

하지만 복잡한 주제나 질문으로 들어가면, 그것들은 인간을 보완하지 않습니다. 대신 스스로 유능하고 전지한 것처럼 보이기 위해 사실을 꾸며내거나 과장합니다. LLM에는 진실성도, 자격도 전혀 없습니다. 그렇다면 왜 누가 그들의 결과를 신뢰하는 걸까요?

결국 이 모델들은 기본적인 업무나 단순한 분석에만 적합합니다. 초안 작성이 좋은 예입니다. 하지만 최종적으로 공개 가능한 수준의 결과물을 만들려면, 사용자가 그 주제를 완벽히 이해하고 있어야 합니다.

그럼에도 저는 이 기사에 전적으로 동의합니다. FT가 다음에 해야 할 일은 빅테크 기업들의 전략적 행보를 드러내는 것입니다. 제 생각에 그들은 ‘AI 혁명’이라는 과장된 서사를 퍼뜨려 전체 인프라를 새로 교체해야하는 필요성을 정당화하고 있습니다.

그렇지 않았다면, 그들은 단순히 노후한 하드웨어를 교체하기 위해 설비투자에 돈을 써야하는 고루한 기업으로 평가받게 되었을 것입니다. (하지만 AI라는 핑계 덕분에 계속 미래지향적 테크 기업으로 평가받을 수 있습니다)

이 사실을 깨닫고 나면, 모든 것이 너무나 분명해집니다.


독자 Mister mister

LLM은 인간을 모방하기 위해 만들어진 것이 아닙니다. 그것들은 방대한 텍스트 코퍼스에서의 자기지도학습(self-supervised learning), 스케일링 법칙(scaling laws), 그리고 트랜스포머(transformer) 아키텍처에서 비롯되었습니다. 핵심 과제인 ‘다음 토큰 예측(next-token prediction)’은 본질적으로 정보 압축 문제이며, 어느 단계에서도 ‘모방’을 목표로 최적화된 적은 없습니다.
RLHF(인간 피드백을 통한 강화학습)와 챗 인터페이스는 훨씬 나중에, 사용성을 높이기 위한 층으로 추가되었습니다. 그보다 이전에 이미 문맥 인식 추론(context-aware reasoning)이 가능함이 입증되었습니다. 언어가 (AI 기술의) 기초가 된 이유는 튜링 테스트 때문이 아니라, 언어가 지식과 도구에 접근하기 위한 인터페이스 중 가장 정보 밀도가 높고 범용적인 인터페이스이기 때문입니다.

노동에 대한 LLM의 장기적 영향을 판단하기에는 아직 너무 이릅니다. 그러나 LLM은 이미 검색, 분석, 코딩, 디자인, 문서화 전반에서 인지의 비용과 속도를 무너뜨리고 있습니다. 프로토타이핑의 비용을 거의 0에 가깝게 만들었고, 몇 주가 걸리던 작업을 비전문가도 몇 시간 만에 만들고 수정할 수 있게 되었습니다. 이는 근본적으로 새로운 생산 함수입니다. 자연어가 컴퓨팅의 운영체계가 되는 것입니다.
따라서 묻는 질문은 “이것이 카피라이터를 대체할 수 있는가?”가 아니라, “소규모 팀이 하루에 몇 개의 아이디어, 초안, 혹은 제품 변형을 실험할 수 있는가?”가 되어야 합니다. 그 기준으로 보면, 기술의 최전선은 이미 이동했습니다.

노동의 대체라는 관점 또한 핵심을 놓치고 있습니다. 자동화는 단순히 소득을 자본으로 옮기지 않습니다. 첫째, 소프트웨어 형태의 LLM은 필요한 자본이 적은데다가 점점 기술이 개방되고 있습니다. 결국 자본이 집중되지 않습니다. 둘째, 자동화의 효과는 규모의 효과와 범위의 효과와 함께 작동합니다. 인지 능력에 대한 비용이 떨어지면 기업은 사업을 확장하고, 새로운 시장에 진입하며, 가격을 낮추고, 이전에는 접근하지 못하던 고객층을 위한 서비스를 창출합니다. 이익률과 개발 주기가 동시에 개선되면, 기업은 그로부터 생긴 여유 자금을 새로운 제품, 유통, 역량 구축에 재투자합니다. 그리고 기술이 스스로 만들어낸 수요를 흡수하기 위해 각 분야의 전문가, 검수자, 데이터 운영 인력, 고객 관리팀 등을 새로 고용합니다.

과거의 IT 혁신 물결은 이 패턴을 분명히 보여줍니다. 자동화로 인해 생긴 여력을 다시 투자한 기업들은 성장했습니다. 반면 자동화하고 그 이득을 수확하는데에만 그친 기업들은 사라졌습니다.


독자 ComeAgain

Human behaviour is the worst model of all behavioural options. Let aim for something higher and not degenerate to that pathetic level.

인간의 행동은 모든 행동 양식 가운데 가장 나쁜 모델입니다. 우리는 그보다는 더 높은 것을 목표로 해야 하며, 그렇게 비루한 수준으로 퇴행해서는 안 됩니다.


- 끝 - 

12 1