인공지능 표준모델, “인류를 절벽으로 데려가고 있다”

기계가 인간을 속일 동기, 표준모델에 내재화해
인공지능 대학교재 저자, 새 책에서 패러다임 전환 촉구

[이코노미21 조준상 선임기자] 영국의 저명한 물리학자 스티븐 호킹은 지난해 타계하기 전 “완전한 인공지능의 발전은 인류의 종말을 부를 수 있다”고 경고했다. 이를 뒷받침하는 연구에 기초한 책이 최근 출간됐다. 지은이는 미국 캘리포니아 버클리 대학의 ‘인간과 양립하는 인공지능 센터’(the Center for Human-Compatible AI)인 스튜어트 러셀이다. 그는 2010년 10월 출간돼 지금까지 3판이 인쇄되며 우리나라를 포함해 전 세계 대학에서 인공지능 교육교재로 쓰이는 ‘인공지능 - 현대적 접근법’( Artificial Intelligence: a Modern Approach)이라는 책의 공저자로도 이름이 높다.

그런 그가 인공지능 연구자로서 오랫동안 스스로 불편하게 알고 있던 “나는 문제에 대한 답을 갖고 있지 않다”는 고백을 담아 지난 10월8일 선보인 책이 ‘인간과 양립하기 - 인공지능과 통제의 문제’(Human Compatible: Artificial Intelligence and the Problem of Control)이다.

인공지능에 접근하는 표준모델이 인류에 재앙적 결과를 안겨줄 수 있음을 경고하며 패러다임 전환을 촉구하는 '인간과 양립하기' 책 겊 표지. 사진: 아마존 — 인공지능 표준모델이 인류에 재앙을 안겨줄 수 있다며
패러다임 전환을 촉구하는 '인간과 양립하기' 책 겊 표지.
사진: 아마존

최근 미국의 시사정치 인터넷미디어 ‘복스’와 회견한 내용을 보면, 그가 이 책을 쓴 동기는 이렇다. “당신이 성공한다면 어떻게 할 것인가? … 하나의 전체 영역이 어떤 목표를 향해 나아갈 것인지를 묻는 것은 중요하다. 당신이 거기에 도착할 때, 인류를 절벽으로 데려갈 수 있는 것처럼 보인다면, 그것은 문제다.” 여기서 알 수 있듯이, 이 책은 인공지능(AI)에 접근하는 현재의 지배적인 패러다임의 위험성을 경고하는 것이다. 그가 이 접근법을 ‘표준모델’이라 부르는 것은, 토머스 쿤의 패러다임 개념처럼 지금의 지배적인 ‘표준과학’으로부터 패러다임 전환이 일어나야 함을 함축한다. 특히 그는 표준모델이 협소한(narrow) 인공지능이 아니라 일반적(범용; general) 인공지능 개발을 지배하는 것에 특히 우려한다.

그의 문제제기를 요약하면 이렇다. ‘인공지능 시스템 표준모델은 프로그램에 들어가는 특정한 목적을 달성하기 위해 설계된 기계와 알고리즘 등을 형성한다. 그것이 체스 프로그램이라면, 상대방을 패배시키고 게임을 이기는 목표가 부여된다. 자율주행차라면 승객들을 목적지에 데려다 주는 것이다. 인간은 완전하게 정확하게 목표를 구체화․특정화시킬 수 없다. 이런 무능력과 함께, 딥 러닝의 출현으로 인공지능 시스템의 능력은 극적으로 증가한다. 우리는 모든 부품이 우리가 원하는 방식대로 작동되게 하는 법을 모른 채 시스템의 전반적 구조와 설계에 대해 얘기할 수 있다. 범용 인공지능 시스템에 대해 한 가지 분명한 것은 우리가 지금 가지고 있는 것보다 훨씬 더 지능적일 것이라는 점이다. 문제는 인간의 무능력과 시스템의 능력 증가의 결합에서 비롯한다.’

저자는 인공지능 표준모델이 불러올 수 있는 재앙을 묘사하기 위해 ‘미다스 왕 문제’라고 부르는 걸 꺼낸다. 손대는 모든 것이 금으로 변하기를 원하기를 원했던 미다스 왕은 자신이 요청한 것을 정확히 얻었다. 하지만 거기에는 불행하게도 음식과 물, 그리고 가족까지 포함됐다. 결국 그는 고통과 굶주림으로 죽는다. 요정이 들어준다고 하는 세 가지 소원 중 소망자의 세 번째 소원은 언제나 “제발 처음 두 가지를 원상태로 돌려놓아 주세요”라는 우화 얘기도 보탠다.

기후변화 대응에 적용해 보자. 기후변화 대응의 가장 손쉬운 방법은 이산화탄소를 배출하는 모든 것 제거하는 것이다. 미다스 왕 신화는 그 제거 대상에 인간이 들어갈 수도 있음을 뜻한다. 인공지능에 접근하는 지금의 표준모델을 밀어붙이면 이런 위험성이 현실화할 수 있다는 것이다. 그는 이렇게 말한다. “우리는 지난 6천년 동안 세법을 써왔다. 하지만 아직까지 인간은 세법을 피해나갈 루프홀(허점, 구멍)과 회피 방안을 제안한다 … 많은 다국적 기업들이 루프홀을 찾아낸다 … 우리는 루프홀을 원칙이라고 부른다. 우리가 인공지능 시스템의 행동 주변에 얼마나 열심히 울타리를 치고 규칙을 만드는지는 중요하지 않다. 당신보다 시스템이 더 지능적이라면, 시스템은 자신이 원하는 길, 루프홀을 찾는다.”

그의 책은 현재의 인공지능 표준모델은 기계(인공지능)가 인간을 속일 가능성을 내재적으로 간직하고 있다고 지적한다. 고정된 어떤 목표를 추구하도록 설계된 시스템은 목표 추구에 변화를 주려고 하는 인간의 개입에도 목표를 달성할 수 있기 위해 마치 인간이 선호하는 것을 하고 있는 체하면서 충분한 시간을 벌면서 인간의 개입을 막을 수 있다는 것이다. 인간행동을 관찰하고 인간이 이 목표 추구에 어떻게 개입할지를 예측하면서 목표 달성을 추구하기 때문이다.

그렇다면 패러다임을 어떻게 전환해야 하는 것일까? 러셀은 “고정된 목표를 특정하는” 표준모델 대신에 “인공지능 시스템은 인류에게 이로워야 한다”는 헌법적 요건을 근본에 깔아야 한다고 강조한다. 인공지능 시스템은 인간의 선호를 알지 못한다. 하지만 ‘인류에게 이로워야 한다’는 게 무엇을 의미하는지를 모른다는 것은 안다. 기계가 인간을 따르도록 하려면 바로 여기서 출발해야 한다. 인공지능 시스템이 “세계의 일부와 관계를 맺는 어떤 행동을 하기 전에” 인간에게 허가를 요청해야 한다는 것이다.

책의 핵심인즉, ‘터미네이터’와 같은 헐리웃 영화처럼 어느 날 우연히 기계가 의식적이 되어 인간을 증오하고 죽이려 한다는 것은 전적인 호도다. 그것은 결코 우연이 아닌 인공지능 시스템에 접근하는 현재의 표준모델의 산물이다. 그런 일이 벌어지지 않으려면, 행동하기 전 인간에게 허가를 요청하는 것을 디폴트(기본) 모델로 삼아 인공지능 시스템을 만들어야 한다는 얘기다. [이코노미21]

조준상 선임기자 다른기사 보기