스탠포드 황승진 교수의 인공지능 칼럼 - 뉴 AI: 별의 탄생

Chat GPT의 등장으로 산업 전반의 트렌드가 빠르게 변화하고 있습니다. 영화나 뉴스에서 보던 AI 기술이 이제는 현실 속 다양한 산업에 적용되며 혁신을 이루어 가고 있는데요.
이처럼 산업 전반에 거대한 영향을 미치는 AI 기술의 발전은 어떻게 이루어지고 있을까요? 이랜서에서는 한국인 최초로 황승진 교수님의 ‘인공지능 칼럼’을 준비했습니다.
한국인 최초의 스탠퍼드 종신 교수로서 스탠퍼드 경영 대학원 잭디프 로시니 싱 명예교수로 활동 중인 황승진 교수가 바라본 실리콘밸리의 AI 기술과 현황을 깊이 있게 다루는 총 20회 시리즈 칼럼을 통해, AI 시대의 흐름을 보다 정확하게 이해할 수 있도록 도와드리겠습니다.
뉴 AI: 별의 탄생

2012년 체코 과학자 토마스 미콜로프(Thomas Mikolov)의 박사 논문은 ‘벡터 공간에서의 단어 표현’이었다. ‘임베딩’이라 부르는 이 아이디어는 간단하면서도 훌륭했다. 각 단어를 516차원의 실수(實數) 벡터로 표현하자는 제안이었다.
516개 숫자는 내 마음대로 생성하는 것이 아니라, 그 단어와 그 벡터가 의미상으로 연결되어야 한다. 두 단어가 의미적으로 유사하거나 관련이 있다면, 그 두 숫자는 고차원 벡터 공간에서 서로 가까워야 한다.
예로, ‘사과’와 ‘바나나’는 서로 근처에 있고, ‘아파트’는 멀리 있다. 그 정도에 그치는 게 아니라 임베딩에는 의미와 해당 숫자가 나란히 같이 가는 미스터리한 관계가 있다.
예를 들어, “왕–남자+여자=여왕”이 대략이나마 성립한다. 임베딩은 인터넷 같은 공공 데이터에서 추출한다.
이 임베딩을 채택해 2017년 구글 과학자 들은 또 다른 혁명적인 개념인 “트랜스포머(transformer)” 아키텍처를 개발한다.
트랜스포머(transformer),
대형 언어 모델(LLM)의 탄생을 이끌다.
트랜스포머는 인코더와 디코더라는 2단계로 작동하는 소프트웨어다. 1단계로, 인코더는 문장을 입력받아 X라는 임시 출력을 생성한다. X는 입력에서 추출한 압축 데이터다.
트랜스포머는 인코더와 디코더라는 2단계로 작동하는 소프트웨어다.
1단계로, 인코더는 문장을 입력받아 X라는 임시 출력을 생성한다. X는 입력에서 추출한 압축 데이터다.
2단계로, 디코더는 X를 받아 출력을 생성한다. 그 중간에는 여러 계층의 신경망과 지능형 알고리즘이 작동한다.
이들 신경망은 웹 페이지, 위키피디아, 책 및 문서에서 읽은 수조 개의 문장으로 사전 훈련된다. 이 기술은 궁극적으로 OpenAI의 Chat GPT와 같은 대형 언어 모델(LLM)의 탄생을 이끌었다.
LLM은 많은 ‘지식’을 보유할 뿐만 아니라, 읽고, 쓰고, 듣고, 말하고, 줄이고, 늘리고, 평하고, 통합하고, 구분하고, 바꾸고, 코드 쓰고, 예측하고, 창작하는 ‘능력’을 가지고 있다.
"어텐션’만 있으면 다 된다(Attention is all you need)”
어찌하여 이런 괴물 작품이 탄생했을까? 사실, LLM이라는 혁명적인 작품이 나오는 데는 임베딩이나 트랜스포머 외에도 많은 요소가 잘 섞여 잘 맞아 들었다. 시작부터, 신경망이란 훌륭한 모델을 사용했다.
정보 저장 및 처리 능력이 좋은 줄은 알았지만 이렇게 좋을 줄은 몰랐다. 물론 Hinton, LeCun, Bengio 같은 학자와 그들의 제자가 한 결정적인 기여 덕택이다.
트랜스포머의 핵심은 ‘어텐션’이란 메커니즘인데 이게 기가 막히게 효과적이다. 오죽하면 이를 발표한 구글에서의 논문 제목이 “어텐션만 있으면 다 된다 (Attention is all you need)”이었다. 문맥을 보고 단어의 모호성을 제거하는 방법이다.
즉 단어 세탁이다. 이런 이론적 업적을 현실화한 것은 엄청난 양의 공공 데이터 (WWW, 위키피디아, 디지털 서적 등)다.
AI 패러다임을 바꾼 LLM의 3가지 핵심 기술
수조 단위의 데이터를 소화하는 트랜스포머
LLM은 데이터를 먹고사는 크리처다. 이 녀석은 먹성이 좋아서 수백억 내지 수조 단위의 데이터 입력이 있어야 일을 제대로 한다. 이 정도의 데이터를 1-2년 만에 다 소화할 수 있던 것은 데이터 병렬처리 기술자 GPU와 이를 잘 활용한 트랜스포머 덕택이다.
LLM의 추론 및 추리 능력을 키운 NWP
LLM을 훈련시킨 방식 NWP(Next Word Prediction) 또한 큰 몫을 했다. 문장의 첫 부분을 주고 그다음 단어를 예측하게 하는 이 훈련법은 나중에 LLM의 작문 실력을 키웠다.
OpenAI의 공동창업자인 Sutskever에 따르면, NWP는 추론 및 추리 능력을 키운다고 한다. 추리소설은 모든 증거를 내놓고 독자에게 범인을 추측하라고 도전한다. NWP 역시 같은 게임을 하고 있다는 주장이다.
AI 생태계 혁신을 이끈 LLM의 2단계 제조방식
끝으로 LLM의 2단계 제조 방식도 AI 생태계 발전에 큰 역할을 했다. 거대한 신경망을 사전 훈련시켜 기초 모델을 만든 후, 이를 미세조정해 응용을 개발한다. 대부분의 기초 모델은 트랜스포머로 구성되었다.
우리에게 익숙한 LLM인 Chat GPT는 GPT라는 기초 모델에 Chat 이란 애플리케이션을 올린 것이다. 비슷한 사례로 메주 제조법이 있다. 먼저 콩으로 메주를 만든 후, 그 메주로 된장, 고추장이나 간장을 만드니까. 같은 방식으로 LLM은 두 단계로 개발되었다.
3자 '멀티 모달’을 통해 새로운 AI 혁신을 주도하는 LLM
놀랍게도, 임베딩과 트랜스포머의 아이디어가 최근에는 이미지 처리 기술에도 적용되었다.
역사적 배경부터 보자. 2009년, Fei-fei Li 교수가 이끄는 프린스턴 대 연구진은 2만 가지 카테고리로 분류된 1400만 장의 라벨이 들어간 (즉, 식별용 딱지가 있는) 이미지 DB를 구축했다.
그리고 연구자들이 ‘1,000개의 이미지를 인식할 수 있는 AI 프로그램’을 개발하도록 하는 오픈 경진대회를 시작했다.
이미지를 식별하는 데이터 라벨링
AI 프로그램은 라벨을 읽거나 인간의 개입 없이 "이것은 개이고, 저것은 고양이다"라고 말할 수 있어야 한다.
이 경진대회는 이미지 AI 개발에서 신의 한 수였다. 특히, 2012년에 가장 주목할 만한 성과를 거둔 것은 Krizhevsky, Hinton, Sutskever가 개발한 CNN 이란 신경망 기반으로 만든 AlexNet 이었다. 이는 NVIDIA의 2개 GPU에서 실행되었으며, 이것이 GPU와 AI의 긴밀한 로맨스의 시작이었다.
텍스트부터 이미지, 오디오까지 AI 패러다임을 혁신하는 LLM
최근에는 트랜스포머가 이미지에도 적용되었다. 게다가, 오디오에도 적용되었다. 텍스트, 이미지와 오디오의 소위 말하는 3자 ‘멀티 모달’이 트랜스포머라는 같은 기술 패러다임으로 이루어질 수 있다.
더욱이, 각 모달마다 읽기뿐만 아니라 ‘쓰기’까지 가능하게 되었다. 답글을 쓰고, 시키는 대로 그림을 그리고, 남의 목소리로 말할 수 있다. 이렇게 LLM 이란 별이 태어나고 새로운 AI의 기반이 형성되었다.
황 승 진
한국인 최초의 스탠포드 석좌교수
스탠포드 경영 대학원 잭디프 로시니 싱 명예교수
'알토스 벤쳐'와 ‘길리아드’ 등 20여 개 기업의 사회 이사 역임
[한국인 최초 스탠포드 종신 교수, 황승진의 인공지능 칼럼]
‘뉴 AI: 별의 탄생’는 한국인 최초로 스탠포드 경영 대학원 석좌 명예교수로 임명된 황승진 명예교수의 인공지능 칼럼 - 뉴 AI:별의 탄생을 이랜서에서 재편집한 글로, 총 20회에 걸쳐 연재될 예정입니다.

