지난 2016년 실리콘밸리 마운틴뷰에서 열린 구글의 개발자 컨퍼런스 ‘I/O 2016’ 현장. 기조연설 무대에 오른 순다 피차이 구글 CEO는 한 반도체 칩에 대해 설명을 했다. ‘텐서 프로세싱 유닛(Tensor Processing Unit, 이하 TPU)’라 이름 붙여진 이 칩은 구글이 3년 동안 비밀스럽게 개발한 인공지능(AI) 전용 칩이었다. 그때까지 순수한 소프트웨어 및 서비스 기업이었던 구글은 갑자기 반도체 신제품을 들고 나왔고, 사람들은 놀랐다.
당시는 구글 딥마인드와 이세돌 9단의 역사적인 대국이 끝난 지 얼마 지나지 않은 시점이었다. 구글은 회사의 미래를 AI에 걸고 있었다. 이세돌과 대국을 펼친 알파고 학습을 위해 GPU가 대거 활용됐다. 머신러닝의 성능을 높이기 위해서는 GPU와 같이 병렬처리하는 칩셋이 필요했기 때문이다.
그러나 구글은 100% GPU에만 의존한 것은 아니었다. 외부에는 알려지지 않은 TPU가 알파고의 추론을 지원하고 있었다.
딥러닝 강자 구글 솔루션에 특화된 TPU
TPU를 이해하기 위해서는 우선 구글에서 개발한 ‘텐서플로(Tensor Flow)’에 대해 알고 있어야 한다. 텐서플로는 딥러닝 프로그램을 쉽게 구현할 수 있도록 다양한 기능을 제공해주는 라이브러리로, 구글이 개발해 오픈소스로 공개했다. 구글의 AI 서비스들은 대부분 텐서플로를 활용해 개발됐다.
TPU는 텐서플로 소프트웨어를 구동하는 데 특화된 장치다. TPU는 머신러닝 과정에서 생기는 작업 부하를 빠르게 처리하는 역할을 한다. 일반 프로세서로 딥러닝을 진행하면 대량으로 한 번에 유입된 데이터를 빠르게 한 번에 처리하지 못해 병목현상이 발생한다. 하지만 TPU는 메모리가 데이터를 읽는 속도를 대폭 줄이면서 빠르게 처리한다고 한다. 구글에 따르면, 다른 하드웨어 플랫폼에서 몇 주가 걸렸던 머신러닝 작업이 TPU 상에서는 몇 시간 만에 수렴단계에 도달했다. 빠른 시간 안에 정확한 결괏값을 출력했다는 것이다. 집약도는 높였으며, 전력 소비는 줄였다는 점도 주목할 만하다. 현재 TPU가 적용된 대표적인 곳은 구글 서치, 구글 번역기, 구글포토 등이다.
목표는 ‘머신러닝’
TPU는 세대를 거듭하면서 머신러닝, 슈퍼컴퓨팅에 특화되어 발전했다. TPU가 세상에 처음 나온 때는 2015년으로, 현재 4세대까지 공개되어 있다. 구글은 2013년 1세대 TPU를 개발했으며, 2015년부터 운용하기 시작했다. 당시 출시된 TPU는 학습을 통한 연산보다는 머신러닝 추론에 특화되어 있었다. 여전히 연산 기능은 CPU나 GPU가 담당하고 있었다. 머신러닝이라는 분야에 발을 들인 점에서는 고무적이었지만, 여전히 한계는 존재했다.
그 후 2017년, 구글은 2세대 TPU를 공개했다. 2세대 TPU는 1세대와 달리 학습과 추론 모두 갖춘 프로세서다. 학습 훈련을 위해서는 연산 정확도가 높은 16비트 연산기를 도입해야 하는데, 이를 도입하면서 가능해진 것이다. 관련 자료에 따르면, 2세대 TPU는 16비트 연산기를 3만2768개 탑재한 프로세서를 하나의 단위(1유닛)에 4개 탑재한 구조를 가졌다.
2018년 5월에는 3세대 TPU를 출시했다. 3세대 TPU는 2세대 TPU보다 성능이 8배 증가했으며, 연산 능력도 2세대 TPU에 비해 약 1000배 증가한 100 PFLOPS(페타플롭스)를 기록했다. 2세대 TPU의 연산 능력은 180 TFLOPS(테라플롭스)였다. 같은 해 6월에는 구글 클라우드 플랫폼에서 1TPU를 시간당 6.5달러에 사용할 수 있는 서비스를 제공했다.
그리고 2020년 7월, 가장 최신의 4세대 TPU를 공개했다. 4세대 TPU는 높은 성능으로 주목을 받았다. 강화학습만을 통해 바둑 플레이를 한 알파고 제로에는 TPU 2000개가 탑재됐다. 하지만 4세대 TPU는 하나만 탑재해도 알파고 제로를 실행할 수 있다. 하나만으로 슈퍼컴퓨터를 수행할 수 있는 하드웨어가 탄생한 셈이다. 해당 프로세서는 구글이 2018년 1월 공개했던 인공지능 언어 모델 ‘버트(BERT)’를 강화하는 데 사용되고 있다.
구글의 TPU, 엔비디아에 도전장
구글이 TPU를 출시했다는 것은 인공지능 칩 시장 판도가 바뀔 수도 있다는 것을 의미한다. 이미 인공지능 칩은 엔비디아 GPU가 크게 자리를 잡은 분위기였다. 실제로 엔비디아는 2007년에 병렬연산 프로세스에 프로그래밍할 수 있는 언어 쿠다(CUDA)를 공개했다. GPGPU(GPU 상의 범용 계산)와 이를 기반으로 한 인공지능 프로세서의 신호탄이기도 했다.
이러한 시장 상황에서 구글이 조금 늦었지만 경쟁력 있는 인공지능 전용 프로세서를 들고나왔다. 구글은 “우리의 TPU는 엔비디아의 GPU를 넘어섰다”라며 정면승부를 예고했다. 전자 부품 전문 매체 EE타임스는 “구글의 TPU는 엔비디아의 대규모 제품보다 두 배 많은 가속기 칩을 보유하고 있다”고 평가했다.
다양한 기업들이 인공지능 프로세서 생산을 시도했지만, 구글이 막강한 하드웨어를 들고나오면서 일각에서는 경쟁 구도로 접어드는 것 아니냐는 분석이 제기되고 있다. 인공지능 산업이 기지개를 켜기 시작한 가운데, 구글의 TPU와 엔비디아의 GPU가 시장에서 어떻게 자리를 잡아갈지 주목된다.
https://byline.network/2020/12/17-114/