MIT, “딥러닝, 컴퓨팅 파워 한계 접근”···‘AI겨울’ 해결책은?

2020. 7. 22. 02:14카테고리 없음

“딥러닝이 컴퓨팅 파워의 한계에 접근하고 있다.”

벤처비트는 5일(현지시각) 미 매사추세츠공대(MIT), MIT-IBM 왓슨 AI 연구실, 언더우드 국제대학, 브라질리아대 연구원들이 최근 연구결과 이같은 경고를 내놓았다며 주의를 환기했다.

물론 이들은 이같은 단순한 경고에 그치지 않고 해결방안도 제시했다. 연구진은  하드웨어 가속기 사용, 네트워크 압축 및 가속, 알고리즘 보완을 통한 컴퓨팅 파워 증가시킬 필요가 있다고 주장했다.오픈AI와 구글의 알파제로 등 컴퓨팅 자원 사용을 줄이면서도 탁월한 딥러닝 성과를 도출한 긍정적 사례를 보여줌으로써 이른바 ‘AI겨울’을 벗어날 희망과 가능성도 제시했다.

◆딥러닝의 진보가 컴퓨팅 파워증가에 크게 의존

연구진은 최근 연구에서 딥러닝의 진보가 컴퓨팅 파워(계산·연산능력)의 증가에 “강력하게 의존하고 있다”는 것을 발견했다.

이들은 “지속적 딥러닝의 발전은 기존 기법의 변화나 발견되지 않은 새로운 방법으로 연산하는 데 있어 ‘극적으로’ 더 효율적인 심층 학습 방법을 필요로 할 것”이라고 주장하고 있다.

저자들은 “우리는 딥러닝이 우연에 의해서가 아니라 설계에 의해서 컴퓨터 사용 비용이 비싸진다는 것을 보여준다. 다양한 현상을 모델링하고 전문가 모델을 능가할 정도로 탁월하게 만들어 줄 유연성 또한 딥러닝 연산 비용을 훨씬 더 비싸지게 만든다”고 썼다. 이어 “그럼에도 불구하고 딥러닝 모델을 수행하는 연산에 있어서의 실질적 부담은 이론상으로 (알려진) 더 낮은 경계보다 더 빠르게 확장되고 있다는 것을 발견해 실질적인 개선이 가능할 수도 있음을 시사한다”고 말했다.

딥러닝은 뇌의 구조와 기능에서 영감을 받은 알고리즘과 관련된 머신러닝의 하위 분야(subfield)다. 이러한 알고리즘은 인공신경망이라고 불리며 다른 뉴런으로 신호를 전달하는 계층에 배열된 기능(뉴런)으로 구성된다. 네트워크에 공급되는 입력 데이터의 산물인 신호들은 계층에서 계층으로 이동하고, 네트워크를 천천히 ‘조정(tune)’하며 사실상 각 연결의 시냅스 강도(중량)를 조정한다. 네트워크는 결국 데이터 세트에서 특징을 추출하고 교차샘플 트렌드를 파악함으로써 예측하는 법을 배운다.

연구진은 출판 전 발표 서버인 아카이브(Arxiv.org)뿐 아니라 다른 벤치마크 출처에서도 1058편의 논문을 분석해 딥러닝 성능과 연산능력 사이의 연관성을 파악했으며, 이미지 분류, 객체 감지, 질문 답변, 명명된 엔티티 인식, 기계 번역 등의 영역에 특히 신경을 썼다.

그들은 이용할 수 있는 두 가지 유형의 정보를 반영해 컴퓨터이용 요구에 대한 두건의 개별 분석을 수행했다.

객체 감지·엔터티 인식·기계 번역, 하드웨어 부담크고 효과는 적어

하드웨어 부담, 또는 모델을 교육하는 데 사용되는 하드웨어의 컴퓨팅 파워는 프로세서 수에 연산 속도와 시간을 곱한 값으로 계산된다. (연구자들은 이것이 계산수행에 대한 부정확한 척도지만, 그들이 분석한 논문에서 다른 벤치마크보다 더 널리 알려진 것이라는 점을 인정한다.)

공저자들은 벤치마크 결과 “특히 객체 감지, 명명된 엔터티 인식 및 기계 번역은 결과 개선에 있어 상대적으로 적은 효과를 보이면서도 하드웨어 부담을 크게 증가시켰으며, 널리 알려진 오픈소스인 이미지넷 벤치마크에서 이미지 분류 불일치도가 43%나 됐다.

게다가 연구진은 3년간의 알고리즘 개선은 컴퓨팅 파워의 10배 증가와 맞먹는다고 추정한다.

이들은 “우리의 연구는 집합적으로 볼 때 많은 분야에서 딥러닝 훈련 모델의 진보는 사용 중인 컴퓨팅 파워의 커다란 증가에 달려있다는 것을 분명히 보여준다”고 썼다. 이어 “또 다른 가능성은 알고리즘 개선을 위해 그 자체를 보완해 컴퓨팅 파워를 증가시킬 필요가 있다는 것이다”라고 부연했다.

이들은 또 이 연구 과정에서 경제적, 환경 비용과 함께 다양한 이론적 벤치마크를 하는 데 필요한 컴퓨팅 파워를 이해하기 위한 예측치를 추론했다. 여기서 가장 낙관적인 계산에 따르더라도 대표적 이미지 훈련용 데이터세트인 이미지넷에서 영상 분류 인식 오류율(불일치도)을 낮추려면 105대의 컴퓨터가 더 필요하다는 결론을 도출했다.

◆딥러닝 진보 위해 엄청난 비용 들어간 사례들

싱크드(Synced)는 이들의 지적에 따라 워싱턴대학교의 가짜 뉴스 탐지 모델 그로버(Grover)가 약 2주 훈련에 2만 5000달러(약 3015만원)가 들었다고 추정했다. 오픈AI는 GPT-3 언어 모델을 교육하기 위해 무려 1200만 달러(약 144억7000만원)를 모아야 했다. (언어 모델은 AI가 딥러닝으로 자연어를 처리하는 과정에서 다음에 나올 단어와 문장 확률을 예측하는 기술이다. 오픈AI의 GPT-3는 진짜 같은 기사를 작성해 업계를 긴장시켰던 GPT-2 후속 모델이다.) 구글은 11개 자연어 처리(NLP) 과제를 양방향으로 처리한 언어모델인  ‘버트(BERT·Bidirectional Encoder Representations from Transformers)교육에 약 6912달러(약 834만원)를 들인 것으로 알려졌다. (버트는 인간보다 언어 인식 성능에서 더 높은 정확도를 보인 언어모델이다.)

지난 6월 앰허스트에 있는 MIT 연구원들은 별도 보고서에서 어떤 모델을 훈련하고 검색하는 데 요구되는 컴퓨팅 파워의 양은 약 62만6000 파운드(약284톤)의 이산화탄소 배출량을 필요로 한다고 결론지었다. 이는 평균 수준의 미국 자동차가 평생 배출하는 이산화탄소의 거의 5배에 해당한다.

연구진은 “우리는 목표물에 의해 암시된 연산 요구 사항을 예상하지 않는다…하드웨어, 환경 및 금전적 비용이 엄청나게 들 것이다”라고 썼다. 또 “이것을 경제적인 방법으로 해결하려면 더 효율적인 하드웨어, 더 효율적인 알고리즘, 또는 순 영향이 이만큼 큰 이득이 되도록 할 다른 개선이 필요할 것”이라고 지적했다.

◆딥러닝 연산에 드는 엄청난 컴퓨팅 파워 용량 줄일 묘책은?
 
연구자들은 알고리즘 레벨에서 딥러닝을 향상시킨 역사적 선례가 있다고 지적한다. 이들은 구글의 텐서 프로세서(TPU), 프로그래머블 게이트 어레이(FPGA), 주문형반도체(ASIC)같은 하드웨어 가속기는 물론 네트워크 압축과 가속 기법을 통해 계산 복잡성을 줄이려는 시도를 꼽는다.  

또한 이들은 더 효율적인 연산 수단들의 하나로 문제 등급에서 좋은 성능을 유지하는 아키텍처를 찾기 위해 최적화를 사용하는 신경 아키텍처 검색(neural architecture search)과 메타 학습도 제시한다.  

실제로 오픈AI 연구에 따르면 이미지넷에서 이미지를 분류할 때 AI 모델을 동일한 성능을 내도록 훈련시키는 데 필요한 컴퓨팅파워는 2012년 이후 16개월마다 2배씩 감소하고 있다. 구글의 트랜스포머(Transformer) 아키텍처는 역시 구글이 개발한 이전 최첨단 모델인 세크투세크(seq2seq)를 능가했으며, 세크투세크도 도입 3년 후 컴퓨팅 양이 61배나 줄었다. 그리고 딥마인드의 알파제로(AlphaZero)는 체스, 장기, 바둑의 게임을 기초부터 스스로 터득해 마스터한 시스템으로서 1년 후 시스템의 전신인 알파고제로(AlphaGoZero)의 향상 버전과 대결하는데 있어 8배 적은 컴퓨팅을 사용했다.

이들은 “딥러닝 모델에 사용된 컴퓨팅 파워의 폭발적 증가로 ‘AI 겨울’이 종식되고 광범위한 과제에서 컴퓨터 성능이 새로운 기준이 되었다. 그러나 컴퓨팅 파워에 대한 딥러닝의 엄청난 욕구는 특히 하드웨어 성능의 향상이 둔화되고 있는 시대에 현재의 형태로 성능을 얼마나 개선할 수 있는지에 대한 한계를 부과하고 있다”고 썼다. 이들은 “이러한 계산상의 한계로 인해 발생할 수 있는 영향(impact)은 딥러닝보다 더 효율적 연산을 하는 기계 학습을 강요하게 된다는 것”이라고 결론내리고 있다.

출처 : AI타임스(http://www.aitimes.com)