HPE, 생성형 AI를 위한 새로운 슈퍼컴퓨팅 솔루션 엔비디아 기술 기반의 턴키 솔루션으로 선보여

연구소 및 대기업을 위해 최적화된 혁신적인 솔루션으로 생성형 AI의 효율적인 활용 지원 업계 최고 수준의 AI/ML 소프트웨어, 하드웨어, 네트워킹, 서비스의 통합 제공 최초로 4개의 엔비디아 그레이스 호퍼 GH200 수퍼 칩을 장착한 시스템 소개 AI/ML 소프트웨어 스택을 통해 모델 개발 프로세스를 간소화하여 LLM 및 DLRM과 같은 딥러닝 프로젝트를 지원

2023-11-20 신성수 기자

HPE(NYSE: HPE)가 생성형 AI를 위한 슈퍼컴퓨팅 솔루션을 발표했다. 이 솔루션은 대기업, 연구기관및 정부 기관을 대상으로 한 생성형 AI에 최적화되었으며, 이를 통해 프라이빗 데이터 세트를 활용하여 인공지능(AI) 모델의 훈련과조정을 효율적으로 가속화할 수 있다. HPE의 슈퍼컴퓨팅 솔루션은 소프트웨어 제품군을 통해 고객이 AI 모델을 훈련하고 조정하며 AI애플리케이션을 개발하는 데 도움이 되는 기능을 한다. 더불어, 수냉식 슈퍼컴퓨터, 가속 연산, 네트워킹, 스토리지, 서비스를 포함하여기업이 AI의 가치를 신속하게 실현할 수 있도록 종합적인 지원을 제공한다.

저스틴 호타드(Justin Hotard) HPE 수석 부사장 겸 HPC·AI & Labs 총괄은 “세계 유수의 기업과 연구소들은 AI 모델의 훈련과 조정을 통해 연구 분야에서 혁신을 이끌어 내고 있으며, 이를 효과적이고 효율적으로 수행하기 위해서는 목적에 맞게 구축된 솔루션이 필요하다”며, “생성형 AI를 활용하기 위해서 기업 및 기관들은 지속가능한 솔루션을 사용하고, 슈퍼컴퓨터에 최적화된 성능과 규모를 기반으로 AI 모델 훈련을 지원해야 한다. HPE는 엔비디아와의 협력을 확대해 고객이 AI 모델 훈련과 성과 달성을 더욱 가속화할 수 있도록 지원하는 턴키(turnkey) AI 네이티브 솔루션을 제공하게 돼 기쁘다”고 밝혔다.

생성형 AI용 슈퍼컴퓨팅 솔루션의 핵심 구성요소는 AI 애플리케이션을 개발하고, 사전 구성된 모델을 맞춤화하며, 코드를 개발하고수정하는 데 필요한 소프트웨어 도구이다. 이 소프트웨어는 HPE 크레이 슈퍼컴퓨팅 기술을 기반으로 하고 있다. HPE 크레이슈퍼컴퓨팅 기술은 전 세계에서 가장 빠른 슈퍼컴퓨팅에도 사용되는 강력한 아키텍처를 기반으로 하고 있으며 엔비디아 그레이스 호퍼GH200 슈퍼칩(NVIDIA Grace Hopper GH200 Superchips)으로 구동된다.

이러한 기술이 적용된 솔루션을 바탕으로 기업 및 기관들은 LLM(대규모 언어 모델, Large Language Model) 및 DLRM(딥러닝 추천 모델, Deep Learning Recommendation Model) 훈련과 같이 거대한 AI 워크로드에 필요한 전례 없는 규모와 성능을 구축할 수 있다.또한 해당 시스템에 포함된 HPE 머신러닝 개발환경(Machine Learning Development Environment, MLDE)을 사용함으로써 오픈소스이자 700억개 매개 변수를 가진 라마(Llama) 2 모델을 3분 이내에 미세 조정할 수 있어 고객이 가치 창출에 이르는 시간을 바로 단축시켜준다. 이로써 엔비디아 기술과 함께 더욱 향상된 HPE 슈퍼컴퓨팅은 2-3배 더욱 향상된 성능을 제공한다.

이안 벅(Ian Buck) 엔비디아 하이퍼스케일 및 HPC 부문 부사장은 “생성형 AI는 모든 산업과 과학 분야에 변화를 일으키고 있다”며,“엔비디아 GH200 그레이스 호퍼 슈퍼칩으로 구동되는 턴키 AI 훈련 및 시뮬레이션 솔루션을 위한 엔비디아와 HPE의 협력은 고객이 생성형 AI 이니셔티브의 돌파구를 마련하는데 필요한 성능을 제공할 것이다”라고 말했다.

생성형 AI를 위한 슈퍼컴퓨팅 솔루션은 목적에 맞게 구축된 통합형 AI 네이티브 제품으로 다음과 같은 엔드 투 엔드 기술 및 서비스를 제공한다:

AI/ML 가속화 소프트웨어 – 3개의 소프트웨어 툴이 포함된 제품군을 활용해 고객은 인공지능 모델을 훈련하고, 조정하며, 맞춤화된 AI 애플리케이션을 만들 수 있다.

HPE 머신 러닝 개발 환경(HPE Machine Learning Development Environment)은 머신 러닝 소프트웨어 플랫폼으로, 인기있는 머신 러닝 프레임워크와 통합하고 데이터 준비를 간소화해 AI 모델을 보다 빠르게 개발하고 배치할 수 있다.
엔비디아 AI 엔터프라이즈(NVIDIA AI Enterprise)는 보안, 안정성, 관리 및 지원 기능을 기반으로 기업과 기관이 최첨단 AI 기술을 더 적극적으로 사용할 수 있도록 돕는다. 또한, 생산용 AI의 개발 및 배치를 간소화하는 광범위한 프레임워크, 사전 훈련된 모델과 도구를 제공한다.
HPE 크레이 프로그래밍 환경(HPE Cray Programming Environment) 세트를 통해 프로그래머들은 코드를 개발, 포팅, 디버깅, 정제할 수 있다.

확장에 적합한 설계 – 엑사스케일 수준의 시스템인 HPE 크레이 EX2500(HPE Cray EX2500)을 기반으로 업계 최고의 엔비디아 GH200 그레이스 호퍼 슈퍼칩을 탑재한 해당 솔루션은 가치 실현 시간을 더욱 단축할 수 있도록 단일 AI 워크로드에 노드 전체 용량을 배치할 수 있으며, 최대 수천 개의 GPU까지 확장할 수 있다. 또한, 해당 시스템은 최초로 네 개의 GH200 수퍼칩 노드로 구성되어 제공된다.

실시간 AI를 위한 네트워크 – HPE 슬링샷 인터커넥트(HPE Slingshot Interconnect)는 엑사스케일 수준의 워크로드를 지원하도록 설계된 개방형 이더넷 기반 고성능 네트워크를 제공한다. HPE 크레이 기술을 기반으로 한 이 조정 가능한 상호연결은 매우 빠른 속도의 네트워킹을 가능하게 해 전체 시스템의 성능을 극대화한다.

간편한 턴키 방식 – 생성형 AI용 슈퍼컴퓨팅 솔루션에는 더욱 간편하게 AI를 도입할 수 있도록 설정, 설치에서 라이프사이클 전반을 지원하는 글로벌 전문가를 제공하는 ‘HPE 컴플리트 케어 서비스(HPE Complete Care Services)’도 포함된다.

한 연구에 따르면, AI워크로드의 성장에 따라 2028년에는 데이터센터 내에서 약 20기가 와트의 전력이 필요할 것으로 추정된다.이로 인해 고객은 탄소발자국의 영향을 최소화할 수 있도록 새로운 수준의 에너지 효율을 제공하는 솔루션을 필요로 할 것이다.

에너지 효율성은 HPE 컴퓨팅 이니셔티브의 핵심 요소로, HPE는 공랭식 솔루션에 비해 킬로와트 당 최대 20%까지 성능을 향상시켜줄 수 있고 전력 소비는 15% 감소시키는 수냉식 솔루션을 제공한다.

현재 HPE는 세계에서 가장 효율적인 10대 슈퍼컴퓨터 중 다수의 시스템에 직접 액체 냉각 (Direct Liquid Cooling, DLC)기술을 지원한다. 직접 액체 냉각 기술은 생성형 AI용 슈퍼컴퓨팅 솔루션에 포함되어 연산 집약적인 애플리케이션의 에너지 소비를 줄이면서 효율적으로 시스템을 냉각한다.

해당 솔루션 등을 기반으로 현재 HPE는 기업 및 연구기관들이 가장 강력한 컴퓨팅 기술을 활용해 AI 활용 목표 달성과 에너지 사용 절감을 동시에 지원하는 독보적인 입지를 다지고 있다.