오라클, 차세대 오라클 클라우드 인프라스트럭처 제타스케일10 AI 클러스터 공개

클라우드 환경 내 최대 규모의 AI 슈퍼컴퓨터, 10배 향상된 제타플롭스급 최고 성능 제공 엔비디아 AI 인프라를 탑재한 오라클 액셀러론 RoCE 네트워킹 아키텍처 기반으로 구축된 OCI 제타스케일10, 멀티 기가와트 규모의 AI 워크로드 처리 능력과 확장성 제공

2025-10-16     최영호 기자

오라클이 클라우드 환경 내 최대 규모의 AI 슈퍼컴퓨터인 오라클 클라우드 인프라스트럭처(OCI) 제타스케일10(Zettascale10)을 발표했다. OCI 제타스케일10은 여러 데이터센터에 걸쳐 수십만 개의 엔비디아(NVIDIA) GPU를 연결하여 멀티 기가와트급 클러스터를 형성하며, 최대 16 제타플롭스(zettaFLOPS)에 달하는 전례 없는 최고 성능을 제공한다. OCI 제타스케일10은 스타게이트의 일환으로 미국 텍사스주 애빌린에서 오픈AI(OpenAI)와 협력하여 구축한 대표 슈퍼클러스터를 구성하는 기반 패브릭이다. 차세대 오라클 액셀러론 RoCE(Oracle Acceleron RoCE) 네트워킹 아키텍처를 기반으로 구축된 OCI 제타스케일10은 엔비디아 AI 인프라로 구동되며, 획기적인 확장성, 클러스터 전반에 걸친 초저지연 GPU-GPU 통신, 가격 대비 높은 성능, 향상된 클러스터 활용도, 대규모 AI 워크로드에 필요한 안정성을 제공한다.

OCI 제타스케일10은 2024년 9월 출시된 최초의 제타스케일 클라우드 컴퓨팅 클러스터의 강력한 차세대 모델이다. OCI 제타스케일10 클러스터는 대규모 기가와트급 데이터센터 캠퍼스에 배치되며, 2킬로미터 반경 내에서 밀도를 극대화하여 대규모 AI 학습 워크로드에 최적화된 최상의 GPU-GPU 지연 성능을 제공한다. 이 아키텍처는 오픈AI와 협력하여 애빌린 소재 스타게이트 사이트에 구축 중에 있다.

마헤쉬 티아가라얀 OCI 총괄 부사장은 “OCI 제타스케일10을 통해 우리는 OCI의 혁신적인 오라클 액셀러론 RoCE 네트워크 아키텍처를 차세대 엔비디아 AI 인프라와 결합해 전례 없는 규모에서 멀티기가와트급 AI 용량을 제공한다. 고객은 성능 단위당 전력 소비를 줄이면서 높은 안정성을 달성해 가장 큰 규모의 AI 모델을 실제 운영 환경에 구축, 훈련 및 배포할 수 있다. 또한 강력한 데이터 및 AI 주권 제어 기능을 통해 오라클의 분산형 클라우드 전반에서 자유롭게 운영할 수 있다.”라고 말했다.

피터 호셸레(Peter Hoeschele) 오픈AI 인프라 및 산업 컴퓨팅 부문 부사장은 “OCI 제타스케일10 네트워크 및 클러스터 패브릭은 오라클과 함께 구축한 슈퍼클러스터인 텍사스주 애빌린에 위치한 대표 스타게이트 사이트에서 최초로 개발 및 배포되었다. 고도로 확장 가능한 맞춤형 RoCE 설계는 기가와트 규모에서 패브릭 전체 성능을 극대화하면서도 대부분의 전력을 컴퓨팅에 집중시켜 준다. 오라클과 협력하여 애빌린 사이트를 비롯한 스타게이트 프로젝트 전반을 전개해 나갈 수 있어 매우 기쁘게 생각한다.”라고 말했다.

OCI는 고객에게 OCI 제타스케일10의 멀티기가와트 규모 배포를 제공할 계획이다. 초기에는 최대 80만 개의 엔비디아GPU를 탑재한 OCI 제타스케일10 클러스터 배포를 목표로 한다. 이는 예측가능한 성능과 강력한 비용 효율성을 제공하며, 오라클 액셀러론의 초저지연 RoCEv2 네트워킹으로 높은 GPU-GPU대역폭을 구현한다.

이안 벅(Ian Buck) 엔비디아 하이퍼스케일 부문 부사장은 “오라클과 엔비디아는 OCI의 분산형 클라우드와 당사의 풀스택 AI 인프라를 결합해 전례 없는 규모의 AI를 제공한다. 엔비디아 풀스택 AI 인프라를 탑재한 OCI 제타스케일10은 최첨단 AI 연구를 발전시키고 전 세계의 조직들이 실험 단계를 넘어 산업화된 AI로 나아갈 수 있도록 지원하는 컴퓨팅 패브릭을 제공한다.”라고 말했다.

오라클 액셀러론 RoCE 네트워킹, OCI 제타스케일10에서 AI에 최적화된 확장성·안정성·효율성 제공

오라클 액셀러론 RoCE 네트워킹 아키텍처는 고객이 클라우드에서 AI 워크로드를 구축, 훈련 및 추론하는 동시에 OCI 제타스케일10의 성능과 기능을 최대한 활용할 수 있도록 돕는 주요 혁신 기술이다. 이 기술은 최신 GPU NIC(네트워크 인터페이스 카드)에 내장된 스위칭 기능을 활용하여 각 GPU가 여러 스위치에 동시에 연결되고, 각 스위치는 별도의 독립된 네트워크 플레인에서 동작하도록 설계됐다. 이 접근 방식은 하나의 네트워크 플레인에 문제가 발생할 경우 트래픽을 다른 플레인으로 전환함으로써 네트워크 전체의 확장성과 안정성을 획기적으로 향상시키며, 비용이 많이 드는 작업 중단 및 재시작을 방지한다. 고객의 중요 AI 워크로드를 지원하는 오라클 액셀러론 RoCE 네트워킹의 주요 기능은 다음과 같다.

  • 확장성과 복원성이 뛰어난 패브릭: GPU NIC를 미니 스위치로 활용하여 물리적·논리적으로 분리된 다중 플레인에 연결함으로써 더 큰 규모의 AI 클러스터를 더 빠르고, 저비용으로 배포할 수 있도록 지원한다. 이는 네트워크 계층, 비용 및 전력 소비를 줄이면서 확장성을 높인다.
  • 높은 안정성: 플레인 간 데이터 공유를 제거해 AI 작업의 안정성을 유지한다. 이를 통해 불안정하거나 혼잡한 플레인으로부터 트래픽을 전환시켜 훈련 작업이 중단되지 않고 비용이 많이 드는 체크포인트 재시작을 방지한다.
  • 일관된 성능: 기존의 3계층 설계에서 한 계층을 제거함으로써 고객에게 보다 균일한 GPU-GPU 지연 성능을 제공하고 대규모 AI 훈련 및 추론의 예측가능성을 향상시킨다.
  • 전력 효율적인 광학 장치: 선형 플러그 연결 가능 광학 장치(Linear Pluggable Optics; LPO) 및 선형 수신기 광학 장치(Linear Receiver Optics; LRO)를 통해 고객 워크로드를 지원하여400G/800G 처리량을 유지하면서 네트워크 및 냉각 비용을 절감한다. 이를 통해 고객은 전력 예산의 더 많은 부분을 컴퓨팅 자원에 할당할 수 있다.
  • 운영 유연성: 플레인 단위 유지보수 및 독립적인 네트워크 운영체제 업데이트를 통해 다운타임을 줄이고 기능 배포 속도를 향상시킨다.

OCI는 현재 OCI 제타스케일10 주문을 접수 중이며, 해당 제품은 내년 하반기 출시 예정으로 최대 80만 개의 엔비디아 AI 인프라 GPU 플랫폼을 기반으로 제공될 예정이다.