레드햇, ‘레드햇 AI 3’ 출시…프로덕션 AI 워크로드에 분산형 AI 추론 제공
레드햇의 하이브리드 클라우드 네이티브 AI 플랫폼, AI 워크플로우 간소화 및 강력한 신규 추론 기능 제공…대규모 에이전틱 AI 기반 구축 및 IT 팀과 AI 엔지니어 혁신 가속화
글로벌 오픈소스 솔루션 선도기업 레드햇(Red Hat)이 엔터프라이즈 AI 플랫폼의 업그레이드 버전인 레드햇 AI 3(Red Hat AI 3)를 출시했다고 오늘 발표했다. 해당 플랫폼은 레드햇 AI 인퍼런스 서버 (Red Hat AI Inference Server), 레드햇 엔터프라이즈 리눅스 AI (Red Hat Enterprise Linux AI, 이하 RHEL AI), 레드햇 오픈시프트 AI (Red Hat OpenShift AI)의 최신 혁신 기술을 통합하여 대규모 고성능 AI 추론의 복잡성을 단순화해 기업이 PoC(Proofs of Concept)에서 프로덕션 단계로 워크로드를 보다 쉽게 전환하고 AI 기반 애플리케이션 협업 개선을 지원한다.
기업들이 AI 실험 단계를 넘어서면서 데이터 프라이버시, 비용 관리, 다양한 모델 관리 등 상당한 난관에 직면하고 있다. 매사추세츠 공과대학교(Massachusetts Institute of Technology) NANDA 프로젝트의 "생성형 AI 격차: 비즈니스 속 AI 현황 (The GenAI Divide: State of AI in Business)" 보고서에 따르면 약 95%의 조직이 약 400억 달러 규모의 투자에도 불구하고 측정 가능한 재무적 성과를 얻지 못하는 프로덕션 AI의 현실을 강조한다.
레드햇 AI 3는 이러한 과제를 직접 해결하는 데 초점을 맞추며 CIO와 IT 리더가 가속 컴퓨팅 기술 투자를 극대화할 수 있는 일관되고 통합된 경험을 제공한다. 이를 통해 기업은 하이브리드 및 멀티 벤더 환경 전반에서 AI 워크로드를 신속하게 확장하고 배포할 수 있도록 한다. 또한 공통 플랫폼 상에서 에이전트와 같은 차세대 AI 워크로드에 대한 팀 간 협업도 향상시킨다. 개방형 표준을 기반으로 구축된 레드햇 AI 3는 기업이 AI 여정의 어느 단계에 있든 그에 맞게 지원하며 데이터센터에서 퍼블릭 클라우드, 소버린 AI 환경, 엣지에 이르기까지 모든 하드웨어 가속기에서 어떤 모델이든 지원한다.
학습에서 실행으로: 엔터프라이즈 AI 추론으로의 전환
기업이 AI 이니셔티브를 프로덕션 단계로 전환할 때는 학습 및 모델 튜닝에서 엔터프라이즈 AI의 실질적인 실행 단계인 추론이 중점이 된다. 레드햇 AI 3는 vLLM 및 llm-d 커뮤니티 프로젝트와 레드햇의 모델 최적화 역량을 기반으로 대규모 언어 모델(large language models, 이하 LLM)의 프로덕션급 서빙(production-grade serving)을 제공함으로써 확장 가능하고 비용 효율적인 추론을 강조한다.
CIO가 고가의 하드웨어 가속을 최대한 활용할 수 있도록 레드햇 오픈시프트 AI 3.0은 쿠버네티스에서 LLM이 기본적으로 실행되는 방식을 재정의하는 llm-d을 정식 출시했다. llm-d는 검증된 쿠버네티스 오케스트레이션과 vLLM의 성능을 활용해 지능형 분산 추론을 가능하게 한다. 쿠버네티스 게이트웨이 API 추론 익스텐션(Kubernetes Gateway API Inference Extension), 엔비디아 다이나모 저지연 데이터 전송 라이브러리 (NVIDIA Dynamo low latency data transfer library, 이하 NIXL), 오픈소스 라이브러리 딥EP(DeepEP) MoE(Mixture of Experts)와 같은 주요 오픈소스 기술을 함께 활용하여 기업이 다음과 같은 이점을 얻을 수 있도록 한다.
- 지능형 추론 인식 모델 스케줄링 및 분리된 서빙을 통해 비용 절감 및 응답 시간 개선
- 쿠버네티스 상에서 대규모 모델 배포를 간소화하는 사전 규정된 명확한 경로(Well-lit Paths)를 통해 운영 단순성 및 신뢰성 극대화
- 엔비디아, AMD 등 다양한 하드웨어 가속기에 걸쳐 LLM 추론을 배포할 수 있는 크로스 플랫폼 지원을 통해 유연성 극대화
llm-d는 vLLM을 기반으로 구축되어 단일 노드 고성능 추론 엔진에서 쿠버네티스와 긴밀히 통합되고 예측 가능한 성능, 측정 가능한 ROI, 효과적인 인프라 계획을 가능하게 하도록 설계된 일관성 있고 확장 가능한 분산형 서빙 시스템으로 확장했다. 모든 개선 사항은 가변성이 높은 LLM 워크로드 처리 및 MoE 모델과 같은 대규모 모델 서빙의 과제를 직접적으로 해결한다.
협업형 AI를 위한 통합 플랫폼
레드햇 AI 3는 프로덕션 단계에서 사용 가능한 생성형 AI 솔루션 구축을 위한 협업 중심의 통합되고 유연한 경험을 제공한다. 이는 플랫폼 엔지니어와 AI 엔지니어가 AI 전략을 실행할 수 있는 단일 플랫폼을 통해 팀 간 협업을 촉진하고 워크플로우를 통합함으로써 실질적인 가치를 제공하도록 설계되었다. PoC(proof-of-concept)에서 프로덕션 단계로 확장하는 데 필요한 생산성과 효율성을 지원하는 신규 기능은 다음과 같다.
- 서비스형 모델 (Model as a Service, 이하 MaaS) - 분산 추론을 기반으로 구축되어 IT 팀이 자체 MaaS 제공자로서 중앙에서 공통 모델을 서빙하며, AI 개발자와 AI 애플리케이션이 온디맨드 방식으로 접근할 수 있게 한다. 이를 통해 비용 관리를 개선하고 보안성 또는 데이터 문제로 인해 퍼블릭 AI 서비스에서 실행할 수 없는 사용 사례를 지원한다.
- AI 허브 - 플랫폼 엔지니어가 기본 AI 자산을 탐색, 배포 및 관리할 수 있도록 지원한다. 검증되고 최적화된 생성형 AI 모델을 포함한 모델의 큐레이션된 카탈로그, 모델 라이프사이클 관리용 레지스트리, 레드햇 오픈시프트 AI에서 실행되는 모든 AI 자산을 구성하고 모니터링하는 배포 환경을 갖춘 중앙 허브를 제공한다.
- 생성형 AI 스튜디오(Gen AI studio) - AI 엔지니어가 모델과 상호작용하고 신규 생성형 AI 애플리케이션을 신속하게 프로토타이핑할 수 있는 실습 환경을 제공한다. AI 자산 엔드포인트 기능을 통해 엔지니어는 사용 가능한 모델과 MCP(Multi-cloud Container Platform) 서버를 쉽게 발견하고 사용할 수 있으며, 이는 모델이 외부 도구와 상호작용하는 방식을 간소화한다. 내장된 플레이그라운드는 모델을 실험하고 프롬프트를 테스트하며, 챗 및 검색 증강 생성 (RAG)과 같은 사용 사례를 위해 매개변수를 조정할 수 있는 상호작용형 스테이트리스(stateless) 환경을 제공한다.
- 신규 레드햇 검증 및 최적화 모델 - 레드햇은 개발 과정을 단순화하기 위해 신규 검증 및 최적화 모델을 포함했다. 여기에는 오픈AI(OpenA)I의 gpt-oss, 딥시크(DeepSeek) R1과 같은 인기 있는 오픈소스 모델과 음성-텍스트 변환을 위한 위스퍼(Whisper), 음성 지원 에이전트를 위한 복스트랄 미니(Voxtral Mini)와 같은 특화된 모델이 포함된다.
차세대 AI 에이전트를 위한 기반 구축
AI 에이전트는 애플리케이션 구축 방식을 혁신할 전망이며 복잡하고 자율적인 워크플로우는 강력한 추론 성능을 요구한다. 레드햇 오픈시프트 AI 3.0은 확장 가능한 에이전트형 AI 시스템의 기반을 다지며, 추론 기능뿐만 아니라 에이전트 관리에 초점을 맞춤 새로운 기능과 개선 사항을 포함한다.
에이전트 생성 및 배포를 가속화하기 위해 레드햇은 라마 스택(Llama Stack)기반의 통합 API 레이어(Unified API layer)를 도입해 오픈AI 호환 LLM 인터페이스 프로토콜과 같은 업계 표준에 개발을 맞출 수 있도록 지원한다. 또한 레드햇은 보다 개방적이고 상호 운용 가능한 생태계를 지원하기 위해 AI 모델이 외부 도구와 상호작용하는 방식을 간소화하는 모델 컨텍스트 프로토콜 (Model Context Protocol)을 선도적으로 채택했으며 이는 최신 AI 에이전트의 핵심 기능이다.
레드햇 AI 3는 기존 인스트럭트랩(InstructLab) 기능을 기반으로 구축된 모델 커스터마이징을 위한 새로운 모듈식 확장형 툴킷을 도입했다. 개발자에게 더 높은 유연성과 제어권을 제공하는 전용 파이썬(Python) 라이브러리를 제공한다. 이 툴킷은 데이터 처리를 위한 독클링(Docling)과 같은 오픈소스 프로젝트를 기반으로 하며 이는 비정형 문서를 AI가 읽을 수 있는 형식으로 간소화해서 변환한다. 또한 합성 데이터 생성을 위한 유연한 프레임워크와 LLM 미세 조정을 위한 학습 허브가 포함되어 있다. 이를 통해 AI엔지니어는 결과를 모니터링 및 검증하고, 자체 데이터를 활용해 더 정확하고 관련성 높은 AI 결과를 도출할 수 있다.
조 페르난데스(Joe Fernandes) 레드햇 AI 사업부 부사장 겸 총괄 매니저는 "기업이 AI를 실험 단계에서 프로덕션 단계로 확장하면서 복잡성, 비용, 제어 측면에서 새로운 문제에 직면하고 있다. 레드햇 AI 3를 통해 이러한 장애물을 최소화하는 엔터프라이즈급 오픈소스 플랫폼을 제공하고 있다. 레드햇은 llm-d를 통한 분산 추론과 에이전틱 AI를 위한 기반 등의 신규 기능을 제공함으로써 IT 팀이 어떤 인프라에서도 자신만의 방식으로 차세대 AI를 안정적으로 운영할 수 있도록 지원한다”라고 말했다.
댄 맥나마라(Dan McNamara) AMD 서버 및 엔터프라이즈 AI 수석 부사장 겸 총괄 매니저는 "레드햇이 분산 AI 추론을 프로덕션 단계로 가져오면서 AMD는 이를 뒷받침하는 고성능 기반을 제공하게 되어 자랑스럽게 생각한다. AMD EPYC™ 프로세서의 효율성, AMD Instinct™ GPU의 확장성, AMD ROCm™ 소프트웨어 스택의 개방성을 통합해 기업이 실험을 넘어 차세대 AI를 운영화하고, 온프레미스, 클라우드 및 엣지 환경 전반에서 성능과 확장성을 실제 비즈니스로 전환할 수 있도록 지원하고 있다”라고 전했다.
마리아노 그레코(Mariano Greco) 아르삿(ARSAT) CEO는 "아르삿은 아르헨티나 통신 인프라 제공업체로 방대한 고객 상호작용과 민감 데이터를 처리한다. 단순한 자동화를 넘어 '증강 인텔리전스 (Augmented Intelligence)'로 나아가면서 고객 데이터 주권을 완벽히 보장할 수 있는 솔루션이 필요했다. 레드햇 오픈시프트 AI 기반의 에이전틱 AI 플랫폼을 구축함으로써 45일 만에 실제 프로덕션 단계에 도달했다. 레드햇 오픈시프트 AI는 서비스를 개선하고 엔지니어가 지원 문제에 소요하는 시간을 줄이는 데 도움을 주었을 뿐만 아니라 혁신과 새로운 개발에 집중할 수 있도록 해주었다”라고 말했다.
릭 빌라스(Rick Villars) IDC 월드와이드 리서치 그룹 부사장은 "2026년은 기업들이 AI 전환 초기 단계를 넘어 투자로부터 보다 측정 가능하고 반복 가능한 비즈니스 성과를 요구하는 전환점이 될 것이다. 초기 프로젝트가 모델 학습과 테스트에 집중했다면 실제 가치와 과제는 모델로부터 파생된 인사이트를 효율적이고 안전하며 비용 효율적인 추론으로 운영화하는 데 있다. 특히 에이전틱 AI가 추론 부하를 급증시키는 상황에서 이러한 전환에는 실제 규모와 복잡성을 처리할 수 있는 프로덕션급 추론 기능을 갖춘 보다 현대적인 인프라, 데이터 및 앱 배포 환경이 필요하다. AI 중심 비즈니스가 되는 데 성공하는 기업은 단순히 사일로 도메인이 아닌 하이브리드 클라우드 환경에서 이러한 점점 더 정교한 워크로드를 오케스트레이션하는 통합 플랫폼을 구축하는 기업이 될 것이다”라고 밝혔다.
우즈발 카파시(Ujval Kapasi) 엔비디아 AI 프레임워크 엔지니어링 부사장은 "확장 가능한 고성능 추론은 차세대 생성형 AI 및 에이전틱 AI의 핵심이다. 오픈소스 엔비디아 다이나모 및 NIXL 기술을 통한 가속 추론이 내장된 레드햇 AI 3는 팀이 실험 단계에서 고급 AI 워크로드와 에이전트를 대규모로 실행하는 단계로 신속히 전환하는 통합 플랫폼을 제공한다”라고 말했다.