레드햇, 레드햇 AI 인퍼런스 서버로 하이브리드 클라우드 전반에서 모든 모델 및 가속기를 위한 생성형 AI 지원

vLLM 기반에 뉴럴매직 기술로 강화된 레드햇 AI 인퍼런스 서버, 하이브리드 클라우드 전반에 더 빠르고 성능이 뛰어나며 비용 효율적인 AI 추론 제공

2025-05-21 최영호 기자

맷 힉스 레드햇 CEO 서밋 키노트

글로벌 오픈소스 솔루션 선도기업 레드햇이 오늘 생성형 AI의 대중화에 중요한 역할을 할 ‘레드햇 AI 인퍼런스 서버(Red Hat AI Inference Server)’를 출시했다고 발표했다. 레드햇 AI 포트폴리오의 신규 제품인 이 엔터프라이즈급 추론 서버는 vLLM 커뮤니티 프로젝트와 레드햇의 뉴럴매직(Neural Magic) 기술 통합으로 탄생했다. 더욱 향상된 속도와 가속기 효율성 및 비용 효율성을 제공함으로써 모든 클라우드 환경의 AI 가속기에서 모든 생성형 AI 모델을 실행할 수 있게 지원한다. 이 플랫폼은 독립형 배포 또는 ‘레드햇 엔터프라이즈 리눅스 AI(Red Hat Enterprise Linux AI, 이하 RHEL AI)’ 및 ‘레드햇 오픈시프트 AI(Red Hat OpenShift AI)’의 통합 구성 요소 배포 여부와 관계없이 조직이 보다 안전하게 생성형 AI를 프로덕션 환경에 배포 및 확장할 수 있도록 지원한다.

추론은 사전 학습된 모델이 데이터를 실질적인 영향력으로 전환되는 과정으로 AI의 핵심 실행 엔진이다. 이는 사용자 상호 작용을 위한 핵심 지점이 되며 신속하고 정확한 응답을 필요로 한다. 생성형 AI 모델의 복잡성이 폭발적으로 증가하고 프로덕션 배포가 확장됨에 따라, 추론은 심각한 병목 현상을 일으켜 하드웨어 자원을 과도하게 소모하고 응답성을 저하시키며 운영 비용을 증가시킬 수 있다. 강력한 추론 서버는 이제 AI의 진정한 잠재력을 큰 규모로 실현하고 근본적인 복잡성을 보다 쉽게 탐색하기 위한 필수 요소가 됐다.

레드햇은 고성능을 위해 설계되고 선도적인 모델 압축 및 최적화 도구를 갖춘 개방형 추론 솔루션인 레드햇 AI 인퍼런스 서버를 통해 이러한 과제들을 직접적으로 해결한다. 이러한 혁신은 훨씬 더 반응성이 뛰어난 사용자 경험과 AI 가속기와 모델 및 IT 환경을 선택함에 있어 비교할 수 없는 선택의 자유를 제공함으로써 조직이 생성형 AI의 변혁적인 힘을 완전히 활용할 수 있도록 지원한다.

크리스 라이트 레드햇 CTO 서밋 키노트

vLLM: 추론 혁신의 확장

레드햇 AI 인퍼런스 서버는 2023년 중반 캘리포니아대학교 버클리 캠퍼스(University of California, Berkeley)에서 시작된 업계 선도적인 vLLM 프로젝트를 기반으로 구축됐다. 이 커뮤니티 프로젝트는 높은 처리량의 생성형 AI 추론, 대규모 입력 컨텍스트 지원, 다중 GPU 모델 가속화, 연속 배치(batch) 지원 등을 제공한다.

공개적으로 사용 가능한 모델에 대한 폭넓은 지원은 물론 딥시크(DeepSeek), 젬마(Gemma), 라마(Llama), 미스트랄(Mistral), 파이(Phi) 등 선도적인 프론티어 모델 및 라마 네모트론(Llama Nemotron)과 같은 개방형 엔터프라이즈급 추론 모델에 대한 제로데이 통합을 제공하는 vLLM은 미래 AI 추론 혁신을 위한 사실상 표준으로 자리매김하고 있다. 선도적인 프론티어 모델 제공업체들이 점점 더 vLLM을 채택함에 따라 생성형 AI의 미래 형성에 있어 vLLM의 핵심적인 역할이 더욱 공고해지고 있다.

레드햇 AI 인퍼런스 서버 소개

레드햇 AI 인퍼런스 서버는 vLLM의 선도적인 혁신을 패키징해 엔터프라이즈급 기능으로 제공한다. 레드햇 AI 인퍼런스 서버는 컨테이너화된 독립형 제품 또는 RHEL AI 및 레드햇 오픈시프트 AI의 일부로 제공된다.

레드햇 AI 인퍼런스 서버는 모든 배포 환경에서 사용자에게 vLLM의 강화된 지원 배포판과 함께 다음과 같은 기능을 제공한다.

지능형 LLM 압축 도구: 기본 및 미세 조정된 AI 모델의 크기를 대폭 축소하고 컴퓨팅 자원 소비를 최소화하는 동시에 모델 정확도를 유지하거나 잠재적으로 향상
모델 저장소(repository) 최적화: 허깅페이스(Hugging Face)의 레드햇 AI 조직에서 호스팅되며 추론 배포가 준비된 검증되고 최적화된 선도적 AI 모델 컬렉션에 즉시 액세스할 수 있어 모델 정확도 저하 없이도 효율성을 2~4배 가속화할 수 있도록 지원
레드햇의 엔터프라이즈 지원: 커뮤니티 프로젝트를 프로덕션 환경으로 가져오는 데 있어 수십 년간 쌓아 온 레드햇의 전문성을 제공
서드파티 지원: 배포 유연성이 더욱 향상돼 레드햇의 서드파티 지원 정책하에 래드햇 AI 인퍼런스 서버를 비(非) 레드햇 리눅스 및 쿠버네티스 플랫폼에 배포

레드햇의 비전: 모든 모델, 모든 가속기, 모든 클라우드

AI의 미래는 인프라 사일로에 의해 제한되지 않고 무한한 가능성을 유지해야 한다. 레드햇은 조직이 모든 클라우드에서 모든 가속기에 모든 모델을 배포할 수 있어, 과도한 비용 없이 탁월하고 더 일관된 사용자 경험을 제공할 수 있는 미래를 지향한다. 생성형 AI 투자의 진정한 잠재력을 실현하기 위해 기업은 현재 및 미래에 걸쳐 보다 원활하고 고성능의 AI 혁신을 위한 표준이 될 범용 추론 플랫폼을 필요로 한다.

레드햇은 리눅스를 현대 IT의 기반으로 전환해 개방형 엔터프라이즈를 개척한 것처럼 이제 AI 추론의 미래를 설계하는 데 앞장서고 있다. vLLM의 잠재력은 표준화된 생성형 AI 추론의 핵심이며 레드햇은 vLLM 커뮤니티뿐만 아니라 대규모 분산 추론을 위한 ‘llm-d’를 중심으로 번창하는 생태계를 구축하기 위해 노력하고 있다. 레드햇은 AI 모델, 기본 가속기 또는 배포 환경에 관계없이 vLLM을 새로운 하이브리드 클라우드 전반에서 추론을 위한 확실한 개방형 표준으로 자리매김할 계획이다.

조 페르난데스(Joe Fernandes) 레드햇 AI 사업 부문 부사장 겸 총괄 매니저는 "추론은 생성형 AI의 진정한 잠재력이 발휘되는 부분이다. 사용자 상호 작용이 주어진 모델에 의해 빠르고 정확한 응답으로 충족되어야 하는 동시에 효과적이고 비용 효율적인 방식으로 제공되어야 한다. 레드햇 AI 인퍼런스 서버는 대규모의 응답성이 뛰어나고 고성능의 추론에 대한 수요를 충족하면서 리소스 요구 사항을 낮게 유지하고 모든 환경의 모든 가속기에서 실행되는 모든 모델을 지원하는 공통 추론 레이어를 제공한다”고 말했다.

라민 론(Ramine Roane), AMD AI 제품 관리 부문 부사장은 "AMD는 레드햇과의 협력을 통해 기업에서 효율적인 생성형 AI를 구동할 수 있는 즉시 사용 가능한 솔루션을 제공한다. AMD 인스팅트(AMD Instinct) GPU에서 활성화된 레드햇 AI 인퍼런스 서버는 완전히 검증된 하드웨어 가속기에 의해 뒷받침되는 엔터프라이즈급 커뮤니티 주도 AI 추론 기능을 조직에 제공한다"고 말했다.

제레미 포스터(Jeremy Foster), 시스코 수석 부사장 겸 총괄 매니저는 "AI 워크로드에는 속도와 일관성, 유연성이 필요하며 레드햇 AI 인퍼런스 서버는 이 요소들을 제공하도록 설계됐다. 이를 통해 시스코와 레드햇은 AI 배포의 접근성, 효율성, 확장성을 높이는 새로운 방법에 대해 지속적으로 협력하고 조직이 미래에 대비할 수 있도록 지원한다”고 말했다.

빌 피어슨(Bill Pearson), 인텔 데이터센터, AI 소프트웨어 솔루션 및 에코시스템 부문 부사장은 "레드햇과의 협력을 통해 인텔 가우디(Intel Gaudi) 가속기에서 레드햇 AI 인퍼런스 서버를 지원하게 되어 기쁘다. 이번 통합을 통해 고객에게 AI 추론을 간소화하고 확장할 수 있는 최적화된 솔루션을 제공해 광범위한 엔터프라이즈 AI 애플리케이션을 위한 고급 성능과 효율성을 확보할 수 있게 지원한다”고 말했다.

존 파넬리(John Fanelli), 엔비디아 엔터프라이즈 소프트웨어 부문 부사장은 "고성능 추론은 모델과 AI 에이전트가 단순히 답변만 하는 것이 아니라 실시간으로 추론하고 적응할 수 있게 한다. 개방형 풀스택 엔비디아 가속 컴퓨팅과 레드햇 AI 인퍼런스 서버를 통해, 개발자는 하이브리드 클라우드 전반에서 효율적인 추론을 대규모로 실행하고 새로운 엔디비아 엔터프라이즈 AI(NVIDIA Enterprise AI) 검증 설계가 적용된 레드햇 인퍼런스 서버를 사용해 안심하고 배포할 수 있다"고 말했다.