Red Hat, leader de l’open source, présente aujourd’hui Red Hat AI Inference Server, une nouvelle solution de sa gamme Red Hat AI. Objectif : permettre aux entreprises d’exécuter des modèles d’IA générative plus rapidement, à moindre coût et avec plus de souplesse — quels que soient le modèle, le matériel ou le cloud utilisé. L’outil s’appuie sur la technologie communautaire vLLM (« virtualized Large Language Model inference ») développée par UC Berkeley, enrichie par des techniques de compression et d’optimisation issues de Neural Magic.
Red Hat AI Inference Server peut fonctionner de manière autonome ou s’intégrer facilement à Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI. Cette flexibilité permet de déployer l’IA en production de façon plus fluide et fiable.
L’inférence devient le moteur de l’IA
L’inférence, c’est le moment où un modèle d’IA génère une réponse. C’est une phase gourmande en puissance de calcul. À mesure que les déploiements d’IA se développent, l’inférence peut devenir un goulet d’étranglement : lente, coûteuse, instable. Il faut donc une infrastructure solide, conçue pour la performance.
Red Hat AI Inference Server répond à ce besoin avec une plateforme ouverte et performante. Grâce à la compression et à l’optimisation intégrées, elle garantit une inférence rapide — même pour des modèles complexes, sur des infrastructures variées.
vLLM au cœur de la solution
Le socle de Red Hat AI Inference Server, c’est vLLM, un projet open source en forte croissance, initié par UC Berkeley. Il permet une inférence rapide, compatible avec de nombreux modèles et doté de fonctionnalités avancées comme le support multi-GPU ou la gestion de contextes étendus.
Déjà utilisé pour des modèles de référence comme Llama, Mistral, DeepSeek, Phi, Llama Nemotron ou Gemma, vLLM s’impose progressivement comme le standard du secteur pour l’inférence.
Red Hat AI Inference Server combine les atouts de vLLM avec l’expertise Red Hat :
Compression intelligente : réduction de la taille des modèles sans perte de précision, avec un usage réduit des ressources matérielles.
Modèles optimisés : une bibliothèque de modèles validés sur Hugging Face, prêts à l’emploi.
Support entreprise : accompagnement technique et expertise de Red Hat pour une mise en production maîtrisée.
Compatibilité étendue : fonctionne également sur d’autres distributions Linux et plateformes Kubernetes, selon la politique de support tierce.
Un socle unique pour toutes les applications d’IA
Avec AI Inference Server, Red Hat entend démocratiser l’inférence : tout modèle, sur n’importe quel accélérateur, dans n’importe quel cloud. Finie la complexité, place à la liberté de choix et à la montée en charge. Comme Red Hat a su, en son temps, ouvrir Linux au monde de l’entreprise, il veut aujourd’hui rendre l’inférence standard pour l’IA. En s’appuyant sur vLLM et llm-d, Red Hat construit un écosystème ouvert, évolutif et économique pour accompagner les entreprises dans l’ère de l’intelligence artificielle.
Collaboration avec Google Cloud
Lors du Red Hat Summit, Red Hat et Google Cloud ont annoncé une collaboration pour accélérer le déploiement des agents IA, via :
Le lancement du projet open source llm-d, avec Google comme cofondateur
Le support de vLLM sur les TPU de Google Cloud et les machines virtuelles avec GPU, pour améliorer l’inférence IA
Une prise en charge directe dès le premier jour de vLLM dans les distributions de modèles Gemma 3
Le support du Red Hat AI Inference Server sur Google Cloud
La stimulation du développement de pointe des agents IA, avec une contribution de Red Hat à la communauté autour du protocole Agent2Agent (A2A) de Google.