Publié le 21/05/2025 Dans Press Releases
Le texte suivant est issu d'un communiqué de presse et ne reflète en rien l'opinion de la rédaction.
Red Hat, leader de l’open source, présente aujourd’hui Red Hat AI Inference Server, une nouvelle solution de sa gamme Red Hat AI. Objectif : permettre aux entreprises d’exécuter des modèles d’IA générative plus rapidement, à moindre coût et avec plus de souplesse — quels que soient le modèle, le matériel ou le cloud utilisé. L’outil s’appuie sur la technologie communautaire vLLM (« virtualized Large Language Model inference ») développée par UC Berkeley, enrichie par des techniques de compression et d’optimisation issues de Neural Magic.
Red Hat AI Inference Server peut fonctionner de manière autonome ou s’intégrer facilement à Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI. Cette flexibilité permet de déployer l’IA en production de façon plus fluide et fiable.
L’inférence devient le moteur de l’IA
L’inférence, c’est le moment où un modèle d’IA génère une réponse. C’est une phase gourmande en puissance de calcul. À mesure que les déploiements d’IA se développent, l’inférence peut devenir un goulet d’étranglement : lente, coûteuse, instable. Il faut donc une infrastructure solide, conçue pour la performance.
Red Hat AI Inference Server répond à ce besoin avec une plateforme ouverte et performante. Grâce à la compression et à l’optimisation intégrées, elle garantit une inférence rapide — même pour des modèles complexes, sur des infrastructures variées.
vLLM au cœur de la solution
Le socle de Red Hat AI Inference Server, c’est vLLM, un projet open source en forte croissance, initié par UC Berkeley. Il permet une inférence rapide, compatible avec de nombreux modèles et doté de fonctionnalités avancées comme le support multi-GPU ou la gestion de contextes étendus.
Déjà utilisé pour des modèles de référence comme Llama, Mistral, DeepSeek, Phi, Llama Nemotron ou Gemma, vLLM s’impose progressivement comme le standard du secteur pour l’inférence.
Red Hat AI Inference Server combine les atouts de vLLM avec l’expertise Red Hat :
Un socle unique pour toutes les applications d’IA
Avec AI Inference Server, Red Hat entend démocratiser l’inférence : tout modèle, sur n’importe quel accélérateur, dans n’importe quel cloud. Finie la complexité, place à la liberté de choix et à la montée en charge. Comme Red Hat a su, en son temps, ouvrir Linux au monde de l’entreprise, il veut aujourd’hui rendre l’inférence standard pour l’IA. En s’appuyant sur vLLM et llm-d, Red Hat construit un écosystème ouvert, évolutif et économique pour accompagner les entreprises dans l’ère de l’intelligence artificielle.
Collaboration avec Google Cloud
Lors du Red Hat Summit, Red Hat et Google Cloud ont annoncé une collaboration pour accélérer le déploiement des agents IA, via :
Red Hat AI Inference Server peut fonctionner de manière autonome ou s’intégrer facilement à Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI. Cette flexibilité permet de déployer l’IA en production de façon plus fluide et fiable.
L’inférence devient le moteur de l’IA
L’inférence, c’est le moment où un modèle d’IA génère une réponse. C’est une phase gourmande en puissance de calcul. À mesure que les déploiements d’IA se développent, l’inférence peut devenir un goulet d’étranglement : lente, coûteuse, instable. Il faut donc une infrastructure solide, conçue pour la performance.
Red Hat AI Inference Server répond à ce besoin avec une plateforme ouverte et performante. Grâce à la compression et à l’optimisation intégrées, elle garantit une inférence rapide — même pour des modèles complexes, sur des infrastructures variées.
vLLM au cœur de la solution
Le socle de Red Hat AI Inference Server, c’est vLLM, un projet open source en forte croissance, initié par UC Berkeley. Il permet une inférence rapide, compatible avec de nombreux modèles et doté de fonctionnalités avancées comme le support multi-GPU ou la gestion de contextes étendus.
Déjà utilisé pour des modèles de référence comme Llama, Mistral, DeepSeek, Phi, Llama Nemotron ou Gemma, vLLM s’impose progressivement comme le standard du secteur pour l’inférence.
Red Hat AI Inference Server combine les atouts de vLLM avec l’expertise Red Hat :
Un socle unique pour toutes les applications d’IA
Avec AI Inference Server, Red Hat entend démocratiser l’inférence : tout modèle, sur n’importe quel accélérateur, dans n’importe quel cloud. Finie la complexité, place à la liberté de choix et à la montée en charge. Comme Red Hat a su, en son temps, ouvrir Linux au monde de l’entreprise, il veut aujourd’hui rendre l’inférence standard pour l’IA. En s’appuyant sur vLLM et llm-d, Red Hat construit un écosystème ouvert, évolutif et économique pour accompagner les entreprises dans l’ère de l’intelligence artificielle.
Collaboration avec Google Cloud
Lors du Red Hat Summit, Red Hat et Google Cloud ont annoncé une collaboration pour accélérer le déploiement des agents IA, via :