Generative APIs Dedicated Deployment

Déployez votre infrastructure d'IA managées avec des GPU dédiés et des modèles optimisés pour une inférence rapide et adaptable.

Déployer un modèle Lire le guide d'utilisation

Déployez des modèles optimisés – dont le vôtre

Choisissez parmi une bibliothèque de modèles comprenant des LLM quantifiés, des vLM, des embeddings et bien d'autres, ou, prochainement, déployez votre propre modèle (par exemple, Hugging Face). Évitez la complexité de la quantification des poids ouverts et profitez d'une inférence efficace.

Débit garanti avec des instances dédiées

L'infrastructure GPU dédiée garantit des performances constantes et prévisibles, avec des tokens illimités à un tarif horaire fixe. Cette architecture assure des vitesses d'inférence stables, essentielles pour des applications sensibles à la latence, comme les chatbots.

Réseau privé sécurisé dans un cloud européen

Accédez à vos points de terminaison IA via une connexion privée et à faible latence au sein du réseau privé virtuel (VPC) de Scaleway. La souveraineté des données est garantie : vos requêtes et réponses restent privées, exclusivement stockées en Europe, et inaccessibles à des tiers.

Modèles de langage et d'embedding open weights

Pixtral-12b-2409

Modèle multimodal capable d'analyser vos images et d'offrir des informations sans compromettre le suivi de vos instructions. Un modèle réalisé par Mistral AI et distribué sous la licence Apache 2.0.

Comparez les coûts de Generative APIs

Estimez votre charge de travail et comparez les coûts avec l’API Générative.

Métrique	Valeur
Tokens de sortie par requête	56,1^{jetons/seconde}
Tokens de sortie par GPU	53 856^jetons/min
Durée moyenne par requête	17.83^sec/requête
Débit total	107 712^jetons/min
Nombre de GPUs nécessaires	2^GPUs
Selon la charge moyenne en tokens/min.

Total par mois

1 655 €Temps d’usage uniquement

Métrique	Valeur
Entrée	0,15 €^{/million de tokens}
Sortie	0,35 €^{/million de tokens}

Total par mois

2 775 €

Essayez le premier produit européen d'inférence pour IA générative

Déployez un modèle maintenant

Prix prédictible

Choisissez parmi des modèles optimisés prêts à l'emploi et obtenez immédiatement un point d’accès dédié.

Vous êtes facturé en fonction de l'utilisation du type de GPU que vous choisissez.

Model	Quantization	GPU	Price	Approx. per month
Llama3.1-8b-instruct	BF16, FP8	L4-1-24G	€0.93^/heure	~€679^/mois
Llama3.1-70b-instruct	FP8	H100-1-80G	€3.40^/heure	~€2482^/mois
Llama3.1-70b-instruct	BF16, FP8	H100-2-80G	€6.68^/heure	~€4876^/mois
Mistral-7b-instruct-v0.3	BF16	L4-1-24G	€0.93^/heure	~€679^/mois
Pixtral-12b-2409	BF16	H100-1-80G	€3.40^/heure	~€2482^/mois
Mistral-nemo-instruct-2407	FP8	H100-1-80G	€3.40^/heure	~€2482^/mois
BGE-Multilingual-Gemma2	FP32	L4-1-24G	€0.93^/heure	~€679^/mois
Qwen2.5-coder-32b-instruct	INT8	H100-1-80G	€3.40^/heure	~€2482^/mois

Plus de modèles et conditions tarifaires disponibles sur cette page

Bénéficiez d’un écosystème Cloud européen sécurisé

Virtual Private Cloud

Vos LLMs sont accessibles via une connexion sécurisée grâce à un réseau privé régional résilient.

Access Management

Nous rendons vos accès compatibles avec la gestion des identités et des accès de Scaleway (IAM), afin que vos déploiements soient conformes aux exigences de votre architecture d'entreprise.

Cockpit

Identifiez les goulots d'étranglement dans vos déploiements, visualisez les demandes d'inférence en temps réel et faites même état de votre consommation d'énergie grâce à l'intégration de solution d'observabilité entièrement managée

Essayez-le maintenant

Foire aux questions

Comment lancer ce service?

Vous trouverez ici un guide complet sur le démarrage, y compris des détails sur le déploiement, la sécurité et la facturation.
Si vous avez besoin d'aide supplémentaire, n'hésitez pas à nous contacter via la communauté slack #inference-beta.

Quels sont les protocoles de sécurité de Scaleway pour ses services d'IA ?

Les services d'IA de Scaleway mettent en œuvre des mesures de sécurité robustes pour garantir la confidentialité et l'intégrité des données des clients. Nos mesures et politiques sont publiées dans notre documentation.

Quelle est la compatibilité avec les librairies et APIs OpenAI?

Scaleway vous permet de transitionner simplement toutes vos applications utilisant OpenAI. Vous pouvez utiliser les librairies officielles OpenAI, par exemple le client Python, pour interagir avec vos déploiements de Scaleway Managed Inference. Les APIs et paramètres supportés sont ici.

Quels sont les avantages par rapport aux services de LLM par APIs?

Isolation complète des ressources afin de garantir un contrôle maximal pour les applications sensibles.
Performances constantes et prévisibles, non affectées par l'activité des autres utilisateurs.
Pas de rate limits strictes : l'utilisation est uniquement limitée par la charge que votre déploiement peut supporter.
Accès à une plus large gamme de modèles.
Plus rentable en cas d'utilisation élevée.

Avez-vous des modèles mutualisés, payables aux tokens consommés?

Managed Inference vous permets de déployer des modèles d'IA sur une infrastructure de production, scalable et sécurisée.

D'autre part, Scaleway propose une offre serverless, avec une sélection de modèles mutualisés tarifés par million de tokens consommés. Découvrez ce service sur la page Generative APIs.

J'ai une demande, où puis-je la partager ?

Faites-nous part des bons et des mauvais côtés de votre expérience ici. Merci !

Quels sont les différents types d'inférences IA ?

Deux grandes catégories d'inférence se distinguent dans le domaine de l'intelligence artificielle.

L'inférence déductive applique des règles générales pour aboutir à des conclusions spécifiques, comme un système expert médical qui diagnostique une pathologie à partir de symptômes.
L'inférence inductive, quant à elle, fonctionne à l'inverse en déduisant des principes généraux à partir d'observations particulières. Un réseau neuronal qui apprend à reconnaître des visages après avoir analysé des milliers de photos représente un excellent exemple.

Ces deux approches se déclinent selon différents modes de déploiement : l'inférence par lots pour traiter de grands volumes de données, et l'inférence en temps réel pour des applications nécessitant des réponses instantanées, comme les véhicules autonomes.

Commencez avec des tutoriels

Retrieval-Augmented Generation (RAG)Apprenez à mettre en œuvre une architecture RAG en utilisant LangChain et Managed Inference.
Analyser des images avec un modèle de visionUtilisation de Pixtral (VLM) pour obtenir des sorties structurées
Comprendre l'IA agentiqueUtiliser des appels de fonctions avec Llama 3.1

Tutorials

EstimationDedicated Deployment

EstimationServerless

Generative APIs Dedicated Deployment

Déployez des modèles optimisés – dont le vôtre

Débit garanti avec des instances dédiées

Réseau privé sécurisé dans un cloud européen

Modèles de langage et d'embedding open weights

Pixtral-12b-2409

Llama-3.1-8b-instruct

Llama-3.1-70b-instruct

Mistral-nemo-instruct-2407

Mixtral-8x7B-Instruct-v0.1

BGE-Multilingual-Gemma2

Comparez les coûts de Generative APIs

EstimationDedicated Deployment

EstimationServerless

Prix prédictible

Vous êtes facturé en fonction de l'utilisation du type de GPU que vous choisissez.

Bénéficiez d’un écosystème Cloud européen sécurisé

Virtual Private Cloud

Access Management

Cockpit

Foire aux questions

Comment lancer ce service?

Quels sont les protocoles de sécurité de Scaleway pour ses services d'IA ?

Quelle est la compatibilité avec les librairies et APIs OpenAI?

Quels sont les avantages par rapport aux services de LLM par APIs?

Avez-vous des modèles mutualisés, payables aux tokens consommés?

J'ai une demande, où puis-je la partager ?

Quels sont les différents types d'inférences IA ?

Commencez avec des tutoriels