Inférence IA rapide et facile avec les produits Model-as-a-Service

Déployez des modèles d'IA sans vous soucier de l'infrastructure derrière. Accédez à des endpoints serverless, préconfigurés comprenant les modèles d'IA les plus populaires! Facturés au million de tokens pour plus de flexibilité ou à l'heure, avec une infrastructure dédiée pour plus de sécurité et une meilleure anticipation des coûts.

Lancez votre inférence

Choisissez le produit adapté à votre infrastructure

Generative APIs

Accédez aux derniers modèles d'IA via API, avec une facturation au million de tokens

Managed Inference

Déployez votre infrastructure d'IA sur des GPU dédiés déployant des modèles personnalisés (bientôt).

Generative APIs vs Managed Inference

Critère	APIs Génératives	Inférence Gérée
Utilisation	Moyen le plus rapide et simple de déployer des modèles sélectionnés	Service prêt pour la production permettant de déployer des modèles personnalisés
Modèle de tarification	Facturation à l’usage, €/million de tokens	Tarif horaire fixe, €/heure
Prix de départ	À partir de 0,2 € pour 1 million de tokens	À partir de 0,93 € de l’heure
Scalabilité	Le coût augmente avec l’utilisation	Coût prévisible grâce à une infrastructure dédiée
Performance	Alignée avec la moyenne du marché, sans garantie	Performance garantie (pas de mutualisation des ressources)
Fonctionnalités principales	- Remplacement direct d’OpenAI, - Auto-scalable (avec limites de débit), - Gestion des accès (IAM), - Observabilité intégrée	- Remplacement direct d’OpenAI, - Auto-scalable (avec limites de débit), - Gestion des accès (IAM), - Observabilité intégrée, - Modèles personnalisés depuis Hugging Face pris en charge, - Isolation dans un cloud virtuel privé

Déployez votre modèle dès maintenant

La manière la plus simple de créer, déployer et faire évoluer l'IA en Europe

Accélérer l'expérimentation de l'IA

Déployez rapidement des applications alimentées par l'IA pour atteindre vos objectifs business. Testez plusieurs cas d'utilisation de l'IA pour identifier celui le plus adapté à la production.

Déployer l'IA en toute transparence et en toute sécurité

Assurez-vous que personne n'accède à vos données grâce à une infrastructure hébergée en Europe sous la juridiction du RGPD, et profitez d'un service entièrement managé avec une disponibilité garantie. Les produits Model-as-a-Service s'adaptent automatiquement pour répondre à la demande croissante.

Personnalisez et faites évoluer l'IA en toute simplicité.

Changez de modèles à tout moment, optez pour des alternatives économiques et bientôt, servez vos propres modèles affinés. Choisissez entre des ressources partagées ou dédiées, tandis que Scaleway s'occupe de l'évolutivité pour vous.

Des modèles haut de gamme adaptés à tous les cas d'utilisation

Génération de texte

Les modèles de génération de texte à texte, les modèles linguistiques, les modèles de chat et les modèles de traitement du langage naturel (NLP) sont tous des types de modèles qui génèrent un nouveau texte en fonction d’un texte d’entrée. Chaque modèle linguistique est formé de manière différente, ce qui le rend plus efficace pour des tâches spécifiques, comme suivre des instructions ou rédiger des histoires.

Les experts de Hugging Face identifient trois catégories principales de modèles linguistiques :

Modèles de base : Ceux-ci sont adaptés à l'affinage et à l'invocation avec peu d'exemples, tels que Mistral 7B.
Modèles entraînés sur instructions : Ces modèles produisent généralement de meilleures réponses aux instructions que les modèles de base, comme ceux avec "-instruct" dans leur nom (par exemple, Mistral-7B-Instruct-v0.3, Llama-3.1-70B-Instruct, Llama-3.3-70B-Instruct, etc.).
Modèles basés sur les retours humains : Ces modèles sont affinés grâce aux évaluations humaines, qui sont intégrées au modèle par apprentissage par renforcement, les rendant ainsi mieux alignés avec les préférences humaines.

Avec le lancement de Deepseek R1 début 2025, les modèles de raisonnement sont devenus une quatrième catégorie. Ces modèles sont spécialisés dans le raisonnement, la résolution de problèmes mathématiques et la génération de code.

Caractéristiques principales

API compatibles avec l'OpenAI

Conçus pour fonctionner immédiatement avec vos flux de travail existants, vous pouvez les intégrer aux outils déjà en place, tels que les bibliothèques OpenAI et les SDK LangChain.

Auto-scaling

Les produits MaaS ajustent automatiquement les besoins en ressources en fonction de la croissance.

Plus de sécurité avec VPC

Faites en sorte que vos pods et vos nœuds communiquent en toute sécurité au sein de votre cluster, et augmentez les performances de votre réseau en utilisant Managed Inference. Conçu pour activer vos prototypes et faire fonctionner votre production.

Faible latence pour une expérience client optimale.

Les utilisateurs finaux en Europe bénéficieront d'un temps de réponse inférieur à 200 ms pour recevoir les premiers tokens en streaming, idéal pour les dialogues interactifs et les flux de travail agentiques, même avec des longueurs de contexte élevées.

Sorties structurées pour une utilisation facile.

Notre mode JSON intégré ou notre schéma JSON peut extraire et transformer les sorties non structurées des LLMs en données structurées, exploitables, fiables et lisibles par machine.

Appel de fonctions natives

Les modèles d'IA générative proposés par Scaleway peuvent se connecter à des outils externes via des fonctions serverless. Intégrez des LLMs avec des fonctions ou des API personnalisées, et vous pourrez facilement créer des applications capables d'interagir avec des systèmes externes. Un système essentiel pour les agents autonomes.

Commencez avec des tutoriels

Retrieval-Augmented Generation (RAG)Apprenez à implémenter la Génération Augmentée par Récupération (RAG) en utilisant LangChain et Managed Inference.
Traitement des images avec un modèle de vision.Obtenir des résultats structurés avec le modèle de vision Pixtral.
Commencez avec l'IA agentique.Utilisez l'appel de fonction sur Llama 3.1 en open-weight.
Interface conviviale pour mettre fin à l'IT clandestine (shadow IT).Déployer Open WebUI pour exploiter des modèles d'IA puissants dans une interface conviviale et auto-hébergée.

Tutorials

Foire aux questions

Comment déployer mon modèle personnalisé ?

L'équipe travaille sur une fonctionnalité de modèle personnalisé pour vous permettre de déployer des modèles en dehors de la bibliothèque Scaleway.
Dans un premier temps, vous pourrez déployer n'importe quel modèle trouvé dans la bibliothèque Hugging Face.
Plus tard en 2025, vous pourrez télécharger votre propre modèle affiné.

Puis-je déployer des modèles propriétaires ?

Avec Managed Inference, vous êtes responsable du respect des exigences de licence, de la même manière que pour tout logiciel que vous installez sur des instances GPU.

Quelle est la performance de ces produits MaaS ?

Les API génératives sont alimentées par des serveurs dont les ressources sont mutualisées. Comme pour toutes les ressources partagées, les performances dépendent des usages des utilisateurs et peuvent varier considérablement. Pour bénéficier de performances plus garanties, vous devez opter pour une infrastructure GPU dédiée proposée par Managed Inference.

Quelles sont les limites de débit et les quotas ?

Tout modèle proposé via les API génératives de Scaleway est limité par :

Le nombre de tokens par minute
Le nombre de requêtes par minute

Configurez votre carte de crédit et passez le processus KYC pour bénéficier des limites officielles.
Consultez la documentation dédiée pour en savoir plus.

Si vous avez besoin de quotas supplémentaires, contactez votre représentant commercial ou envoyez-nous un ticket.

Comment mes données sont-elles sécurisées via ces produits MaaS ?

Les API génératives sont conformes au Règlement Général sur la Protection des Données (RGPD), garantissant que toutes les données personnelles sont traitées conformément aux lois de l'Union Européenne. Cela inclut la mise en place de mesures de protection des données robustes, le maintien de la transparence dans les activités de traitement des données et le respect des droits des clients.

Les données personnelles collectées sont utilisées exclusivement pour :

Fournir l'accès aux services d'API générative.
Générer et gérer les clés API.
Surveiller et améliorer le service API génératif à travers des données anonymisées pour des analyses statistiques.
Nous ne collectons pas, ne lisons pas, ne réutilisons pas et n'analysons pas le contenu de vos entrées, requêtes ou sorties générées par l'API.
Vos données ne sont pas accessibles par d'autres clients Scaleway.
Vos données ne sont pas accessibles aux créateurs des modèles de langage sous-jacents (LLM).
Vos données ne sont pas accessibles par des produits ou services tiers.

Découvrez la documentation complète sur la confidentialité des données ici.