LLM Inference

Servez des modèles d'IA générative et répondez à tous les prompts de vos utilisateurs européens en toute sécurité.

Choisissez parmi les LLM prêts à être servis

Qu'est-ce qui accelère l'inférence ? L'optimisation du modèle d'IA utilisé est un leviers. Pour être utilisé rapidement, un modèle doit être optimisé pour les machines (GPU) qui l'exécutent.
Ce n'est pas toujours une mince affaire, et le processus peut prendre beaucoup de temps. C'est pourquoi Scaleway fournit une bibliothèque de modèles évolutifs, avec des LLM optimisés.

Bénéficier d'une infrastructure H100-PCIe dédiée

Les Instances GPU H100 PCIe excellent pour inférer les modèles les plus exigeants. En s'appuyant sur des formats de données avancés et sur son moteur "transformer Engine" innovant, les Instances GPU H100 PCIe multiplient par 30 la vitesse d'inférence par rapport à leur prédécesseur, le GPU NVIDIA A100.

Utilisez un Cloud Européen complétement sécurisé

Bénéficiez d'une sécurité sur mesure pour votre infrastructure : des environnements VPC hautement sécurisés aux configurations accessibles depuis Internet et des tokens IAM.
Contrôle total des données : aucun stockage ni accès d'un tiers à vos données (prompts et réponses), ce qui garantit qu'elles restent exclusivement les vôtres et qu'elles se trouvent en Europe.

Zones disponibles :
Paris:PAR 2

Les meilleurs LLMs Open-Weights

Mixtral-8x7B-Instruct-v0.1

Entrainé sur Nabuchodonosor 2023 de Scaleway, Mixtral-8x7B est un modèle de type Sparse Mixture of Experts génératif de pointe. Il a été travaillé pour surpasser les performances du modèle Llama 2 70B dans une cas d'usage.

Bénéficier d'un écosystème Cloud européen sécurisé

Réseau privé

Vos LLMs sont accessibles via une connexion sécurisée grâce à un réseau privé régional résilient.

En savoir plus

Gestion des accès

Nous rendons les terminaux d'IA générative compatibles avec la gestion des identités et des accès de Scaleway (IAM), afin que vos déploiements soient conformes aux exigences de votre architecture d'entreprise.

En savoir plus

Observabilité

Identifiez les goulots d'étranglement dans vos déploiements, visualisez les demandes d'inférence en temps réel et faites même état de votre consommation d'énergie grâce à l'intégration de solution d'observabilité entièrement managée (Cockpit)

En savoir plus
  • Scaleway est un Partenaire Elite de NVIDIA