Utilisation universelle
Gérez des charges de travail diverses au sein d'une même architecture. Passez sans difficulté du calibrage des LLMs à l'inférence à haut débit, en passant par le rendering 3D complexe.
Le GPU universel pour les applications basées sur l'IA.

Gérez des charges de travail diverses au sein d'une même architecture. Passez sans difficulté du calibrage des LLMs à l'inférence à haut débit, en passant par le rendering 3D complexe.
Démarrez partir de 1,47 € de l'heure. Adaptez votre puissance de calcul à vos besoins précis en configurant le nombre de GPUs (de 1 à 8 GPU par nœud).
Gérez facilement votre infrastructure IA. Nos GPUs sont intégrés à Kapsule (notre service Kubernetes entièrement géré par Scaleway) pour un déploiement et une gestion des clusters automatisés.
Le L40S est le moteur universel de l'ère de l'IA. Il comble le fossé entre l'inférence grand public et le développement haut de gamme, en offrant les 48 Go de mémoire vidéo et la densité de calcul nécessaires pour effectuer un réglage fin efficace en termes de paramètres (PEFT) sur des modèles 70B, ou pour traiter le flux de production à un coût bien inférieur à celui du hardware uniquement dédié au calcul.
Affinez vos modèles en quelques heures : grâce à ses 48 Go de mémoire par carte, le GPU L40S permet de personnaliser efficacement les modèles de base et d'effectuer des opérations intensives de quantification et de PEFT pour affiner des modèles 70B, sans avoir à investir dans des clusters H100.
Exploitez des modèles d'IA générative à haut débit. Un seul L40S fournit des réponses instantanées pour les applications de chat et de RAG, en traitant des séquences d'entrée complexes pour des modèles de 2-7B-13B avec une faible latence.
Grâce à ses cœurs RT de 3e génération, le L40S offre des performances de rendering jusqu'à 2,4 fois supérieures à celles des générations précédentes, ce qui en fait l'outil idéal pour les tâches essentielles de rendering et de graphisme.

GPU
NVIDIA L40S Tensor Core.
Architecture
NVIDIA Lovelace 2022.
VRAM
48 GB GDDR6 par GPU (864 GB/s).
CPU
8-64 vCPUs AMD EPYC™ 7413.
Fréquence processeur
2.65 Ghz.
RAM
96-768 GB.
Type de RAM
DDR4.
Bande passante réseau
Jusqu'à 20 Gbps.
Stockage
Block Storage et Scratch Local NVMe.
Performance GPU
Tensor Cores 4ème génération, RT Cores 3ème génération.
SLA
99.5%.
| Option and value | Price |
|---|---|
| ZoneParis 2 | |
| Instance1x | 0€ |
| Volume10GB | 0€ |
| IPv4 flexibleNon | 0€ |
DC5 est l'un des centres de données les plus écologiques d'Europe, entièrement alimenté par de l'énergie éolienne et hydraulique renouvelable (certifiée GO), avec un système de refroidissement ultra-efficace utilisant la ventilation directe et le refroidissement adiabatique. Avec un PUE de 1,16 (vs. 1,55 en moyenne dans l'industrie), il réduit la consommation d'énergie jusqu'à 30% par rapport aux centres de données traditionnels.

Managed Inference - Dedicated Deployments
Déployez des modèles d'IA dans une infrastructure dédiée, avec une sécurité sur mesure et un débit prévisible.

H100 PCIe GPUs
Puissance dédiée à l'inférence et au calibrage des modèles d'IA.

H100-SXM GPUs
Accélérez le développement d'applications d'IA grâce aux instances GPU H100-SXM.
La dépendance est l'ennemi de la résilience. Vos clients souhaitent que leurs données soient hébergées par un fournisseur régional. Gagnez en souveraineté avec nos outils et notre infrastructure multi-cloud.
Nous recyclons notre matériel, utilisons uniquement des énergies renouvelables, et minimisons notre consommation d'eau. En outre, notre efficacité énergétique (PUE) est disponible en ligne et en temps réel pour que puissiez vous en rendre compte par vous-même.
Tout écosystème cloud complet se doit d'être entièrement fiable. C'est pourquoi nous proposons 10 zones de disponibilité dans quatre régions différentes.
Le prix de notre instance GPU comprend le vCPU, la RAM nécessaire pour une performance optimale, un stockage Scratch de 1,6TB. Il n'inclut pas le Block Storage et l'IP flexible.
Pour lancer l'Instance GPU L40S, nous vous recommandons fortement de provisionner un volume supplémentaire de Block Storage, car le Scratch Storage est un stockage éphémère qui disparaît lorsque vous éteignez la machine. L'objectif du Scratch Storage est d'accélérer le transfert de vos données vers le GPU.
Si vous souhaitez obtenir davantage d'informations sur l'utilisation de la mémoire temporaire, cliquez ici
En cas de doute sur le prix, utilisez la calculatrice, elle est faite pour ça !
Pour trouver la configuration cloud GPU la plus efficace, il faut adapter le matériel à vos besoins techniques précis. Les facteurs clés à évaluer sont les suivants :
Type de charge de travail : effectuez-vous de l'inférence, du calibrage ou de l'entraînement distribué ?
Mémoire GPU (VRAM) : les LLMs et les ensembles de données volumineux nécessitent davantage de VRAM (par exemple 48 Go ou 80 Go) pour éviter les erreurs de mémoire insuffisante.
Évolutivité et interconnexions : vos GPU doivent-ils communiquer à haut débit (par exemple, via NVLink pour de l'entraînement distribué), ou fonctionneront-ils de manière indépendante ?
Ratios CPU et RAM : assurez-vous que votre instance dispose d'une mémoire système suffisante pour alimenter le GPU cloud en données sans créer de ralentissement.
Pour une analyse détaillée de ces facteurs, consultez notre documentation dédiée au choix de votre location de GPU Nvidia ici.