Instance GPU L40S

Le GPU universel pour les applications basées sur l'IA.

Utilisation universelle

Gérez des charges de travail diverses au sein d'une même architecture. Passez sans difficulté du calibrage des LLMs à l'inférence à haut débit, en passant par le rendering 3D complexe.

Évolutivité rentable

Démarrez partir de 1,47 € de l'heure. Adaptez votre puissance de calcul à vos besoins précis en configurant le nombre de GPUs (de 1 à 8 GPU par nœud).

Pris en charge native de Kubernetes

Gérez facilement votre infrastructure IA. Nos GPUs sont intégrés à Kapsule (notre service Kubernetes entièrement géré par Scaleway) pour un déploiement et une gestion des clusters automatisés.

Le meilleur rapport qualité-prix pour l'IA moderne

Le L40S est le moteur universel de l'ère de l'IA. Il comble le fossé entre l'inférence grand public et le développement haut de gamme, en offrant les 48 Go de mémoire vidéo et la densité de calcul nécessaires pour effectuer un réglage fin efficace en termes de paramètres (PEFT) sur des modèles 70B, ou pour traiter le flux de production à un coût bien inférieur à celui du hardware uniquement dédié au calcul.

: Affinez vos modèles en quelques heures : grâce à ses 48 Go de mémoire par carte, le GPU L40S permet de personnaliser efficacement les modèles de base et d'effectuer des opérations intensives de quantification et de PEFT pour affiner des modèles 70B, sans avoir à investir dans des clusters H100.

: Exploitez des modèles d'IA générative à haut débit. Un seul L40S fournit des réponses instantanées pour les applications de chat et de RAG, en traitant des séquences d'entrée complexes pour des modèles de 2-7B-13B avec une faible latence.

: Grâce à ses cœurs RT de 3e génération, le L40S offre des performances de rendering jusqu'à 2,4 fois supérieures à celles des générations précédentes, ce qui en fait l'outil idéal pour les tâches essentielles de rendering et de graphisme.

Fonctionnalités

Consulter nos tarifs

gpu
GPU
NVIDIA L40S Tensor Core.
processor_type
Architecture
NVIDIA Lovelace 2022.
gpu_memory
VRAM
48 GB GDDR6 par GPU (864 GB/s).
processor
CPU
8-64 vCPUs AMD EPYC™ 7413.
processor_frequency
Fréquence processeur
2.65 Ghz.
gpu_memory
RAM
96-768 GB.
memory_type
Type de RAM
DDR4.
bandwidth
Bande passante réseau
Jusqu'à 20 Gbps.
storage
Stockage
Block Storage et Scratch Local NVMe.
threads_cores
Performance GPU
Tensor Cores 4ème génération, RT Cores 3ème génération.
service_level
SLA
99.5%.

Choisissez votre forfait

Coût estimé

Option and value	Price
ZoneParis 2
Instance1x	0€
Volume10GB	0€
IPv4 flexibleNon	0€

Créez votre GPU L40S aujourd'hui

Innovation verte : jusqu'à 30% d’énergie en moins, 100% renouvelable

DC5 est l'un des centres de données les plus écologiques d'Europe, entièrement alimenté par de l'énergie éolienne et hydraulique renouvelable (certifiée GO), avec un système de refroidissement ultra-efficace utilisant la ventilation directe et le refroidissement adiabatique. Avec un PUE de 1,16 (vs. 1,55 en moyenne dans l'industrie), il réduit la consommation d'énergie jusqu'à 30% par rapport aux centres de données traditionnels.

En savoir plus Nos engagements environnementaux

Besoin de plus de puissance ? Découvrez notre gamme de GPUs

Managed Inference - Dedicated Deployments
Déployez des modèles d'IA dans une infrastructure dédiée, avec une sécurité sur mesure et un débit prévisible.
Découvrez Managed Inference
H100 PCIe GPUs
Puissance dédiée à l'inférence et au calibrage des modèles d'IA.
Discover the range
H100-SXM GPUs
Accélérez le développement d'applications d'IA grâce aux instances GPU H100-SXM.
Découvrez la gamme

Choisissez la plateforme cloud prête pour l'avenir

Souveraineté des données clients

La dépendance est l'ennemi de la résilience. Vos clients souhaitent que leurs données soient hébergées par un fournisseur régional. Gagnez en souveraineté avec nos outils et notre infrastructure multi-cloud.

Des data centers durables

Nous recyclons notre matériel, utilisons uniquement des énergies renouvelables, et minimisons notre consommation d'eau. En outre, notre efficacité énergétique (PUE) est disponible en ligne et en temps réel pour que puissiez vous en rendre compte par vous-même.

Faible latence

Tout écosystème cloud complet se doit d'être entièrement fiable. C'est pourquoi nous proposons 10 zones de disponibilité dans quatre régions différentes.

Foire aux questions

Qu'est-ce qui est compris dans le prix de l'instance ?

Le prix de notre instance GPU comprend le vCPU, la RAM nécessaire pour une performance optimale, un stockage Scratch de 1,6TB. Il n'inclut pas le Block Storage et l'IP flexible.
Pour lancer l'Instance GPU L40S, nous vous recommandons fortement de provisionner un volume supplémentaire de Block Storage, car le Scratch Storage est un stockage éphémère qui disparaît lorsque vous éteignez la machine. L'objectif du Scratch Storage est d'accélérer le transfert de vos données vers le GPU.
Si vous souhaitez obtenir davantage d'informations sur l'utilisation de la mémoire temporaire, cliquez ici
En cas de doute sur le prix, utilisez la calculatrice, elle est faite pour ça !

Comment choisir le GPU adapté à mes besoins ?

Pour trouver la configuration cloud GPU la plus efficace, il faut adapter le matériel à vos besoins techniques précis. Les facteurs clés à évaluer sont les suivants :

Type de charge de travail : effectuez-vous de l'inférence, du calibrage ou de l'entraînement distribué ?

Mémoire GPU (VRAM) : les LLMs et les ensembles de données volumineux nécessitent davantage de VRAM (par exemple 48 Go ou 80 Go) pour éviter les erreurs de mémoire insuffisante.

Évolutivité et interconnexions : vos GPU doivent-ils communiquer à haut débit (par exemple, via NVLink pour de l'entraînement distribué), ou fonctionneront-ils de manière indépendante ?

Ratios CPU et RAM : assurez-vous que votre instance dispose d'une mémoire système suffisante pour alimenter le GPU cloud en données sans créer de ralentissement.

Pour une analyse détaillée de ces facteurs, consultez notre documentation dédiée au choix de votre location de GPU Nvidia ici.

Ajustement et entraînement des LLMs

Inférence à haut débit

Graphisme et rendering professionnels