Expert Kubernetes / IA
publiée le 5/7/2026 10:27:14 AM
Mission longue durée. Garantir la disponibilité, la performance et la stabilité d un cluster IA (GPU/CPU) dans un environnement critique. Missions principales: MCO du cluster IA (GPU/CPU, stockage, réseau); Administration Linux et optimisation des environnements; Exploitation Kubernetes (déploiement, scaling, HA); Supervision avec Prometheus et Grafana; Automatisation Ansible/Bash/Python; Gestion des jobs GPU (priorités, quotas, scheduling); Gestion des incidents et post-mortem; Mise à jour infra (K8s, drivers NVIDIA, OS); Documentation d exploitation ITIL/ITSM. Stack attendue: Linux Ubuntu; Kubernetes certifié; Docker; NVIDIA GPU (CUDA, MIG); Ansible; Prometheus; Grafana; stockage distribué; réseaux (VLAN, LB). Hauts-de-Seine (92)
Voir cette mission avec l'extension Tarss