Face à la transformation numérique des entreprises, la création d’une infrastructure réseau orientée IA est devenue un défi majeur. Avec l'augmentation de la demande de formation sur de grands modèles et d'inférence en temps réel, l'architecture réseau traditionnelle est confrontée à une pression énorme en termes de bande passante, de latence et de complexité de gestion. Nous devons le repenser du point de vue de l’efficacité du flux de données. Le cadre réseau doit être repensé du point de vue de la planification des ressources informatiques et le cadre réseau doit être repensé du point de vue de la gestion de la sécurité pour garantir une transmission stable et fiable des charges de travail d'IA. Les services d'IA modernes nécessitent non seulement un débit élevé, mais nécessitent également des capacités intelligentes de planification du trafic et des fonctionnalités d'expansion élastique.
Pourquoi l'IA nécessite une architecture réseau dédiée
Les entreprises traditionnelles conçoivent des réseaux pour le trafic nord-sud, tandis que les pôles de formation en IA génèrent un trafic dense est-ouest. Lors de la synchronisation des paramètres entre les serveurs GPU, la capacité tampon des commutateurs ordinaires peut ne pas être en mesure de gérer le trafic en rafale, ce qui entraîne des pertes de paquets et des retards de formation. Ce qui est plus grave, c'est que lorsque les réseaux traditionnels ne prennent pas en charge nativement le protocole RDMA et ne peuvent pas accéder directement à la mémoire distante, l'efficacité informatique sera considérablement réduite.
Lors du déploiement proprement dit, nous avons remarqué que les entreprises qui ont adopté une architecture réseau dédiée à l'IA ont amélioré l'efficacité de la formation de leurs modèles de plus de 40 %. En effet, l'architecture spécialement conçue utilise une technologie de réseau sans perte pour éliminer les retransmissions de données dues à la congestion et utilise pleinement toute la bande passante disponible via un routage multi-chemins. Après qu'une entreprise de commerce électronique a déployé un réseau dédié à l'IA, le cycle de mise à jour de son modèle de recommandation a été raccourci de quelques heures à quelques minutes, améliorant considérablement l'expérience utilisateur et le taux de conversion commerciale.
Comment planifier les besoins en bande passante pour les réseaux IA
La taille du modèle, la fréquence de formation et le nombre de nœuds distribués doivent être pris en compte de manière globale pour déterminer les exigences en matière de bande passante du réseau IA. Pour les applications d’IA à moyenne échelle, il est recommandé de commencer par un réseau fédérateur et de conserver des fonctionnalités qui peuvent être mises à niveau en douceur. La clé est de distinguer les différentes exigences du réseau de formation et du réseau d'inférence. Le réseau de formation nécessite une bande passante élevée et soutenue, tandis que le réseau d'inférence se concentre davantage sur le traitement du trafic à faible latence et en rafale.
Lors de l'élaboration des plans réels, en plus de la demande actuelle, une marge de bande passante de 30 à 50 % doit être réservée pour faire face à l'augmentation de la complexité des modèles. Nous avons rencontré un jour un client qui sous-estimait les besoins en bande passante du projet d'analyse vidéo, ce qui entraînait de sérieux retards lors du processus de transmission du flux vidéo 4K. Plus tard, avec le déploiement de commutateurs dotés de tampons profonds et de fonctions intelligentes de gestion du trafic, le besoin de traitement en temps réel a été résolu. Dans cette optique, le succès d’un projet d’IA est souvent déterminé par son maillon infrastructurel le plus faible.
Choisissez le routage filaire ou sans fil
En matière de câbles filaires, la fibre optique reste le premier choix des pôles de formation en IA. Il a une latence de l’ordre de la microseconde et des fonctionnalités sans perte qui ne peuvent pas être remplacées. Cependant, ces dernières années, la technologie Ethernet a évolué, offrant aux entreprises une option plus rentable, en particulier dans un scénario de cloud hybride. Les solutions sans fil telles que les réseaux privés Wi-Fi6E et 5G sont plus adaptées à un accès plus flexible aux appareils Edge AI, mais leur stabilité doit être évaluée très attentivement.
Nous avons déployé un projet de fabrication intelligente qui utilise une solution en couches. L'atelier de l'usine utilise un réseau privé 5G pour connecter les robots mobiles, la station d'inspection qualité de la ligne de production utilise Gigabit Ethernet et le cluster de formation central utilise 200G. Cette architecture hybride garantit la fiabilité des services clés et répond aux besoins de flexibilité des appareils mobiles. Ce qui est particulièrement important est la nécessité de formuler une politique de sécurité unifiée pour garantir la sécurité du flux de données entre les différents domaines du réseau.
L'impact de la latence du réseau sur les performances de l'IA
Pour les applications d’IA en temps réel, telles que la conduite autonome ou le diagnostic médical, la latence du réseau est directement liée à la sécurité du système. Les statistiques de l'expérience montrent qu'une fois que le délai de bout en bout dépasse 50 millisecondes, la précision de prise de décision du système de conduite autonome sera réduite de 15 %. Plus précisément, une latence élevée finira par désynchroniser la boucle perception-décision-exécution, permettant au modèle d’IA de porter des jugements basés sur des données obsolètes.
Lors de l’utilisation de réseaux définis par logiciel, outre la latence de transmission, nous devons également prêter attention à la latence de traitement. Le système de contrôle des risques IA d'une institution financière avait autrefois un temps de réponse de détection de fraude qui dépassait l'accord de niveau de service en raison du retard supplémentaire causé par l'inspection approfondie des paquets par le pare-feu. Plus tard, grâce au déploiement de commutateurs programmables et de cartes réseau intelligentes, les tâches de traitement du plan de données ont été transférées vers le matériel et les exigences commerciales d'une réponse en microsecondes ont été satisfaites.
Comment surveiller la santé du réseau IA
Pour surveiller efficacement le réseau IA, ce comportement doit aller au-delà de la portée des indicateurs SNMP traditionnels et se concentrer sur des indicateurs spécifiques à l'IA tels que le taux de perte de paquets RDMA, le délai de communication entre les GPU et l'utilisation de la bande passante. Il est recommandé ici de déployer un système de surveillance hors bande. L'objectif est d'éviter que le trafic généré lors du processus de surveillance n'affecte la transmission des données commerciales. Dans le même temps, il est également extrêmement essentiel d'établir une analyse de corrélation entre les performances du réseau et les indicateurs commerciaux de l'IA – par exemple, une analyse de corrélation entre la vitesse de formation du modèle et les changements dans le débit du réseau.
La plate-forme de surveillance de réseau IA que nous avons construite pour un institut de recherche scientifique peut surveiller en temps réel les pertes sporadiques de paquets causées par un dépassement de tampon de la carte réseau. Bien que ce niveau de perte de paquets n'entraîne pas d'interruption du réseau, il réduira considérablement l'efficacité de la formation distribuée. En définissant des alarmes de seuil intelligentes, l'équipe d'exploitation et de maintenance peut résoudre les goulots d'étranglement potentiels en matière de performances avant que les utilisateurs ne les remarquent, garantissant ainsi la continuité de la formation sur un modèle de langage à grande échelle.
Considérations sur la sécurité du réseau IA
Lors de la mise en œuvre d'une protection de sécurité pour les réseaux d'IA, trois aspects nécessitent une attention particulière : la formation au chiffrement de la transmission des données, la protection de la synchronisation des paramètres du modèle et le contrôle d'accès au service d'inférence. Étant donné que les charges de travail d’IA impliquent souvent des données sensibles, il est recommandé d’adopter une méthode de transmission cryptée de bout en bout. Même dans les scénarios de calcul haute performance, il faut trouver un équilibre entre sécurité et performances. Dans le même temps, une protection modèle de la propriété intellectuelle nécessite également des stratégies de cybersécurité dédiées.
Dans un cas récent, un client a découvert que l'interface API de son service d'IA avait subi une attaque de vol de modèle bien conçue. Les attaquants utilisent un grand nombre d'API de requête et analysent les résultats renvoyés pour tenter de reconstruire le modèle d'origine. Nous avons efficacement évité les fuites de modèles en déployant une passerelle API dédiée et en mettant en œuvre des mesures de protection telles que la limite de fréquence des requêtes et les perturbations de sortie. Ce cas rappelle que la sécurité des réseaux IA doit couvrir l’ensemble du cycle de vie du modèle.
Lors du déploiement de l’infrastructure réseau d’IA, le défi le plus important que vous rencontrez est-il un problème d’optimisation des performances ou un problème de gestion de la sécurité ? Nous vous invitons sincèrement à entrer dans la zone de commentaires et à partager votre propre expérience. Si vous pensez que cet article est d'une certaine valeur utile, cliquez sur J'aime et envoyez-le ensuite à d'autres collègues dans le besoin.
Laisser un commentaire