DeepSeek : Le challenger chinois de l'IA qui bouleverse l'industrie

par Brian Tristam Williams | 03 février, 2025

DeepSeek bouscule l'IA avec un LLM open-source rivalisant avec ChatGPT pour une fraction des coûts, en utilisant un apprentissage optimisé sur des GPU Nvidia H800 aux performances réduites.

L'industrie de l'IA est ébranlée par l'émergence de la société d'IA chinoise DeepSeek (ce lien risque de ne pas fonctionner lorsque vous le visiterez, car une lutte contre une cyberattaque est en cours), qui a développé un grand modèle de langage (LLM= Large Language Model) très performant pour une fraction des coûts de ses homologues occidentaux. Avec sa dernière version open-source sous license MIT, DeepSeek bouleverse le paysage de l'IA, suscite beaucoup de réactions sur le marché et alimente les spéculations sur l'avenir de la concurrence IA.

DeepSeek : Une centrale d'IA à un prix avantageux?

DeepSeek a pris le domaine de l'IA par surprise. Source : @ARAMYAN/Adobe Stock @ARAMYAN/Adobe Stock

Le modèle phare de DeepSeek, DeepSeek-R1, n'aurait coûté que 5.6 millions de dollars pour être entraîné, soit une fraction des budgets de plus de 100 millions de dollars des géants de l´IA, tels que OpenAI, Google et Anthropic. Malgré cela, DeepSeek-R1 obtient des résultats comparables à ceux de ChatGPT tout en coûtant beaucoup moins cher.

Contrairement à de nombreux modèles d'IA qui reposent sur les algorithmes de force brute, DeepSeek a optimisé la phase d'apprentissage en se concentrant sur l'apprentissage par renforcement et le raisonnement étape par étape, améliorant ainsi la précision, sans surcharge excessive de calcul. Le modèle décompose les problèmes complexes en étapes plus petites, de la même manière qu'il est plus facile de faire une longue division si l'on effectue une telle opération à la main sur du papier.

Efficacité du matériel et déploiement local

Alors que les restrictions américaines à l'exportation ont empêché la Chine d'obtenir les meilleures puces d'IA de Nvidia (telles que la H200 et la future B100), DeepSeek a réussi à contourner ces limitations. Au lieu de s'appuyer sur du matériel haut de gamme, l'entreprise a entraîné son modèle à l'aide de 2'048 GPU Nvidia H800, moins puissants que les H100s censurés, mais tout de même efficaces pour des charges de travail d'IA. Le H800 est "une version modifiée du H100 spécifiquement vendu sur le marché chinois en raison des réglementations d'exportation" selon NVIDIA.

Pour renforcer son potentiel disruptif, DeepSeek a publié des versions distillées de son modèle, ce qui lui permet de fonctionner sur du matériel grand public. Une de ces versions a récemment fait l'objet d'une démonstration locale sur un Raspberry Pi équipé d'une mémoire SSD et d'un module Hailo (module accélérateur), atteignant 200 jetons par seconde. Regardez Jeff Geerling réaliser cette prouesse :

Les puces H800 sont moins puissantes que les puces H100s censurées, mais elles sont tout de même capables d'entraîner l'IA à grande échelle. La nécessité d'utiliser ces puces d'IA bas de gamme oblige les chercheurs chinois à optimiser leurs méthodes d'apprentissage, en s'appuyant davantage sur l'efficacité des logiciels que sur le calcul de force brute. Malgré cela, DeepSeek a réussi à atteindre des performances d'IA compétitives, prouvant qu'une conception stratégique des algorithmes peut compenser les limitations matérielles.

Réaction du marché et impact sur l'industrie

L'essor rapide de DeepSeek a déjà fait des vagues sur les marchés mondiaux. À la suite de son lancement, l'indice Nasdaq Composite a plongé de près de 3 % en une journée, sur les valeurs technologiques, en particulier chez les entreprises à forte implication dans l'IA telles que Nvidia, Microsoft et Alphabet — en subissant des pertes. L'industrie de l'IA est maintenant confrontée à la réalité d'une concurrence de haute qualité, à faible coût et à code source ouvert, qui pourrait remettre en question les modèles de chiffres d'affaires des services d'IA propriétaires.

Le Nasdaq Composite a plongé au matin du lundi 27 janvier. Source : Google.

Une évolution vers l'IA périphérique?

L' un des aspects les plus intéressants de l'approche de DeepSeek est son impact potentiel sur IoT et edge computing. Avec des algorithmes d'IA légers capables de fonctionner sur du matériel de faible puissance, DeepSeek ouvre la voie au traitement local et en temps réel de l'IA dans des secteurs tels que la gestion de l'énergie, l'automatisation et les systèmes embarqués. Cela pourrait réduire la dépendance aux services d'IA basés sur l'informatique en nuage, diminuer les coûts d'exploitation et renforcer la protection de la vie privée en conservant le traitement des données sur le dispositif cible.

L' avenir de la concurrence en matière d'IA

DeepSeek ayant prouvé qu'il était possible d'entraîner des modèles d'IA haut de gamme en engageant une fraction des coûts traditionnels, des conséquences plus vastes sont évidentes:

L'IA open-source devient de plus en plus compétitive.
L'efficacité et les améliorations de l'algorithme peuvent être plus importantes que le calcul de force brute.
L'écosystème chinois de l'IA évolue rapidement, malgré les contraintes matérielles.

Il reste à voir si DeepSeek continuera à chambouler le marché, mais une chose est sûre : La course à l'IA devient beaucoup plus intéressante.

Je m'abonne

Abonnez-vous à la balise thématique intelligence artificielle pour être averti dès qu'une information relative à ce sujet sera publiée par Elektor !