Alpha-News.org ➤ L'actualité du monde est ici
DeepSeek se précipite pour lancer un nouveau modèle d'IA alors que la Chine mise tout.

BEIJING/HONG KONG/SINGAPOUR, 25 février (Reuters) - DeepSeek cherche à capitaliser sur son avantage. La start-up chinoise a déclenché une vente de plus de 1 billion de dollars sur les marchés mondiaux des actions le mois dernier avec un modèle de raisonnement en intelligence artificielle à prix réduit qui a surpassé de nombreux concurrents occidentaux. Maintenant, la société accélère le lancement du successeur du modèle R1 de janvier, selon trois personnes proches de l'entreprise. DeepSeek avait prévu de sortir le modèle R2 début mai, mais souhaite désormais le présenter le plus tôt possible, ont déclaré deux d'entre elles, sans donner de détails précis.

Les rivaux sont encore en train de digérer les implications du R1, qui a été construit avec des puces Nvidia moins puissantes mais qui est compétitif avec ceux développés à des coûts de centaines de milliards de dollars par les géants technologiques américains.

"Le lancement du modèle R2 de DeepSeek pourrait être un moment décisif dans l'industrie de l'IA", a déclaré Vijayasimha Alilughatta, directeur des opérations du fournisseur de services technologiques indien Zensar. Le succès de DeepSeek dans la création de modèles d'IA rentables "pourrait probablement inciter les entreprises du monde entier à accélérer leurs propres efforts... brisant l'emprise des quelques acteurs dominants dans le domaine", a-t-il ajouté.

R2 est attendu de pied ferme par le gouvernement américain, qui a identifié le leadership en matière d'IA comme une priorité nationale. Sa sortie pourrait également galvaniser les autorités et les entreprises chinoises, des dizaines d'entre elles déclarant avoir commencé à intégrer les modèles DeepSeek dans leurs produits.

Peu d'informations sont disponibles sur DeepSeek, dont le fondateur est devenu milliardaire grâce à son fonds de couverture quantitatif High-Flyer. Liang, décrit par un ancien employeur comme "discret et introverti", n'a pas parlé aux médias depuis juillet 2024.

Les anciens employés ont raconté l'histoire d'une entreprise qui fonctionnait davantage comme un laboratoire de recherche que comme une entreprise à but lucratif et qui n'était pas encombrée par les traditions hiérarchiques de l'industrie technologique chinoise sous pression, même si elle était responsable de ce que de nombreux investisseurs considèrent comme la dernière percée en matière d'IA.

Liang, originaire d'un village rural de la province méridionale de Guangdong en 1985, a obtenu par la suite des diplômes en génie des communications à l'université d'élite Zhejiang. L'une de ses premières expériences professionnelles consistait à diriger un service de recherche dans une société d'imagerie intelligente à Shanghai. Son ancien patron, Zhou Chaoen, a déclaré aux médias d'État le 9 février que Liang avait engagé des ingénieurs algorithmiques primés et opéré avec un "style de gestion plat".

Chez DeepSeek et High-Flyer, Liang a également évité les pratiques des géants technologiques chinois connus pour leur gestion rigide, leurs bas salaires pour les jeunes employés et le "996" - travailler de 9h à 21h six jours par semaine.

Liang a ouvert son bureau de Beijing à proximité des universités de Tsinghua et de Pékin, les deux institutions éducatives les plus prestigieuses de Chine. Il se plongeait régulièrement dans les détails techniques et était heureux de travailler aux côtés de stagiaires de la génération Z et de jeunes diplômés, qui constituaient l'essentiel de sa main-d'œuvre, ont déclaré deux anciens employés. Ils ont également décrit un environnement collaboratif où les journées de travail duraient habituellement huit heures.

"Liang nous a donné le contrôle et nous a traités en tant qu'experts. Il posait constamment des questions et apprenait à nos côtés", a déclaré Benjamin Liu, 26 ans, qui a quitté l'entreprise en septembre. "DeepSeek m'a permis de prendre en charge des parties cruciales du processus, ce qui était très excitant."

Alors que Baidu et d'autres géants technologiques chinois se ruaient pour développer leurs versions grand public de ChatGPT en 2023 et tirer profit du boom mondial de l'IA, Liang a délibérément évité de dépenser massivement dans le développement d'applications, se concentrant plutôt sur l'amélioration de la qualité du modèle d'IA.

DeepSeek et High-Flyer sont connus pour offrir des rémunérations généreuses, selon trois personnes familières avec leurs pratiques de rémunération. À High-Flyer, il n'est pas rare qu'un data scientist senior gagne 1,5 million de yuans par an, alors que les concurrents paient rarement plus de 800 000 yuans, a déclaré l'une des personnes, un manager concurrent de fonds quantitatifs qui connaît Liang.

La générosité était financée par High-Flyer, devenu l'un des fonds quantitatifs les plus réussis en Chine, et qui, même après une réduction d'activité dans le secteur, gère encore des dizaines de milliards de yuans, selon deux personnes de l'industrie.

Le succès de DeepSeek avec un modèle d'IA à bas coût repose sur l'investissement de dix ans et substantiel de High-Flyer dans la recherche et la puissance de calcul, ont déclaré trois personnes.

Le fonds quantitatif a été un précurseur dans le trading d'IA, et un cadre supérieur a déclaré en 2020 que High-Flyer misait tout sur l'IA en réinvestissant 70 % de ses revenus, principalement dans la recherche en IA.

High-Flyer a dépensé 1,2 milliard de yuans pour deux clusters d'IA supercalculés en 2020 et 2021. Le deuxième cluster, Fire-Flyer II, était composé de près de 10 000 puces Nvidia A100, utilisées pour l'entraînement des modèles d'IA.

DeepSeek n'avait pas encore été créée à cette époque, l'accumulation de puissance de calcul a donc attiré l'attention des régulateurs chinois en valeurs mobilières, a déclaré une personne ayant une connaissance directe de la pensée des responsables.

" Les régulateurs voulaient savoir pourquoi ils avaient besoin de tant de puces? " a indiqué la personne. " Comment allaient-ils les utiliser? Quel impact cela aurait-il sur le marché? "

Les autorités ont choisi de ne pas intervenir, une décision qui se révélera cruciale pour la fortune de DeepSeek : les États-Unis ont interdit l'exportation de puces A100 vers la Chine en 2022, à un moment où Fire-Fly II était déjà opérationnel.

Pékin célèbre désormais DeepSeek, mais a demandé à l'entreprise de ne pas s'engager avec les médias sans approbation, selon une personne proche de la pensée officielle chinoise.

Les autorités ont demandé à Liang de rester discret parce qu'elles craignaient que trop de publicité médiatique attire une attention inutile, a déclaré la personne.

Le cabinet chinois, le ministère du commerce ainsi que le régulateur des valeurs mobilières de Chine n'ont pas répondu aux demandes de commentaire.

En tant que l'une des rares entreprises possédant un grand cluster A100, High-Flyer et DeepSeek ont pu attirer certains des meilleurs talents de recherche de Chine, ont déclaré deux anciens employés.

" L'avantage clé de ces vastes ressources (informatiques) est qu'elles permettent des expérimentations à grande échelle", a déclaré Liu, l'ancien employé.

Certains entrepreneurs occidentaux en IA, comme le PDG de Scale AI, Alexandr Wang, ont affirmé que DeepSeek disposait de jusqu'à 50 000 puces Nvidia haut de gamme interdites à l'exportation vers la Chine. Il n'a pas fourni de preuves pour l'allégation ou répondu aux demandes de Reuters pour fournir des preuves.

DeepSeek n'a pas répondu aux allégations de Wang. Deux anciens employés ont attribué le succès de l'entreprise à l'accent mis par Liang sur...

La start-up utilisait des techniques comme Mixture-of-Experts (MoE) et multi-head latent attention (MLA), qui entraînent des coûts de calcul beaucoup plus bas, comme en témoignent ses articles de recherche.

La technique MoE divise un modèle d'IA en différentes spécialités et n'active que celles liées à une requête, par opposition aux architectures plus courantes qui utilisent l'ensemble du modèle.

L'architecture MLA permet à un modèle de traiter simultanément différents aspects d'une même information, l'aidant ainsi à détecter plus efficacement les détails clés.

Alors que des concurrents comme la société française Mistral ont développé des modèles basés sur le MoE, DeepSeek a été la première entreprise à s'appuyer fortement sur cette architecture tout en atteignant la parité avec des modèles plus coûteux.

Le prix de DeepSeek était de 20 à 40 fois moins cher que ce qu'OpenAI facturait pour des modèles équivalents, ont estimé les analystes de la société de courtage Bernstein début février.

Pour l'instant, les géants technologiques occidentaux et chinois ont indiqué leur intention de continuer à investir massivement dans l'IA, mais le succès de DeepSeek avec le R1 et son modèle V3 antérieur a incité certains à modifier leur stratégie.

OpenAI a baissé ses prix ce mois-ci, tandis que Gemini de Google a proposé des tarifs réduits. Depuis le lancement du R1, OpenAI a également lancé un modèle O3-Mini qui repose sur une moindre puissance de calcul.

Adnan Masood, du fournisseur de services technologiques américain UST, a déclaré à Reuters que son laboratoire avait effectué des tests comparatifs révélant que le R1 utilisait souvent trois fois plus de jetons, ou unités de données traitées par le modèle d'IA, que le modèle à petite échelle d'OpenAI.

Avant même que le R1 n'attire l'attention mondiale, des signes montraient que DeepSeek avait gagné les faveurs de Pékin. En janvier, les médias d'État ont rapporté que Liang avait assisté à une réunion avec Li Qiang, premier ministre chinois à Beijing en tant que représentant désigné du secteur de l'IA, devant les dirigeants d'entreprises mieux connus.

Le battage médiatique subséquent sur la compétitivité des coûts de ses modèles a renforcé la croyance de Pékin en sa capacité à surpasser les États-Unis, les entreprises chinoises et les organismes gouvernementaux adoptant les modèles DeepSeek à un rythme qui n'a pas été offert aux autres entreprises.

Au moins 13 gouvernements de villes chinoises et 10 sociétés énergétiques publiques déclarent avoir déployé DeepSeek dans leurs systèmes, tandis que les géants technologiques Lenovo, Baidu et Tencent - propriétaire de l'application de médias sociaux chinoise la plus importante WeChat - ont intégré les modèles de DeepSeek dans leurs produits.

Xi Jinping et Li "ont signalé qu'ils soutiennent DeepSeek", a déclaré Alfred Wu, expert en politiques chinoises à l'École de politique publique Lee Kuan Yew de Singapour. "Maintenant, tout le monde l'approuve simplement."

L'embrassade chinoise intervient alors que des gouvernements de la Corée du Sud à l'Italie retirent DeepSeek des magasins d'applications nationaux, invoquant des préoccupations en matière de confidentialité.

"Si DeepSeek devient le modèle d'IA privilégié par les entités étatiques chinoises, les régulateurs occidentaux pourraient y voir une raison supplémentaire d'accentuer les restrictions sur les puces d'IA ou les collaborations logicielles", a déclaré Stephen Wu, expert en IA et fondateur du hedge fund Carthage Capital.

Des limites supplémentaires sur les puces d'IA avancées constituent un défi que Liang a reconnu.

" Notre problème n'a jamais été le financement ", a-t-il déclaré à Waves en juillet. " C'est l'embargo sur les puces haut de gamme ".