Crédit photo : Unplash
La rĂ©cente mĂ©diatisation de DeepSeek-R1, le nouveau modĂšle Ă chaĂźne de raisonnement dĂ©veloppĂ© par DeepSeek, a fait lâeffet dâune onde de choc aux Ătats-Unis de par ses rĂ©sultats trĂšs prometteurs, rivalisant avec les champions amĂ©ricains (OpenAI, Anthropic, Claude notamment).
Rapidement, les modÚles de DeepSeek se sont vus reprocher des biais manifestes par la presse sur des questions sensibles, telles que le rÎle du Parti communiste chinois, la situation à Taiwan ou encore les événements de la place Tiananmen (The Guardian).
Ces biais, loin dâĂȘtre nouveaux ou exclusifs Ă DeepSeek, sont connus et inhĂ©rent Ă ces modĂšles de langage.
Des acteurs américains majeurs comme OpenAI et Meta ont aussi été épinglés pour leurs préjugés sexistes (Le Monde) tandis que tout récemment xAI et son modÚle Grok ont été pointés du doigt pour de fortes tendances climatosceptique (Theo Alves Da Costa).
La question se pose : comment peut-on garantir une intelligence artificielle digne de confiance ?
LâIA de Confiance repose sur un consensus mondial articulĂ© autour de plusieurs piliers : la robustesse technique garantissant la fiabilitĂ© des algorithmes, le respect de la vie privĂ©e et une gouvernance transparente des donnĂ©es, la diversitĂ© et lâĂ©quitĂ© dans les reprĂ©sentations, le contrĂŽle humain ainsi que la responsabilitĂ© environnementale et sociĂ©tale.
Pour apprĂ©hender ces dĂ©fis et les appliquer au contexte actuel, il est essentiel de comprendre comment se construisent les modĂšles de langage actuels (dits LLM : Large Language Model). La premiĂšre phase de leur Ă©laboration consiste en un apprentissage massif, oĂč des milliards (voir des billions) de contenus textuels sont exploitĂ©s pour identifier des patterns linguistiques et des structures syntaxiques. Ce modĂšle de « fondation » prĂ©dit ensuite la probabilitĂ© dâun mot suivant dans une chaĂźne de texte.
Vient ensuite la phase dâinstruction, qui affine le comportement du modĂšle pour le rendre apte Ă rĂ©pondre de maniĂšre adĂ©quate aux questions humaines et Ă Ă©viter les dĂ©rives â telles que la reproduction de biais ou la formulation de rĂ©ponses potentiellement nuisibles.
La qualitĂ© et la fiabilitĂ© dâun LLM dĂ©pendent donc, en grande partie, de ces 2 phases.
Certaines critiques portent notamment sur la provenance des donnĂ©es utilisĂ©es lors de lâentrainement des modĂšles dâOpenAI, des interrogations notamment soulevĂ©s par lâaspect Ă©thique de la collecte et du respect des droits dâauteurs.
Dâautre part, DeepSeek est soupçonnĂ© de censurer les questions pouvant critiquer le parti chinois, avec une information initialement affichĂ©e qui disparaĂźt en fin de rĂ©ponse.
Le marchĂ© des modĂšles de langage se divise aujourdâhui en plusieurs catĂ©gories.
Dâune part, on retrouve des solutions propriĂ©taires â comme celles dâOpenAI (avec ses modĂšles GPT), de Google (avec Gemini) ou dâAnthropic (avec Claude) â, dont lâaccĂšs et les algorithmes restent souvent opaques. Dâautre part, des initiatives en Open-Weight, Ă lâinstar de Meta avec son modĂšle LLAMA ou de Mistral, permettent aux utilisateurs de consulter lâarchitecture et, dans certains cas, dâaffiner le modĂšle en fonction de besoins spĂ©cifiques. Enfin, les modĂšles vĂ©ritablement Open-Source partagent lâintĂ©gralitĂ© de leur processus de crĂ©ation, des donnĂ©es dâentraĂźnements aux choix architecturaux.
De plus, il est essentiel de baser le choix dâun LLM sur plusieurs critĂšres :
- Robustesse technique (capacités de performance et résilience face aux vulnérabilités)
- Sécurité et conformité réglementaire (respect du RGPD, gestion des droits sur les données)
- Gouvernance (accĂšs et traçabilitĂ© des processus dâapprentissage)
- Impact environnemental (consommation énergétique, empreinte carbone)
Nos Ă©tudes rĂ©vĂšlent dâimportantes disparitĂ©s entre les fournisseurs de modĂšles de langage sur plusieurs dimensions clĂ©s, notamment lâimpact environnemental, le coĂ»t financier et la conformitĂ© rĂ©glementaire.
Lâanalyse de lâempreinte carbone par requĂȘte â sur une tĂąche aussi simple que la reformulation dâun e-mail court â met en Ă©vidence des Ă©carts significatifs entre les modĂšles. Par exemple, Gemini 2.0 Flash de Google affiche une consommation estimĂ©e Ă 1 gCOâe par requĂȘte, contre 0,7 gCOâe pour Llama 3 70B de Meta, tandis que Claude 3.5 Sonnet dâAnthropic atteint 131 gCOâe, soit un facteur de 100 en plus (donnĂ©es issues de lâoutil Ecologits). Ces disparitĂ©s sâobservent Ă©galement au sein dâun mĂȘme fournisseur : lorsque OpenAI a proposĂ© son nouveau modĂšle trĂšs performant mais Ă©nergivore GPT-4 (68 gCOâe par requĂȘte), tandis que le prĂ©cĂ©dent GPT-3.5 Turbo sâavĂšrait 136 fois plus sobre (0,5 gCOâe). Cette empreinte dĂ©pend aussi fortement du mix energĂ©tique des serveurs (et donc des pays).
En matiĂšre de coĂ»t financier, les Ă©carts sont tout aussi marquĂ©s, notamment pour les utilisateurs dâAPI. Le prix par token peut varier dâun facteur de 200 entre certains modĂšles, Gemini Ă©tant lâun des plus Ă©conomiques tandis que Claude figure parmi les plus onĂ©reux. Cette variabilitĂ© doit ĂȘtre prise en compte lors du choix dâun LLM, en fonction des volumes de requĂȘtes et des budgets allouĂ©s.
Enfin, les exigences en matiĂšre de sĂ©curitĂ© et conformitĂ© rĂ©glementaire diffĂšrent considĂ©rablement selon les fournisseurs. Les interactions avec DeepSeek sont potentiellement soumises Ă lâanalyse des autoritĂ©s chinoises, conformĂ©ment aux lois de la RĂ©publique Populaire de Chine, tandis que Mistral garantit un hĂ©bergement sĂ©curisĂ© des donnĂ©es sur le territoire europĂ©en, en conformitĂ© avec le RGPD pour lui et ses partenaires.
Les dĂ©cideurs doivent Ă©galement Ă©valuer la disponibilitĂ© et lâaccessibilitĂ© du modĂšle (hĂ©bergement local ou externalisĂ©, connecteurs/API) ainsi que son coĂ»t total de possession, afin dâopter pour une solution alignĂ©e sur leurs impĂ©ratifs business, leur politique de sĂ©curitĂ© interne et leur dĂ©marche RSE.
En outre, il est primordial dâavoir conscience du rythme Ă©levĂ© de sortie des fournisseurs. La question se pose de savoir sâil faut privilĂ©gier une architecture flexible, capable dâadopter rapidement de nouveaux modĂšles, ou opter pour une solution stable, dont les performances rĂ©pondent durablement aux objectifs fixĂ©s de son cas dâusage.
Dans un contexte oĂč les attentes sont fortes et les opportunitĂ©s rĂ©elles, lâenjeu est bien dâen comprendre aussi les impacts et les risques : performance mĂ©tier, Ă©conomiques, technologiques, environnementaux et sociĂ©taux.
Ă la croisĂ©e de nos compĂ©tences scientifiques et de nos engagements RSE, ce sujet est Ă nos yeux stratĂ©gique et nous accompagnons les organisations dans la formation, le choix et lâintĂ©gration de modĂšles adaptĂ©s Ă leurs prioritĂ©s. N’hĂ©sitez pas Ă nous contacter pour en discuter !