fr
contact
BACK TO THE LIST

[Avis d’expert] đŸ› ïž Comment choisir un LLM (Large Language Model) de Confiance ?

11 mars 2025
Crédit photo : Unplash

 

La rĂ©cente mĂ©diatisation de DeepSeek-R1, le nouveau modĂšle Ă  chaĂźne de raisonnement dĂ©veloppĂ© par DeepSeek, a fait l’effet d’une onde de choc aux États-Unis de par ses rĂ©sultats trĂšs prometteurs, rivalisant avec les champions amĂ©ricains (OpenAI, Anthropic, Claude notamment).

Rapidement, les modÚles de DeepSeek se sont vus reprocher des biais manifestes par la presse sur des questions sensibles, telles que le rÎle du Parti communiste chinois, la situation à Taiwan ou encore les événements de la place Tiananmen (The Guardian).
Ces biais, loin d’ĂȘtre nouveaux ou exclusifs Ă  DeepSeek, sont connus et inhĂ©rent Ă  ces modĂšles de langage.

Des acteurs américains majeurs comme OpenAI et Meta ont aussi été épinglés pour leurs préjugés sexistes (Le Monde) tandis que tout récemment xAI et son modÚle Grok ont été pointés du doigt pour de fortes tendances climatosceptique (Theo Alves Da Costa).

 

La question se pose : comment peut-on garantir une intelligence artificielle digne de confiance ?

 

L’IA de Confiance repose sur un consensus mondial articulĂ© autour de plusieurs piliers : la robustesse technique garantissant la fiabilitĂ© des algorithmes, le respect de la vie privĂ©e et une gouvernance transparente des donnĂ©es, la diversitĂ© et l’équitĂ© dans les reprĂ©sentations, le contrĂŽle humain ainsi que la responsabilitĂ© environnementale et sociĂ©tale.

Pour apprĂ©hender ces dĂ©fis et les appliquer au contexte actuel, il est essentiel de comprendre comment se construisent les modĂšles de langage actuels (dits LLM : Large Language Model). La premiĂšre phase de leur Ă©laboration consiste en un apprentissage massif, oĂč des milliards (voir des billions) de contenus textuels sont exploitĂ©s pour identifier des patterns linguistiques et des structures syntaxiques. Ce modĂšle de « fondation » prĂ©dit ensuite la probabilitĂ© d’un mot suivant dans une chaĂźne de texte.

Vient ensuite la phase d’instruction, qui affine le comportement du modĂšle pour le rendre apte Ă  rĂ©pondre de maniĂšre adĂ©quate aux questions humaines et Ă  Ă©viter les dĂ©rives – telles que la reproduction de biais ou la formulation de rĂ©ponses potentiellement nuisibles.

La qualitĂ© et la fiabilitĂ© d’un LLM dĂ©pendent donc, en grande partie, de ces 2 phases.
Certaines critiques portent notamment sur la provenance des donnĂ©es utilisĂ©es lors de l’entrainement des modĂšles d’OpenAI, des interrogations notamment soulevĂ©s par l’aspect Ă©thique de la collecte et du respect des droits d’auteurs.
D’autre part, DeepSeek est soupçonnĂ© de censurer les questions pouvant critiquer le parti chinois, avec une information initialement affichĂ©e qui disparaĂźt en fin de rĂ©ponse.

Le marchĂ© des modĂšles de langage se divise aujourd’hui en plusieurs catĂ©gories.

D’une part, on retrouve des solutions propriĂ©taires – comme celles d’OpenAI (avec ses modĂšles GPT), de Google (avec Gemini) ou d’Anthropic (avec Claude) –, dont l’accĂšs et les algorithmes restent souvent opaques. D’autre part, des initiatives en Open-Weight, Ă  l’instar de Meta avec son modĂšle LLAMA ou de Mistral, permettent aux utilisateurs de consulter l’architecture et, dans certains cas, d’affiner le modĂšle en fonction de besoins spĂ©cifiques. Enfin, les modĂšles vĂ©ritablement Open-Source partagent l’intĂ©gralitĂ© de leur processus de crĂ©ation, des donnĂ©es d’entraĂźnements aux choix architecturaux.

De plus, il est essentiel de baser le choix d’un LLM sur plusieurs critùres :

  • Robustesse technique (capacitĂ©s de performance et rĂ©silience face aux vulnĂ©rabilitĂ©s)
  • SĂ©curitĂ© et conformitĂ© rĂ©glementaire (respect du RGPD, gestion des droits sur les donnĂ©es)
  • Gouvernance (accĂšs et traçabilitĂ© des processus d’apprentissage)
  • Impact environnemental (consommation Ă©nergĂ©tique, empreinte carbone)

 

Nos Ă©tudes rĂ©vĂšlent d’importantes disparitĂ©s entre les fournisseurs de modĂšles de langage sur plusieurs dimensions clĂ©s, notamment l’impact environnemental, le coĂ»t financier et la conformitĂ© rĂ©glementaire.
L’analyse de l’empreinte carbone par requĂȘte – sur une tĂąche aussi simple que la reformulation d’un e-mail court – met en Ă©vidence des Ă©carts significatifs entre les modĂšles. Par exemple, Gemini 2.0 Flash de Google affiche une consommation estimĂ©e Ă  1 gCO₂e par requĂȘte, contre 0,7 gCO₂e pour Llama 3 70B de Meta, tandis que Claude 3.5 Sonnet d’Anthropic atteint 131 gCO₂e, soit un facteur de 100 en plus (donnĂ©es issues de l’outil Ecologits). Ces disparitĂ©s s’observent Ă©galement au sein d’un mĂȘme fournisseur : lorsque OpenAI a proposĂ© son nouveau modĂšle trĂšs performant mais Ă©nergivore GPT-4 (68 gCO₂e par requĂȘte), tandis que le prĂ©cĂ©dent GPT-3.5 Turbo s’avĂšrait 136 fois plus sobre (0,5 gCO₂e). Cette empreinte dĂ©pend aussi fortement du mix energĂ©tique des serveurs (et donc des pays).

En matiĂšre de coĂ»t financier, les Ă©carts sont tout aussi marquĂ©s, notamment pour les utilisateurs d’API. Le prix par token peut varier d’un facteur de 200 entre certains modĂšles, Gemini Ă©tant l’un des plus Ă©conomiques tandis que Claude figure parmi les plus onĂ©reux. Cette variabilitĂ© doit ĂȘtre prise en compte lors du choix d’un LLM, en fonction des volumes de requĂȘtes et des budgets allouĂ©s.

Enfin, les exigences en matiĂšre de sĂ©curitĂ© et conformitĂ© rĂ©glementaire diffĂšrent considĂ©rablement selon les fournisseurs. Les interactions avec DeepSeek sont potentiellement soumises Ă  l’analyse des autoritĂ©s chinoises, conformĂ©ment aux lois de la RĂ©publique Populaire de Chine, tandis que Mistral garantit un hĂ©bergement sĂ©curisĂ© des donnĂ©es sur le territoire europĂ©en, en conformitĂ© avec le RGPD pour lui et ses partenaires.

Les dĂ©cideurs doivent Ă©galement Ă©valuer la disponibilitĂ© et l’accessibilitĂ© du modĂšle (hĂ©bergement local ou externalisĂ©, connecteurs/API) ainsi que son coĂ»t total de possession, afin d’opter pour une solution alignĂ©e sur leurs impĂ©ratifs business, leur politique de sĂ©curitĂ© interne et leur dĂ©marche RSE.

En outre, il est primordial d’avoir conscience du rythme Ă©levĂ© de sortie des fournisseurs. La question se pose de savoir s’il faut privilĂ©gier une architecture flexible, capable d’adopter rapidement de nouveaux modĂšles, ou opter pour une solution stable, dont les performances rĂ©pondent durablement aux objectifs fixĂ©s de son cas d’usage.

Dans un contexte oĂč les attentes sont fortes et les opportunitĂ©s rĂ©elles, l’enjeu est bien d’en comprendre aussi les impacts et les risques : performance mĂ©tier, Ă©conomiques, technologiques, environnementaux et sociĂ©taux.

 

À la croisĂ©e de nos compĂ©tences scientifiques et de nos engagements RSE, ce sujet est Ă  nos yeux stratĂ©gique et nous accompagnons les organisations dans la formation, le choix et l’intĂ©gration de modĂšles adaptĂ©s Ă  leurs prioritĂ©s. N’hĂ©sitez pas Ă  nous contacter pour en discuter !

Concocté avec amour par :
Lucas SCELLOS

Articles concoctĂ©s avec les mĂȘmes ingredients

[Avis d’expert climat] đŸŒĄïžđŸ“‰ CMIP6 : ce qui change pour la rĂ©silience de vos actifs

Le mois dernier, notre Ă©quipe a eu un accĂšs privilĂ©giĂ© Ă  la version bĂȘta des nouvelles projections climatiques CMIP6 pour la France lors du hackathon MĂ©tĂ©o-France. Notre objectif : Mesurer concrĂštement l’Ă©cart entre cette nouvelle gĂ©nĂ©ration de donnĂ©es et l’exercice actuel (CMIP5/Explore2) pour anticiper les besoins d’adaptation de nos clients (nuclĂ©aire, assurance, industrie, bĂątiment).   […]

Paul-Etienne Mallet
27 novembre 2025

#AxionableSuccessStories : Mediawan – Mesure d’empreinte carbone, mise en conformitĂ© CSRD et dĂ©ploiement de Sweep

Mediawan – Mesure d’empreinte carbone, mise en conformitĂ© CSRD et dĂ©ploiement de Sweep   Mediawan, leader europĂ©en de la production et distribution de contenus audiovisuels, a souhaitĂ© se faire accompagner par Axionable pour :   Structurer sa dĂ©marche ESG autour des attendus de la CSRD : Mediawan avait besoin d’identifier ses enjeux prioritaires grĂące Ă  […]

Margot Derexel
16 septembre 2025

[Avis d’expert] 🔒 IA de confiance : et si l’AI Act (RIA) devenait votre meilleur avantage compĂ©titif grĂące aux certifications ?

Le RĂšglement EuropĂ©en sur l’IA (AI Act / RIA) entre progressivement en vigueur entre 2024 et 2027. Plus qu’un texte technique, il impose un cadre rĂ©glementaire exigeant et progressif, qui va bien au-delĂ  de simples bonnes pratiques mĂ©thodologiques en s’appuyant sur diffĂ©rents piliers : gouvernance et stratĂ©gie IA, mĂ©thodologie et pratique de dĂ©veloppement. AoĂ»t 2024 […]

José Sanchez
18 mars 2025

#AxionableSuccessStories : Circet – Mesure d’empreinte GES et collecte de donnĂ©es ESG

Circet – Mesure d’empreinte GES scope 1 Ă  3 et collecte de donnĂ©es ESG Acteur mondial des services d’infrastructures tĂ©lĂ©coms et Ă©nergie, Circet s’est appuyĂ© sur Axionable pour piloter son empreinte carbone de 2023 dans ses 13 pays d’implantation. Le Carbon Management System SWEEP a Ă©tĂ© choisi pour automatiser la mesure et le suivi de leur […]

Yannick Bottino
Paris
13 rue des Arquebusiers
75003 Paris
contact Contact