fr
contact
BACK TO THE LIST

[Avis d’expert] đŸ› ïž Comment choisir un LLM (Large Language Model) de Confiance ?

11 mars 2025
Crédit photo : Unplash

 

La rĂ©cente mĂ©diatisation de DeepSeek-R1, le nouveau modĂšle Ă  chaĂźne de raisonnement dĂ©veloppĂ© par DeepSeek, a fait l’effet d’une onde de choc aux États-Unis de par ses rĂ©sultats trĂšs prometteurs, rivalisant avec les champions amĂ©ricains (OpenAI, Anthropic, Claude notamment).

Rapidement, les modÚles de DeepSeek se sont vus reprocher des biais manifestes par la presse sur des questions sensibles, telles que le rÎle du Parti communiste chinois, la situation à Taiwan ou encore les événements de la place Tiananmen (The Guardian).
Ces biais, loin d’ĂȘtre nouveaux ou exclusifs Ă  DeepSeek, sont connus et inhĂ©rent Ă  ces modĂšles de langage.

Des acteurs américains majeurs comme OpenAI et Meta ont aussi été épinglés pour leurs préjugés sexistes (Le Monde) tandis que tout récemment xAI et son modÚle Grok ont été pointés du doigt pour de fortes tendances climatosceptique (Theo Alves Da Costa).

 

La question se pose : comment peut-on garantir une intelligence artificielle digne de confiance ?

 

L’IA de Confiance repose sur un consensus mondial articulĂ© autour de plusieurs piliers : la robustesse technique garantissant la fiabilitĂ© des algorithmes, le respect de la vie privĂ©e et une gouvernance transparente des donnĂ©es, la diversitĂ© et l’équitĂ© dans les reprĂ©sentations, le contrĂŽle humain ainsi que la responsabilitĂ© environnementale et sociĂ©tale.

Pour apprĂ©hender ces dĂ©fis et les appliquer au contexte actuel, il est essentiel de comprendre comment se construisent les modĂšles de langage actuels (dits LLM : Large Language Model). La premiĂšre phase de leur Ă©laboration consiste en un apprentissage massif, oĂč des milliards (voir des billions) de contenus textuels sont exploitĂ©s pour identifier des patterns linguistiques et des structures syntaxiques. Ce modĂšle de « fondation » prĂ©dit ensuite la probabilitĂ© d’un mot suivant dans une chaĂźne de texte.

Vient ensuite la phase d’instruction, qui affine le comportement du modĂšle pour le rendre apte Ă  rĂ©pondre de maniĂšre adĂ©quate aux questions humaines et Ă  Ă©viter les dĂ©rives – telles que la reproduction de biais ou la formulation de rĂ©ponses potentiellement nuisibles.

La qualitĂ© et la fiabilitĂ© d’un LLM dĂ©pendent donc, en grande partie, de ces 2 phases.
Certaines critiques portent notamment sur la provenance des donnĂ©es utilisĂ©es lors de l’entrainement des modĂšles d’OpenAI, des interrogations notamment soulevĂ©s par l’aspect Ă©thique de la collecte et du respect des droits d’auteurs.
D’autre part, DeepSeek est soupçonnĂ© de censurer les questions pouvant critiquer le parti chinois, avec une information initialement affichĂ©e qui disparaĂźt en fin de rĂ©ponse.

Le marchĂ© des modĂšles de langage se divise aujourd’hui en plusieurs catĂ©gories.

D’une part, on retrouve des solutions propriĂ©taires – comme celles d’OpenAI (avec ses modĂšles GPT), de Google (avec Gemini) ou d’Anthropic (avec Claude) –, dont l’accĂšs et les algorithmes restent souvent opaques. D’autre part, des initiatives en Open-Weight, Ă  l’instar de Meta avec son modĂšle LLAMA ou de Mistral, permettent aux utilisateurs de consulter l’architecture et, dans certains cas, d’affiner le modĂšle en fonction de besoins spĂ©cifiques. Enfin, les modĂšles vĂ©ritablement Open-Source partagent l’intĂ©gralitĂ© de leur processus de crĂ©ation, des donnĂ©es d’entraĂźnements aux choix architecturaux.

De plus, il est essentiel de baser le choix d’un LLM sur plusieurs critùres :

  • Robustesse technique (capacitĂ©s de performance et rĂ©silience face aux vulnĂ©rabilitĂ©s)
  • SĂ©curitĂ© et conformitĂ© rĂ©glementaire (respect du RGPD, gestion des droits sur les donnĂ©es)
  • Gouvernance (accĂšs et traçabilitĂ© des processus d’apprentissage)
  • Impact environnemental (consommation Ă©nergĂ©tique, empreinte carbone)

 

Nos Ă©tudes rĂ©vĂšlent d’importantes disparitĂ©s entre les fournisseurs de modĂšles de langage sur plusieurs dimensions clĂ©s, notamment l’impact environnemental, le coĂ»t financier et la conformitĂ© rĂ©glementaire.
L’analyse de l’empreinte carbone par requĂȘte – sur une tĂąche aussi simple que la reformulation d’un e-mail court – met en Ă©vidence des Ă©carts significatifs entre les modĂšles. Par exemple, Gemini 2.0 Flash de Google affiche une consommation estimĂ©e Ă  1 gCO₂e par requĂȘte, contre 0,7 gCO₂e pour Llama 3 70B de Meta, tandis que Claude 3.5 Sonnet d’Anthropic atteint 131 gCO₂e, soit un facteur de 100 en plus (donnĂ©es issues de l’outil Ecologits). Ces disparitĂ©s s’observent Ă©galement au sein d’un mĂȘme fournisseur : lorsque OpenAI a proposĂ© son nouveau modĂšle trĂšs performant mais Ă©nergivore GPT-4 (68 gCO₂e par requĂȘte), tandis que le prĂ©cĂ©dent GPT-3.5 Turbo s’avĂšrait 136 fois plus sobre (0,5 gCO₂e). Cette empreinte dĂ©pend aussi fortement du mix energĂ©tique des serveurs (et donc des pays).

En matiĂšre de coĂ»t financier, les Ă©carts sont tout aussi marquĂ©s, notamment pour les utilisateurs d’API. Le prix par token peut varier d’un facteur de 200 entre certains modĂšles, Gemini Ă©tant l’un des plus Ă©conomiques tandis que Claude figure parmi les plus onĂ©reux. Cette variabilitĂ© doit ĂȘtre prise en compte lors du choix d’un LLM, en fonction des volumes de requĂȘtes et des budgets allouĂ©s.

Enfin, les exigences en matiĂšre de sĂ©curitĂ© et conformitĂ© rĂ©glementaire diffĂšrent considĂ©rablement selon les fournisseurs. Les interactions avec DeepSeek sont potentiellement soumises Ă  l’analyse des autoritĂ©s chinoises, conformĂ©ment aux lois de la RĂ©publique Populaire de Chine, tandis que Mistral garantit un hĂ©bergement sĂ©curisĂ© des donnĂ©es sur le territoire europĂ©en, en conformitĂ© avec le RGPD pour lui et ses partenaires.

Les dĂ©cideurs doivent Ă©galement Ă©valuer la disponibilitĂ© et l’accessibilitĂ© du modĂšle (hĂ©bergement local ou externalisĂ©, connecteurs/API) ainsi que son coĂ»t total de possession, afin d’opter pour une solution alignĂ©e sur leurs impĂ©ratifs business, leur politique de sĂ©curitĂ© interne et leur dĂ©marche RSE.

En outre, il est primordial d’avoir conscience du rythme Ă©levĂ© de sortie des fournisseurs. La question se pose de savoir s’il faut privilĂ©gier une architecture flexible, capable d’adopter rapidement de nouveaux modĂšles, ou opter pour une solution stable, dont les performances rĂ©pondent durablement aux objectifs fixĂ©s de son cas d’usage.

Dans un contexte oĂč les attentes sont fortes et les opportunitĂ©s rĂ©elles, l’enjeu est bien d’en comprendre aussi les impacts et les risques : performance mĂ©tier, Ă©conomiques, technologiques, environnementaux et sociĂ©taux.

 

À la croisĂ©e de nos compĂ©tences scientifiques et de nos engagements RSE, ce sujet est Ă  nos yeux stratĂ©gique et nous accompagnons les organisations dans la formation, le choix et l’intĂ©gration de modĂšles adaptĂ©s Ă  leurs prioritĂ©s. N’hĂ©sitez pas Ă  nous contacter pour en discuter !

Concocté avec amour par :
admin

Articles concoctĂ©s avec les mĂȘmes ingredients

[REPLAY] 🎬 Gouvernance de l’IA : comment en faire votre alliĂ©e sans attendre l’AI Act ?

L’IA Act est officiellement adoptĂ©, mais son calendrier d’application progressif crĂ©e une illusion de sĂ©curitĂ©. Beaucoup d’organisations choisissent d’attendre les Ă©chĂ©ances lĂ©gales pour agir : c’est prĂ©cisĂ©ment lĂ  que rĂ©side le risque majeur. Car la rĂ©glementation ne crĂ©e pas le risque, elle ne fait que le mettre en lumiĂšre. À l’ùre de l’IA GĂ©nĂ©rative et […]

Gwendal BIHAN

[Avis d’expert] ⚒ Du POC₁ Ă  la production : 4 piliers pour un systĂšme d’IA gĂ©nĂ©rative / agentique opĂ©rationnel

Pourquoi la majoritĂ© des POC d’IA gĂ©nĂ©rative n’atteignent-ils jamais la production ? À l’ùre de l’IA GĂ©nĂ©rative et de l’émergence des agents autonomes, la course Ă  l’IA s’intensifie et les entreprises font face Ă  une explosion de cas d’usages. Hors, un systĂšme d’IA gĂ©nĂ©rative conçut dans le cadre d’un POC ou d’un dĂ©monstrateur ne rencontre […]

Marwane AIT MOULOUD
7 avril 2026

[Avis d’expert] ⚙ IA gĂ©nĂ©rative et agentique : gouvernance, risques et outillage pour sĂ©curiser le passage Ă  l’Ă©chelle

L’heure n’est plus Ă  l’expĂ©rimentation sur l’IA GĂ©nĂ©rative et de l’agentique, mais Ă  l’industrialisation. Face Ă  l’explosion des cas d’usage, Ă  l’inflation des coĂ»ts (FinOps) et aux nouveaux risques systĂ©miques (impacts sur le travail, empreinte carbone, 
), le passage Ă  l’Ă©chelle effraie et nĂ©cessite des rĂ©ponses adaptĂ©es. La solution n’est plus conceptuelle, elle est opĂ©rationnelle […]

José Sanchez

[Avis d’expert] 💡 L’IA GĂ©nĂ©rative : Levier de croissance ou menace pour votre marque ?

L’Intelligence Artificielle GĂ©nĂ©rative (IAG) s’est imposĂ©e comme le nouveau moteur de performance incontournable pour nos mĂ©tiers. Imaginez pouvoir automatiser l’audit de conformitĂ© de vos processus en temps rĂ©el, personnaliser les flux de travail par unitĂ© opĂ©rationnelle en un clic, ou encore synthĂ©tiser des tĂ©raoctets de donnĂ©es fragmentĂ©es en tableaux de bord dĂ©cisionnels actionnables pour vos […]

Corentin Hervé
Paris
13 rue des Arquebusiers
75003 Paris
contact Contact