fr
contact
BACK TO THE LIST

[Avis d’expert] đŸ› ïž Comment choisir un LLM (Large Language Model) de Confiance ?

11 mars 2025
Crédit photo : Unplash

 

La rĂ©cente mĂ©diatisation de DeepSeek-R1, le nouveau modĂšle Ă  chaĂźne de raisonnement dĂ©veloppĂ© par DeepSeek, a fait l’effet d’une onde de choc aux États-Unis de par ses rĂ©sultats trĂšs prometteurs, rivalisant avec les champions amĂ©ricains (OpenAI, Anthropic, Claude notamment).

Rapidement, les modÚles de DeepSeek se sont vus reprocher des biais manifestes par la presse sur des questions sensibles, telles que le rÎle du Parti communiste chinois, la situation à Taiwan ou encore les événements de la place Tiananmen (The Guardian).
Ces biais, loin d’ĂȘtre nouveaux ou exclusifs Ă  DeepSeek, sont connus et inhĂ©rent Ă  ces modĂšles de langage.

Des acteurs américains majeurs comme OpenAI et Meta ont aussi été épinglés pour leurs préjugés sexistes (Le Monde) tandis que tout récemment xAI et son modÚle Grok ont été pointés du doigt pour de fortes tendances climatosceptique (Theo Alves Da Costa).

 

La question se pose : comment peut-on garantir une intelligence artificielle digne de confiance ?

 

L’IA de Confiance repose sur un consensus mondial articulĂ© autour de plusieurs piliers : la robustesse technique garantissant la fiabilitĂ© des algorithmes, le respect de la vie privĂ©e et une gouvernance transparente des donnĂ©es, la diversitĂ© et l’équitĂ© dans les reprĂ©sentations, le contrĂŽle humain ainsi que la responsabilitĂ© environnementale et sociĂ©tale.

Pour apprĂ©hender ces dĂ©fis et les appliquer au contexte actuel, il est essentiel de comprendre comment se construisent les modĂšles de langage actuels (dits LLM : Large Language Model). La premiĂšre phase de leur Ă©laboration consiste en un apprentissage massif, oĂč des milliards (voir des billions) de contenus textuels sont exploitĂ©s pour identifier des patterns linguistiques et des structures syntaxiques. Ce modĂšle de « fondation » prĂ©dit ensuite la probabilitĂ© d’un mot suivant dans une chaĂźne de texte.

Vient ensuite la phase d’instruction, qui affine le comportement du modĂšle pour le rendre apte Ă  rĂ©pondre de maniĂšre adĂ©quate aux questions humaines et Ă  Ă©viter les dĂ©rives – telles que la reproduction de biais ou la formulation de rĂ©ponses potentiellement nuisibles.

La qualitĂ© et la fiabilitĂ© d’un LLM dĂ©pendent donc, en grande partie, de ces 2 phases.
Certaines critiques portent notamment sur la provenance des donnĂ©es utilisĂ©es lors de l’entrainement des modĂšles d’OpenAI, des interrogations notamment soulevĂ©s par l’aspect Ă©thique de la collecte et du respect des droits d’auteurs.
D’autre part, DeepSeek est soupçonnĂ© de censurer les questions pouvant critiquer le parti chinois, avec une information initialement affichĂ©e qui disparaĂźt en fin de rĂ©ponse.

Le marchĂ© des modĂšles de langage se divise aujourd’hui en plusieurs catĂ©gories.

D’une part, on retrouve des solutions propriĂ©taires – comme celles d’OpenAI (avec ses modĂšles GPT), de Google (avec Gemini) ou d’Anthropic (avec Claude) –, dont l’accĂšs et les algorithmes restent souvent opaques. D’autre part, des initiatives en Open-Weight, Ă  l’instar de Meta avec son modĂšle LLAMA ou de Mistral, permettent aux utilisateurs de consulter l’architecture et, dans certains cas, d’affiner le modĂšle en fonction de besoins spĂ©cifiques. Enfin, les modĂšles vĂ©ritablement Open-Source partagent l’intĂ©gralitĂ© de leur processus de crĂ©ation, des donnĂ©es d’entraĂźnements aux choix architecturaux.

De plus, il est essentiel de baser le choix d’un LLM sur plusieurs critùres :

  • Robustesse technique (capacitĂ©s de performance et rĂ©silience face aux vulnĂ©rabilitĂ©s)
  • SĂ©curitĂ© et conformitĂ© rĂ©glementaire (respect du RGPD, gestion des droits sur les donnĂ©es)
  • Gouvernance (accĂšs et traçabilitĂ© des processus d’apprentissage)
  • Impact environnemental (consommation Ă©nergĂ©tique, empreinte carbone)

 

Nos Ă©tudes rĂ©vĂšlent d’importantes disparitĂ©s entre les fournisseurs de modĂšles de langage sur plusieurs dimensions clĂ©s, notamment l’impact environnemental, le coĂ»t financier et la conformitĂ© rĂ©glementaire.
L’analyse de l’empreinte carbone par requĂȘte – sur une tĂąche aussi simple que la reformulation d’un e-mail court – met en Ă©vidence des Ă©carts significatifs entre les modĂšles. Par exemple, Gemini 2.0 Flash de Google affiche une consommation estimĂ©e Ă  1 gCO₂e par requĂȘte, contre 0,7 gCO₂e pour Llama 3 70B de Meta, tandis que Claude 3.5 Sonnet d’Anthropic atteint 131 gCO₂e, soit un facteur de 100 en plus (donnĂ©es issues de l’outil Ecologits). Ces disparitĂ©s s’observent Ă©galement au sein d’un mĂȘme fournisseur : lorsque OpenAI a proposĂ© son nouveau modĂšle trĂšs performant mais Ă©nergivore GPT-4 (68 gCO₂e par requĂȘte), tandis que le prĂ©cĂ©dent GPT-3.5 Turbo s’avĂšrait 136 fois plus sobre (0,5 gCO₂e). Cette empreinte dĂ©pend aussi fortement du mix energĂ©tique des serveurs (et donc des pays).

En matiĂšre de coĂ»t financier, les Ă©carts sont tout aussi marquĂ©s, notamment pour les utilisateurs d’API. Le prix par token peut varier d’un facteur de 200 entre certains modĂšles, Gemini Ă©tant l’un des plus Ă©conomiques tandis que Claude figure parmi les plus onĂ©reux. Cette variabilitĂ© doit ĂȘtre prise en compte lors du choix d’un LLM, en fonction des volumes de requĂȘtes et des budgets allouĂ©s.

Enfin, les exigences en matiĂšre de sĂ©curitĂ© et conformitĂ© rĂ©glementaire diffĂšrent considĂ©rablement selon les fournisseurs. Les interactions avec DeepSeek sont potentiellement soumises Ă  l’analyse des autoritĂ©s chinoises, conformĂ©ment aux lois de la RĂ©publique Populaire de Chine, tandis que Mistral garantit un hĂ©bergement sĂ©curisĂ© des donnĂ©es sur le territoire europĂ©en, en conformitĂ© avec le RGPD pour lui et ses partenaires.

Les dĂ©cideurs doivent Ă©galement Ă©valuer la disponibilitĂ© et l’accessibilitĂ© du modĂšle (hĂ©bergement local ou externalisĂ©, connecteurs/API) ainsi que son coĂ»t total de possession, afin d’opter pour une solution alignĂ©e sur leurs impĂ©ratifs business, leur politique de sĂ©curitĂ© interne et leur dĂ©marche RSE.

En outre, il est primordial d’avoir conscience du rythme Ă©levĂ© de sortie des fournisseurs. La question se pose de savoir s’il faut privilĂ©gier une architecture flexible, capable d’adopter rapidement de nouveaux modĂšles, ou opter pour une solution stable, dont les performances rĂ©pondent durablement aux objectifs fixĂ©s de son cas d’usage.

Dans un contexte oĂč les attentes sont fortes et les opportunitĂ©s rĂ©elles, l’enjeu est bien d’en comprendre aussi les impacts et les risques : performance mĂ©tier, Ă©conomiques, technologiques, environnementaux et sociĂ©taux.

 

À la croisĂ©e de nos compĂ©tences scientifiques et de nos engagements RSE, ce sujet est Ă  nos yeux stratĂ©gique et nous accompagnons les organisations dans la formation, le choix et l’intĂ©gration de modĂšles adaptĂ©s Ă  leurs prioritĂ©s. N’hĂ©sitez pas Ă  nous contacter pour en discuter !

Concocté avec amour par :
Lucas SCELLOS

Articles concoctĂ©s avec les mĂȘmes ingredients

18 mars 2025

#AxionableSuccessStories : Circet – Mesure d’empreinte GES et collecte de donnĂ©es ESG

Circet – Mesure d’empreinte GES scope 1 Ă  3 et collecte de donnĂ©es ESG Acteur mondial des services d’infrastructures tĂ©lĂ©coms et Ă©nergie, Circet s’est appuyĂ© sur Axionable pour piloter son empreinte carbone de 2023 dans ses 13 pays d’implantation. Le Carbon Management System SWEEP a Ă©tĂ© choisi pour automatiser la mesure et le suivi de leur […]

Yannick Bottino
20 février 2025

#AxionableSuccessStories : ETIX – Empreinte carbone & trajectoire de dĂ©carbonation

ETIX – Evaluation de l’empreinte & dĂ©finition de la trajectoire de dĂ©carbonation ETIX Everywhere, acteur clĂ© de la souverainetĂ© numĂ©rique en France et leader des data centers de proximitĂ©, accĂ©lĂšre la dĂ©carbonation de ses activitĂ©s avec le soutien de son actionnaire Eurazeo et de son prĂȘteur Zencap AM. Pour structurer cette dĂ©marche, Etix s’est appuyĂ©e […]

Yannick Bottino
30 janvier 2025

#AxionableSuccessStories : SAUR risques de transition

Identification des risques et opportunitĂ©s de transition climatique SAUR, acteur majeur du secteur de l’eau en France et Ă  l’international, a choisi de renforcer son analyse des risques et opportunitĂ©s liĂ©s Ă  la transition climatique. Pour cela, l’entreprise s’est appuyĂ©e sur l’expertise d’Axionable afin de personnaliser et tester, Ă  travers un cas pilote, un outil […]

Paul LAVILLE
11 décembre 2024

[Avis d’expert] 🌍 La maĂźtrise des donnĂ©es gĂ©ospatiales et climatiques : un atout stratĂ©gique pour votre entreprise

Dans un monde Ă©conomique en mutation rapide, le changement climatique n’est plus une menace lointaine, mais un paramĂštre stratĂ©gique immĂ©diat. Chaque dĂ©cision d’investissement, chaque Ă©valuation de risque devient un exercice de haute prĂ©cision oĂč la donnĂ©e gĂ©ospatiale se transforme en vĂ©ritable boussole stratĂ©gique. Exploiter ces donnĂ©es gĂ©ospatiales relĂšve pourtant du parcours du combattant. La complexitĂ© […]

Paul-Etienne Mallet
Paris
13 rue des Arquebusiers
75003 Paris
contact Contact