L’IA en finance progresse rapidement — mais nos benchmarks suivent-ils le rythme ?

Une étude de Louis Bertucci et Murad Nuriyev qui proposent une revue systématique du paysage des benchmarks dédiés à l’IA app. à la finance.

Jun 15, 2026 15:24

Jun 15, 2026

Alors que les grands modèles de langage (LLM) s’intègrent progressivement aux workflows financiers — analyse documentaire, recherche, conformité ou systèmes agents — leur évaluation devient un enjeu central pour la recherche et les applications opérationnelles.

Dans une nouvelle étude, “Evaluating AI in Finance: A Comprehensive Review and Taxonomy of LLM Benchmarks”, Louis Bertucci et Murad Nuriyev (Institut Louis Bachelier) proposent une revue systématique de plus de 50 benchmarks publics dédiés à l’IA appliquée à la finance.

Les auteurs structurent ce paysage à travers une taxonomie de onze catégories de tâches et une grille d’analyse distinguant ce que mesurent les benchmarks et comment ils le mesurent. Cette approche permet de clarifier les forces et les limites des méthodes d’évaluation actuelles.

Les résultats montrent un écart net entre types de tâches : les modèles performent bien sur des tâches textuelles (sentiment, extraction d’entités), mais restent en retrait sur le raisonnement financier, les calculs contextualisés et les workflows complexes. L’accès à l’information apparaît également comme un frein majeur.

L’étude met enfin en lumière plusieurs limites structurelles des benchmarks actuels, notamment leur décalage avec les usages réels, leur forte concentration sur les données américaines et la sous-estimation des coûts d’inférence.

Ce travail, porté par Louis Bertucci et Murad Nuriyev de l’Institut Louis Bachelier, s’inscrit dans une réflexion plus large sur l’évaluation et la fiabilité des modèles d’IA en finance, à la croisée de la recherche académique et des enjeux industriels.

Lire l’étude : Evaluating AI in Finance: A Comprehensive Review and Taxonomy of LLM Benchmarks (SSRN) : https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6815399

‍

télécharger la publication consulter la publication