Avis d'experts : l'ère des modèles de langage, quand l'OCR se réinvente

L'analyse documentaire automatisée est en pleine mutation. Grâce aux progrès des LLM (Large Language Models ou Grands Modèles de Langage), la simple reconnaissance optique de caractères (OCR) ne se limite plus à extraire du texte : elle aspire désormais à interpréter, comprendre et traiter des documents de manière intelligente. À l'occasion de la conférence ICDAR 2024 (International Conference on Document Analysis and Recognition) qui avait lieu début septembre à Athènes, chercheurs et entreprises, dont Luminess, représentée par François Wieckowiak en thèse CIFRE, ont partagé leurs avancées sur le sujet. Des échanges passionnants qui ouvrent des perspectives pour les futurs développements de l'Intelligent Document Processing (IDP).


I. OCR et LLM : de la reconnaissance de texte à l'intelligence documentaire
L'OCR, autrefois vu comme une technologie autonome, est aujourd'hui repensé à la lumière des LLM, ces modèles capables d'analyser et de comprendre du texte à un niveau inégalé. Comme l'a démontré Thomas Breuel de NVIDIA lors de son keynote, l'ère des LLM marque un tournant pour l'analyse documentaire. Trois approches se distinguent dans cette nouvelle ère :

  1. L'association classique OCR et LLM : l'extraction de texte via OCR est suivie par une interprétation contextuelle d’un LLM. Cette méthode permet de réaliser des tâches avancées telles que le question-answering sur le contenu d'un document (par exemple, répondre à des questions spécifiques basées sur le texte extrait). C'est une approche puissante mais tributaire de la performance de l'OCR ;
  2. Les modèles multimodaux émergents : capables d'analyser à la fois l'image et le texte, ces systèmes surmontent certaines limites des approches traditionnelles. Le modèle TiLT, présenté à la conférence, permet non seulement d'extraire le texte, mais aussi de "comprendre" le document en prenant en compte la mise en page et les éléments graphiques. Par exemple, il peut différencier un en-tête d'un pied de page, ou comprendre la hiérarchie des titres dans un document ;
  3. L'élimination complète de l'OCR : des modèles comme Donut ou GPT-4 Vision sont capables de traiter directement les documents visuels, en analysant leur contenu sans aucune extraction de texte préalable. Une prouesse technologique, mais qui soulève des questions sur l'adoption industrielle. 

De telles approches sont-elles viables dans des environnements de production avec des ressources limitées ?


II. Des cas d'usage inspirants : l'avenir de l'OCR à portée de main
Les avancées dans le domaine de l'OCR et des LLM se traduisent par des résultats concrets. Plusieurs études présentées à la conférence ont mis en lumière des applications innovantes :

  • Reconnaissance d'étiquettes de produits alimentaires : une étude a comparé l'approche OCR + LLM avec le modèle GPT-4 Vision. Ce dernier a surpassé l'OCR traditionnel de 15% en précision en traitant directement les images, soulignant l'efficacité de l'analyse visuelle ;
  • Amélioration de la mise en page : le LAPDoc a démontré que l'intégration d'un format spatial pour représenter la mise en page améliore les performances des LLM de 20% par rapport aux sorties OCR brutes, en prenant en compte la structure du document ;
  • Reconnaissance manuscrite : dans des environnements à faible production, l'utilisation de modèles comme CRNN (Convolutional Recurrent Neural Network) + CTC (Connectionist Temporal Classification) a montré que des solutions moins complexes peuvent être tout aussi efficaces, voire préférables, dans certains contextes. Ces modèles ont atteint une précision de 95% sur des échantillons de texte manuscrit, tout en nécessitant 50% moins de ressources computationnelles que les LLM.

Ces exemples illustrent non seulement le potentiel des nouvelles technologies, mais aussi la nécessité de choisir des solutions adaptées aux besoins spécifiques de chaque application.


III. Les promesses… Et les limites des LLM dans l'OCR
Malgré l'enthousiasme qu'elles suscitent, ces nouvelles technologies présentent des défis.

L'un des principaux points soulevés lors de la conférence a été la difficulté à diagnostiquer les erreurs dans les systèmes hybrides. Lorsqu'une anomalie survient, est-ce l'OCR qui a mal interprété un caractère ? Ou le LLM qui n'a pas su correctement contextualiser l'information ?
De plus, la collecte et l'accès aux données d'entraînement demeurent problématiques. Dans des domaines spécifiques, comme les documents scientifiques ou légaux, l'accès à des données annotées et de qualité est encore trop limité. Cela freine l'adoption de ces technologies dans des secteurs où la précision est essentielle.
Un autre défi réside dans la gestion des coûts. Les LLM, par leur complexité et la puissance de calcul qu'ils nécessitent, sont gourmands en ressources. Selon une étude récente, le coût d'utilisation d'un LLM peut être jusqu'à 10 fois supérieur à celui d'un système OCR traditionnel pour des tâches similaires. 
Dans un contexte de production, cela soulève une question essentielle : est-il toujours nécessaire de déployer des modèles aussi complexes ? Ou des approches plus légères, mais suffisamment performantes, pourraient-elles suffire ?


IV. Nouveaux terrains de jeu pour Luminess : quelle voie suivre ?
Pour Luminess, ces avancées technologiques représentent à la fois des opportunités et des défis. Il est clair que l'intégration des LLM dans l'IDP peut transformer radicalement notre manière d'aborder l'automatisation documentaire. Cependant, le choix technologique dépendra toujours des besoins spécifiques de nos clients.
Par exemple, pour le traitement de factures standard, des solutions légères comme l'OCR, associées à des techniques de mise en page intelligente pourraient parfaitement répondre à des contraintes de coût et de ressources. En revanche, pour l'analyse de contrats complexes nécessitant une compréhension approfondie du contexte juridique, l'utilisation de LLM serait justifiée.


Conclusion : une transformation en marche
La conférence ICDAR 2024 a montré que l'avenir de la reconnaissance de documents ne se limite plus à l'extraction de texte. Pour Luminess, il s'agit de trouver le juste équilibre entre performance technologique et contraintes opérationnelles. Les LLM offrent un potentiel énorme, mais sont à adapter aux réalités de la production.
Dans les mois à venir, Luminess prévoit de lancer un projet pilote intégrant des LLM pour le traitement de documents complexes dans le secteur bancaire, tout en optimisant ses solutions OCR existantes pour les tâches plus routinières. Cette approche hybride permettra d'évaluer concrètement les bénéfices et les défis de ces nouvelles technologies dans un environnement de production réel.
Cette réflexion est au cœur des futures innovations de Luminess, pour continuer à repousser les limites de l'IDP et offrir des solutions toujours plus performantes et adaptées à nos clients.

 

Par Tony Bonnet et François Wieckowiak