Ce sera certainement le cas ! On pensait avoir poussé au maximum les capacités et innovations techniques des reconnaissances optiques de caractères. Les recherches appliquées se sont appuyées sur les algorithmes adaptés aux différentes écritures tapuscrites ou manuscrites, ou sur des référentiels existants pour effectuer les extractions de données. L’ICR a permis d’aller au-delà de la simple reconnaissance de caractère avec la formalisation de chaînes vérifiées et contrôlées (termes, chaînes de mots, liste d’autorité, etc.).
Aujourd’hui, l’ensemble de ces technologies sont embarquées dans la plupart des solutions d’extractions proposées dans le cadre des solutions accompagnant les terminaux de capture d’images comme les scanners, les MFP ou même les appareils photos ou smartphones.
La RPA ou « Robotic Process Automation » correspond à l’automatisation robotisée des processus. La RPA est la suite logique de l’extraction des données. Le processus a été décrit, les données d’entrée identifiées, les données de sorties également (circuit d’une facture à payer par exemple), reste à l’algorithme de workflow de traiter l’information et de formaliser l’information finale (contrôlable in fine par un humain).
Dans de nombreux cas d’usage (par exemple le remboursement de notes de frais), ces dispositifs de workflows sont efficaces et ergonomiques tant pour leur mise en œuvre (design) que dans leur utilisation. Ils peuvent être rapidement mis en œuvre dès lors que les processus traitant des données structurées, sont factuelles, connus et reproduisibles.
On peut rapidement arriver aux limites de l’exercice à partir du moment où des instructions en langage naturel sont nécessaires et que l’action (ou les actions) qui en découle se traduit par des commandes machines ou d’outils, conduite d’engins, autorisations d’accès physiques, etc.
Ces innovations ont pour nom et pour base la technologie des Grands Modèles d'Actions (LAM ou Large Action Model). Les LAM appartiennent à la famille de l’IA générative. Elles utilisent des LLM (large langage model) et des données d'entraînement.
Et cela va changer beaucoup de choses !
Les LAM enrichissent la fluidité et l’ergonomie du travail avec les applications qu’elles soient métier ou GED, archivage, etc. : il est fort possible que ce soit la fin des interfaces puisque les instructions vocales prennent le relais des instructions des opérateurs en les enrichissant (instruction plus rapide d’un dossier soumis à des processus de validation complexe et multifactorielle).
Dans ce contexte, il s’agit de renforcer la sécurité puisque les LAM utilisent l’IA générative et on connaît aujourd’hui sans complètement les maîtriser (c’est un euphémisme !) sont potentiellement porteurs de biais et d’hallucinations. Plus encore, les jeux de données d'entraînement, d’enrichissement en mode production et les données des prompts des utilisateurs peuvent se retrouver détournées par des phénomènes de « régurgitation » si les précautions n’ont pas été prises au moment de l’étude ou du cadrage.
Les choix techniques des modèles et des données pour l'entraînement : la phase d'entraînement, qui couvre le choix des différents LLM intégrées et la cartographie des données tout formats d'entraînement puis de production à vectoriser, est cruciale. Ces choix nécessitent à la fois une expertise et une rigueur que j’estime plus importantes que pour les technologies précédentes, en incluant le suivi de la production en termes d’évolution, de mesure des besoins de données complémentaires externes ou internes à fournir.
L’organisation de la gouvernance est indispensable. Elle est bien plus critique que pour la mise en œuvre et la production des flux de capture simple (OCR, OMR, ICR, etc.) ou même de RPA. L’IA générative a besoin d’être explicable et transparente pour que la “vérité” soit démontrée. Des efforts de contrôle et de documentation sont donc supérieurs aux technologies précédentes.
Enfin, le cadre de la politique RSE est central car le déploiement du LAM impacte l’ergonomie du poste de travail (à prendre en compte par les métiers, le responsable RSE, les RH et le CSE), et la production de gaz à effet de serre qui potentiellement peut être multipliée du fait de l’utilisation des ressources numériques tant pour l'entraînement que pour l’exploitation.
Rappel du processus de mise en œuvre d’un LAM :
Sensibilisation et pédagogie vers les métiers
Etude et cadrage pour les cas d’usage, les modèles d’IA et de données à vectoriser ainsi que pour la gouvernance à mettre en place
Mise en place de la gouvernance et pilotage du processus d'entraînement (jeux de données et performance du modèle)
Intégration et audit
Mise en production, pilotage du suivi et des évolutions, puis audit périodique.
Pour plus d'informations, n'hésitez pas à nous contacter : infos@serda.com. L'équipe Serda Conseil se fera un plaisir de répondre à vos questions. Suivez-nous sur Linkedin pour ne rien manquer de notre actualité.