updated at: June 2025
Extracteur de factures et de reçus (OSS) alimenté par LLM
Nous venons d'ouvrir un extracteur basé sur un modèle linguistique pour les factures et les reçus. Il transforme du texte désordonné (issu de l'OCR ou de documents scannés) en JSON clair et structuré, avec des scores de confiance au niveau des champs.
AI Collection Meilleurs choix:
Organisation & Automatisation Choix de catégories:
Informations Complémentaires
**Vous avez du mal à obtenir de véritables données sur les reçus/factures pour tes modèles d'IA ? J'ai créé un générateur open source à l'aide de LLM (sortie JSON, aucun modèle) **
Lien : https://github.com/WellApp-ai/Well/tree/main/ai-receipt-generator
Exemple de sortie : https://imgur.com/a/YtFSodj
! Image ChatGPT du 3 mai 2025, 11_31_53 PM (1)
Lorsque tu crées des systèmes d'IA pour extraire des données structurées de reçus, de factures et d'autres documents financiers, il y a un gros goulot d'étranglement : **Des données d'entraînement réalistes, diversifiées et volumineuses. **
La plupart des ensembles de données ouverts sont :
- Trop propre (généré par un modèle)
- Trop uniforme (formats occidentaux uniquement)
- Non légalement utilisable à grande échelle
J'ai donc créé ce petit outil open source qui utilise LLM pour générer des reçus synthétiques au format JSON, entièrement personnalisable via prompt + config. Pas de PDF, pas de simulation OCR, juste une sortie de texte structurée conçue pour les évaluations, les tests ou les ajustements.
Caractéristiques principales :
- Fonctionne avec OpenAI, les modèles locaux, Claude, etc. (indépendant de LLM)
- Schéma JSON pour les reçus/factures, facile à personnaliser
- Faker Fallback si tu ne veux pas choisir de mannequin
- Compatible avec les paramètres régionaux : utile pour la simulation de formats globaux
- Bizarrerie configurable : totaux incomplets, champs manquants, fautes de frappe, etc.
Cela nous a permis de tester notre analyseur de documents en utilisant des cas marginaux réalistes et simples que les modèles ne pouvaient pas reproduire.
Je suis curieuse de savoir s'il y a quelqu'un d'autre ici :
- Génération de données synthétiques pour l'IA documentaire
- Tester des extracteurs basés sur LLM ou des combos OCR+LLM
- Création de suites d'évaluation pour les modèles d'IA financière
J'adorerais avoir des commentaires, des idées ou des réflexions sur la manière dont tu pourrais étendre cela.







