LLM-Powered Invoice & Receipt Extractor (OSS)

LLM-Powered Invoice & Receipt Extractor (OSS) screenshot
Versión gratuita

updated at: June 2025

Extractor de facturas y recibos (OSS) con tecnología LLM

Acabamos de abrir un extractor de facturas y recibos basado en modelos lingüísticos. Convierte el texto desordenado y desestructurado (de OCR o documentos escaneados) en un JSON limpio y estructurado, con puntuaciones de confianza a nivel de campo.

Application owner? Visit here

información adicional

** ¿Te cuesta obtener datos reales de recibos y facturas de tus modelos de IA? Creé un generador de código abierto con LLM (salida JSON, sin plantillas) **

Enlace: https://github.com/WellApp-ai/Well/tree/main/ai-receipt-generator

Ejemplo de salida: https://imgur.com/a/YtFSodj

! Imagen de ChatGPT el 3 de mayo de 2025, 11_31_53 p.m. (1)


Cuando creas sistemas de IA para extraer datos estructurados de recibos, facturas y otros documentos financieros, hay un gran cuello de botella: **Datos de entrenamiento realistas, diversos y de gran volumen. **

La mayoría de los conjuntos de datos abiertos son:

  • Demasiado limpio (generado por plantillas)
  • Demasiado uniforme (solo en formatos occidentales)
  • No se puede usar legalmente a gran escala

Así que creé esta pequeña herramienta de código abierto que utiliza LLM para generar recibos sintéticos en formato JSON, totalmente personalizable mediante la configuración prompt +. Sin PDF, sin simulación de OCR, solo salida de texto estructurada diseñada para evaluar, probar o ajustar.

Características principales:

  • Funciona con OpenAI, modelos locales, Claude, etc. (independiente de LLM)
  • Esquema JSON para recibos y facturas, fácil de personalizar
  • Una falsa alternativa si no quieres golpear a una modelo
  • Reconoce la configuración regional: útil para la simulación de formato global
  • Extraños configurables: totales desglosados, campos faltantes, errores tipográficos, etc.

Esto nos ayudó a hacer pruebas de resistencia a nuestro analizador de documentos con casos extremos realistas y no triviales que las plantillas no podían replicar.


Tengo curiosidad por saber si alguien más aquí es:

  • Generar datos sintéticos para la IA de documentos
  • Probar extractores basados en LLM o combinaciones de OCR+LLM
  • Creación de suites de evaluación para modelos de IA financiera

Me encantaría recibir comentarios, ideas o comentarios sobre cómo ampliarías esto.

Alternativas de aplicaciones de IA para LLM-Powered Invoice & Receipt Extractor (OSS)