updated at: June 2025
Extractor de facturas y recibos (OSS) con tecnología LLM
Acabamos de abrir un extractor de facturas y recibos basado en modelos lingüísticos. Convierte el texto desordenado y desestructurado (de OCR o documentos escaneados) en un JSON limpio y estructurado, con puntuaciones de confianza a nivel de campo.
AI Collection Mejores opciones:
Organización y Automatización Selecciones de categoría:
información adicional
** ¿Te cuesta obtener datos reales de recibos y facturas de tus modelos de IA? Creé un generador de código abierto con LLM (salida JSON, sin plantillas) **
Enlace: https://github.com/WellApp-ai/Well/tree/main/ai-receipt-generator
Ejemplo de salida: https://imgur.com/a/YtFSodj
! Imagen de ChatGPT el 3 de mayo de 2025, 11_31_53 p.m. (1)
Cuando creas sistemas de IA para extraer datos estructurados de recibos, facturas y otros documentos financieros, hay un gran cuello de botella: **Datos de entrenamiento realistas, diversos y de gran volumen. **
La mayoría de los conjuntos de datos abiertos son:
- Demasiado limpio (generado por plantillas)
- Demasiado uniforme (solo en formatos occidentales)
- No se puede usar legalmente a gran escala
Así que creé esta pequeña herramienta de código abierto que utiliza LLM para generar recibos sintéticos en formato JSON, totalmente personalizable mediante la configuración prompt +. Sin PDF, sin simulación de OCR, solo salida de texto estructurada diseñada para evaluar, probar o ajustar.
Características principales:
- Funciona con OpenAI, modelos locales, Claude, etc. (independiente de LLM)
- Esquema JSON para recibos y facturas, fácil de personalizar
- Una falsa alternativa si no quieres golpear a una modelo
- Reconoce la configuración regional: útil para la simulación de formato global
- Extraños configurables: totales desglosados, campos faltantes, errores tipográficos, etc.
Esto nos ayudó a hacer pruebas de resistencia a nuestro analizador de documentos con casos extremos realistas y no triviales que las plantillas no podían replicar.
Tengo curiosidad por saber si alguien más aquí es:
- Generar datos sintéticos para la IA de documentos
- Probar extractores basados en LLM o combinaciones de OCR+LLM
- Creación de suites de evaluación para modelos de IA financiera
Me encantaría recibir comentarios, ideas o comentarios sobre cómo ampliarías esto.







