LLM-Powered Invoice & Receipt Extractor (OSS)

LLM-Powered Invoice & Receipt Extractor (OSS) screenshot
免费版

updated at: June 2025

由 LLM 驱动的发票和收据提取器 (OSS)

我们刚刚开源了一个基于语言模型的发票和收据提取器。它将凌乱的非结构化文本(来自OCR或扫描的文档)转换为简洁的结构化JSON,并附有字段级的置信度分数。

Application owner? Visit here

附加信息

正在努力获取您的 AI 模型的真实收据/发票数据?我使用 LLM 构建了一个开源生成器(JSON 输出,没有模板)

链接:https://github.com/WellApp-ai/Well/tree/main/ai-receipt-generator

输出示例:https://imgur.com/a/YtFSodj

ChatGPT 图片 2025 年 5 月 3 日,晚上 11_31_53 点 (1)


当你构建 AI 系统以从收据、发票和其他财务文件中提取结构化数据时,有一个很大的瓶颈: 逼真、多样、大量的训练数据。

大多数开放的数据集是:

  • 太干净了(模板生成)
  • 太统一(仅限西方格式)
  • 不能大规模合法使用

因此,我构建了这个小开源工具,它使用LLMS 生成 JSON 格式的合成收据,可通过 prompt + 配置进行完全自定义。没有 PDF,没有 OCR 模拟,只有专为评估、测试或微调而设计的结构化文本输出。

主要功能:

  • 适用于 OpenAI、本地模特、克劳德等(与 LLM 无关)
  • 收据/发票的 JSON 架构,易于定制
  • 如果你不想打模型,Faker 会有备用选项
  • 区域感知:适用于全局格式模拟
  • 可配置的怪异之处:分项总数、缺失字段、错别字等。

这帮助我们使用模板无法复制的逼真、非平凡的边缘案例对文档解析器进行压力测试。


很好奇这里是否还有其他人:

  • 为文档 AI 生成合成数据
  • 测试基于 LLM 的提取器或 OCR+LLM 组合
  • 为金融 AI 模型构建评估套件

希望获得有关如何扩展此功能的反馈、想法或想法。

替代人工智能应用程序 LLM-Powered Invoice & Receipt Extractor (OSS)