免费版
updated at: June 2025
由 LLM 驱动的发票和收据提取器 (OSS)
我们刚刚开源了一个基于语言模型的发票和收据提取器。它将凌乱的非结构化文本(来自OCR或扫描的文档)转换为简洁的结构化JSON,并附有字段级的置信度分数。
类别: 组织与自动化
AI Collection 热门精选:
组织与自动化 类别精选:
附加信息
正在努力获取您的 AI 模型的真实收据/发票数据?我使用 LLM 构建了一个开源生成器(JSON 输出,没有模板)
链接:https://github.com/WellApp-ai/Well/tree/main/ai-receipt-generator
输出示例:https://imgur.com/a/YtFSodj
当你构建 AI 系统以从收据、发票和其他财务文件中提取结构化数据时,有一个很大的瓶颈: 逼真、多样、大量的训练数据。
大多数开放的数据集是:
- 太干净了(模板生成)
- 太统一(仅限西方格式)
- 不能大规模合法使用
因此,我构建了这个小开源工具,它使用LLMS 生成 JSON 格式的合成收据,可通过 prompt + 配置进行完全自定义。没有 PDF,没有 OCR 模拟,只有专为评估、测试或微调而设计的结构化文本输出。
主要功能:
- 适用于 OpenAI、本地模特、克劳德等(与 LLM 无关)
- 收据/发票的 JSON 架构,易于定制
- 如果你不想打模型,Faker 会有备用选项
- 区域感知:适用于全局格式模拟
- 可配置的怪异之处:分项总数、缺失字段、错别字等。
这帮助我们使用模板无法复制的逼真、非平凡的边缘案例对文档解析器进行压力测试。
很好奇这里是否还有其他人:
- 为文档 AI 生成合成数据
- 测试基于 LLM 的提取器或 OCR+LLM 组合
- 为金融 AI 模型构建评估套件
希望获得有关如何扩展此功能的反馈、想法或想法。







