updated at: June 2025
Экстрактор счетов и чеков на базе LLM (OSS)
Мы только что открыли исходный код экстрактора счетов и квитанций на основе языковой модели. Он превращает запутанный неструктурированный текст (из OCR или отсканированных документов) в чистый структурированный JSON с оценками достоверности на уровне полей.
AI Collection Лучшие подборки:
Организация и автоматизация Выбор категории:
Дополнительная информация
**Не можете получить реальные данные о чеках/счетах для своих моделей искусственного интеллекта? Я создал генератор с открытым исходным кодом, используя LLM (вывод в формате JSON, без шаблонов) **
Ссылка: https://github.com/WellApp-ai/Well/tree/main/ai-receipt-generator
Пример выходных данных: https://imgur.com/a/YtFSodj
! Изображение ChatGPT 3 мая 2025 года, 23_31_53 (1)
При создании систем искусственного интеллекта для извлечения структурированных данных из квитанций, счетов и других финансовых документов возникает одно большое препятствие: **Реалистичные, разнообразные и объемные обучающие данные. **
Большинство открытых наборов данных:
- Слишком чисто (создано на основе шаблона)
- Слишком однородный (только западные форматы)
- Запрещено использовать в больших масштабах
Поэтому я создал этот небольшой инструмент с открытым исходным кодом, который использует LLM для создания синтетических чеков в формате JSON, полностью настраиваемый с помощью команды prompt + config. Никаких PDF-файлов, никакого моделирования распознавания текста — только структурированный текстовый вывод, предназначенный для оценки, тестирования или доработки.
Ключевые функции:
- Работает с OpenAI, локальными моделями, Claude и т. д. (не зависит от LLM)
- Схема JSON для квитанций/счетов, простая в настройке
- Поддельный запасной вариант, если вы не хотите выбирать модель
- С учетом локали: полезно для моделирования глобального формата
- Настраиваемые странности: неточные итоги, пропущенные поля, опечатки и т. д.
Это помогло нам провести стресс-тестирование нашего парсера документов, используя реалистичные и нетривиальные крайние варианты, которые шаблоны не могли воспроизвести.
Интересно, есть ли здесь еще кто-нибудь:
- Создание синтетических данных для искусственного интеллекта документов
- Тестирование экстракторов на основе LLM или комбинаций OCR+LLM
- Создание оценочных наборов для финансовых моделей искусственного интеллекта
Хотелось бы получить отзывы, идеи или мысли о том, как вы могли бы расширить эту сферу.







