updated at: June 2025
एलएलएम द्वारा संचालित इनवॉइस और रसीद एक्सट्रैक्टर (OSS)
हमने हाल ही में इनवॉइस और रसीदों के लिए भाषा-मॉडल द्वारा संचालित एक्सट्रैक्टर को ओपन सोर्स किया है। यह गन्दे, असंरचित टेक्स्ट (OCR या स्कैन किए गए दस्तावेज़ों से) को साफ, स्ट्रक्चर्ड JSON में बदल देता है — जिसमें फ़ील्ड-लेवल के कॉन्फिडेंस स्कोर होते हैं।
AI Collection ऊपर उठाता है:
संगठन और स्वचालन श्रेणी चयन:
अतिरिक्त जानकारी
**तुम्हारे AI मॉडल के लिए असली रसीद/इनवॉइस डेटा पाने में परेशानी हो रही है? मैंने LLM का इस्तेमाल करके एक ओपन-सोर्स जनरेटर बनाया है (JSON आउटपुट, कोई टेम्प्लेट नहीं) **
लिंक: https://github.com/WellApp-ai/Well/tree/main/ai-receipt-generator
नमूना आउटपुट: https://imgur.com/a/YtFSodj
! चैटजीपीटी इमेज 3 मई, 2025, रात 11_31_53 बजे (1)
जब तुम रसीदों, इनवॉइस और दूसरे वित्तीय दस्तावेज़ों से स्ट्रक्चर्ड डेटा निकालने के लिए AI सिस्टम बना रहे होते हो, तो एक बड़ी अड़चन आती है: **यथार्थवादी, विविध, हाई-वॉल्यूम ट्रेनिंग डेटा। **
ज़्यादातर खुले डेटासेट ये होते हैं:
- बहुत साफ़ (टेम्प्लेट-जनरेट किया गया)
- बहुत समान (केवल पश्चिमी फ़ॉर्मेट)
- बड़े पैमाने पर कानूनी रूप से इस्तेमाल करने योग्य नहीं
इसलिए मैंने यह छोटा सा ओपन-सोर्स टूल बनाया है, जो JSON फ़ॉर्मेट में सिंथेटिक रसीदें जनरेट करने के लिए** LLM का इस्तेमाल करता है, जिसे प्रॉम्प्ट + कॉन्फ़िग के ज़रिए पूरी तरह से कस्टमाइज़ किया जा सकता है। कोई PDF नहीं, कोई OCR सिमुलेशन नहीं - बस स्ट्रक्चर्ड टेक्स्ट आउटपुट, जिसे इवैल, परीक्षण या फ़ाइन ट्यूनिंग के लिए डिज़ाइन किया गया है।
मुख्य विशेषताऐं:
- OpenAI, लोकल मॉडल, क्लाउड आदि के साथ काम करता है। (एलएलएम-एग्नोस्टिक)
- रसीद/इनवॉइस के लिए JSON स्कीमा, कस्टमाइज़ करना आसान है
- अगर तुम किसी मॉडल को हिट नहीं करना चाहते हो, तो फ़कर फ़ैकर फ़ॉलबैक
- लोकेल-अवेयर: ग्लोबल फ़ॉर्मेट सिमुलेशन के लिए उपयोगी
- कॉन्फ़िगर किया जा सकने वाला अजीबता: टूटे हुए टोटल, गुम फ़ील्ड, टाइपो, वगैरह।
इससे हमें वास्तविक, नॉन-ट्रिवियल एज केस के साथ अपने डॉक्यूमेंट पार्सर का तनाव परीक्षण करने में मदद मिली, जिन्हें टेम्प्लेट दोहरा नहीं सकते थे।
अगर कोई और यहाँ है तो उत्सुक हूँ:
- डॉक्यूमेंट AI के लिए सिंथेटिक डेटा जेनरेट करना
- एलएलएम-आधारित एक्सट्रैक्टर्स या ओसीआर+एलएलएम कॉम्बो का परीक्षण करना
- फाइनेंशियल AI मॉडल के लिए इवल सूट बनाना
तुम्हेंं इसे बढ़ाने के तरीके के बारे में फ़ीडबैक, विचार या विचार पसंद आएंगे।






