GitHub
Molmo screenshot
निःशुल्क संस्करण

updated at: September 2024

एक शक्तिशाली, ओपन सोर्स मल्टीमॉडल एआई मॉडल, जो विज़ुअल समझ में क्रांति ला रहा है

मोल्मो एक अत्याधुनिक मल्टीमॉडल AI मॉडल है जिसे एलन इंस्टीट्यूट फ़ॉर AI (AI2) द्वारा विकसित किया गया है। तस्वीरों की व्याख्या करके और असल दुनिया के साथ इंटरैक्शन सक्षम करके कार्रवाई योग्य जानकारी प्रदान करना पारंपरिक दृश्य समझ से परे है। मोल्मो परिवार में कई मॉडल शामिल हैं, जिनमें सबसे बड़ा, 72बी-पैरामीटर संस्करण है, जो GPT-4V और जेमिनी 1.5 जैसे मालिकाना मॉडल के बराबर है।

ब्लॉग: चैट बॉट
Application owner? Visit here

अतिरिक्त जानकारी

मोल्मो का परिचय: मल्टीमॉडल एआई में नया युग

मोल्मो एक अत्याधुनिक मल्टीमॉडल AI मॉडल है जिसे एलन इंस्टीट्यूट फ़ॉर AI (AI2) द्वारा विकसित किया गया है। तस्वीरों की व्याख्या करके और असल दुनिया के साथ इंटरैक्शन सक्षम करके कार्रवाई योग्य जानकारी प्रदान करना पारंपरिक दृश्य समझ से परे है। मोल्मो परिवार में कई मॉडल शामिल हैं, जिनमें सबसे बड़ा, 72बी-पैरामीटर संस्करण है, जो GPT-4V और जेमिनी 1.5 जैसे मालिकाना मॉडल के बराबर है। हालाँकि, मोल्मो अपनी ऐक्सेसिबिलिटी के कारण सबसे अलग दिखता है, क्योंकि यह पूरी तरह से ओपन-सोर्स है और निजी डिवाइसों पर चलने के लिए पर्याप्त कुशल है।

मोल्मो की असाधारण विज़ुअल क्षमताएं उसे जटिल इमेज, डायग्राम और यूज़र इंटरफ़ेस को समझने में मदद करती हैं। यह इन तस्वीरों में मौजूद खास तत्वों को सटीक रूप से इंगित कर सकता है, जिससे यह वेब एजेंट और रोबोटिक्स जैसे ऐप्लिकेशन के लिए एक मजबूत टूल बन जाता है। जो बात मोल्मो को सबसे अलग बनाती है, वह है इसकी दृश्य समझ के आधार पर वास्तविक दुनिया की कार्रवाइयां करने की क्षमता, जिससे एआई के विकास में नई पीढ़ी की संभावनाएं खुलती हैं।

मोल्मो की मुख्य विशेषताऐं

मोल्मो अत्याधुनिक सुविधाएँ प्रदान करता है, जो इसे डेवलपर्स और शोधकर्ताओं के लिए एक शक्तिशाली टूल बनाती हैं। इसकी सबसे खास विशेषताओं में से एक है छवि की असाधारण समझ, जिसकी मदद से यह साधारण वस्तुओं से लेकर जटिल चार्ट और मेनू तक, विज़ुअल डेटा की सटीक व्याख्या कर सकता है। यह मॉडल UI एलिमेंट्स को पहचान सकता है और उनके साथ इंटरैक्ट भी कर सकता है, जिससे यह वेब एजेंट या ऑटोमेशन टूल बनाने वाले डेवलपर्स के लिए एक महत्वपूर्ण संसाधन बन जाता है।

मोल्मो की एक और प्रमुख विशेषता इसकी कार्यक्षमता है। कई अन्य बड़े मॉडलों के विपरीत, जिनके लिए बहुत अधिक डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, मोल्मो को एक मिलियन से कम छवियों के बेहद क्यूरेट किए गए डेटासेट पर प्रशिक्षित किया जाता है। यह केंद्रित दृष्टिकोण, इसके ओपन-सोर्स स्वभाव के साथ, व्यापक AI समुदाय के लिए सुलभ होने के साथ-साथ मोल्मो को शक्तिशाली प्रदर्शन प्रदान करने की अनुमति देता है।

खुले और बंद किए गए AI मॉडल के बीच के अंतर को दूर करना

मोल्मो इस बात का स्पष्ट उदाहरण है कि कैसे ओपन-सोर्स AI मॉडल मालिकाना समाधानों को टक्कर दे सकते हैं। 72B-पैरामीटर मॉडल न सिर्फ़ ज़्यादा महंगे, बंद सिस्टम की क्षमताओं से मेल खाता है, बल्कि कुछ बेंचमार्क में उनसे बेहतर भी है। यह साबित करता है कि मोल्मो जैसे छोटे, ज़्यादा कुशल मॉडल मालिकाना AI डेवलपमेंट से जुड़ी भारी लागत और डेटा आवश्यकताओं के बिना उच्च गुणवत्ता वाले परिणाम दे सकते हैं।

मोल्मो को ओपन-सोर्स बनाकर, AI2 खुले और बंद AI मॉडल के बीच के अंतर को दूर कर रहा है। डेवलपर, रिसर्चर, और AI के शौक़ीन अब मोल्मो के सोर्स कोड, ट्रेनिंग डेटा और मॉडल वेट को ऐक्सेस कर सकते हैं, जिससे उन्हें इसमें योगदान करने और इसकी क्षमताओं को बेहतर बनाने में मदद मिलेगी। यह कदम AI समुदाय में नवोन्मेष को बढ़ावा देता है और यह सुनिश्चित करता है कि शक्तिशाली AI उपकरण सभी के लिए सुलभ रहें।

बेहतर परफॉरमेंस के लिए कुशल डेटा उपयोग

मोल्मो के प्रमुख नवाचारों में से एक है डेटा का कुशल उपयोग। अरबों छवियों वाले विशाल डेटासेट पर भरोसा करने के बजाय, AI2 ने सिर्फ़ 600,000 छवियों के डेटासेट का उपयोग करके, मात्रा से अधिक गुणवत्ता पर ध्यान केंद्रित किया। इस डेटासेट को ह्यूमन एनोटेटर्स ने सावधानी से क्यूरेट किया था और एनोटेट किया था, जिससे बहुत सटीक और बातचीत से जुड़ी तस्वीरों के बारे में जानकारी दी गई थी। इस दृष्टिकोण से मोल्मो को वस्तुओं को गिनने या भावनात्मक अवस्थाओं को सटीकता के साथ पहचानने जैसे जटिल काम करने की सुविधा मिलती है, जबकि उन्हें अपने प्रतिस्पर्धियों की तुलना में तेज़ी से और सस्ते में प्रशिक्षित किया जाता है।

छवियों के खास हिस्सों को इंगित करने की मोल्मो की नई क्षमता इसकी उपयोगिता को और बढ़ा देती है। उदाहरण के लिए, यह किसी तस्वीर में वस्तुओं को गिन सकता है और संबंधित तत्वों पर एक बिंदु लगाकर हर एक को विज़ुअल रूप से दिखा सकता है। यह ज़ीरो-शॉट ऐक्शन क्षमता AI अनुप्रयोगों के लिए नई संभावनाएं खोलती है, जिसमें साधारण काउंटिंग टास्क से लेकर अंतर्निहित कोड का विश्लेषण किए बिना वेब इंटरफेस नेविगेट करना शामिल है।

ओपन ऐक्सेस की मदद से AI समुदाय को सशक्त बनाना

मोल्मो सिर्फ़ एक शक्तिशाली AI मॉडल नहीं है—यह AI टूल के विकसित करने और शेयर करने के तरीके में बदलाव को दर्शाता है। मोल्मो के मॉडल वेट, कोड और डेटासेट को लोगों के लिए रिलीज़ करने का AI2 का फ़ैसला अत्याधुनिक AI तकनीक तक पहुंच को लोकतांत्रिक बनाने की दिशा में एक बड़ा कदम है। खुलेपन का यह स्तर सभी पृष्ठभूमियों के डेवलपर्स को महंगे मालिकाना सिस्टम में निवेश करने की आवश्यकता के बिना अपने प्रोजेक्ट में मोल्मो की क्षमताओं का लाभ उठाने की सुविधा देता है।

मोल्मो को सभी के लिए सुलभ बनाकर, AI2 एक सहयोगात्मक वातावरण को बढ़ावा दे रहा है, जहाँ डेवलपर और शोधकर्ता आज़ादी से कुछ नया कर सकते हैं। चाहे तुम कोई वेब एजेंट बना रहे हो, AI-संचालित नया ऐप्लिकेशन बना रहे हो, या रिसर्च कर रहे हो, मोल्मो AI में जो संभव है उसकी सीमाओं को आगे बढ़ाने के लिए टूल और संसाधन उपलब्ध कराता है। यह ओपन-सोर्स मॉडल सिर्फ़ एक तकनीकी सफलता नहीं है—यह AI के भविष्य के विकास के लिए एक शक्तिशाली टूल है।

एआई अनुप्रयोगों के लिए विकल्प Molmo