शंतनू खुजे
- केवळ मौखिक परंपरेवर अवलंबून असलेल्या कोरकू, भिल्ल यांसारख्या भाषा आज अस्तित्वाची लढाई लढत आहेत.
- कोरकू, भिल्ल भाषांच्या र्हासावर मात करण्यासाठी एक अभूतपूर्व तांत्रिक दृष्टिकोन स्वीकारण्यात आला आहे.
- डेटा संकलन या अत्याधुनिक तंत्रज्ञानाचा वापर करून आदिवासी भाषांच्या डिजिटल पुनरुज्जीवनाचा सरकारने आराखडा तयार केलाय.
भारत हा जगातील सर्वात मोठी भाषिक विविधता असलेला देश आहे. २०११ च्या जनगणनेनुसार भारतात २२ अनुसूचित भाषांसह १,६०० पेक्षा जास्त मातृभाषा आणि बोलीभाषा बोलल्या जातात, परंतु यातील जवळपास १९७ भाषा आज युनेस्कोच्या मानकांनुसार नष्ट होण्याच्या मार्गावर आहेत. या धोक्यात आलेल्या भाषांमध्ये मध्य आणि पश्चिम भारतातील, विशेषतः महाराष्ट्र आणि मध्य प्रदेशातील भिल्ल आणि कोरकू यांसारख्या आदिवासी बोलीभाषांचा प्रामुख्याने समावेश आहे.
ऐतिहासिकदृष्ट्या केवळ मौखिक परंपरेवर अवलंबून असलेल्या आणि औपचारिक शिक्षणातून किंवा डिजिटल प्लॅटफॉर्मवरून वगळण्यात आलेल्या या भाषा आज वेगाने होणारे शहरीकरण, मुख्य प्रवाहातील भाषांचे अतिक्रमण आणि भाषिक स्थलांतर यामुळे अस्तित्वाची लढाई लढत आहेत.
या भाषिक र्हासावर मात करण्यासाठी एक अभूतपूर्व तांत्रिक दृष्टिकोन स्वीकारण्यात आला आहे. भारत सरकार आणि महाराष्ट्र शासनाच्या संयुक्त विद्यमाने, लार्ज लँग्वेज मॉडेल्स, नैसर्गिक भाषा प्रक्रिया आणि लोकसहभागावर आधारित डेटा संकलन या अत्याधुनिक तंत्रज्ञानाचा वापर करून आदिवासी भाषांच्या डिजिटल पुनरुज्जीवनाचा एक आराखडा तयार करण्यात आला आहे.
भिल्ल भाषेतील भारतातील पहिले स्वतंत्र आदिवासी लार्ज लँग्वेज मॉडेल विकसित करणे, आदि वाणीन या केंद्रीय एआय आधारित भाषांतर प्रणालीची निर्मिती, आणि नंदुरबार जिल्ह्यातील प्रकल्प अस्तित्व सारखे उपक्रम हे केवळ भाषांचे जतन करण्यापलीकडे जाऊन त्यांना अर्थव्यवस्थेच्या आणि प्रशासनाच्या मुख्य प्रवाहात आणण्याचे काम करत आहेत.
भिल्ल आणि कोरकू भाषांच्या पुनरुज्जीवनासाठी केवळ जुन्या पद्धतीचे शब्दकोश तयार करणे पुरेसे नाही, तर त्यासाठी ट्रान्सफॉर्मर वास्तुकलेवर आधारित लार्ज लँग्वेज मॉडेल्स आणि रिअल-टाइम भाषांतर प्रणालींचा वापर करणे आवश्यक आहे. मुख्य अडचण अशी आहे की, AI मॉडेल्स डेटा-हंग्री असतात. इंग्रजीसारख्या भाषांसाठी अब्जावधी शब्दांचा डेटा इंटरनेटवर उपलब्ध आहे, परंतु आदिवासी भाषांसाठी तो नाही. त्यामुळे, उपलब्ध असलेल्या अत्यंत मर्यादित परंतु उच्च-गुणवत्तेच्या आणि सांस्कृतिकदृष्ट्या अचूक डेटाचा वापर करून ही मॉडेल्स फाइन-ट्यून करावी लागतात.

भिल्ल भाषेतील भारतातील पहिले आदिवासी LLM
महाराष्ट्र शासनाने आपल्या ५०० कोटी रुपयांच्या महा-अॅग्री एआय धोरणांतर्गत भिल्ल भाषेसाठी स्वतंत्र आणि भारतातील पहिले आदिवासी लार्ज लँग्वेज मॉडेल विकसित केल्याची घोषणा एआय फॉर अॅग्री २०२६ या शिखर परिषदेत केली. हे मॉडेल इतर साध्या भाषांतर प्रणालींपेक्षा वेगळे आहे कारण ते इंग्रजी किंवा हिंदीतील वाक्यांचे केवळ शब्दशः भाषांतर करत नाही, तर स्थानिक बोलीतील बारकावे आणि पारंपारिक कृषी ज्ञान अंतर्भूत करून अचूक संदर्भ देते.
या लार्ज लँग्वेज मॉडेलचे यश एका मोठ्या डेटासेटवर अवलंबून आहे. अलीकडेच संशोधकांनी भिल्ली-हिंदी-इंग्रजी पॅरलल कॉर्पस तयार केला आहे, ज्यामध्ये शिक्षण, प्रशासन आणि कृषी यांसारख्या महत्त्वाच्या क्षेत्रांतील १,१०,००० पेक्षा जास्त वाक्यांचा अत्यंत काळजीपूर्वक अनुवाद समाविष्ट आहे. हे संसाधन या भाषेसाठी जगातील सर्वात मोठे समांतर कॉर्पस आहे, ज्यामुळे भिल्ल लार्ज लँग्वेज मॉडेलला कृत्रिम किंवा यांत्रिक भाषांतर करण्याऐवजी सांस्कृतिक संदर्भ समजण्याची क्षमता प्राप्त झाली आहे.
तांत्रिक आणि व्यावहारिक पातळीवरील आव्हाने…
डिजिटल क्रांती आणि आर्टिफिशियल इंटेलिजन्स तसेच लार्ज लँग्वेज मॉडेल्सच्या युगात भाषेचे स्वरूप पूर्णपणे बदलले आहे. भाषा आता केवळ संवादाचे माध्यम राहिलेली नाही, तर ती डेटा आणि डिजिटल अर्थव्यवस्थेचा एक भाग बनली आहे. ज्या भाषांचा डिजिटल डेटा मुबलक उपलब्ध आहे, त्या या तंत्रज्ञानात सामावल्या जात आहेत. या निकषावर विचार केल्यास, कोरकू आणि भिल्ल यांसारख्या महाराष्ट्रातील आदिवासी भाषांच्या अस्तित्वासमोर एक अत्यंत गंभीर प्रश्नचिन्ह उभे राहिले आहे. या भाषांच्या संवर्धनासाठी 'डिजिटल पुनरुज्जीवन मास्टरप्लान' आखला जात असला, तरी तांत्रिक आणि व्यावहारिक पातळीवरील आव्हाने मोठी आहेत.
मराठीतच डेटा कमी तर कोरकू, भिल्ल भाषांचं काय होईल…
एआय मॉडेल्सना प्रशिक्षित करण्यासाठी अब्जावधीच्या घरात शब्दांच्या टेक्स्ट डेटाची आवश्यकता असते. मराठीसारख्या लिखित भाषेलाही जर डेटा कमी पडत असेल, तर कोरकू आणि भिल्ल भाषांसमोरील आव्हान कैकपटीने मोठे आहे. या भाषा प्रामुख्याने मौखिक परंपरेवर आधारलेल्या आहेत. इंटरनेटवर या भाषांचे लेखी अस्तित्व जवळपास नगण्य आहे. मेळघाट सारख्या भागातील कोरकू आणि नंदुरबार, धुळे भागातील भिल्ल भाषांचा लिखित डिजिटल साठा उपलब्ध नसल्याने, एआय मॉडेल्सना प्रशिक्षित करण्यासाठी प्राथमिक 'इनपुट'च मिळत नाही. या डेटाच्या दुष्काळावर मात करून ऑडिओ आणि टेक्स्ट डेटाबेस तयार करणे, हे मास्टरप्लानसमोरील सर्वात मोठे आणि प्राथमिक आव्हान आहे.
याबाबत आदिवासी भाषांचे अभ्यासक सुनील गायकवाड यांचं असंच काहीसं मत आहे, ‘बाईमाणूस’शी बोलतांना ते म्हणतात की,
"ज्या मूळ भाषा आहेत, त्यातील ज्या लिखित आहेत जसे की भिलाऊ, पावरा, मावची, तडवी त्यांच्यात एआय मॉडेल ट्रेन करणं शक्य आहे. मात्र, ज्या मौखिक भाषा आहेत आणि ज्यांचं उच्चारणच फार अवघड आहे, त्यांना एआय मध्ये बंदिस्त करणं फारच कठीण आहे."

याबाबत अनिल माकोडे थोडं वेगळं मत मांडतात. माकोडे हे कोरकू भाषेचे अभ्यासक असून त्यांनी मेळघाटातील आदिवासी संस्कृतीवर संशोधन केलंय. त्यांच्या मते,
"कोरकू भाषेमध्ये मौखिक साहित्य तर आहेच, पण थोडंफार लिखित साहित्यही उपलब्ध आहे. आता या भाषेचं व्याकरण आणि त्यावर आधारित पुस्तकंही निघत आहेत. जर हा डेटा आपण AI किंवा चॅट जीपीटीसारख्या मॉडेल्सना दिला, तर ते अपडेट करणं आणि संवर्धन करणं नक्कीच शक्य आहे."
भाषिक रचना, सिंटॅक्स आणि तंत्रज्ञानाच्या मर्यादा
या भाषांचे भाषिक कुळ आणि रचना पूर्णपणे वेगळी आहे. कोरकू भाषेचा उगम ऑस्ट्रो-आशियाटिक भाषा कुळातून होतो, तर भिल्ल ही इंडो-आर्यन भाषिक कुळातील असली तरी तिच्यात पावरी, भिलाली अशा अनेक स्वतंत्र उपबोली आहेत.
या भाषांची वाक्यरचना, व्याकरण आणि उच्चारांच्या इंग्रजी, हिंदी किंवा प्रमाण मराठीपेक्षा भिन्न आहेत. इंग्रजी किंवा प्रमाण भाषांवर आधारित असलेले एआय अल्गोरिदम्स कोरकू किंवा भिल्ल भाषेतील संदर्भाधारित अर्थ थेट समजून घेऊ शकत नाहीत.
या भाषांसाठी केवळ भाषांतर टूल्स वापरून चालणार नाही, तर या भाषांसाठी तळापासून स्वतंत्र नॅचरल लँग्वेज प्रोसेसिंग आणि भाषक मॉडेल्स विकसित करण्याची तांत्रिक गरज असल्याचं सुनील गायकवाड यांचं मत आहे. ते सांगतात की,
"भिल्ल समुदाय भारताच्या १४ राज्यांमध्ये आहे. महाराष्ट्रातील भिली, राजस्थानमधील भिली आणि गुजरातमधील भिली वेगळी आहे. प्रत्येकावर स्थानिक भाषेचा प्रभाव आहे. त्यामुळे एआयला ट्रेन करताना 'महाराष्ट्र भिली', 'राजस्थानी भिली' असे उपप्रकार करावे लागतील. शिवाय, यात ट्रान्सलेशनचा मोठा प्रॉब्लेम येतो. इंग्रजीतून मराठीत शब्दशः भाषांतर करतानाच अनेक अडचणी येतात, तर या भाषांच्या बाबतीत ते अधिक गुंतागुंतीचे होईल."
पण ही अशी समस्या कोरकू भाषेबाबत येणार नसल्याचं अनिल माकोडे यांना वाटतं, त्यांच्या मते,
"कोरकू भाषेला भिल्ल भाषेसारख्या अनेक उपभाषा नाहीत, पण दर ४० किलोमीटरवर भाषेच्या उच्चार आणि शब्दांमध्ये थोडा फरक पडतो. जसे की, चिखलदरा-अचलपूर पट्ट्यात आईला 'आंटे' म्हणतात, तर धारणीमध्ये 'माय' म्हणतात. अर्थ बदलत नाही, फक्त शब्द बदलतात, जे एआय मॉडेल सहज समजून घेऊ शकेल."

डिजिटल युगात या भाषा टिकणार का?
एआय आणि डिजिटल युगात कोरकू आणि भिल्ल भाषांसमोर दोनच स्पष्ट पर्याय आहेत. डिजिटल प्रणालीचा भाग बनणे किंवा केवळ मर्यादित भौगोलिक क्षेत्रापुरती संवादाची भाषा म्हणून उरणे. जर योग्य डिजिटल डेटा कॉर्पसची निर्मिती, लिपीचे प्रमाणीकरण आणि तांत्रिक संशोधन झाले, तर या भाषा नव्या पिढीच्या रोजच्या तंत्रज्ञानात टिकून राहतील. अन्यथा, रोजगारासाठी आणि शिक्षणासाठी मुख्य प्रवाहातील भाषांचा वापर वाढल्याने, या भाषा वेगाने मागे पडण्याचा धोका आहे.
डिजिटल युगात कोरकू भिल्ल सारख्या आदिवासी भाषा टिकणार का..? या प्रश्नाला उत्तर देतांना भाषातज्ञ डॉ. गणेश देवी एका वेगळ्या मुद्दयाकडे लक्ष वेधतात, ते म्हणतात की,
“या भाषिकांच्या सन्मानाने जगण्याची व्यवस्था आर्थिक नियोजनात झाली, तरच ह्या भाषिकांना स्थलांतर न करता जगता येतील. त्यातून त्यांच्या भाषा जिवंत राहतील. अन्यथा नाही.”
एआय या भाषांना वाचवेल का, हा प्रश्न तांत्रिकदृष्ट्या चुकीचा ठरतो. खरा प्रश्न हा आहे की, महाराष्ट्र शासनाचा मास्टरप्लान या भाषांना AI साठी सज्ज करू शकेल का..?
सरकारच्या या मास्टरप्लानचे यश केवळ कागदोपत्री धोरणांवर अवलंबून नाही. प्रत्यक्ष तळागाळातील आदिवासी समुदाय, भाषा अभ्यासक आणि तंत्रज्ञान तज्ज्ञ यांनी एकत्र येऊन या मौखिक भाषांचे डिजिटल मानकीकरण करणे आवश्यक आहे. भाषेला तंत्रज्ञानाची जोड देणे आणि डिजिटल कॉर्पस उभा करणे, हेच या भाषांच्या अस्तित्वाचे आणि डिजिटल पुनरुज्जीवनाचे मुख्य सूत्र असेल.






