स्रोत: orla / istockphoto
सबसे पहले कीबोर्ड था, फिर कंप्यूटिंग डिवाइस और ऐप्स को नियंत्रित करने के लिए स्पर्श और आवाज। आगे क्या होगा? मोर्टिमर बी। ज़करमैन माइंड ब्रेन बिहेवियर इंस्टीट्यूट के शोधकर्ता न्यूयॉर्क शहर में कोलंबिया विश्वविद्यालय ने एक मस्तिष्क-कंप्यूटर इंटरफ़ेस (बीसीआई) के अपने आविष्कार के साथ “एक वैज्ञानिक पहले” की घोषणा की जो मानव विचारों को मौजूदा समाधानों की तुलना में उच्च स्पष्टता और परिशुद्धता के साथ भाषण में अनुवाद करता है। Nima Mesgarani, Ph.D. की अगुवाई में शोध टीम ने 29 जनवरी, 2019 को एक वैज्ञानिक शोध पत्रिका साइंटिफिक रिपोर्ट्स में अपने निष्कर्ष प्रकाशित किए।
एक मस्तिष्क-कंप्यूटर इंटरफ़ेस एक मस्तिष्क और कंप्यूटर के बीच एक द्विदिश संचार मार्ग है। कई बीसीआई अनुसंधान परियोजनाएं उन लोगों के लिए न्यूरोप्रोस्टेटिक उपयोगों पर केंद्रित हैं, जिन्होंने खो दिया है या बिगड़ा हुआ आंदोलन, दृष्टि, श्रवण, या भाषण, जैसे कि स्ट्रोक, रीढ़ की हड्डी की चोटों, एम्योट्रोफिक पार्श्व स्केलेरोसिस (एएलएस), वाचाघात (मस्तिष्क के कारण भाषण हानि) से प्रभावित क्षति), कर्णावत क्षति, और लॉक-इन सिंड्रोम।
इस ऐतिहासिक सफलता तक, मस्तिष्क के संकेतों को डिकोड करने की प्रक्रिया ने ध्वनि के आवृत्तियों (स्पेक्ट्रोग्राम) के दृश्य प्रतिनिधित्व का विश्लेषण करने के लिए रैखिक प्रतिगमन पर आधारित अधिक सरल कंप्यूटिंग मॉडल का उपयोग किया, जो कि अनपेक्षित भाषण का उत्पादन करता था। मेसगरानी और उनकी शोध टीम ने एआई डीप लर्निंग के साथ वाक् संश्लेषण में नवीनतम नवीन तकनीकों को संयुक्त किया, जिसमें पुनर्निधारित भाषण की समझदारी में सुधार के साथ, काफी सुधार के परिणाम सामने आए।
मेसगरानी ने नॉर्वेलस हेल्थ फिजिशियन पार्टनर्स न्यूरोसाइंस इंस्टीट्यूट में न्यूरोसर्जन आशीष दिनेश मेहता, एमडी, पीएचडी के साथ साझेदारी की, जो पहले से ही अध्ययन के लिए मस्तिष्क की सर्जरी कर रहे थे, फ़ार्मासिस्टिस्टेंट फोकल मिर्गी के रोगियों की मस्तिष्क गतिविधियों को मापने के लिए।
इनवेसिव इलेक्ट्रोकॉर्टिकोग्राफी (ईसीओजी) का उपयोग पांच अध्ययन प्रतिभागियों की तंत्रिका गतिविधि को मापने के लिए किया गया था, जो सभी सामान्य श्रवण क्षमताओं की रिपोर्ट करते थे, जबकि वे चार वक्ताओं को आधे घंटे के लिए लघु कथाएँ पेश करते थे। रिकॉर्ड किए गए न्यूरल पैटर्न का उपयोग डेटा इनपुट के रूप में किया गया था, जो एक ऑडियो प्रोसेसर का विश्लेषण करता है, जो मानव आवाज का विश्लेषण और संश्लेषण करता है।
वेकोडर को प्रशिक्षित करने के बाद, शोधकर्ताओं ने एक ही प्रतिभागियों के मस्तिष्क के संकेतों को रिकॉर्ड किया, जबकि उन्होंने वक्ताओं को शून्य से नौ के बीच गिना। ये रिकॉर्ड किए गए मस्तिष्क सिग्नल वोकोडर के माध्यम से इनपुट थे, जो बदले में संश्लेषित भाषण का उत्पादन करते थे। इसके बाद, शोधकर्ताओं ने कृत्रिम तंत्रिका नेटवर्क का उपयोग वोकडर द्वारा उत्पादित भाषण को परिष्कृत करने के लिए किया, फिर आउटपुट सुनने के लिए सामान्य सुनवाई वाले 11 विषय थे।
शोधकर्ताओं ने पता लगाया कि नॉनलाइन रिग्रेशन के साथ एक गहरे तंत्रिका नेटवर्क (डीएनएन) के उपयोग से श्रवण स्पेक्ट्रोग्राम को फिर से संगठित करने के लिए रेखीय प्रतिगमन का उपयोग करने की आधारभूत विधि पर 67 प्रतिशत की समझदारी में सुधार होता है। वे प्रतिभागी 75 प्रतिशत सटीकता के साथ DNN-vocoder संयोजन के साथ उत्पन्न ध्वनियों को समझ और दोहरा सकते हैं। शोधकर्ताओं के अनुसार, “अन्य तकनीकों पर गहन शिक्षण मॉडल का बेहतर लाभ दिखाते हुए अध्ययनों के निष्कर्ष, विशेष रूप से तब जब प्रशिक्षण डेटा की मात्रा बड़ी है,” और “प्रशिक्षण डेटा की मात्रा में वृद्धि से बेहतर पुनर्निर्माण सटीकता होती है।”
शोधकर्ताओं ने एक “सामान्य ढांचा खोजा जो भाषण न्यूरोप्रोस्थेसिस प्रौद्योगिकियों के लिए इस्तेमाल किया जा सकता है, जिसके परिणामस्वरूप मानव श्रवण प्रांतस्था से सटीक और समझदार पुनर्निर्माण किया जा सकता है।” वे अपने मस्तिष्क-से-कंप्यूटर सिस्टम को अत्याधुनिक के रूप में देखते हैं। पैरालिसिस और लॉक-इन सिंड्रोम से पीड़ित रोगियों के लिए मानव-कंप्यूटर इंटरैक्शन सिस्टम और अधिक प्राकृतिक संचार चैनलों की अगली पीढ़ी की ओर कदम। ”
आर्टिफिशियल इंटेलिजेंस डीप लर्निंग के उदय ने विषयों में विशेष रूप से तंत्रिका विज्ञान और बायोमेडिकल इंजीनियरिंग के क्षेत्र में संभव वैज्ञानिक उन्नति की एक अच्छी स्थिति पैदा कर दी है। भविष्य में, क्या कंप्यूटिंग डिवाइस मानव विचार द्वारा प्रबंधित किए जाएंगे?
कॉपीराइट © 2019 केमी रोसो सभी अधिकार सुरक्षित।
संदर्भ
अकबरी, हसन, खलीघनजाद, बहार, हेरेरो, जोस एल।, मेहता, आशीष डी।, मेसगरानी, नीमा। “मानव श्रवण प्रांतस्था से समझदार भाषण को फिर से संगठित करना। वैज्ञानिक रिपोर्ट २ ९ जनवरी २०१ ९