न्यूरोसाइंस ब्रेकथ्रू: AI ट्रांसलेट थॉट-टू-स्पीच

कोलंबिया विश्वविद्यालय का ब्रेन-कंप्यूटर इंटरफ़ेस कला की स्थिति है।

orla/istockphoto

स्रोत: orla / istockphoto

सबसे पहले कीबोर्ड था, फिर कंप्यूटिंग डिवाइस और ऐप्स को नियंत्रित करने के लिए स्पर्श और आवाज। आगे क्या होगा? मोर्टिमर बी। ज़करमैन माइंड ब्रेन बिहेवियर इंस्टीट्यूट के शोधकर्ता न्यूयॉर्क शहर में कोलंबिया विश्वविद्यालय ने एक मस्तिष्क-कंप्यूटर इंटरफ़ेस (बीसीआई) के अपने आविष्कार के साथ “एक वैज्ञानिक पहले” की घोषणा की जो मानव विचारों को मौजूदा समाधानों की तुलना में उच्च स्पष्टता और परिशुद्धता के साथ भाषण में अनुवाद करता है। Nima Mesgarani, Ph.D. की अगुवाई में शोध टीम ने 29 जनवरी, 2019 को एक वैज्ञानिक शोध पत्रिका साइंटिफिक रिपोर्ट्स में अपने निष्कर्ष प्रकाशित किए।

एक मस्तिष्क-कंप्यूटर इंटरफ़ेस एक मस्तिष्क और कंप्यूटर के बीच एक द्विदिश संचार मार्ग है। कई बीसीआई अनुसंधान परियोजनाएं उन लोगों के लिए न्यूरोप्रोस्टेटिक उपयोगों पर केंद्रित हैं, जिन्होंने खो दिया है या बिगड़ा हुआ आंदोलन, दृष्टि, श्रवण, या भाषण, जैसे कि स्ट्रोक, रीढ़ की हड्डी की चोटों, एम्योट्रोफिक पार्श्व स्केलेरोसिस (एएलएस), वाचाघात (मस्तिष्क के कारण भाषण हानि) से प्रभावित क्षति), कर्णावत क्षति, और लॉक-इन सिंड्रोम।

इस ऐतिहासिक सफलता तक, मस्तिष्क के संकेतों को डिकोड करने की प्रक्रिया ने ध्वनि के आवृत्तियों (स्पेक्ट्रोग्राम) के दृश्य प्रतिनिधित्व का विश्लेषण करने के लिए रैखिक प्रतिगमन पर आधारित अधिक सरल कंप्यूटिंग मॉडल का उपयोग किया, जो कि अनपेक्षित भाषण का उत्पादन करता था। मेसगरानी और उनकी शोध टीम ने एआई डीप लर्निंग के साथ वाक् संश्लेषण में नवीनतम नवीन तकनीकों को संयुक्त किया, जिसमें पुनर्निधारित भाषण की समझदारी में सुधार के साथ, काफी सुधार के परिणाम सामने आए।

मेसगरानी ने नॉर्वेलस हेल्थ फिजिशियन पार्टनर्स न्यूरोसाइंस इंस्टीट्यूट में न्यूरोसर्जन आशीष दिनेश मेहता, एमडी, पीएचडी के साथ साझेदारी की, जो पहले से ही अध्ययन के लिए मस्तिष्क की सर्जरी कर रहे थे, फ़ार्मासिस्टिस्टेंट फोकल मिर्गी के रोगियों की मस्तिष्क गतिविधियों को मापने के लिए।

इनवेसिव इलेक्ट्रोकॉर्टिकोग्राफी (ईसीओजी) का उपयोग पांच अध्ययन प्रतिभागियों की तंत्रिका गतिविधि को मापने के लिए किया गया था, जो सभी सामान्य श्रवण क्षमताओं की रिपोर्ट करते थे, जबकि वे चार वक्ताओं को आधे घंटे के लिए लघु कथाएँ पेश करते थे। रिकॉर्ड किए गए न्यूरल पैटर्न का उपयोग डेटा इनपुट के रूप में किया गया था, जो एक ऑडियो प्रोसेसर का विश्लेषण करता है, जो मानव आवाज का विश्लेषण और संश्लेषण करता है।

वेकोडर को प्रशिक्षित करने के बाद, शोधकर्ताओं ने एक ही प्रतिभागियों के मस्तिष्क के संकेतों को रिकॉर्ड किया, जबकि उन्होंने वक्ताओं को शून्य से नौ के बीच गिना। ये रिकॉर्ड किए गए मस्तिष्क सिग्नल वोकोडर के माध्यम से इनपुट थे, जो बदले में संश्लेषित भाषण का उत्पादन करते थे। इसके बाद, शोधकर्ताओं ने कृत्रिम तंत्रिका नेटवर्क का उपयोग वोकडर द्वारा उत्पादित भाषण को परिष्कृत करने के लिए किया, फिर आउटपुट सुनने के लिए सामान्य सुनवाई वाले 11 विषय थे।

शोधकर्ताओं ने पता लगाया कि नॉनलाइन रिग्रेशन के साथ एक गहरे तंत्रिका नेटवर्क (डीएनएन) के उपयोग से श्रवण स्पेक्ट्रोग्राम को फिर से संगठित करने के लिए रेखीय प्रतिगमन का उपयोग करने की आधारभूत विधि पर 67 प्रतिशत की समझदारी में सुधार होता है। वे प्रतिभागी 75 प्रतिशत सटीकता के साथ DNN-vocoder संयोजन के साथ उत्पन्न ध्वनियों को समझ और दोहरा सकते हैं। शोधकर्ताओं के अनुसार, “अन्य तकनीकों पर गहन शिक्षण मॉडल का बेहतर लाभ दिखाते हुए अध्ययनों के निष्कर्ष, विशेष रूप से तब जब प्रशिक्षण डेटा की मात्रा बड़ी है,” और “प्रशिक्षण डेटा की मात्रा में वृद्धि से बेहतर पुनर्निर्माण सटीकता होती है।”

शोधकर्ताओं ने एक “सामान्य ढांचा खोजा जो भाषण न्यूरोप्रोस्थेसिस प्रौद्योगिकियों के लिए इस्तेमाल किया जा सकता है, जिसके परिणामस्वरूप मानव श्रवण प्रांतस्था से सटीक और समझदार पुनर्निर्माण किया जा सकता है।” वे अपने मस्तिष्क-से-कंप्यूटर सिस्टम को अत्याधुनिक के रूप में देखते हैं। पैरालिसिस और लॉक-इन सिंड्रोम से पीड़ित रोगियों के लिए मानव-कंप्यूटर इंटरैक्शन सिस्टम और अधिक प्राकृतिक संचार चैनलों की अगली पीढ़ी की ओर कदम। ”

आर्टिफिशियल इंटेलिजेंस डीप लर्निंग के उदय ने विषयों में विशेष रूप से तंत्रिका विज्ञान और बायोमेडिकल इंजीनियरिंग के क्षेत्र में संभव वैज्ञानिक उन्नति की एक अच्छी स्थिति पैदा कर दी है। भविष्य में, क्या कंप्यूटिंग डिवाइस मानव विचार द्वारा प्रबंधित किए जाएंगे?

कॉपीराइट © 2019 केमी रोसो सभी अधिकार सुरक्षित।

संदर्भ

अकबरी, हसन, खलीघनजाद, बहार, हेरेरो, जोस एल।, मेहता, आशीष डी।, मेसगरानी, ​​नीमा। “मानव श्रवण प्रांतस्था से समझदार भाषण को फिर से संगठित करना। वैज्ञानिक रिपोर्ट २ ९ जनवरी २०१ ९

Intereting Posts
शुद्ध-ली स्वादिष्ट एक फिल्म के चरित्र की सूंघ को देख कर क्या आप सूंघ सकते हैं? कौन सी माता-पिता क्या आपको अधिक प्यार है? सीमा रेखा व्यक्तित्व सभी दौड़ और दोनों लिंग एक सार्वजनिक बौद्धिक बनना प्रकृति के उपहार हम केवल दो तथ्यों और एक प्रश्न के बारे में सुनिश्चित कर सकते हैं प्रभावी रूप से संचार करके अपने रिश्ते को सुरक्षित रखें योग कैसे आपकी प्रतिरक्षा प्रणाली को बढ़ावा देता है पर नया शोध चिंता के लिए एकाधिक विटामिन कैसे आघात मस्तिष्क को चंगा "इनसाइड आऊट" से दुविधाओं का सामना करना पड़ रहा है एक अवकाश शुरू करें 52 तरीके दिखाओ मैं तुम्हें प्यार करता हूँ: आराम प्रदान करें नए साल के संकल्प को रखना चाहते हैं?