एमआईटी भाषण से अवसाद पैदा करता है कि AI बनाता है

अभिनव तंत्रिका नेटवर्क बातचीत से अवसाद का पता लगाता है।

Jacob Lund/Shutterstock

स्रोत: जैकब लंड / शटरस्टॉक

विश्व स्वास्थ्य संगठन के मार्च 2018 के आंकड़ों के अनुसार, डिप्रेशन विश्व स्तर पर सबसे आम विकारों में से एक है जो सालाना 300 मिलियन लोगों और लगभग 800,000 आत्महत्याओं के जीवन को प्रभावित करता है। अवसाद का निदान करना एक चुनौतीपूर्ण, जटिल प्रयास हो सकता है। मेयो क्लिनिक के अनुसार, अवसाद के लक्षण अलग-अलग होते हैं, और डॉक्टर एक निर्धारित करने के लिए अमेरिकन साइकिएट्रिक एसोसिएशन के DSM-5 ( नैदानिक और सांख्यिकीय मैनुअल ऑफ मेन्टल डिसऑर्डर ) से एक शारीरिक परीक्षा, प्रयोगशाला परीक्षण, मनोरोग मूल्यांकन प्रश्नावली और मानदंड का उपयोग कर सकते हैं। अवसाद का निदान [१]। एक मानसिक स्वास्थ्य पेशेवर के लिए, सही प्रश्न पूछना और उत्तरों की व्याख्या करना निदान में एक महत्वपूर्ण कारक है। लेकिन क्या होगा यदि प्रश्न और उत्तर से संदर्भ की आवश्यकता के बीच प्राकृतिक बातचीत के माध्यम से निदान प्राप्त किया जा सकता है

CSAIL (कंप्यूटर साइंस एंड आर्टिफिशियल इंटेलिजेंस लेबोरेटरी) में एक नवीन मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) रिसर्च टीम, जिसमें तुक अलहनाई और जेम्स ग्लास शामिल हैं, और IMES (इंस्टीट्यूट फॉर मेडिकल इंजीनियरिंग एंड साइंस) में मोहम्मद घासेमी ने AI का पता लगाने का तरीका खोजा प्राकृतिक बातचीत में पैटर्न की पहचान के माध्यम से व्यक्तियों में अवसाद [2]।

MIT के शोधकर्ताओं ने एक न्यूरल-नेटवर्क AI मॉडल विकसित किया जो साक्षात्कार से ऑडियो और टेक्स्ट ट्रांसक्रिप्शन से भाषण पैटर्न की पहचान करने के आधार पर अवसाद की भविष्यवाणी कर सकता है। 142 रिकॉर्ड किए गए रोगी साक्षात्कारों में से एक डेटा सेट का उपयोग करते हुए, टीम ने अवसाद का पता लगाने के लिए दृश्यों का मॉडल बनाने का लक्ष्य रखा। शोधकर्ताओं ने संदर्भ-मुक्त मॉडलिंग, भारित मॉडलिंग, और अनुक्रम मॉडलिंग [3] में प्रयोग शामिल किए।

पहले टीम ने ऑडियो और टेक्स्ट सुविधाओं की भविष्यवाणी सटीकता का मूल्यांकन करने की मांग की “जब स्वतंत्र रूप से पूछे गए प्रश्न के प्रकार पर विचार किया जाता है, और समय साक्षात्कार सत्र के दौरान पूछा गया था” – दूसरे शब्दों में, “संदर्भ-मुक्त” मॉडलिंग। टीम ने L1 नियमितीकरण [4] के साथ लॉजिस्टिक रिग्रेशन मॉडल में 279 ऑडियो और 100 टेक्स्ट फीचर्स दिए। पाठ सुविधाओं के लिए, टीम ने “8,050 प्रशिक्षण उदाहरण, 272,418 शब्द और 7,411 [5] की शब्दावली आकार के लिए पायथन गेंसिम लाइब्रेरी के Doc2Vec का उपयोग किया।” ऑडियो सुविधाओं के लिए, टीम ने 553 के प्रारंभिक सेट को निकाला। प्रत्येक विषय प्रतिक्रिया का प्रतिनिधित्व करने वाली सुविधाएँ। [6]। ”

दूसरे प्रयोग में, टीम ने पूर्वानुमानित प्रदर्शन को समझने का लक्ष्य रखा “जब प्रश्न के प्रकार पर कंडीशनिंग, और साक्षात्कार सत्र के दौरान पूछे जाने वाले समय से स्वतंत्र।” इसे प्राप्त करने के लिए, उन्होंने संदर्भ के समान एक भारित मॉडल बनाया। नि: शुल्क मॉडल, एक महत्वपूर्ण अंतर के साथ – यह मॉडल को “प्रशिक्षण सेट में पाए गए प्रश्न की अनुमानित शक्ति” के आधार पर भार सौंपा गया था।

istockphoto

स्रोत: istockphoto

तीसरे प्रयोग के लिए, टीम ने “साक्षात्कार के अस्थायी परिवर्तन मॉडलिंग” पर ध्यान केंद्रित किया और द्वि-दिशात्मक दीर्घकालिक अल्पकालिक मेमोरी (LSTM) तंत्रिका नेटवर्क का उपयोग किया, क्योंकि इसमें “मॉडलिंग अनुक्रमिक डेटा का अतिरिक्त लाभ” था।

दिलचस्प है, शोधकर्ताओं ने पाया कि अवसाद की भविष्यवाणी करते समय पाठ की तुलना में ऑडियो का उपयोग करते समय मॉडल को चार गुना अधिक डेटा की आवश्यकता होती है। पाठ प्रश्न और उत्तर के केवल सात अनुक्रमों की तुलना में ऑडियो के लिए औसतन 30 अनुक्रमों के लिए आवश्यक मॉडल। टीम ने देखा कि अनुक्रम मॉडलिंग अवसाद की भविष्यवाणी करने के लिए अधिक सटीक है, और पाठ और ऑडियो दोनों का मल्टी-मॉडल सबसे अच्छा प्रदर्शन था। विडंबना यह है कि एआई न्यूरल नेटवर्क मॉडल की प्रकृति बिल्कुल सटीक है कि यह इनपुट डेटा से किस पैटर्न को पता चलता है। एआई की अस्पष्टता नोड्स और मापदंडों की विशाल मात्रा के बीच जटिल कनेक्शन के साथ तंत्रिका जाल की अंतर्निहित जटिलता के कारण है। भले ही, यह एमआईटी अध्ययन भविष्य में अवसाद के निदान की जटिलताओं से निपटने में डॉक्टरों और मानसिक स्वास्थ्य पेशेवरों की सहायता के लिए एक नया संभावित उपकरण बनाने की दिशा में एक अभिनव कदम का प्रतिनिधित्व करता है।

संदर्भ

1. मेयो क्लिनिक स्टाफ। “डिप्रेशन (प्रमुख अवसादग्रस्तता विकार।” मायो क्लिनिक। 14 अक्टूबर, 2018 को https://www.mayoclinic.org/diseases-conditions/depression/diagnosis-treatment/drc-20356013 से लिया गया।

2. अलहनई, तुका; घाससेमी, मोहम्मद; ग्लास, जेम्स। “इंटरव्यू के ऑडियो / टेक्स्ट सीक्वेंस मॉडलिंग के साथ डिप्रेशन का पता लगाना।” MIT 2-6 सितंबर 2018. http://groups.csail.mit.edu/sls/publications/2018/Alhanai_Interspeech-2018.pdf से 14 अक्टूबर, 2018 को लिया गया।

3. आइबिड ।

4. आइबिड ।

5. आइबिड ।

6. आइबिड ।

Intereting Posts

सामाजिक संघर्ष का सवाल क्यों लोग नशे में डायल करते हैं? अमेजिंग (और डराने वाले) तरीकों में पानी की तरह बड़ी भीड़ क्या आप या आपका बॉस एक हितकारी तानाशाह है? बच्चों के बुरे सपने को संभालने का सबसे अच्छा तरीका हस्तियाँ, नागरिक और अवसाद दूसरों की मदद करना, स्वयं की सहायता करना पूछने के लाभ एक कबाड़ ड्रेसिंग बेटी के साथ काम करना प्रार्थना और पंच लाइनें क्या कोक अपहरण सकारात्मक मनोविज्ञान? पांच कारण पुरुषों जाओ मौन, और इसके बारे में क्या करना है (भाग 1) 100 साल बाद – फ्लेक्सनर रिपोर्ट अभी भी प्रासंगिक आज के अभिभावक में एक अनुपस्थित कदम ट्रिगर चेतावनियां और मानसिक स्वास्थ्य: साक्ष्य कहां है?