छोटा डेटा

आइए डाटा संग्रह के लिए हमारी रणनीति को उलट दें।

वर्तमान में, बिग डेटा बैंडवैगन गति को चुनना जारी रखता है: मोबाइल उपकरणों, हवाई और रिमोट सेंसिंग, कैमरे, माइक्रोफोन, वायरलेस सेंसर नेटवर्क, और इसी तरह के माध्यम से हमारे लिए उपलब्ध सभी डेटा स्रोतों का लाभ उठाएं। डेटा वहां हैं, रुझानों को खोजने और सहसंबंध खोजने के लिए बस कटाई की प्रतीक्षा कर रहे हैं। डेटा की विशाल मात्रा हमें मशीन लर्निंग सहित कंप्यूटर-आधारित खोज और विश्लेषण के विभिन्न रूपों का उपयोग करने के लिए मजबूर करती है। बिग डेटा दृष्टिकोण रोमांचक है क्योंकि यह हमें बड़ी मात्रा में जानकारी खाते में ले जाने देता है। बिग डेटा दृष्टिकोण भी परेशान है क्योंकि हम अपने महत्व का सामना करते हैं और स्वीकार करते हैं कि एल्गोरिदम और स्मार्ट मशीनों को हम जितना भी कर सकते हैं उससे कहीं ज्यादा जानते हैं।

पहले, मैंने बिग डेटा के बारे में असहज होने के कुछ कारणों का वर्णन किया है, जिस तरह बिग डेटा एनालिटिक्स मौजूदा रुझानों का पालन करेगा, लेकिन इन प्रवृत्तियों को अप्रचलित करने वाली स्थिति में सूक्ष्म लेकिन महत्वपूर्ण बदलावों को याद करें। उस निबंध ने लापता डेटा के मुद्दे को भी उठाया। लोग कभी-कभी देखते हैं कि कुछ नहीं हुआ, और किसी घटना की अनुपस्थिति हमें स्थिति की समझ में मदद करती है। बिग डेटा आम तौर पर ऐसी घटनाओं को शामिल करता है जो घटित होते हैं और घटनाओं को अनदेखा करते हैं, हालांकि ये गैर-घटनाएं महत्वपूर्ण हो सकती हैं।

हालांकि, यह निबंध बिग डेटा में सीमाओं के बारे में नहीं है।

इसके बजाए, मैं सुझाव देना चाहता हूं कि हम विपरीत दिशा में आगे बढ़ें: जितना संभव हो उतना डेटा एकत्र करने की कोशिश कर रहे हैं, आदर्श रूप से केवल एक डेटा बिंदु – लेकिन डेटा बिंदु जो निर्णय लेता है। डेटा ओवरलोड में डूबने की बजाय, ऐसे समय होते हैं जब सही अवलोकन अस्पष्ट संकेतों को ध्यान में रखेगा।

यहाँ कुछ उदाहरण हैं।

1. (यह उदाहरण ट्रेवर हैडली, पूर्व अमेरिकी सरकार के विश्लेषक से आता है।) 2015 में सीआईए यह तय करने की कोशिश कर रहा था कि क्या रूस और चीन भूमध्य सागर में संयुक्त नौसेना अभ्यास आयोजित करने जा रहे हैं। कोई आधिकारिक बयान नहीं थे। रुझान अस्पष्ट थे, साक्ष्य अनिश्चित था। फिर एक बाहरी विश्लेषक, एक सुपरफोस्टर, ने सोचा कि चीनी फ्लोटिला को फिर से आपूर्ति करने के लिए क्या होगा, और साइप्रस में जहाज चांडलर से ऑनलाइन खरीद आदेशों के माध्यम से शिकार करना शुरू कर दिया। उन्हें चावल और नूडल्स के लिए नए आदेश, भारी आदेश मिले, जहां पहले कोई अस्तित्व नहीं था। बस सुरक्षित होने के लिए, उन्होंने स्थानीय तट रक्षक नोटिस की जांच Mariners और अनदेखी पुष्टि प्रमाणों की भी जांच की। लेकिन यह चावल और नूडल्स था जिसने चाल की थी। मामला समाप्त।

2. (यह उदाहरण ट्रेवर हैडली से भी आता है।) 2011 में, क्या फ्रांसीसी लीबिया में गृहयुद्ध में हस्तक्षेप करने का इरादा रखती थी? फ्रांसीसी ने इनकार किया कि वे इस तरह के हस्तक्षेप पर भी विचार कर रहे थे लेकिन खुफिया समुदाय ने इस तरह के इनकारों को गंभीरता से नहीं लेना सीखा था। फ्रांसीसी हस्तक्षेप करने की उम्मीद करने के कारण थे। पूर्वानुमान बनाने का प्रयास विफल रहा। एक भविष्यवाणी बाजार सहायक नहीं था। फिर एक खुफिया विश्लेषक ने फ्रांसीसी सिविल सेवा निर्देश में एक अस्पष्ट बयान देखा, एक ज्ञापन फ्रांसीसी सेना के सदस्यों के लिए जीवन बीमा नियमों में संशोधन का प्रस्ताव है, जो उन देशों को सूचीबद्ध करता है जहां फ्रेंच सेना वर्तमान में सक्रिय थी – लीबिया समेत! मेमो को कुछ दिनों में वेबसाइट से खींचा गया था और लीबिया को छोड़कर एक संस्करण के साथ बदल दिया गया था, लेकिन यह बहुत देर हो चुकी थी। (कई महीने बाद लीबिया में लड़ रहे फ्रेंच बलों की उपस्थिति की पुष्टि हुई।) मामला बंद हो गया।

3. अमेरिकी सरकार भविष्यवाणी करना चाहती थी कि यूके ब्रेक्सिट पर वोट कैसे देगा। (इसने कई अन्य देशों को भी किया।) विश्लेषकों ने चुनावों में पंसद किया, कुछ जानकारी की तलाश की जो संतुलन को टिपेंगे, लेकिन संकेत केवल पर्याप्त स्पष्ट नहीं थे। फिर एक पर्यवेक्षक ने नोट किया कि यूरोपीय संघ मानकों को चाय बनाने के लिए एक अलग विधि का उपयोग करने के लिए ब्रिटिश गृहिणियों की आवश्यकता होगी। पानी उबलने के लिए मौजूदा टीपोट बस बहुत ऊर्जा अक्षम थे, अनावश्यक रूप से कार्बन पदचिह्न को बढ़ाते थे। यूरोपीय संघ को पानी उबलने के लिए एक और अधिक कुशल उपकरण की आवश्यकता थी, लेकिन इसमें पांच गुना अधिक समय लगेगा! एक त्वरित कपपा के लिए एक पड़ोसी को आमंत्रित करने पर क्या प्रभाव पड़ा? मामला समाप्त।

4. 1 99 0 में अमेरिकी खुफिया समुदाय भविष्यवाणी करने की कोशिश कर रहा था कि सद्दाम हुसैन वास्तव में कुवैत पर आक्रमण करने का इरादा रखता है या नहीं। कुछ लोगों ने महसूस किया कि वह हमला करने के लिए तैयार हो रहा था। दूसरों ने संदेह किया कि वह इतना मूर्खतापूर्ण होगा। उन्होंने इराक / कुवैत सीमा पर 30,000 सैनिकों के आंदोलन को धमकाने के लिए कुवैत को डराने के इरादे से धमकाने वाली रणनीति के रूप में देखा। सामान्य प्रकार के साक्ष्य के परिणामस्वरूप कोई निर्णायक निर्णय नहीं हुआ। मिस्र के लोगों का मानना ​​था कि कुवैत के खिलाफ सद्दाम हुसैन की शिकायतों का शांतिपूर्ण समाधान होगा। तो इराक के अमेरिकी राजदूत भी थे। और कुवैतियों ने भी – इराक़ ने उन सभी सैनिकों को अपनी सीमा पर रखा था, कुवैत ने अपनी 18,000 सैनिक सेना को जुटाने नहीं दिया और कई लोगों को छुट्टी पर जाने की इजाजत दी। सद्दाम हुसैन क्या करने जा रहे थे? ऊर्जा विभाग में काम कर रहे एक अमेरिकी खुफिया विश्लेषक ने नोट किया कि इराकी सेना ने 10,000 से अधिक नागरिक ट्रकों का नेतृत्व किया था। इन सभी ट्रकों को हटाने से इराकी अर्थव्यवस्था पर अपरिपक्व प्रभाव पड़ा, जिससे सभी प्रकार की वाणिज्यिक गतिविधियां बाधित हो गईं। और इस ट्रक कमांडरिंग को गुप्त रखा गया था – इसे सार्वजनिक रूप से घोषित नहीं किया गया था। यह कुवैतियों को डरा नहीं सकता क्योंकि उन्हें पता नहीं था कि यह किया गया है। सद्दाम हुसैन ऐसा क्यों करेंगे जब तक कि उन्होंने अचानक फैसला नहीं किया कि उन्हें सैन्य कार्रवाई के लिए ट्रक की जरूरत है? मामला समाप्त।

5. टोयोटा रनवे त्वरण समस्या। ब्रेक पर दबाव डालने और कार को धीमा करने के चालक के भयंकर प्रयासों के बावजूद, इस समस्या ने टोयोटास को अनियंत्रित रूप से तेज करने का कारण बना दिया। मामले को राष्ट्रीय ध्यान मिला। कुछ लोगों ने सोचा कि समस्या मोटी मंजिल मैट से निकलती है जो त्वरक पेडल फंस गई है, लेकिन प्राथमिक खराबी सॉफ्टवेयर में एक गड़बड़ लगती है। टोयोटा में कोड की सौ मिलियन से अधिक लाइनें होती हैं, इसलिए कुछ सॉफ़्टवेयर बग अपरिहार्य लगती हैं। भागने के त्वरण के सैकड़ों मामलों में बुलाया गया था। टोयोटा को जुर्माने और बस्तियों में अरबों डॉलर का भुगतान करने के लिए मजबूर होना पड़ा। हालांकि, मानव कारकों के समुदाय के पास एक अलग निदान था: चालक गलती से त्वरक पेडल दबा रहे थे क्योंकि यह ब्रेक पेडल था। जब कार धीमा होने की बजाय तेज हो गई, तो चालकों को लगा कि ब्रेक विफल हो गए थे और त्वरण अनियंत्रित और अनियंत्रित था। चालकों ने स्वाभाविक रूप से पेडल को कड़ी मेहनत और कड़ी दबा दी, मान लीजिए कि यह ब्रेक था, केवल त्वरण को और भी खराब दिखने के लिए। डेटा के बारे में बहुत सी पिछली बहस के साथ, इस स्पष्टीकरण को साबित करने का कोई आसान तरीका नहीं है। लेकिन यह पता चला है कि दो हत्यारा तर्क हैं। एक यह है कि ऑटोमोबाइल में काले बक्से की जांच करके, जांचकर्ताओं ने पाया कि ब्रेक पेडल रनवे त्वरण के मामलों में उदास नहीं था। दूसरा हत्यारा तर्क मैल्कम ग्लेडवेल पॉडकास्ट से आता है, जिसमें उनकी पुनरीक्षण इतिहास श्रृंखला का सीज़न 1 है। ग्लेडवेल ने कार और ड्राइवर को एक टेस्ट ट्रैक पर अपने पैसों के माध्यम से टोयोटा कैमरी लगाने के लिए पत्रिका की व्यवस्था की। प्रशिक्षित चालकों ने फर्श पर सभी तरह से त्वरक पेडल को मैश किया और फिर, त्वरक पेडल अभी भी फर्श पर मैश किए हुए, ब्रेक मारा। कार रुक गई परीक्षण के बाद परीक्षण, कार रुक गई। कोई समस्या नहीं, कोई डरावना नहीं, धूम्रपान नहीं। ब्रेक आसानी से त्वरक को overpowered। आंकड़ों की समीक्षा करने की कोई आवश्यकता नहीं है। लाखों लाइनों की कोड की समीक्षा करने की आवश्यकता नहीं है। मामला समाप्त।

ये उदाहरण बताते हैं कि कम है। सूचना की गुणवत्ता मात्रा से अधिक मायने रखती है।

“छोटे डेटा” शब्द का उपयोग इन दिनों कई अलग-अलग तरीकों से किया जाता है। मार्टिन लिंडस्ट्रॉम, छोटे डेटा द्वारा एक मार्केटिंग रिसर्च बुक भी है : छोटे रुझान जो बड़े रुझानों को उजागर करते हैं । और एक विकिपीडिया प्रविष्टि। यहां कुछ विशेषताएं दी गई हैं जिन्हें मैंने छोटे डेटा के बारे में पहचाना है।

सबसे पहले, अधिकांश संदर्भ बड़े डेटा को बिग डेटा से अलग करते हैं, यह बताते हुए कि छोटे डेटा सीमित मात्रा में जानकारी के साथ व्यक्तिगत कनेक्शन के बारे में हैं, जबकि बिग डेटा स्मार्ट मशीनों के लिए उपलब्ध सिग्नल की हर विस्तारित मात्रा को हल करने की आवश्यकता के बारे में है ।

दूसरा, बिग डेटा मुख्य रूप से सहसंबंधों के बारे में है जबकि छोटे डेटा कारण संबंधों के बारे में है।

तीसरा, छोटे डेटा द्वारा बढ़ावा दिया गया व्यक्तिगत कनेक्शन किसी व्यक्ति की विशेषज्ञता और अनुभव को शामिल करने पर निर्भर करता है।

चौथा, लघु डेटा दृष्टिकोण अंतर्दृष्टि को बढ़ावा देने के लिए है (क्लेन, 2013 देखें) और दिमाग को बदलने के लिए। बोन्डे इस बिंदु को स्पष्ट रूप से बनाता है, कि छोटे डेटा का उद्देश्य उन अंतर्दृष्टि प्राप्त करने में हमारी सहायता करना है जिन्हें हम अभ्यास में डाल सकते हैं।

पांचवां, बस सभी सहमत हैं कि बिग डेटा और छोटे डेटा परस्पर अनन्य या प्रतिस्पर्धा में नहीं हैं। हम दोनों दृष्टिकोणों का उपयोग कर सकते हैं।

छठा, छोटे डेटा के सार्थक वस्तुओं को खोजने के तरीके के बारे में एक भिन्नता है। कुछ सुझाव देते हैं कि हमें बिग डेटा से शुरू करना चाहिए और फिर आउटपुट को कम करना, लॉग और अन्य कलाकृतियों को बनाना चाहिए। मैं उस रणनीति के बारे में उत्साहित नहीं हूं। इसके बजाए, मुझे लगता है कि छोटे डेटा की शक्ति तब आती है जब हम अपने मानसिक मॉडल का उपयोग सूचनाओं के महत्वपूर्ण टुकड़ों को नोटिस या ढूंढने के लिए करते हैं। इस निबंध में पांच उदाहरण सभी बिग डेटा अभ्यास के आउटपुट को कम करने के बजाय महत्वपूर्ण डेटा की कुशल खोज को दर्शाते हैं।

सातवां, ऐसे समय होते हैं जब हम निर्णय निर्माताओं को बहुत अधिक आबादी से कुछ प्रतिनिधि मामलों का चयन करके समर्थन दे सकते हैं और फिर इन मामलों के बारे में विवरण दे सकते हैं। उदाहरण के लिए, यदि कोई राजनेता इस बात पर विचार कर रहा है कि गैसोलीन की कीमत में वृद्धि कम आमदनी वाले लोगों को कैसे प्रभावित करेगी, तो यह तीन विशिष्ट व्यक्तियों को परिभाषित करने के लिए उपयोगी हो सकता है, एक बुजुर्ग व्यक्ति को एक निश्चित आय पर सार्वजनिक परिवहन का उपयोग करने के लिए कहा जा सकता है, एक मां शटलिंग दो या तीन नौकरियों के बीच, और एक चर्च समूह के साथ एक रिट्रीरी स्वयंसेवक, विभिन्न सामाजिक, चिकित्सा, और कल्याण से संबंधित घटनाओं में मंडलियों को चलाने के लिए।

आठवां, एक बार जब हम उन पर आते हैं तो महत्वपूर्ण डेटा बिंदुओं पर ध्यान देने में विशेषज्ञता होती है। डेटा बिंदु को क्रिया में कैसे रखा जा सकता है – यह देखने के लिए कि यह हमें क्या प्रदान करता है, यह सराहना करने के लिए उचित रूप से परिष्कृत मानसिक मॉडल लेता है।

छोटे डेटा दृष्टिकोण का एक जोखिम यह है कि चेरी-पिक उदाहरणों और उपाख्यानों को दुरुपयोग किया जा सकता है जो एक भ्रामक छाप व्यक्त करते हैं। इसलिए, मौजूदा साक्ष्य के संदर्भ में छोटे डेटा दृष्टिकोण का उपयोग किया जाना चाहिए। छोटे डेटा दृष्टिकोण प्रासंगिक चर का सर्वेक्षण करने के लिए विश्लेषकों के दायित्व को खत्म नहीं करता है। मैंने पांच उदाहरणों में से प्रत्येक के अंत में “केस बंद” लिखा लेकिन वास्तविकता में जांचकर्ताओं ने उचित रूप से उनकी अटकलों की पुष्टि करने या उनकी पुष्टि करने के लिए अतिरिक्त डेटा मांगा। हालांकि, छोटे डेटा दृष्टिकोण पूर्णता के लिए बाध्यकारी आवश्यकताओं को पूरा करने के लिए केवल अधिक से अधिक डेटा जमा करने की प्रवृत्ति को कम कर सकते हैं। छोटे डेटा दृष्टिकोण अपने संचय पर डेटा की सार्थकता को महत्व देता है।

इस निबंध के उदाहरण बताते हैं कि हमें जानकारी इकट्ठा करने के हमारे प्रयासों को फिर से आकार देना चाहिए। हर उपलब्ध टिड्बिट को खाली करने के बजाय हम सेंसमेकिंग और डिस्कवरी की दिशा में हमारी सूचना एकत्रित करने के लिए अच्छा प्रदर्शन कर सकते हैं। हम विसंगतियों और गायब डेटा के लिए वास्तव में नैदानिक ​​संकेतों की खोज कर सकते हैं – अपेक्षित घटनाएं जो नहीं हुईं। हम “मतभेद जो अंतर डालते हैं” के लिए तलाश में हो सकते हैं।

संदर्भ

मार्टिन लिंडस्ट्रॉम, छोटे डेटा: छोटे रुझान जो विशाल प्रवृत्तियों को उजागर करते हैं। न्यूयॉर्क: सेंट मार्टन प्रेस।

क्लेन, जी। (2013)। यह देखकर कि दूसरों क्या नहीं करते: उल्लेखनीय तरीके हम अंतर्दृष्टि प्राप्त करते हैं । न्यूयॉर्क: पब्लिक अफेयर्स।