कुछ साल पहले एक पिता मिनियापोलिस के पास एक टारगेट स्टोर में चला गया था, जिसमें कुछ कूपन थे जो लक्ष्य ने अपनी किशोरी की बेटी को बेबी कपड़े, मातृत्व पहनने और क्रिब्स को बढ़ावा देने के लिए भेजा था। "क्या आप [मेरी बेटी] को गर्भवती होने के लिए प्रोत्साहित करने की कोशिश कर रहे हैं?" उसने प्रबंधक से शिकायत की।
न्यूयॉर्क टाइम्स के चार्ल्स डुहग्ग की एक रिपोर्ट के मुताबिक, लक्ष्य प्रबंधक ने स्थान पर शर्मनाक त्रुटि के लिए माफी मांगी और यहां तक कि दूसरी बार माफी माँगने के लिए भी आदमी को बुलाया। सिर्फ एक समस्या थी: लक्ष्य सभी के बाद त्रुटि में नहीं था सवाल उच्च विद्यालय लड़की, उसके माता पिता के लिए अनजान, वास्तव में गर्भवती थी
टारगेट के मार्केटिंग ग्रुप ने यह आशंका जताई थी कि लड़की की उम्मीद है क्योंकि हालिया तरीके से उसकी खरीदारी के तरीके हाल ही में बदल गए हैं – लक्ष्य के बिग डेटा एनालिटिक्स पर आधारित – वह अपने दूसरे तिमाही में प्रवेश कर रही थीं। लक्ष्य के डेटा विश्लेषण की खोज की गई थी, उदाहरण के लिए, जो महिलाओं को अचानक सुगंधित से अनसैन्टेड लोशन खरीदने से स्विच हो जाता है, आमतौर पर लगभग चार महीने की गर्भवती होती है (गर्भवती महिलाओं को अक्सर मजबूत गंध नापसंद करते हैं) इसलिए लक्ष्य ऐसी महिलाओं को कूपन भेजना शुरू हुआ, जो उन सभी चीजों को बढ़ावा दे रहा था जब उन्हें जन्म दिया गया।
यहां तक कि, मिनेसोटा मामले में, जो महिलाओं को अभी भी कानूनी तौर पर बच्चे थे
प्रभाव के माध्यम से सोचने के बिना नई तकनीक का उपयोग करने के बारे में चेतावनी देने वाली कहानी के रूप में सेवा करने के अलावा, लक्ष्य की कहानी मानव व्यवहार के बारे में दो महत्वपूर्ण अवधारणाओं को दिखाती है।
सबसे पहले, एक व्यवहार (स्विचिंग लोशन) भरोसेमंद ढंग से एक और, बाद में कार्रवाई (जन्म दे) की भविष्यवाणी कर सकते हैं। जर्नल नेचर में 2013 के एक लेख में वर्णित एक और उदाहरण से पता चला है कि "ऋण" शब्द के लिए इंटरनेट खोजों की मात्रा में स्टॉक की कीमतों में निकट-अवधि में गिरावट का एक सांख्यिकीय महत्वपूर्ण पूर्वानुमान है।
नीचे दिए गए चार्ट डॉव जोन्स इंडस्ट्रियल औसत के साथ विकिपीडिया पृष्ठ शब्द "ऋण" के विचारों की मात्रा की तुलना करते हैं। विकिपीडिया खोज "ऋण" में रुचि वास्तव में कुछ अनुमानित मूल्य पूर्वानुमान बाजार में गिरावट है। यहां, इंटरनेट पर खोज व्यवहार ने स्टॉक मार्केट में व्यवहार बेचने की भविष्यवाणी की है। (शायद लोगों को कर्ज की खोज के बारे में चिंतित होने से पहले वे इसका भुगतान करने के लिए स्टॉक बेचते हैं।)
यह उदाहरण लक्ष्य की सुगंधित-लोशन के अनुभव से बहने वाले दूसरे महत्वपूर्ण सबक को दिखाता है: बहुत अधिक "एन" (बड़ी संख्या में नमूने), अनुमानित आंकड़ों की शक्ति के माध्यम से, एक मानव व्यवहार और दूसरे के बीच सूक्ष्म लेकिन लगातार संबंध प्रकट कर सकते हैं। "ऋण" विश्लेषण में बस 200,000 से अधिक विकीपीडिया पृष्ठ विचारों से प्राप्त किया गया है।
वेब-व्युत्पन्न "बिग-डेटा" से भविष्यवाणियों के बारे में सोचने का एक तरीका यह है कि इंटरनेट, लक्ष्य के समान निजी डेटा नेटवर्क के साथ, मानव प्रजातियों का अच्छी तरह से उपयोग किया गया है, एक अभूतपूर्व पैमाने पर मैट्रिक्स और व्यवहार में अंतर्दृष्टि प्रदान करते हैं। उदाहरण के लिए, लक्ष्य, वॉलमार्ट, अमेज़ॅन, Google और अन्य लोगों द्वारा निजी आंकड़ों के विशाल भंडार के अतिरिक्त, लगभग 3.5 अरब लोग अब वेब का उपयोग करते हैं, जिससे बिग डेटा एनालिटिक्स के लिए उनके उपयोग के कई रिकॉर्ड निकल जाते हैं।
बिग डेटा ने व्यवहार वैज्ञानिकों के हाथों में रखी शक्ति का एक दिलचस्प हालिया उदाहरण राजनीति विज्ञान के दायरे में है हाल ही में मतदान की त्रुटियों के कारण बहुत कुछ किया गया था जो राष्ट्रपति ट्रम्प के चुनाव जीत में इतना आश्चर्यचकित था। लेकिन बिग डेटा में दफन अपनी नाक वाले लोगों के लिए चुनावों में कोई आश्चर्य नहीं था।
2004, 2008, 2012, और 2016 के चुनावों से पहले राष्ट्रपति पद के उम्मीदवारों के लिए Google खोजों की मात्रा (और 2016 के लिए, विकिपीडिया पृष्ठ विचारों) के बीच के रिश्ते को देखें, और प्रत्येक चुनाव के अंतिम विजेता।
सभी चार चुनावों में, चुनाव से पहले इंटरनेट खोज ब्याज में विजेता (लोग एक उम्मीदवार को गोद लेने वाले या विकिपीडिया पर जांच कर रहे हैं) भी चुनाव के विजेता थे। संभवत: एक उम्मीदवार के बारे में मतदाता स्तर की जिज्ञासा उस उम्मीदवार के लिए मतदान करने की संभावना से जुड़ा हुआ है।
यह ध्यान रखना महत्वपूर्ण है, इस बिंदु पर, बिग डेटा सहसंबंध सही से बहुत दूर हैं। अपनी किताब नकली सहसंबंध में , हार्वर्ड लॉ स्कूल के स्नातक और प्रबंधन सलाहकार, टायलर विग्न, आंकड़ों के बारे में गहरी सच्चाई को दर्शाता है: संबंध सहकारिता को साबित नहीं करता है
उदाहरण के लिए, विगैन से पता चलता है कि मैने में प्रति व्यक्ति मार्जरीन खपत और तलाक की दर के बीच लगभग एकदम सही सहसंबंध है। फिर भी कुछ तर्क देंगे कि मार्जरीन खपत तलाक का कारण बनता है, या इसके विपरीत।
डेटा स्रोतों का एक बहुत ही उच्च "एन" (अकेले वेब पर पहुंचने वाले अरबों अलग-अलग डाटाबेस) के साथ, इस तरह से यादृच्छिक सहसंबंध होने के लिए बाध्य नहीं हैं, वे निश्चित ही होंगे।
अन्य "नकली" सहसंबंध जो कि विग्न ने खुलासा किया है उनमें शामिल हैं:
अमेरिका में जापानी कारों की बिक्री और यूएस में ऑटोमोबाइल द्वारा आत्महत्याओं के बीच विजिन्स के नकली सहसंबंधों में से एक मेरा रूचि पकड़ा गया था।
अपने चेहरों पर, कार की बिक्री / आत्महत्या 93.5 प्रतिशत सह-संबंध आपको लगता है कि जब आप व्यक्तिगत समय-श्रृंखला पैटर्न (जैसे वार्षिक कारों की बिक्री) "डेटा" के एक महासागर में "डुबकी" से आत्महत्या से लेकर सब कुछ केंटकी में वार्षिक शादी की दर के लिए पनीर की खपत – डेटा के उस महासागर में कुछ यादृच्छिक मौके से, उस पैटर्न से मेल खाती है
लेकिन विज्ञान का इतिहास यादृच्छिक खोजों के उदाहरणों से समृद्ध है, जो पहली नज़र में कोई अर्थ नहीं था। बड़े धमाके के लिए सशक्त सबूत पहले एक दूरसंचार रिसीवर में अस्पष्ट "शोर" के रूप में दिखाई दिया। आइंस्टीन के सामान्य सापेक्षता के सिद्धांत का अंत सूर्य के चारों ओर बुध की कक्षा के दूर-बिंदु (पेरिहियल) के समय में एक अजीब विसंगति में पाया गया था। पेनिसिलिन की खोज की गई, जब फ्लेमिंग ने बैक्टीरिया के एक पेट्री डिश में अप्रत्याशित मृत स्थान देखा।
जैसे बड़ी संख्या का कानून बताता है कि "बिग डेटा" विश्लेषकों ने यादृच्छिक सहसंबंधों की अधिकता को उजागर किया होगा, वही कानून यह भी तय करता है कि, कभी-कभी, यादृच्छिक अवलोकन अप्रत्याशित परिणामों को उजागर करेगा – जैसे पेट्री डिश में एक मृत स्थान – जो कि योग्यता है करीब से देखो।
कार की बिक्री में जापानी बढ़ने की अवधि के दौरान एक अमेरिकी ऑटो कंपनी में काम करने के बाद, मेरे साथ यह हुआ कि कार की बिक्री / कार आत्महत्या के संबंध सभी के बाद इतना यादृच्छिक नहीं हो सकते हैं एक बात के लिए, जापानी कारों की बिक्री में बढ़ोतरी हुई क्योंकि अमेरिकन ब्रांडेड कारों की बिक्री में कमी आई है, जो एक नैतिकतापूर्ण अमेरिकी श्रमशक्ति में अवसाद पैदा करता है।
इस संभावना का पता लगाने के लिए, मैंने विगैन के विश्लेषण के इसी अवधि के दौरान अमेरिकी ब्रांडेड कारों (नीचे की नीली रेखा) की बिक्री की तुलना की। तुलना जापानी कारों और अमेरिकी आत्महत्याओं की बिक्री की मात्रा के बीच एक प्रशंसनीय लिंक पर संकेत।
जब अमेरिकन ब्रांडेड कारों की बिक्री 2000 से 2001 तक जापानी कारों की बिक्री के मुकाबले गुलाब थी, तो अमेरिका में कार द्वारा आत्महत्या एक साल बाद कुछ हद तक कमी आई थी। जब अमेरिकी कारों की बिक्री 2001 में गिरावट शुरू हुई तो कार द्वारा अमेरिकी आत्महत्याएं एक साल बाद 2002 में बढ़ीं। अमेरिकी ब्रांडेड कारों की बिक्री के एक साल बाद 2005 में भारी गिरावट शुरू हुई, कार से संबंधित आत्महत्याओं ने एक जबरदस्त छलांग लगाई।
एक संभव कारण है कि अमेरिका में कार द्वारा आत्महत्या अमेरिकी कारों की बिक्री में गिरावट के बाद बढ़ी है, इस तरह के मंदी ऑटो उद्योग में लोगों के काम से बाहर निकलते हैं और उद्योगों पर निर्भर हजारों व्यवसायों के कारण होता है। अमेरिकी जर्नल ऑफ प्रर्वेटिव चिकित्सा में एक हालिया लेख में पाया गया कि आर्थिक मंदी से आत्महत्याएं बढ़ सकती हैं। डीआरएस। वेब और कपूर, लंसेट मनश्चिकृता में लेखन, ने दिखाया है कि प्रति वर्ष 40,000 से अधिक आत्महत्याएं वर्ष 2006 और 2007 में वैश्विक बेरोजगारी से जुड़े थे और 2008 की मंदी उस वर्ष के अतिरिक्त 4,000 से ज्यादा आत्महत्याओं के लिए जिम्मेदार थी।
नीचे दिए गए चार्ट में, नीचे भूरे रंग की रेखा ऑटोमोटिव क्षेत्र में कुल अमेरिकी रोजगार का प्रतिनिधित्व करती है। जापानी कारों की बिक्री में वृद्धि के रूप में अमेरिकी नौकरियों ने वास्तव में वाष्पन किया।
अंत में, सीडीसी आंकड़ों से पता चलता है कि अमेरिकी ब्रांडेड ऑटोमोबाइल बिक्री में 10 साल की गिरावट के दौरान, अमेरिका में आत्महत्या की दर (नीचे की हरे रंग की रेखा) लगातार बढ़ रही है
जापानी कार की बिक्री और अमेरिका में कार द्वारा आत्महत्याओं के बीच वास्तविक कनेक्शन की संभावना के बावजूद, 200 9 में कार की आत्महत्याओं में भारी गिरावट, जब ऑटो इंडस्ट्री रोजगार और जापानी कारों की बिक्री दोनों में बड़ी बूंदें भी थीं, तो पता चलता है कि कार के बीच के रिश्ते बिक्री, बेरोज़गारी, और आत्महत्या-दर-कार सरल नहीं है
यह भी उल्लेखनीय है कि प्रति वर्ष कार द्वारा आत्महत्या की संख्या प्रत्येक वर्ष (लगभग 100) बेरोजगारी, कार बिक्री, या कुछ और के लिंक के बारे में निष्कर्ष निकालना बहुत छोटी हो सकती है
इसके अलावा, यह निर्धारित करने में कठिनाई है कि दी गई कार दुर्घटना वास्तव में एक आत्महत्या थी और चित्र को आगे बढ़ाया। यह देखते हुए कि 200 9 में अमेरिकी आत्महत्या की दर बढ़ी, कारों में आत्महत्याओं की खबरों में गिरावट दर्ज की गई, कार आँकड़ों द्वारा आत्महत्या की विश्वसनीयता संदेह है। फिलिप्स और सहकर्मियों द्वारा किए गए अध्ययनों से, अच्छी तरह से प्रचारित आत्महत्याओं के कुछ दिन बाद यातायात के मारे जाने की वजह से कारों की आत्महत्याएं, विशेष रूप से "प्रति-बिल्ली" आत्महत्याएं, जो कि आत्महत्या के बड़े पैमाने पर मीडिया रिपोर्टों का पालन करते हैं, काफी महत्वपूर्ण हैं।
इन सभी चेतावनियों के बावजूद, कार की बिक्री / आत्महत्या की कहानी पर ध्यान देने योग्य है, क्योंकि यह हमें अनपेक्षित बड़े डेटा सहसंबंधों को हाथ से बाहर खारिज नहीं करने के लिए सिखाता है
जब आप इसके बारे में सोचना बंद कर देते हैं, अप्रत्याशित निष्कर्ष – जैसे पेनिसिलिन की खोज – गेम परिवर्तकों होने की भारी क्षमता होती है, ठीक है क्योंकि वे दुनिया की हमारी वर्तमान समझ में फिट नहीं हैं। इसलिए जब हम अप्रत्याशित पर ठोकर खाते हैं, तो हमारे पास प्रकृति की हमारी समझ को मौलिक रूप से बदलने का एक अवसर है … और खुद।
उस भावना में, अमेरिका के लिए भविष्य के आर्थिक दृष्टिकोण के बारे में कुछ अप्रत्याशित है। नीचे दिए गए चार्ट में, नीली रेखा पिछले 12 वर्षों में अमेरिका के सकल घरेलू उत्पाद (जीडीपी, आर्थिक उत्पादन का सूचकांक) दिखाती है, जबकि दांतेदार लाल रेखा "हैप्पी बेलेटेड जन्मदिन" के लिए Google की खोजों की मात्रा का प्रतिनिधित्व करती है। मैं जानबूझकर लगी है "जन्मदिन" खोजों के 6 महीने पीछे जीडीपी डेटा दिखाता है कि जीडीपी और लोगों के बीच 6 महीने पहले "खुश बेतुका जन्मदिन" जाने के बीच एक बहुत ही उच्च संबंध (.96) है ("हैप्पी बेलेटेड" के साथ लगभग एक उच्च संबंध है और "मजेदार हैप्पी बर्थडे")
दूसरे शब्दों में, इस डेटा के लिए कम से कम सेट, जन्मदिन की शुभकामना संबंधी खोजों (संभवतः लोगों को ऑनलाइन जन्मदिन की बधाई की तलाश में) का वॉल्यूम अमेरिका के आर्थिक उत्पादन का एक मजबूत 6 महीने की अग्रणी भविष्यवक्ता है।
क्या यह संबंध नकली है, जैसे कि केंटकी में मछली पकड़ने वाली नाव डूबने और विवाह के बीच संबंध, या यह मूल है? अंतर्ज्ञान का कहना है कि सह-संबंध नकली है।
लेकिन मैं उन तरीकों के बारे में सोच सकता हूं जिनसे लिंक अर्थपूर्ण हो सकता है। उदाहरण के लिए, जब लोग अगले छह महीनों में बंद होने के बारे में चिंतित होते हैं, तो क्या वे जन्मदिन की शुभकामनाएं भेजने के लिए समय लेते हैं? क्या Google खोजकर्ता, कुल मिलाकर, अर्थशास्त्रियों की तुलना में अर्थव्यवस्था की अध्यक्षता में कहां हैं? और क्या यह जागरूकता Google खोज व्यवहार में आर्थिक आंकड़ों के आगे अच्छी तरह से दिखाई दे सकती है?
यह ध्यान देने योग्य है … विशेष रूप से दिए गए ("चार्ट के सही हिस्से को देखें)" "हैप्पी बेलेटेड बर्थडे" की खोज के लिए हाल ही में एक बहुत ही उछाल आया है