एक - चरण - क्लस्टर नमूने में stata - विदेशी मुद्रा


स्टैटा: डेटा विश्लेषण और सांख्यिकी सॉफ्टवेयर जेफरी पिट्लैडो, स्टैटाकॉर्प मान लीजिए कि आपको निम्न सर्वेक्षण डिजाइन से डेटा का विश्लेषण करने का सामना करना पड़ता है: आबादी को पहली बार स्ट्रैटिंग करके और फिर प्रत्येक स्तर के लिए बेतरतीब ढंग से कई समूहों का चयन करके नमूना किया गया था। प्रत्येक क्लस्टर के भीतर, सबक्लस्टर बेतरतीब ढंग से चुने गए थे, और फिर प्रत्येक सबक्लस्टर लोगों के लिए बेतरतीब ढंग से चुने गए थे। सर्वेक्षण डेटा का विश्लेषण करते समय आपका पहला प्रश्न हमेशा होना चाहिए: स्टाटा 9 में स्टाटा में svyset का उपयोग करते हुए मैं नमूनाकरण डिज़ाइन की पहचान कैसे कर सकता हूं, svyset में संकलित नमूने के कई चरणों से निपटने के लिए एक वाक्य रचना है। Letrsquos सर्वेक्षण डिजाइन विशेषताओं का प्रतिनिधित्व करने के लिए कुछ चर नाम बनाते हैं: चरण 2 परिमित जनसंख्या सुधार आपको यह विचार मिलता है ऊपर दिए गए विवरण को देखते हुए, svyset कमांड को संरचित किया जाना चाहिए: (स्टैट को एडीओ - या डी-फाइल्स में अगली पंक्ति के लिए जारी रखने के लिए कहा जाता है।) स्टेटा 9 से पहले, जहां svyset ने केवल प्रथम-स्टेज डिजाइन वैरिएबल को स्वीकार किया, मान लीजिए कि स्वसेसेट कमांड निम्नानुसार होना चाहिए: केवल प्रथम-चरण डिजाइन विशेषताओं का उपयोग करते समय, आपको अवश्य पता होना चाहिए कि एक एफपीसी निर्दिष्ट करने से पीएसयू के भीतर कोई नमूना नहीं था। यदि यह सत्य नहीं है, तो पहले चरण के लिए एक एफपीसी निर्दिष्ट करना नकारात्मक पक्षपातपूर्ण मानक त्रुटियों को प्राप्त करेगा जो कि मानक त्रुटि के अनुमान जितने कम होनी चाहिए। इस मामले में, हम आपको एक एफपीसी को नहीं सुझाते हैं अगर हम fpc () विकल्प को निकालते हैं, तो उचित भिन्नता का अनुमान लगाया जाएगा, भले ही मल्टीस्टेज डिज़ाइन के लिए भी। पिछले दावा भी मान्य है यदि आप svyset के लिए आधुनिक वाक्यविन्यास का उपयोग कर रहे हैं लेकिन, किसी कारण से, आप केवल प्रथम चरण की विशेषताओं को निर्दिष्ट कर सकते हैं उदाहरण के लिए, कुछ डेटासेट केवल पहले चरण पर स्तरीकरण और नमूनाकरण इकाइयों पर जानकारी के साथ आते हैं, भले ही वे एक मल्टीस्टेज डिज़ाइन के माध्यम से एकत्र किए गए हों। यदि यह मामला है, तो ऊपर बताए गए कारणों के लिए एफपीसी () का उपयोग नहीं किया जाना चाहिए। वर्तमान स्ताट में, आप प्रत्येक चरण के लिए डिज़ाइन वैरिएबल निर्दिष्ट कर सकते हैं, चरणों को सीमांकित करने के लिए उपयोग कर सकते हैं। अब लगता है कि डिजाइन में क्लस्टर नमूनाकरण पहले शामिल किया गया था, और तब सब क्लस्टर का नमूना लेने से पहले प्रत्येक क्लस्टर को स्तरीकृत किया गया था। यहां हम दूसरे चरण में स्तरीकृत किए गए लेकिन पहले नहीं, इसलिए हमें strata1 की बजाय strata1 की तरह एक चर होना चाहिए यदि हमारे डिजाइन में पहले और दूसरे चरणों दोनों में स्तरीकृत क्लस्टर नमूनाकरण शामिल है, तो svyset कमांड इस प्रकार होगी: वर्तमान स्ताट में, आपको पता होना चाहिए कि किस चरण से एक स्तरीट वैरिएबल स्ट्रेट को पहचानता है। कैसे svyset multistage डिजाइन के अधिक उदाहरण के लिए एसवीवाई svyset देखें स्टाटा 9 से पहले, आप केवल तभी स्ट्रेट () विकल्प का प्रयोग करेंगे, यदि आपके डिजाइन को पहले चरण में स्तरीकरण किया गया है। नोट: आईडीआरई स्टेटिस्टिकल कंसल्टिंग ग्रुप वेबसाइट को फरवरी में वर्डप्रेस सीएमएस में माइग्रेट कर देगा ताकि नई सामग्री की रखरखाव और निर्माण हो सके। । हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि उन्हें अब बनाए रखा नहीं जाएगा हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है उपहार देने के लिए स्टेट कंसल्टिंग ग्रुप द्वारा सहायता करें सांख्यिकी सांख्यिकीय कम्प्यूटिंग सेमिनार सर्वे स्टैट में डेटा विश्लेषण नमूना का चयन Stata में सरल यादृच्छिक नमूना इस उदाहरण में, हम स्कूलों का साधारण यादृच्छिक नमूना ले रहे हैं। डेटा को लोड करने के बाद स्टाटा में, हम यह देखने के लिए count कमांड का उपयोग करेंगे कि डेटा फ़ाइल में हमारे पास कितने मामले हैं। इसके बाद, हम बीज सेट कर देंगे ताकि परिणाम प्रतिकृति हो सकें। यदि आप बीज सेट नहीं करते हैं और आप कोड को दूसरी बार चलाते हैं, तो आपको थोड़ा अलग परिणाम मिलेंगे क्योंकि एक अलग नमूना इस्तेमाल किया जाएगा। नमूना बनाने के लिए, हम नमूना आदेश का उपयोग करेंगे। गणना विकल्प के बिना एक नंबर स्मृति में डेटा से नमूना लेने के लिए प्रतिशत दर्शाता है अंत में, हम यह देखने के लिए गिनती कमांड का उपयोग करेंगे कि हमारे नमूने में कितने मामले (या तत्व) चुने गए हैं। अब हमें pweights बनाने की जरूरत है हमारे नमूना अंश 3106194 है, और इसका उलटा वजन है। (लेवी और लिमेशो देखें, पृष्ठ 49)। क्योंकि हम अपनी आबादी का एक बहुत बड़ा प्रतिशत नमूना कर रहे हैं, हमें एफपीसी को सेट करना होगा। स्ताट हमारे लिए वास्तविक एफपीसी की गणना करेगा, हमें आबादी की कुल संख्या को निर्दिष्ट करने की आवश्यकता है। अगला, हम एक 01 चर होने के लिए पुरस्कारों को याद करेंगे। हम अब अपने सर्वेक्षण नमूनाकरण योजना की सुविधाओं के बारे में स्टाटा को बताने के लिए svyset कमांड का उपयोग करने के लिए तैयार हैं। हम यह सुनिश्चित करने के लिए svydes कमांड का उपयोग करेंगे कि सबकुछ ठीक है। स्ताट में स्तरीकृत यादृच्छिक नमूना ऊपर दिए गए उदाहरण और नीचे दिए गए उदाहरण के बीच अंतर यह है कि स्तरीकरण जोड़ा गया है। हम इस उदाहरण में उपयोग किए जाने के लिए एक स्तरीकरण चर तैयार करेंगे। हम स्कूलों के औसत एपीआई 99 स्कोर के आधार पर दो स्तर बनाएंगे। औसत api99 स्कोर के बराबर या नीचे api99 के स्कोर वाले स्कूल स्ट्रेट 1 में होंगे और जो कि औसत से ऊपर के एपीआई 99 स्कोर वाले हैं, वे 2 से ऊपर होंगे। आप नीचे दिए गए परिणामों में यह करेंगे कि स्तरीकरण कुछ अनुमानों को और अधिक कुशल बना देता है, जबकि स्तरीकरण द्वारा अन्य अनुमानों की सहायता नहीं की जाती है अंतर स्तरीकरण चर और अनुमानित चर के बीच संबंधों के साथ करना है यदि कोई उचित संबंध है, तो रिश्तेदारी उपयोगी है अगर कोई रिश्ते नहीं हैं, तो स्तरीकरण मदद नहीं करता है। (यहां तक ​​कि अगर स्तरीकरण वैरिएबल और वेरिएबल के बीच संबंध नहीं हैं, तो स्तरीकरण आमतौर पर एसआरएस की तुलना में कम कुशलता का अनुमान नहीं लगाएगा।) स्ट्रेटेटेल चर बनाने के लिए, जिसे हम स्ट्रेट कहते हैं। हम कमांड (कम करने के लिए जीन) और 1 के बराबर सीरेट का उपयोग करते हैं। एपीआई 99 का मान 631 से अधिक है, जो लगभग मतलब है, तो हम 2 के साथ स्ट्रैट के मान को बदलने के लिए प्रतिस्थापन कमांड का उपयोग करेंगे। सामान्य परिस्थितियों में, आप स्तर को नहीं बना सकते क्योंकि हम यहां हैं। इसके बजाय, यह वर्ग स्वाभाविक रूप से आबादी में हो रहा है, जैसे कि लिंग, जाति, आयु या आय की श्रेणियां आदि। हम गणना आदेश से पहले और नमूना आदेश से पहले उपसर्ग का उपयोग करेंगे। जब नमूना आदेश से पहले इस्तेमाल किया जाता है, तो स्ताटा को प्रत्येक स्तर से स्वतंत्र रूप से नमूना चुनने के लिए कहता है अब जब हम जानते हैं कि प्रत्येक स्तर में कितने तत्व हैं, हम pweights की गणना कर सकते हैं हम पहले के समान सूत्र का प्रयोग करेंगे: एनएन, जहां एन जनसंख्या में कुल संख्या है (इस मामले में, उस विशेष स्तर में आबादी में कुल तत्वों की संख्या), और n नमूने में चयनित तत्वों की संख्या है उस स्तर में (लेवी और लिमेशो देखें, पेज 122) हम भी एफपीसी चर बनाने के लिए प्रत्येक स्तर में जनसंख्या का योग का उपयोग करते हैं, जिसे हमने फिर से एफपीसी कहा है। अब हम 12 वैरिएबल से एक 01 वेरिएबल तक पुरस्कारों को याद करेंगे, ताकि प्रतिगमन विश्लेषण में इसकी व्याख्या सरल हो। Svyset, स्पष्ट (सभी) आदेश वास्तव में आवश्यक नहीं है, लेकिन यह दिखाने के लिए शामिल है कि इसका उपयोग कैसे किया जा सकता है। अंत में, हम svyset का उपयोग करते हैं और इसे svydes के साथ जांचें। व्यवस्थित नमूनाकरण हमारे नमूने में 6194 स्कूल हैं, और हम आकार 500 के एक नमूने का चयन करने के लिए व्यवस्थित नमूनाकरण का उपयोग करना चाहते हैं। इसलिए, k 6194500 13, जिसका अर्थ है कि हम हर 13 वीं स्कूल का चयन करेंगे। अब हमें उस संख्या को यादृच्छिक रूप से चुनना होगा जिससे से शुरू करना है। ऐसा करने के लिए, हम एक यादृच्छिक संख्या (वर्दी () के साथ प्राप्त किए गए) के पूर्णांक भाग (int फ़ंक्शन से प्राप्त) लेते हैं। हम इसे 13 से गुणा करेंगे, क्योंकि हम चाहते हैं कि 13 उत्पन्न जनसंख्या की ऊपरी सीमा हो। हम 1 को हमारे यादृच्छिक संख्या में जोड़ देंगे, क्योंकि वर्दी (1) फ़ंक्शन द्वारा प्राप्त संख्या 0 से 12.9999999 तक होगी। यदि हम 1 जोड़ते हैं और संख्या का पूर्णांक हिस्सा लेते हैं (दशमलव बिंदु से पहले का हिस्सा), तो हमें 1 और 13 के बीच यादृच्छिक संख्या मिल जाएगी। बेतरतीब ढंग से चुनी गई संख्या 4 थी। इसलिए, हम हर 13 वीं में हमारे नमूने में चयन करना शुरू करेंगे। विद्यालय संख्या 4 से शुरू होने वाला स्कूल। (लेवी और लिम्मो देखें, पेज 83 देखें) वास्तव में नमूना चुनने के लिए, हम स्नम (स्कूल नंबर) द्वारा डेटा को सॉर्ट करेंगे, पहले तीन स्कूल छोड़ दें (क्योंकि हम स्कूल संख्या 4 से शुरू करना चाहते हैं) , और फिर एक नया चर उत्पन्न करते हैं, जिसे हम y कहते हैं। यह मॉड्यूलस (यानी विभाजन के बाद शेष) 13 नंबर से विभाजित है। हम उन सभी मामलों को छोड़ देते हैं जिनके लिए y y के बराबर नहीं है और हमारे नमूने में कितने स्कूल हैं यह निर्धारित करने के लिए गिनती कमांड का उपयोग करें। अब हमें पी-वेट बनाने और एफपीसी सेट करने की आवश्यकता है। हम चर पुरस्कारों को याद करेंगे और पुन: लेबल करेंगे। वन-स्तरीय क्लस्टर नमूना हमारे एक-स्तरीय क्लस्टर नमूने में, जिलों में क्लस्टर होगा और स्कूल प्राथमिक या नमूनाकरण इकाइयां होंगे। हमने अपने समूहों का चयन करने के लिए साधारण यादृच्छिक नमूने का उपयोग करने का निर्णय लिया है। इसलिए, हम यादृच्छिक स्कूल जिलों का चयन करें और फिर प्रत्येक चयनित जिले में सभी स्कूलों का चयन करें। इसके बाद, हमें प्रत्येक डेटा के लिए सिर्फ एक पंक्ति के साथ एक नया डेटा सेट बनाने की आवश्यकता है ताकि हम नमूनाकरण कर सकें। हम ऐसा करने के लिए अनुबंध कमांड का उपयोग करेंगे। हम बाद में पीवी की गणना में उपयोग के लिए अब कुल जिलों की संख्या प्राप्त करेंगे इसके बाद, हम एक नया वैरिएबल, एक्स बनाएंगे। यादृच्छिक मूल्यों के साथ एक्स पर डेटा को सॉर्ट करें, बीज सेट करें नमूना चुनें और देखें कि कितने जिलों का चयन किया गया था। हम नमूना बनाने के दूसरे भाग में डेटा का उपयोग करते हैं और उपयोग के लिए डेटा सेट को सहेजते हैं। अब जब हम जानते हैं कि हमारे नमूने में कौन से जिलों का चयन किया गया है, तो हमें उस जानकारी को पूर्ण डेटा सेट में डाल दिया जाना चाहिए। (याद रखें कि हमारे द्वारा बनाया गया डाटा सेट जिले में प्रत्येक विद्यालय की जानकारी में नहीं है।) हम फाइल को डीएनयू पर सॉर्ट करते हैं (ध्यान दें कि यह वही वैरिएबल है जिस पर हम दूसरी डेटा फाइल को सॉर्ट किया है), और फिर मर्ज करें दो फाइलें हम उन सभी मामलों को छोड़ देते हैं जो मेल नहीं खाते हैं और देखते हैं कि हमारे नमूने में हमारे पास 1461 मामले हैं। अब हमें pweight और fpc बनाने की आवश्यकता है। याद रखें कि वजन कमजोर पड़ने वाले जिलों की संख्या और नमूने में चुने गए जिलों की संख्या पर आधारित है, नमूना में संख्या के मामलों (उदाहरण विद्यालय) नहीं। (लेवी और लेम्ेशो, पृष्ठ 247 देखें) नोट: एक नमूने से दूसरे तक चरमता की पर्याप्त मात्रा है। कुछ नमूनों में, पीएसयू प्रति निरीक्षण की अधिकतम संख्या 552 है और कुछ अनुमानों के लिए डिजाइन प्रभाव 140 के बराबर हैं। स्तरीकरण के साथ दो-स्तरीय क्लस्टर नमूनाकरण इस नमूने को चुनने के लिए, हम इस प्रक्रिया को चार भागों में विभाजित करने जा रहे हैं। सबसे पहले हम दूसरे चरण को बनाएंगे, हम पहली और दूसरे चरण के नमूने को एक-तिहाई स्तर में करेंगे, हम प्रक्रिया दो बार दोहराएंगे, हम फाइल को काम करने के लिए स्ट्रेट 1 और स्ट्रेट 2 के लिए फाइलों को जोड़ देंगे। डेटा फ़ाइल। नोट: ज्यादातर मामलों में, आपको खुद को स्ट्रैटा बनाने की ज़रूरत नहीं होगी इसके बजाय, वे पहले से ही आपके लिए परिभाषित किए जा चुके हैं: शायद आप अपने स्तर को बनाने के लिए लिंग और दौड़ जैसे चर का उपयोग करेंगे हम यहां स्ट्रेट के निर्माण को दिखाते हैं क्योंकि कभी-कभी (जैसे कि शिक्षण उद्देश्यों के लिए) आपको यह करना पड़ सकता है, और इसमें शामिल कुछ मुश्किल मुद्दे हैं। नोट 2: क्योंकि हम प्रत्येक स्तर में एक ही नमूनाकरण प्रक्रिया का उपयोग कर रहे हैं, हम नमूना आदेश पर द्वारा () विकल्प का उपयोग करते हुए, एक ही समय में दोनों स्तरों के लिए नमूनाकरण कर सकते हैं। हालांकि, यह प्रत्येक स्तर में एक ही नमूनाकरण डिजाइन का उपयोग करने के लिए आम नहीं है। उदाहरण के लिए, आप किसी विशेष समूह के व्यक्तियों को बड़ा कर सकते हैं क्योंकि आप उस समूह के लिए एक अधिक सटीक अनुमान प्राप्त करने में रुचि रखते हैं या समूह में अपेक्षाकृत कम सदस्य हैं। इस कारण से, हम प्रत्येक स्तर के लिए व्यक्तिगत रूप से नमूना दिखाते हैं। साथ ही, हमने ऐसे कोड का उपयोग करने की कोशिश की, जिसे आसानी से अन्य स्थितियों में अनुकूलित किया जा सकता है, भले ही यह हमारे उदाहरण के लिए संभवतः सबसे अधिक स्पष्ट कोड न हो। भाग 1: स्ट्रेट बनाना हम स्ट्रैटेमेटेड यादृच्छिक नमूने के साथ उदाहरण में पिछली बार उपयोग किए जाने वाले तरीके के समान एक स्ट्रेट तैयार करेंगे। हम एक फ़ाइल को केवल 1 स्तर के लिए सहेज कर रखेंगे और 2 के लिए मामलों के लिए एक अलग फाइल तैयार कर सकते हैं। हालांकि, कटऑफ बिंदु का निर्धारण करने के लिए, जिनके लिए जिला स्तर 1 में होना चाहिए और जो 2 स्तर में होना चाहिए, हमें इसकी आवश्यकता होगी जिस किसी से पहले हमने इस्तेमाल किया था उससे थोड़ा अलग प्रक्रिया का उपयोग करें यह परिवर्तन जरूरी है क्योंकि हम अब स्कूल जिलों में स्तरीय कर रहे हैं, जबकि इससे पहले कि हम खुद को स्कूलों में तब्दील कर रहे थे। उपयुक्त कटपेप को खोजने के लिए, हम प्रत्येक स्कूल जिले के लिए औसत api99 स्कोर प्राप्त करेंगे, डेटा फाइल को तोड़ देंगे, ताकि जिला संख्याओं और साधनों के संयोजन के अनुसार केवल एक ही अवलोकन हो, और फिर मतलब का पता लगाएं। अब हम हमारे नमूना को 1 का चयन करेंगे। हम कितने मामलों और समूहों का निर्धारण करेंगे। इस प्रक्रिया को थोड़ा आसान बनाने के लिए, कमांड के नीचे सबसे कमांड के आउटपुट को तुरंत कम से कम एक टिप्पणी के रूप में शामिल किया गया है। हम उसी तरह क्लस्टर का चयन करेंगे जो हमने एक चरण के क्लस्टर नमूने के लिए किया था। अब हम प्रत्येक जिले के स्कूलों का चयन करेंगे। हमने प्रत्येक जिले के तीन स्कूलों का चयन करने का निर्णय लिया है। अगर एक जिले में तीन या उससे कम स्कूल हैं, तो हम सभी स्कूलों के नमूने का चयन करेंगे। ऐसा करने के लिए, हम एक नया रैंडम वेरिएबल, एक्सएक्स बनाएंगे। द्वारा dnum और उस पर सॉर्ट करें हम आगे नए चर बनाने वाले हैं जो हमें प्रत्येक जिले (संख्या) के भीतर स्कूलों की संख्या बताते हैं, और प्रत्येक जिले (एन) के भीतर स्कूलों की कुल संख्या बताते हैं। 3 से अधिक संख्या वाले स्कूलों को छोड़ने के बाद, हम डेटा को संख्या और संख्या पर सॉर्ट करते हैं। अंत में, हम nn उत्पन्न जो प्रत्येक जिले में चयनित स्कूलों की कुल संख्या है। अब हम pweights और fpc बनाने के लिए तैयार हैं। एक दो चरण के नमूने के लिए, pweights के लिए सूत्र एफ 1 एफ 2 है जहां एफ 1 स्तर 1 (क्लस्टरों का चयन) के लिए नमूना अंश के व्युत्क्रम है और फ 2 स्तर 2 (तत्वों का चयन) के लिए नमूना अंश के व्युत्क्रम है। (लेवी और लिम्मो देखें, पृष्ठ 280) अब हम नमूना 2 में नमूना चुनने के लिए तैयार हैं। हालांकि हम नमूना योजना को किसी भी स्तर 1 या स्तर 2 पर बदल सकते हैं, या दोनों, हम उसी प्रक्रिया का अनुसरण करेंगे जिसे हम कक्षा में इस्तेमाल करते हैं 1. लंबे समय तक, हम डेटा सेट (2 स्तर) को एक साथ जोड़ना (स्टैक) करने के लिए तैयार हैं। हम कुछ चर भी बनाएंगे, जिनके लिए हमें इस खंड में दिखाए गए विश्लेषणों की आवश्यकता होगी। इस वेब साइट की सामग्री को कैलिफोर्निया विश्वविद्यालय द्वारा किसी विशेष वेब साइट, किताब या सॉफ़्टवेयर उत्पाद के समर्थन के रूप में नहीं समझा जाना चाहिए।

Comments

Popular Posts