Managing Data-Dr6MSqRFaZQ 66.9 KB
Newer Older
Vandan Mujadia's avatar
Vandan Mujadia committed

नमस्ते।
 इसलिए, हम क्लाउड कंप्यूटिंग पर अपनी चर्चा जारी रखेंगे।
 आज, हम क्लाउड में डेटा के प्रबंधन के कुछ पहलुओं के बारे में चर्चा करेंगे, ठीक है।
 तो, जैसा कि हम समझते हैं कि बादल में; जैसा कि हमने अपने पहले के व्याख्यानों में चर्चा की है कि क्लाउड में, एक प्रमुख पहलू डेटा है क्योंकि दिन के अंत में, आपका डेटा और यहां तक ​​कि प्रोसेसिंग एप्लिकेशन किसी और डोमेन में हैं।
 इसलिए, उन्हें कहीं और निष्पादित किया जा रहा है जो आपके प्रत्यक्ष नियंत्रण से परे है।
 तो, यह लगभग कुछ आभासी डेटा में होस्ट है; एक आभासी मशीन बादल में कहीं।
 इसलिए, सुरक्षा के दृष्टिकोण से यह कठिन हो जाता है कि हमने चर्चा की है; इतना ही नहीं यदि आप दूसरे दृष्टिकोण से देखते हैं; इसलिए, क्लाउड प्रदाता के दृष्टिकोण से, बड़ी मात्रा में डेटा को उनके प्रतिकृतियों को रखने और ये फिर से एक प्रमुख मुद्दा बन जाता है।
 इसलिए, हमारे सभी पारंपरिक संबंधपरक या वस्तु उन्मुख मॉडल सीधे बात में फिट नहीं हो सकते हैं, ठीक है।
 इसलिए, जब आप एक छोटे से उदाहरण पर प्रयोग कर रहे हैं, कुछ डेटाबेस अनुप्रयोग या कुछ छोटे प्रयोग, तो यह ठीक है, लेकिन जब आपके पास एक बड़े पैमाने पर काम होता है, जहां भारी मात्रा में रीड राइटिंग या डेटा की मात्रा बहुत अधिक होती है सामान्य ऑपरेशन, तो यह है; हमें एक अलग तरीके से देखने की जरूरत है।
 ये वे चीजें हैं जो न केवल बादल के लिए आती हैं, यह पहले भी थी; जैसे कि यह समानांतर डेटाबेस कैसे पहुंचता है; समानांतर डेटाबेस निष्पादन; पठन-पाठन निष्पादन कार्य किया जा सकता है।
 तो, वे चीजें अधिक प्रमुख या एक वास्तविक तंत्र बन जाती हैं; जब हम क्लाउड के संदर्भ में बात करते हैं।
 इसलिए, हम जो करने की कोशिश करेंगे, वह इस बात का अधिक अवलोकन है कि डेटा को क्लाउड में कैसे प्रबंधित किया जा सकता है या क्या अंतर रणनीतियों या योजनाओं को लोग या इस आईएसपी का अनुसरण करते हैं और यह सुरक्षा का दृष्टिकोण बिल्कुल नहीं है; यह प्रबंधन डेटा प्रबंधन की दृष्टि से अधिक है।
 तो, हम आपके लिए पहले से ज्ञात संबंधपरक डेटाबेस के बारे में बात करेंगे, फिर आप जो स्केलेबल डेटा बेस या डेटा सेवाओं को कुछ चीजों में से एक की तरह जानते हैं, वे महत्वपूर्ण हैं Google फ़ाइल सिस्टम बड़ी तालिका और एक मैड्रिड समानांतर प्रोग्रामिंग प्रतिमान है; वे चीजें हैं जो वापस आती हैं, जब हम चीजों पर कर रहे होते हैं।
 तो, हम क्या करना चाहते हैं जब हम क्लाउड प्लेटफार्म पर कुछ भी प्रबंधित कर रहे थे; चाहे वह एप्लिकेशन या डेटा है, हम इस अर्थ में स्केलेबल बनाना चाहते हैं कि आवश्यकता बढ़ जाती है क्योंकि यह आवश्यकता बढ़ जाती है।
 तो, एक सर्वव्यापी तरीके से स्केल-अप स्केल-डाउन या न्यूनतम हस्तक्षेप; या न्यूनतम मानव या प्रबंधन हस्तक्षेप।
 तो, उस तरह के बुनियादी ढांचे; हम साथ आना चाहते हैं, ठीक है, यह डेटा के लिए भी सच है।
 तो, ये मुख्य रूप से बड़े पैमाने पर समानांतर पाठ प्रसंस्करण की बड़ी मात्रा के लिए उपयुक्त हैं, सही यह एक प्रमुख चीज है या यह पर्यावरण के लिए उपयुक्त है उद्यम एनालिटिक्स कहते हैं, ठीक है, मैं चाहता हूं कि ए; यदि हम किसी वितरित डेटा स्टोर पर एनालिटिक्स करना चाहते हैं, तो यह खरीदारी या वाणिज्यिक कर्मचारियों की एक श्रृंखला हो सकती है या यह बैंकिंग संगठन या वित्तीय कोई वित्तीय संगठन हो सकता है, यहां तक ​​कि यह अन्य प्रकार की बड़ी मात्रा के साथ कुछ करना है ।
 डेटा जैसे कि यह मेट्रोलॉजिकल डेटा है, यह शायद क्लाइमेटोलॉजिकल डेटा हो सकता है, जिसे जप करने की आवश्यकता है या वितरित चीजें हैं, मुझे उस लाइन के कुछ समानांतर प्रसंस्करण करने की आवश्यकता है जहां वास्तविक प्रभाव खेल में आता है।
 यदि आपके पास एक सरल झटपट के साथ एक सरल डेटाबेस है, तो हो सकता है कि आप उसके लिए क्लाउड नहीं गए हों।
 तो, यह एक सरल प्रणाली हो सकती है या आप एक बहुत ही वीएम खरीदते हैं और उस पर काम करते हैं तब क्लाउड चीजों का वास्तविक प्रभाव क्लाउड के वास्तविक लाभ हैं जिन्हें आप बाहर नहीं ले जा रहे हैं।
 इसलिए, हम देखेंगे कि बड़े टेबल मॉडल के समान ही Google ऐप इंजन डेटास्टोर, अमेज़ॅन सरल डीबी हैं जो अलग-अलग स्वाद में प्रदान करते हैं, लेकिन मूल दर्शन समान हैं।
 इसलिए, यदि हम जल्दी से रिलेशनल डेटा बेस को देखते हैं जो आप सभी को ज्ञात है या आप में से अधिकांश उपयोगकर्ता एप्लिकेशन प्रोग्राम SQL के माध्यम से RDBMs के साथ इंटरैक्ट करते हैं, तो।
 तो, यह संरचित क्वेरी भाषा या एसक्यूएल है जिसके द्वारा हम उपयोगकर्ता कार्यक्रमों, आदि के साथ बातचीत करते हैं।
 तो, एक रिलेशनल डेटाबेस मैनेजमेंट पार्सर (Database Management Parser) है जो प्रश्नों को मेमोरी और डिस्क लेबल ऑपरेशंस में बदल देता है और निष्पादन समय का अनुकूलन करता है।
 इसलिए, किसी भी प्रश्न में, हमें क्वेरी के निष्पादन समय को सही करने की आवश्यकता है।
 इसलिए, यदि यह आपके जैसा एक बड़ा डेटा बेस है, तो आप चयन करने से पहले या बाद में चयन में शामिल होने से पहले प्रोजेक्ट करते हैं, जिससे बहुत अंतर पड़ता है; यद्यपि क्वेरी समान हो सकती है, क्वेरी आउटपुट समान होगा, लेकिन निष्पादन का समय काफी हद तक अलग-अलग हो सकता है, जैसे मेरे पास एक विशाल 2 डेटा बेस हैं जैसे R1 कहते हैं रिलेशनल डेटाबेस R1, R2 और मैं कुछ प्रक्षेपण या चयन कुछ चीजें, सही मैं A1, A2 का चयन करता हूं और फिर एक करता हूं; फिर करो; ज्वाइन करें कि क्या मैं इससे पहले जॉइन करता हूं या बाद में चीजें बनाता हूं; अगर मैं R1 पर चयन करता हूं; ट्यूपल्स (Tuples) की संख्या 1 मिलियन से नीचे आ गई है, जो कि किसी भी तरह की है।
 इसी तरह आर 2 के लिए, अगर मैं उस पर चयन करता हूं।
 तो, फिर जुड़ना बहुत कम खर्चीला है।
 इसलिए, चाहे आप पहले शामिल हों या यह कहा कि यह एक ऐसी चीज है जो डेटाबेस अनुकूलन समस्या है जो विशेष रूप से क्लाउड के लिए नहीं है, लेकिन रिलेशनल डेटाबेस आपको उन चीजों को अनुकूलित करने की अनुमति देता है।
 डिस्क स्पेस मैनेजमेंट लेयर, यह दूसरी प्रॉपर्टी जो सन्निहित मेमोरी ब्लॉक के पेज पर डेटा रिकॉर्ड स्टोर करती है।
 इसलिए, कि डिस्क आंदोलन को कम से कम पृष्ठों को डिस्क से मेमोरी में लाया जाता है, जैसा कि पूर्व लाने और पृष्ठ प्रतिस्थापन नीतियों का उपयोग करके अनुरोधित स्थिति में है।
 तो, यह उन चीजों का एक और पहलू है जैसे कि कोई उस संपत्ति को क्वेरी प्रोसेसिंग में अधिक कुशल बनाता हुआ देख रहा है, दूसरा पहलू यह चीजों के भंडारण के संदर्भ में इसे और अधिक कुशल बनाता है जैसे कि पास की चीजों की अगर क्वेरी को कुछ 5 तालिकाओं की आवश्यकता होती है यदि वे पास की दुकान हैं तो पहुंच की दर अधिक है।
 इसलिए, डेटाबेस फाइल सिस्टम लेयर।
 इसलिए, पहले हमने देखा है कि RDBM पार्सर फिर डिस्क स्पेस मैनेजमेंट लेयर फिर डेटाबेस फाइल सिस्टम लेयर।
 तो, यह ओएस फाइल सिस्टम से स्वतंत्र है, यह एक अलग फाइल सिस्टम है।
 तो, मेमोरी में पेज को बनाए रखने या इसे पूरा करने पर पूर्ण नियंत्रण रखने के लिए, बड़े स्टोरेज को संभालने के लिए DB या डेटाबेस द्वारा उपयोग की जाने वाली फाइलें कई डिस्क का उपयोग कर सकती हैं।
 तो, अन्य अर्थों में जैसे अगर मैं उन सभी चीजों के चरण के लिए ऑपरेटिंग सिस्टम पर निर्भर करता हूं तो यह ठीक है जब आपका फिर से डेटाबेस लोड कम होता है यदि यह बहुत बड़ा है तो आशा है कि आप इसे ले पाठ की संख्या यह महंगा हो जाता है।
 तो, आपको क्या करने की आवश्यकता है हमें सीधे हार्डवेयर या उपलब्ध संसाधनों के साथ बहुत निचले स्तर पर बातचीत करने की आवश्यकता है और ठीक यही डेटाबेस फ़ाइल सिस्टम लेयर समानांतर IO का उपयोग करने की कोशिश करता है जैसे हमने RAID डिस्क के बारे में सुना है।
 RAID1, Raid2, Raid5, RAID 6eN प्रकार की चीजें सरणियाँ या एकाधिक क्लस्टर।
 तो, जो बात को बेमानी बना देता है।
 तो, आपकी इस असफलता का समय बहुत कम है; इसका मतलब है कि, यह मूल रूप से डेटाबेस की पूर्ण विफलता सबूत कार्यान्वयन है इसलिए, आमतौर पर डेटाबेस स्टोरेज जो कि हम ज़रुरत होती, जो कि हम टुपल्स होते हैं और इसके लिए एक ही स्कीमा पंक्ति का एक सेट होता है, जो कि ओरिएंटेशन ऑपरेशन लिखने के लिए होता है, जो ट्रांजेक्शन प्रोसेसिंग एप्लिकेशन, रिलेशनल रिकॉर्ड्स में संग्रहित रिलेशनल रिकॉर्ड्स विशिष्ट कॉलम पर इंडेक्स प्राइमरी की के जरिए एक्सेस करते हैं।
 बी प्लस ट्री इस तरह की चीज के लिए पसंदीदा भंडारण तंत्रों में से एक है।
 डेटा वेयरहाउस कार्यभार के लिए कॉलम उन्मुख कुशल।
 तो, जो डेटा गोदामों के माध्यम से चले गए हैं।
 तो, यह एक उच्च आयामी डेटा है भारी मात्रा में डेटा और एकत्र किया जा रहा है और विभिन्न चीजों द्वारा आबादी है।
 इसलिए, यह एक साधारण डेटाबेस के बजाय एक गोदाम से अधिक है।
 इस प्रकार, यह कॉलम ओरिएंटेड स्टोरेज डेटा वेयरहाउस प्रकार के लोड एग्रीगेट के लिए अधिक उपयुक्त है, जहां व्यक्तिगत डेटा के बजाय यह एनालिटिक्स पर विश्लेषण के अधिक खेलने में आता है।
 तो, यह आयाम स्तंभों के मूल्यों के आधार पर माप स्तंभों के एकत्रीकरण की आवश्यकता है।
 इसलिए, हम डेटा वेयरहाउस में नहीं जा रहे हैं।
 तो, इसकी एक अलग आयाम सारणी और प्रकार की चीजें हैं और हमें संचालन की आवश्यकता है और अधिक समग्र संचालन हैं, ठीक है, हम कुछ प्रकार के विश्लेषण और चीजों के प्रकार करना चाहते हैं।
 इसलिए, एक तालिका के प्रक्षेपण को एक आयाम के रूप में संग्रहित किया जाता है, जो कि एक स्तंभ के उन्मुखीकरण के मामले में होता है, अगर विभिन्न प्रक्षेपणों को क्रमबद्ध क्रम में अनुक्रमित किया जाना है, तो एक कॉलम उन्मुख के मामले में आयामों की आवश्यकता होती है।
 इसलिए यह; यदि यह एक अलग बात है क्योंकि संगठन में विभिन्न प्रकार के डेटा के लिए अलग-अलग विचार हो सकते हैं और उस फैशन में संग्रहीत होने की आवश्यकता होती है।
 तो, डेटा स्टोरेज तकनीक जैसा हमने देखा है; यह बी प्लस पेड़ है या इंडेक्स में शामिल है।
 तो, एक पंक्ति उन्मुख है, दूसरा कॉलम उन्मुख है।
 तो, यह पंक्ति उन्मुख डेटा है और यह कॉलम उन्मुख डेटा है और हमें एक इंडेक्स में शामिल होने की आवश्यकता है जो इस डेटा को एक-दूसरे से जोड़ने की अनुमति देता है।
 तो, ये सब हम किसी मानक डेटाबेस पुस्तक या मानक साहित्य में प्राप्त करेंगे; मुख्य रूप से हम इस विशेष चीज़ के लिए गौतम श्रॉफ के एंटरप्राइज़ क्लाउड कंप्यूटिंग पुस्तक का पालन कर रहे हैं।
 इसलिए, हमने यही उल्लेख किया है, लेकिन यह एक बहुत ही मानक संचालन है और आप किसी भी मानक किताबों में जा सकते हैं।
 इसलिए, यदि हम समानांतर डेटाबेस आर्किटेक्चर देखते हैं।
 इसलिए, इसे व्यापक रूप से 3 पहलुओं में विभाजित किया गया है जिसे साझा किया गया स्मृति एक साझा किया जाता है, कोई भी साझा डिस्क नहीं है, ठीक है।
 तो, मैं बस तस्वीर को तेजी से देखता हूं फिर वापस आता हूं।
 तो, यह साझा मेमोरी की एक विशिष्ट संरचना है।
 तो, इन प्रोसेसर अलग-अलग प्रोसेसर ने मेमोरी साझा की, यहां यह एक साझा डिस्क है।
 इसलिए, विभिन्न प्रोसेसरों ने डिस्क को साझा किया, यहां हमने कुछ भी साझा नहीं किया है।
 तो, व्यक्तिगत प्रोसेसर में अलग-अलग डिस्क होती है; इसलिए, कई सीपीयू के साथ सर्वर के लिए उपयुक्त एक साझा मेमोरी के मामले में।
 इसलिए, यदि कई सीपीयू हैं।
 इसलिए, यदि कई सीपीयू मेमोरी एड्रेस स्पेस हैं, तो मेमोरी एड्रेस जैसे एसएमपी ऑपरेटिंग सिस्टम द्वारा साझा और प्रबंधित किया जाता है।
 यह इन एसएमपी और शेड्यूल किए गए प्रोसेसर के बीच प्रोसेसर के समानांतर शोषण में साझा किया जाता है।
 तो, यह छोटी चीजों को शेड्यूल करता है; इसका मतलब है, मेरे पास एक साझा मेमोरी स्पेस है और मैं मूल रूप से एक समानांतर मोड में एक निष्पादन करता हूं।
 इसलिए चरम दूसरे छोर पर कुछ भी साझा नहीं किया जाता है।
 तो, अपने स्वयं के डिस्क स्थान और नेटवर्क द्वारा जुड़े प्रत्येक के साथ स्वतंत्र सर्वर क्लस्टर।
 तो, एक बैक बोन हाई स्पीड नेटवर्क के साथ यदि कोई सर्वर अपना स्वयं का डिस्क स्थान साझा करता है और फिर बाकी निष्पादन करता है और यदि हम उस चीज़ के बीच में साझा डिस्क को देखते हैं तो यह एक हाइब्रिड आर्किटेक्चर है।
 तो, उच्च गति नेटवर्क के माध्यम से NAS या सैन हो सकता है कि स्वतंत्र सर्वर क्लस्टर भंडारण कहने के लिए और मानक ईथरनेट फाइबर, वगैरह के माध्यम से भंडारण डेटा से जुड़े हैं जो हमने यहां दिखाया है।
 तो, यह एक साझा भंडारण है और ये विभिन्न प्रोसेसर इसका उपयोग करते हैं।
 तो, आपके आवेदन के प्रकार के आधार पर आपको इस संरचना के किसी भी हिस्से की आवश्यकता हो सकती है।
 इसलिए, हम देखते हैं कि यह अधिक कुशल है यदि मेमोरी चीजें अधिक कॉम्पैक्ट हैं जहां दूसरे छोर में हम अगर प्रोसेसर अलग-अलग डेटा सेट पर काम कर रहे हैं और कहने के लिए मशीन हैं तो यह एक फायदा हो सकता था।
 इसलिए, यदि हम रिलेशनल डेटाबेस के समानांतर DB के फायदों को देखते हैं, यदि आप इसे नहीं रखना चाहते हैं; रिलेशनल समानांतर डेटाबेस संरचनाओं की विशेषताएं क्या हैं, जो इस प्रकार के संचालन के समानांतर के लिए अधिक फायदे हैं, फिर कई प्रोसेसर का उपयोग करके SQL क्वेरी से संबंधित रिलेशनल डेटाबेस कुशल निष्पादन, साझा किए गए कुछ आर्किटेक्चर टेबल विभाजन के लिए और सही टेबल के पार वितरित नहीं है।
 तो, ऐसा हुआ कि मैं तालिका को विभाजित कर सकता हूं और तालिका में प्रत्येक डेटा एकाउंटेंट को समानांतर रूप से निष्पादित किया जा सकता है, जो उन्हें अलग-अलग दिनों में वितरित किया जा सकता है और प्रोसेसर काम कर सकता है जो पूरी तरह से आपके पर निर्भर करता है; आपका वर्किंग मैकेनिज्म क्या है।
 तो, SQL अनुकूलक इस वितरित संयुक्त को संभालता है।
 इसलिए, जब भी हमें कुछ जुड़ने की जरूरत होती है, तो हमें उस पर गिरने की जरूरत होती है; अपने SQL अनुकूलक का वितरण करें।
 तो, प्रोसेसर के बीच लेनदेन अलगाव के लिए वितरित 2 चरण प्रतिबद्ध लॉकिंग।
 तो, ये कुछ विशेषताएं हैं, दोष सहिष्णु जैसे सिस्टम की विफलताएं जो स्टैंडबाय सिस्टम पर नियंत्रण स्थानांतरित करके नियंत्रित की जाती हैं।
 इसलिए, मेरे पास अलग-अलग स्टैंडबाय सिस्टम हो सकते हैं या कुछ प्रोटोकॉल या कुछ पॉलिसी के साथ हो सकते हैं और फिर यदि कोई विफलता है, तो मैं उस विशेष निष्पादन को कुछ स्टैंडबाय सिस्टम में स्थानांतरित कर सकता हूं।
 इसलिए, चीजों की इस दृष्टि में और डेटा के लिए संगणना को बहाल करना संभव है, हालांकि ये चीजें हैं जो डेटा वेयरहाउस प्रकार के अनुप्रयोगों के लिए अधिक आवश्यक हैं।
 तो, समानांतर प्रसंस्करण से निपटने में सक्षम डेटाबेस के उदाहरण हैं पारंपरिक लेनदेन प्रसंस्करण चीजें ओरेकल, डीबी 2 हैं, एसक्यूएल(SQL) सर्वर डेटा वेयरहाउस एप्लिकेशन कुछ वर्टिका (Vertica), टेराडाटा (Teradata), नेट्ज़ेज़ा (Netezza) हैं; ये कुछ चीजें हैं जो डेटाबेस के डेटा वेयरहाउस प्रकार से अधिक हैं।
 अब इन पृष्ठभूमि के साथ या हमारे स्टोर में इन चीजों के साथ हम जो कहते हैं, हम उस क्लाउड फ़ाइल सिस्टम को देखते हैं।
 अब, जैसा कि हम समझते हैं कि यह कुछ नहीं बन जाएगा पूरी तरह से हम पूरी चीज से बाहर नहीं निकल सकते हैं और कुछ नया करना शुरू कर सकते हैं क्योंकि यह डेटाबेस बड़ा हो गया है; वे गलती सहिष्णु हैं, वे कुशल हैं हमारे पास छापे हैं और चीजों के प्रकार हमें कुछ चीजों का दोहन करने की आवश्यकता है और कुछ और दर्शन जिनमें से क्लाउड के पीछे है।
 तो, एक प्रमुख बात क्लाउड फ़ाइल है Google फ़ाइल सिस्टम GFS था और बैक टू बैक; हमारे पास एक खुला स्रोत सामान है जिसे एचडीएफएस (HDFS) कहा जाता है; Hadoop ने फ़ाइल सिस्टम वितरित किया।
 तो, जो हम कहते हैं कि कोई व्यक्ति एक तंत्र को Google फ़ाइल सिस्टम सेट करता है।
 तो, Google फ़ाइल सिस्टम, उच्च गति की चीजों से जुड़े कमोडिटी सर्वर के बहुत बड़े वितरित समूहों का उपयोग करके अपेक्षाकृत बड़ी फ़ाइलों का प्रबंधन करने के लिए डिज़ाइन।
 तो, यह है कि क्या जीएफएस या एचडीएफएस, वे बहुत बड़ी डेटा फ़ाइलों पर काम करने में सक्षम हैं जो इस कमोडिटी सर्वर पर वितरित किए जाते हैं; आमतौर पर कुछ चीजें लिनक्स सर्वर हैं जो बहुत उच्च गति लाइन के माध्यम से परस्पर जुड़े हुए हैं।
 इसलिए, वे व्यक्तिगत फ़ाइलों के पढ़ने लिखने के दौरान भी विफलता को संभाल सकते हैं, ठीक है, पढ़ने-लिखने के संचालन के दौरान यदि विफलता है तो इसे संभाला जा सकता है।
 दोष सहिष्णु यह निश्चित रूप से एक आवश्यकता है।
 इसलिए, अगर हमारे पास कोई ऐसा सरल सिस्टम टर्म है, जो सिस्टम विफलता की P सिस्टम विफलता की P की संभावना 1 शून्य से 1 शून्य से 1 शून्य से 1 है, तो घटक की विफलता की शक्ति N की शक्ति है।
 इसलिए, यदि N बहुत बड़ा है, तो आप कह सकते हैं कि हम इसके लिए जा सकते हैं, इस विफलता का जोखिम न्यूनतम है।
 तो, समानांतर रीड का समर्थन करता है लिखता है एक साथ कई ग्राहक कार्यक्रम जोड़ता है।
 तो, यह क्लाइंट प्रोग्राम द्वारा समानांतर रीड समानांतर लेखन और अपडेट है और हमारे पास एचडीएफएस है जो कि Hadoop वितरित फाइल सिस्टम है जो कि अमेज़ॅन EC2 क्लाउड प्लेटफॉर्म पर उपलब्ध GFS आर्किटेक्चर का खुला स्रोत कार्यान्वयन है।
 तो, हमारे पास एचडीएफएस है जो वहां है।
 तो, अगर हमारे पास एक बड़ी तस्वीर है।
 तो, कि कैसे एक GFS हैं।
 तो, वहाँ कुछ घटक हैं मास्टर हैं या नाम नोड्स में मास्टर नोड जीएफएस या नाम नोड एचडीएफएस (HDFS) है और ग्राहक अनुप्रयोग हैं और हमारे पास एचडीएफ के मामले में जीएफएस (GFS) और डेटा नोड के मामले में अलग-अलग चंक सर्वर हैं सामान्य बादल वातावरण।
 तो, सिंगल मास्टर नेमस्पेस को नियंत्रित करता है।
 तो, तार्किक रूप से एक ही मास्टर है जो नामस्थान को नियंत्रित करता है।
 इसलिए, नाम स्थान महत्वपूर्ण है क्योंकि यह हमें देता है कि कैसे संग्रहीत हैं; डेटा को कैसे संदर्भित किया जा सकता है; यह अधिक है; यह एक मेटा-डेटा प्रकार की सूचनाओं का माध्यम हो सकता है जो मास्टर द्वारा नियंत्रित होती हैं बड़ी फाइलें जीएफएस और ब्लॉक के मामले में, विखंडू में टूट जाती हैं; हमने कमोडिटी सर्वर पर संग्रहीत एक एचडीएफएस के मामले में क्या कहा, आमतौर पर लिनक्स सर्वरों को जीएफएस में चंक सर्वर और एचडीएफएस में डेटा नोड्स कहा जाता है, इसलिए विभिन्न भौतिक रैक नेटवर्क खंड पर 3 बार दोहराया गया।
 तो, यह हिस्सा; तो, हमारे पास क्या है? हमारे पास नीचे की चीज़ों में GFS या HDFS है जो हमारे पास एक चंक सर्वर हैं जो मूल रूप से लिनक्स सर्वर चंक सर्वर या डेटा नोड्स हैं जो डेटा के मुख्य संरक्षक हैं और वे प्रत्येक डेटा Di को अलग-अलग 3 पर दोहराया जाता है।
 विभिन्न भौतिक रैक और नेटवर्क खंडों पर कम से कम 3 बार।
 इसलिए, यदि आप जीएफएस में रीड ऑपरेशन को देखते हैं, तो क्लाइंट प्रोग्राम एक फ़ाइल का पूरा रास्ता ऑफ़सेट को मास्टर को भेजता है, ठीक उसी जगह जहां वह एचडीएफएस (HDFS) के मामले में नोड को पढ़ना या नाम देना चाहता है।
 इसलिए, हम GFS मास्टर नोड को संदर्भित करेंगे और जो बैक टू बैक है जब हम HDFS मास्टर नोड में नाम नोड का संदर्भ देते हैं, जो कि ये डेटा पाया जाता है, जहां सही है, क्लाइंट कैश के प्रतिकृतियों में से एक के लिए मेटा-डेटा पर।
 तेजी से पहुँच के लिए मेटा-डेटा।
 यह निर्दिष्ट चंक सर्वर से डेटा पढ़ता है।
 तो, गुरु से गुरु; यह हो जाता है और दर्पण को इस मेटा-डेटा को प्राप्त करता है और वहां से यह मूल रूप से इस चंक सर्वर तक पहुंचता है।
 तो, पढ़ने के लिए इनमें से किसी भी chunk सर्वर (Chunk server) या प्रतिकृति chunk सर्वर करेंगे जहां GFS में अपेंड ऑपरेशन लिखना थोड़ा मुश्किल है, क्लाइंट प्रोग्राम फ़ाइल का एक पूरा रास्ता मास्टर जीएफएस को नोड नोड एचडीएफएस पर भेजता है, राइट, मास्टर मेटा पर उत्तर देता है -चटका के सभी प्रतिकृतियों के लिए डेटा जहां डेटा पाया जाता है।
 क्लाइंट सभी चंक सर्वरों में संलग्न होने के लिए डेटा भेजता है; चंक सर्वर डेटा की प्राप्ति को स्वीकार करता है, मास्टर को चंक सर्वर में से एक के रूप में नामित करता है, प्राथमिक चंक्स सर्वर एक ऑफसेट, दाएं को चुनकर डेटा की अपनी प्रतिलिपि को चंक में जोड़ता है।
 तो, यह है कि यह आकर्षक है; एक साथ कई, सही करने के लिए फ़ाइल के अंत से परे भी आवेदन किया जा सकता है।
 तो, यह एक बहुत ही दिलचस्प बात है कि भले ही आप ईओएफ से परे ईओएफ के एपेंड को समाप्त कर सकते हैं, क्योंकि एक साथ लेखक हैं जो लिख रहे हैं और यह मूल रूप से बाद के चरण में समेकित है।
 प्रतिकृति के लिए ऑफ़सेट भेजता है, यदि सभी प्रतिकृति निर्दिष्ट ऑफ़सेट में लिखने में सफल नहीं होती है, तो क्लाइंट पीछे हट जाता है, सही।
 तो, सभी ऑफसेट; इसलिए, विचार यह है कि जब भी मैं एक डेटा की तलाश कर रहा हूं, मुझे यह जानना होगा कि सभी 3 प्रतिकृतियों के लिए, यह आदर्श रूप से समान ऑफसेट पर होना चाहिए।
 इसलिए, कि मैंने पढ़ी हुई प्रक्रिया को संसाधित किया है क्योंकि उस चीज़ में कोई देरी नहीं है क्योंकि एक बार इसकी गणना करने के बाद यह सीधे उस ऑफसेट पर अन्य चैंक का उपयोग करता है, ठीक है।
 तो, Google फ़ाइल सिस्टम में गलती सहनशील; मास्टर चंक सर्वर के साथ नियमित संचार बनाए रखता है जो हम कहते हैं कि दिल की धड़कन संदेश की तरह आप जीवित प्रकार की चीजें हैं और विफलता के मामले में चंक सर्वर मेटा-डेटा प्राथमिक खंड सर्वर की विफलता में विफलता को दर्शाने के लिए अद्यतन किया जाता है, मास्टर मास्टर असाइन करता है कभी-कभी नए प्राथमिक ग्राहक इस विफल होने का प्रयास करेंगे, हम इस असफल खंड सर्वर का प्रयास करेंगे, मास्टर से अपने मेटा-डेटा को अपडेट करें और पुनः प्रयास करें।
 इसलिए, असफलता को प्रतिबिंबित करने के बाद खंड विफलता मेटा-डेटा विफलता के मामले में।
 तो, खंड सर्वर मेटा-डेटा कहता है कि एक विफलता है।
 इसलिए, अगली बार जब आप आवंटित नहीं करते हैं या पसंद करते हैं और प्राथमिक सर्वर की विफलता के लिए, मास्टर एक नया प्राथमिक असाइन करता है।
 इसलिए, यह चीज़ पर काम करने के लिए एक नया प्राथमिक कार्य करता है।
 और ग्राहकों को अपडेट करें; कभी-कभी हम इस असफल खंड सर्वर का प्रयास करेंगे क्योंकि इसे ध्वजांकित किया जाएगा, ठीक है।
 अब एक और संबंधित सामान बड़ा डेटा या बड़े डेटा की संबंधित अवधारणा है, जीएफएस पर वितरित संरचना भंडारण 5 सिस्टम बिल्ड, सही है।
 तो, यह निर्माण है; यह एक संरचना वितरित संरचना भंडारण फ़ाइल प्रणाली है जो इसे जीएफएस पर बना है, ठीक है।
 इसलिए, पंक्ति कुंजी, कॉलम कुंजी, टाइमस्टैम्प द्वारा डेटा तक पहुंचा जा सकता है।
 तो, अगर आप देखते हैं।
 तो, यह एक से अधिक उदाहरण संग्रहीत हैं।
 तो, एक समय कुंजी कॉलम कुंजी है और निश्चित रूप से, पंक्ति कुंजी कहें जो कहती है कि डेटा कहां है।
 इसलिए, बड़ी तालिका में प्रत्येक स्तंभ स्तंभ परिवार और लेबल अधिकार के रूप में मनमाने नाम मूल्य जोड़ी को संग्रहीत कर सकता है।
 इसलिए, यहां यदि आप देख सकते हैं कि ये कॉलम परिवार हैं और इसे लेबल किया गया है और वे एक नाम मान जोड़ी जमा करते हैं।
 संभव स्तंभ परिवार का सेट एक तालिका का होता है जब इसे बनाया जाता है।
 इसलिए, जो अलग कॉलम परिवार हैं, वे होंगे।
 तो, यह कुछ हद तक ठीक है।
 एक स्तंभ परिवार के भीतर लेबल गतिशील और किसी भी समय बनाया जा सकता है।
 इसलिए, मैं तालिका को प्रत्येक बड़ी तालिका सेल पंक्ति को फिर से बना सकता हूं या बना सकता हूं और कॉलम टाइम स्टैम्प के घटते क्रम में कई बनाम डेटा स्टोर कर सकता है।
 इसलिए; इसका मतलब है, यह है कि कालक्रम यह है कि यह फैशन में है।
 तो, यह कई लोगों को एक कम समय टिकट में संग्रहीत किया जाता है।
 तो, फिर हम इन चीजों को देखते हैं।
 इसलिए, अलग-अलग टेबल हैं जो विभिन्न टैबलेट हैं जिन्हें इस तालिका में संदर्भित किया गया है और यह एक पदानुक्रमिक संरचना है और हमारे पास एक मास्टर सर्वर है जो मुख्य रूप से एक रजिस्ट्री या मेटा-डेटा भंडार है।
 इसलिए, बड़े डेटा में प्रत्येक तालिका टैबलेट नामक रेंजरों में विभाजित होती है, प्रत्येक तालिका टैबलेट सर्वर द्वारा प्रबंधित की जाती है।
 इसलिए, यह एसएस टेबल नामक एक अलग वितरित फ़ाइल में दी गई पंक्ति सीमा के लिए प्रत्येक कॉलम परिवार को स्टोर करता है।
 तो, इस प्रकार का प्रबंधन खेल में चला जाता है।
 इसलिए, मेरी पहुंच दर दिन के अंत तक पहुंच दर या बहुत अधिक होगी।
 तो, एक मेटा-डेटा टेबल (Meta Data Table) को बनाए रखा जाता है कई मेटा-डेटा सर्वर द्वारा बनाए रखा जाता है मेटा डेटा खुद बहुत बड़ा हो सकता है।
 इसलिए, इसे संग्रहीत करते समय मेटा-डेटा उस मामले में बहुत बड़ा हो सकता है; यह फिर से अलग-अलग गोलियों में विभाजित हो जाता है एक रूट टैबलेट अन्य मेटा-डेटा टैबलेट पर इंगित करता है।
 इसलिए, यदि मेटा-डेटा एक बहुत बड़ा भंडार है, तो यह फिर से अलग-अलग टैबलेट में टूट जाता है और एक रूट टैबलेट है जो आपके मेटा-डेटा के साथ समन्वय करता है; यह टेबलेट और वास्तविक रूप से उस मेटा-डेटा सेवाओं का अनुकरण या एहसास करना चाहते हैं।
 एक साथ एक ही टेबल पर बड़े समानांतर रीड और आवेषण का समर्थन करता है, सॉर्ट किए गए फैशन में प्रविष्टि, सरल परिशिष्ट की तुलना में अधिक काम की आवश्यकता हो सकती है, ठीक है।
 अन्य डेटाबेस के लिए भी सच है क्योंकि एक बार जब आप इसे सम्मिलित करते हैं तो मूल रूप से आपको डेटा को एक तरफ धकेलने और एक सम्मिलन बिंदु बनाने की आवश्यकता होती है, जहां एक परिशिष्ट के मामले में आप उस भंडारण या डेटा के अंत में डेटा डाल रहे हैं या टेबल्स।
 तो, डायनेमो; यह अमेज़ॅन द्वारा विकसित किया गया है जो बड़ी मात्रा या समवर्ती अद्यतनों का समर्थन करता है जिनमें से प्रत्येक बड़ी तालिका से अलग आकार में छोटा हो सकता है, बड़े पैमाने पर पढ़ने का समर्थन करता है और सही अंत लिखता है।
 तो, डायनेमो के लिए डेटा मॉडल; यह एक साधारण कुंजी मूल्य जोड़ी है जो वेब आधारित ई-कॉमर्स प्रकार के अनुप्रयोगों के लिए उपयुक्त है और वितरित फ़ाइल सिस्टम को रेखांकित करने पर निर्भर नहीं है, विफलता समाधान को हल करने में विफलता के लिए, इत्यादि, वे इसे स्वयं करते हैं।
 तो, यह डायनेमो की विशिष्ट वास्तुकला है जहां कई वर्चुअल नोड्स और विभिन्न भौतिक नोड्स हैं और वे तार्किक कनेक्टिविटी क्षेत्र हैं।
 तो, अगर आप डायनमो वास्तुकला को देखते हैं।
 इसलिए, यह बाइट्स के मनमाने ढंग से सरणियों के साथ मनमाने ढंग से मूल्य मूल्य जोड़ी के साथ एक महत्वपूर्ण मूल्य जोड़ी है, जैसे कि एमडी 5 एक अट्ठाईस बिट्हाश टेबल हैश मान उत्पन्न करता है।
 तो, यह मूल रूप से मैप करने की कोशिश करता है जो वर्चुअल नोड थे, यह फ़ंक्शन का उपयोग करके मैपिंग होगा।
 इस फ़ंक्शन की श्रेणी मैप की गई है क्योंकि हम चर्चा कर रहे हैं कि वर्चुअल नोड्स का सेट रिंग प्रकार की चीज़ की व्यवस्था करता है।
 वास्तु को एक प्राथमिक वर्चुअल नोड के रूप में अच्छी तरह से एन माइनस एक अतिरिक्त वर्चुअल नोड के रूप में दोहराया जाता है, एन भौतिक नोड की संख्या है।
 इसलिए, कि किसी भी उद्देश्य को चीजों में दोहराया गया है।
 प्रत्येक भौतिक नोड प्रबंधित किए जाते हैं जो रिंग पर वितरित स्थिति में कई वर्चुअल नोड होते हैं।
 इसलिए, यदि आप इस भौतिक नोड सर्वर को देखते हैं तो वे मूल रूप से इस वर्चुअल नोड सर्वर से जुड़े हैं।
 डायनेमो आर्किटेक्चर (Dynamo Architecture), क्षणिक विफलता नेटवर्क विभाजन के लिए लोड संतुलन यह ऑब्जेक्ट पर लिखने के अनुरोध को संभाल सकता है जो उसके वर्चुअल नोड्स में से एक पर सही है।
 सभी अन्य नोड्स के लिए सभी अनुरोध अग्रेषित करें; इसे वर्चुअल नोड में से एक निष्पादित किया जाता है और अन्य सभी नोड्स में कहता है जिसमें ऑब्जेक्ट की प्रतिकृतियां होती हैं; इसका मतलब है, अगर मैं एक वस्तु हूं; अगर इसे एक और एन शून्य में एक नोड में दोहराया जाता है।
 तो, एक अद्यतन किया गया है बाकी संवाद कर रहे हैं।
 तो, एक कोरम प्रोटोकॉल है जो प्रतिकृतियों की अंतिम स्थिरता को बनाए रखता है जब बड़ी संख्या में समवर्ती पढ़ता है और लिखता है।
 इसलिए, यह कोरम यह पता लगाने की कोशिश करता है कि प्रतिकृति का न्यूनतम स्तर कौन सा व्यक्ति इस बड़े पढ़ने वाले व्यक्ति को संभालने के लिए होगा।
 तो, अगले में, हम इस डायनेमो वितरित ऑब्जेक्ट वर्जन को अपने स्थानीय टाइम स्टाम्प में ऑब्जेक्ट्स का एक नया संस्करण बनाते हैं।
 कॉलम स्थिरता के लिए अलगो हैं।
 तो, ऑपरेशन आर पढ़ें; लिखना ऑपरेशन ई।
 तो, पढ़ें प्लस लेखन ऑपरेशन किसी भी प्रणाली से अधिक होना चाहिए कोरम लगातार है जो ओवरहेड हैं जो आने वाले होंगे एक कुशल लिखने की बड़ी संख्या में प्रतिकृतियां पढ़ी जानी चाहिए और यदि यह ए, बी, सी और बड़ी संख्या में प्रतिकृतियों को पढ़ने की जरूरत है पढ़ने की जरूरत है।
 तो, ये 2 चीजें हैं जो वे हैं; इसलिए, इसे अमेज़ॅन द्वारा उपयोग किए जाने वाले नोड स्तर बर्कले डीबी पर विभिन्न स्टोरेज इंजनों द्वारा कार्यान्वित किया जाता है और इसे MySQL और etcetera का उपयोग करने के लिए कार्यान्वित किया जा सकता है।
 दूसरा; अंतिम अवधारणा जो हम कर रहे हैं वह डेटा स्टोर है।
 अमेज़ॅन के मामले में Google और अमेज़ॅन एक साधारण पारंपरिक कुंजी मूल्य जोड़ी डेटाबेस स्टोर, दाएं, Google ऐप इंजन डेटा स्टोर, जो हम सरल डीबी कहते हैं; डेटा स्टोर में सभी इकाइयां ऑब्जेक्ट्स एक बड़ी टेबल में रहती हैं, ठीक है।
 डाटा स्टोर कॉलम ओरिएंटेड स्टोरेज का सही फायदा उठाता है, डेटा स्टोर के रूप में मेरा मतलब कॉलम परिवार के रूप में स्टोर डेटा है।
 इसलिए, हमारी तर्कसंगत पारंपरिक चीज़ के विपरीत एक पंक्ति परिवार या ट्यूपल आधारित है जिसे इसे कॉलम परिवार कहा जाता है।
 तो, कई फायदे या कई विशेषताएं या विशेषताएं हैं जैसे कि कुशल इंडेक्स का समर्थन करने के लिए कई इंडेक्स टेबल का उपयोग किया जाता है।
 बड़ी तालिका क्षैतिज रूप से विभाजित कॉल डिस्क पर और डिस्क के पार होती है, जबकि प्रमुख चीजों में लेक्सिकोग्राफिक (lexicographically )रूप से संग्रहीत होती है।
 डेटा के लेक्सोग्राफिक सॉर्टिंग के अलावा, उपसर्ग का निष्पादन होता है और प्रमुख मान संस्थाओं पर रेंज क्वेरीज़ को ट्रांजेक्शनल उद्देश्य के लिए समूहीकृत किया जाता है क्योंकि अगर वहाँ है जब हम लेनदेन कर रहे हैं।
 इसलिए, यह विभिन्न प्रकार की क्वेरीज़ का समर्थन करने के लिए अधिक लगातार तरीके और अनुक्रमणिका तालिका तक पहुँच पाने वाली संस्थाओं का एक समूह है।
 इसलिए, हमारे पास अलग-अलग सूचकांक या विभिन्न प्रकार के प्रश्न हो सकते हैं।
 इसलिए, यह नहीं है कि हमें समझना चाहिए कि यह एक साधारण डेटाबेस नहीं है, यह एक बड़ा डेटाबेस है।
 तो, ऐसा करने के लिए; मैं पूरे डेटाबेस को मंथन नहीं कर सकता।
 तो, उन्हें उचित रूप से टुकड़ा करने की आवश्यकता है।
 इसलिए, विभिन्न प्रकार के विभिन्न प्रश्नों के आधार पर इसे अधिक कुशलता से निष्पादित किया जा सकता है।
 कुछ और गुण हैं जैसे कि यह स्वचालित रूप से इंडेक्स सिंगल प्रॉपर्टी इंडेक्स बनाता है या एक तरह का इंडेक्स है जो फॉर्म के कुशल लुकअप प्रश्नों का समर्थन करता है सभी प्रकार की चीजों को इंडेक्स में कॉन्फ़िगर करने योग्य चुनें और एक क्वेरी निष्पादन सूचकांक है जिसमें उच्चतम चयनात्मकता के साथ इंडेक्स चुना जाता है ।
 तो, यह तब होता है जब हम क्वेरी निष्पादन करते हैं।
 इसलिए, इसके साथ हम अपनी चर्चा को यहीं रोक देंगे।
 इसलिए, हमने जो देखने पर चर्चा करने की कोशिश की है, उसके अलग-अलग पहलू हैं जो हमारे पारंपरिक डेटाबेस की धारणा है, जो स्थापित है, दोष सहिष्णु, कुशल है और ऐसा करने के लिए अलग-अलग तंत्र हैं।
 इसलिए, हमारे पास पहले से ही इस समानांतर निष्पादन की चीजें और इसके वर्तमान हैं।
 इसलिए, जब हम क्लाउड में डेटा की एक बड़ी मात्रा के साथ सौदा करते हैं जो कि होने की संभावना है, तो हमें देखने के लिए अलग-अलग पहलू क्या हैं।
 इसलिए, हम इस कॉलम ओरिएंटेड या ट्यूपल ओरिएंटेड रिलेशनल डेटाबेस का अनुसरण करने में सक्षम नहीं हो सकते हैं, हमें कॉलम ओरिएंटेड डेटा बेस के लिए हमें चार पंक्तियों के लिए एक सॉरी रो ओरिएंटेड डेटाबेस (Oriented Database) की आवश्यकता है और जीएफएस (GFS), एचडीएफएस (HDFS) और इस डेटा की तरह अलग-अलग फाइल सिस्टम हैं।
 डायनमो और आपकी साधारण डीबी और उन चीजों को स्टोर करें जो विभिन्न इंटर क्लाउड सर्विस प्रोवाइडर्स सीएसपी द्वारा कुशल स्टोरेज एक्सेस के लिए लागू की जा रही हैं, बहुत बड़े डेटाबेस के न्रेड राइट एक्जीक्यूशन।
 धन्यवाद।