Managing Data-Dr6MSqRFaZQ 70.1 KB
Newer Older
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192
  హలో.
  క్లౌడ్ కంప్యూటింగ్(cloud computing) పై మన చర్చను కొనసాగిస్తాము.
  నేడు, మనం క్లౌడ్(cloud)లో డేటా(data)ను నిర్వహించడం యొక్క కొన్ని అంశాల గురించి చర్చిస్తాము.
  మనం క్లౌడ్(cloud) లో నేర్చుకున్నట్లుగా; పూర్వ ఉపన్యాసాలలో చర్చించికున్నట్లుగా, క్లౌడ్(cloud) లో, ప్రధాన అంశం ఒకటి డేటా(data); ఎందుకంటే చివరగా, మన డేటా(data) మరియు ప్రాసెసింగ్ అప్లికేషన్లు(processing applications) మరొకరి డొమైన్(domain)లో ఉంటాయి కదా.
  అవి మన ప్రత్యక్ష నియంత్రణ లేకుండా వేరే చోట అమలు చేయబడుతున్నాయి.
  కాబట్టి, ఇది దాదాపుగా వర్చువల్ మెషిన్ (virtual machine)లో వర్చువల్(virtual) గా డేటా హోస్ట్(host) అవుతుంది. ఈ వర్చ్యువల్ మిషన్(virtual machine) ఎక్కడో క్లౌడ్(cloud) లో ఉంటుంది.
  ఇది మనం చర్చించిన భద్రతా కోణం లో చూస్తే చాలా గమ్మత్తైనది అవుతుంది; అంతే కాకుండా ఇతర దృక్కోణాల నుండి చూస్తే కూడా; అనగా క్లౌడ్ ప్రొవైడర్(cloud provider) పాయింట్ లో, డేటా యొక్క భారీ పరిమాణాన్ని నిర్వహించడం, రెప్లికాశ్ (replicas) ను క్రియేట్ చేయడం మరియు వాటికి క్వెరీ(queries)లను తయారు చేయడం ఇవ్వన్ని కూడా మళ్లీ ప్రధాన సమస్య అవుతాయి.
  మన సంప్రదాయ సంబంధిత లేదా ఆబ్జెక్ట్ ఓరియెంటెడ్(object oriented) మోడల్(model) దీనికి సరిగ్గా సరిపోని విషయం.
  మనము కొన్ని డేటాబేస్ అప్లికేషన్ లేదా కొన్ని చిన్న ఎక్స్పెరిమెంట్ (experiments) లు చేస్తున్నప్పుడు, మరియు స్మాల్(small) ఇంస్టాన్స్(instance) కి బాగానే ఉంటుంది. కానీ మనము పెద్ద మొత్తంలో డాటా(data) ఉన్నప్పుడూ దాన్నిని భారీ సంఖ్యలో రీడ్(reads)లు , రైట్(writes) లు జరిగినప్పుడు లేదా డేటా వాల్యూమ్(data volume) సాధారణ కార్యకలాపాలు కంటే చాలా ఎక్కువగా ఉన్నప్పుడూ, అప్పుడు మనము వేరొక విధంగా చూడాలి.
  ఇప్పుడు మనం చూడబోయే విషయాలు క్లౌడ్(cloud) కోసం మాత్రమే కాకుండా, ముందునుంచి కూడా వాడుకలో ఉన్నాయి; ఎలా మనము ఈ సమాంతర డేటాబేస్(database) ని యాక్సెస్(access) చేస్తాము; ఎలా సమాంతర డేటాబేస్(database) ని అమలు చేస్తాము; రీడ్-రైట్(read-write) ఆపరేషన్(operations) లు ఎలా జరుగుతాయి.
  మనము క్లౌడ్(cloud) సందర్భంలో మాట్లాడేటప్పుడు ఈ విషయాలన్ని మరింత ప్రముఖమైనవి లేదా డి ఫెక్టో(de-facto) మెకానిజమ్(mechanisms)లు గా ఉండేవి.
  కాబట్టి, మనం నేర్చుకోబోయేది ఏమిటంటే, క్లౌడ్(cloud) డేటాని ఎలా నిర్వహించాలి, వివిధ స్ట్రటేజీస్(strategies) లేదా స్కీమ్(schemes)లు ఏమిటి మరియు ఈ ISP లు ఎలా అనుసరిస్తాయో అనే అంశంపై మరింత అవగాహన ఉండాలి.
  కాబట్టి, మేము ఇప్పటికే మీకు తెలిసిన రిలేషనల్ డేటాబేస్ గురించి మాట్లాడుతాము, అప్పుడు కొన్ని విషయాలలో ఒకటిగా మీకు తెలిసిన స్కేలబుల్ డేటా బేస్ లేదా డేటా సేవలు ముఖ్యమైన గూగుల్ ఫైల్ సిస్టమ్ పెద్ద పట్టిక మరియు మాడ్రిడ్ సమాంతర ప్రోగ్రామింగ్ మోడల్. అవి మనం చేసేటప్పుడు తిరిగి వచ్చే విషయాలు.
  కాబట్టి, మేము క్లౌడ్ ప్లాట్‌ఫారమ్‌లో ఏదైనా నిర్వహించేటప్పుడు ఏమి చేయాలనుకుంటున్నాము; ఇది అనువర్తనాలు లేదా డేటా అయినా, ఈ అవసరం పెరిగేకొద్దీ అవసరం పెరుగుతుంది అనే అర్థంలో మేము స్కేలబుల్ అవ్వాలనుకుంటున్నాము.
  కాబట్టి, స్కేల్-అప్ స్కేల్-డౌన్ లేదా సర్వవ్యాప్త పద్ధతిలో కనీస జోక్యం; లేదా కనీస మానవ లేదా నిర్వహణ జోక్యం.
  కాబట్టి, ఆ రకమైన మౌలిక సదుపాయాలు; మేము వెంట రావాలనుకుంటున్నాము, డేటాకు కూడా ఇది వర్తిస్తుంది. 
  ఇవి ప్రధానంగా భారీ పరిమాణంలో ఉన్న అధిక సమాంతర టెక్స్ట్(text) ప్రాసెసింగ్(processing)కు అనువుగా ఉంటాయి, ఇది ఒక ముఖ్యమైనది లేదా Enterprise Analytics పర్యావరణానికి అనుగుణంగా ఉంటుంది, నేను కలిగి ఉండాలనుకుంటున్నాను; పంపిణీ చెయ్యబడ్డ డేటా దుకాణాలపై విశ్లేషణలు చేయాలనుకుంటే, ఇది షాపింగ్ లేదా వాణిజ్య సిబ్బంది యొక్క చైన్(chain) కావచ్చు లేదా అది ఒక బ్యాంకింగ్(banking) సంస్థ కావచ్చు లేదా ఏదైనా ఆర్థిక సంస్థ కావచ్చు, అది ఇతర రకాలైన పెద్ద సంఖ్యలో కూడా ఏదైనా చేయవలసి ఉంటుంది. 
  ఇది మెట్రోలాజికల్ డేటా(metrological data) దేనికైతే డిస్ట్రిబ్యూటెడ్(distributed) పద్దతి కలిగి ఉంటుంది, ఇది climatological డేటా, ఎక్కడైతే అసలు ప్రభావం ఉంటుందో అక్కడ లైన్ డౌన్(line down) లో కొంత సమాంతర ప్రాసెసింగ్(processing) చేయవలసి ఉంటుంది.
  మనము ఒక సాధారణ డేటాబేస్(database) ఉన్న సాధారణ ఇంస్టాన్స్(instance) కలిగి ఉంటే, అప్పుడు క్లౌడ్(cloud) అవసరం లేదు. 
  సో, ఇది ఒక సాధారణ వ్యవస్థ కావచ్చు లేదా మీరు చాలా VM ను కొనుగోలు చేసి, దానిపై పని చేస్తే క్లౌడ్ యొక్క అసలు ప్రభావం మీరు తీసుకున్న క్లౌడ్ యొక్క అసలు ప్రయోజనాలు కావు.
  బిగ్ టేబల్(big table) నమూనాలు మాదిరిగానే Google అనువర్తనం ఇంజిన్లు డాటాస్టోర్(data store), అమెజాన్(amazon) సాధారణ DB లు వివిధ రకాలలో అందించబడతాయి, కానీ ప్రాథమిక కాన్సెప్ట్ (concept) ఒకే విధంగా ఉన్నాయి.
  మన అందరికీ తెలిసిన రేలేషనల్ డాటాబేస్ (relational database)ల గురించి చూస్తున్నట్లయితే, చాలామంది యూసర్(users)ల అప్లికేషన్ ప్రోగ్రామ్(application programs)లు SQL ద్వారా, RDBMS లతో ఇంటెరక్ట్(interact) అవుతాయి.
  కాబట్టి, ఇది స్తృక్తుర్డ్ క్వెరీ లాంగ్వేజ్(structured query language) లేదా SQL, యూసర్(users)ల ప్రోగ్రాం(programs)లతో ఇంటెరక్ట్(interact) అయ్యేది.
  ఇక్కడ రిలేషనల్ డేటాబేస్ మేనేజ్మెంట్ పార్సర్(relational database management parser) ఉంది, ఇది మెమరీ(memory) మరియు డిస్క్ లేబుల్(disk label) కార్యకలాపాలకు క్వెరీ(queries)లను ట్రాన్స్ఫారమ్(transform) చేస్తుంది మరియు ఎక్సెక్యూషన్ టైమ్(execution time)ని ఆప్టిమైజ్(optimize) చేస్తుంది.
  కాబట్టి, ఏదైనా క్వెరీ(query)లో, క్వెరీ(query) ఎక్సెక్యూషన్ టైమ్(execution time)ని ఆప్టిమైజ్(optimize) చేయాల్సిన అవసరం ఉంది.
  ఇది ఒక పెద్ద డేటా బేస్(database) అయితే, మనము సెలెక్ట్(select) కి ముందు ప్రొజెక్ట్(project)చేసిన లేదా జాయిన్(join)కి ముందు లేదా తర్వాత సెలెక్ట్(select) చేసిన చాలా తేడా వస్తుంది; ఇక్కడ రెండిటికి క్వెరీ(query) మరియు క్వెరీ(query) ఔట్పుట్ (output) కూడా ఒకటే అయివుండచ్చు, కానీ ఎక్సెక్యూషన్ టైమ్(execution time) అనేది చాలా వేరియేషన్(variation) ఉంటుంది, రెండు రిలేషనల్ డేటాబేస్లు(relational databases) R1, R2 లను ఉన్నాయి అనుకుందాం. వీటి మీద కొన్ని ప్రొజెక్షన్(projection) లేదా సెలక్షన్(selection) చేయలనుకుంటున్నాం. ఇప్పుడు A1, A2 ని సెలెక్ట్ (select) చేసుకుని జాయిన్(join) చెయ్యాలనుకుంటే, అది ముందుగా లేదా తర్వాత చేస్తే. ముందుగా R1 లో సెలెక్ట్(select) చేస్తే; ట్యూపుల్స్(tuples) సంఖ్య 1 మిలియన్ నుండి 1000 కి తగ్గిపోవచ్చు.
  అదేవిధంగా R2 లో సెలెక్ట్(select) చేస్తాం.
  తర్వాత జాయినింగ్(joining) అనేది చాలా తక్కువ ఖర్చుతో ఉంటుంది.
  సో, మీరు మొదటి జాయిన్(join) చెయ్యాలా లేదో అనేది ఒక డేటాబేస్ ఆప్టిమైజేషన్(database optimization) సమస్య, క్లౌడ్(cloud) కోసం ప్రత్యేకంగా చేయడానికి ఏమీ కాదు, కానీ రిలేషనల్ డేటాబేస్(relational database) ఆప్టిమైజ్(optimize) చేయడానికి అనుమతిస్తుంది.
  డిస్క్ స్పేస్ మేనేజ్మెంట్ లేయర్(disk space management layer), డాటా రికార్డులను క్రమంలో ఉన్న మెమొరీ బ్లాక్(memory block) పేజ్ (Pages) లలో నిల్వచేసే మరొక ప్రాపర్టీ(property).
  అందువల్ల, డిస్క్(disk) మూవ్మెంట్(movement) తక్కువగా ఉండును, డిస్క్(disk) నుండి మెమొరీ(memory)లోకి ప్రీ ఫెట్చింగ్(pre fetching) మరియు పేజీ రీప్లేస్మెంట్(page replacement) విధానాలను ఉపయోగించి పొందడం.
  కాబట్టి, ఇది మరొక లక్షణం ఏమిటంటే క్వెరీ ప్రాసెసింగ్(query processing)ని మరింత ఎఫ్ఫిషియెంట్(efficient)గా చేయడం, మరొక విషయం స్టోరేజ్(storage)ని ఎఫ్ఫిషియెంట్(efficient)గా చేయడం అనగా ఒక క్వెరీ(query) కి 5 టేబల్(tables) లు అవసరమైతే అవి సమీప స్టోరేజ్(storage) లో ఉన్నట్లైతే యాక్సెస్(access) రేటు ఎక్కువగా ఉంటుంది.
  ఇది డేటాబేస్ ఫైల్ సిస్టమ్ లేయర్(database file system layer).
  ముందుగా మనము RDBM పార్సర్(parser) చూసిన తరువాత డిస్క్ స్పేస్ మేనేజ్మెంట్ లేయర్(disk space management layer), డేటాబేస్ ఫైల్ సిస్టమ్ లేయర్(database system layer) ని చూశాం.
  ఇవన్నీ OS ఫైల్ సిస్టమ్(file system) కు స్వతంత్రంగా ఉంటాయి, ఇది ఒక ప్రత్యేక ఫైల్(file) వ్యవస్థ.
  మెమరీ(memory)లో పేజీ(page) ని రెటైన్ (retain) చేయడం లేదా రియలైజ్(realize) చేయడం మీద పూర్తి నియంత్రణ కలిగి ఉండటం, DB లేదా డేటాబేస్(database) ఉపయోగించే ఫైల్స్(files) పెద్ద నిల్వలను నిర్వహించడానికి బహుళ డిస్క్(disk) పరిధిని కలిగి ఉంటాయి.
  ఇతర అర్థంలో నేను అన్ని దశల కోసం ఆపరేటింగ్ సిస్టమ్(operating system)పై ఆధారపడినట్లయితే అప్పుడు మీ డేటాబేస్ లోడ్ (database load) తక్కువగా ఉన్నప్పుడు అది చాలా బాగుంది.
  మీరు హార్డ్ వేర్(hardware) లేదా అందుబాటులో ఉన్న రెసోర్స్(resources) లతో చాలా తక్కువ స్థాయిలో నేరుగా వ్యవహరించాల్సిన అవసరం ఉంది మరియు ఈ డేటాబేస్ ఫైల్ సిస్టమ్ లేయర్(database file system)ను రైడ్ డిస్క్ గురించి మేము వినిపించిన విధంగా సమాంతర IO ఉపయోగాలు కొరకు ప్రయత్నిస్తుంది.
  అనగా Raid1, Raid2, Raid5, రైడ్ 6 రకాలు శ్రేణుల లేదా బహుళ సమూహాలు.
  ఇది విషయం లోకి పునరావృత రిడెండెన్సీ(redundancy) ఉంటుంది.
  సమయం తక్కువగా ఉన్న మీ ఈ వైఫల్యం తక్కువగా ఉంటుంది; అంటే, ఇది ప్రధానంగా పూర్తి వైఫల్యం రుజువును అమలు చేసే డేటాబేస్(database). కాబట్టి, సాధారణంగా డేటాబేస్ స్టోరేజ్ రో(row) ఓరియెంటెడ్(oriented) గా ఉంటుంది, ఇది ఒకే స్కీమా (schema) కు సంభందించిన టపుల(tuples) ల సముదాయము. ట్రాన్సాక్షన్ ప్రొసెసింగ్(transaction processing) వంటి రైట్ (write) ఓరియెంటెడ్(oriented) ఆపరేషన్(operations)లకి ఒప్తిమల్(optimal)గా ఉంటుంది. ఒక క్రమంలో ఉన్న అనుబంధ డిస్క్ పేజీ(disk pages)లలో రిలేషనల్ రికార్డు(relational records)లు నిల్వ చేయబడతాయి. ఇండెక్స్(index) లేదా ప్రాధమిక ఇండెక్స్(index) ద్వారా స్పెసిఫై(specify) చేసిన కాలమ్స్(columns)ని యాక్సెస్(access) చేస్తారు.
  B ప్లస్ ట్రీ స్టోరేజ్ (plus tree storage) ఈ విధమైన ఇష్టమైన నిల్వ విధానాలలో ఒకటి.
  డేటా గిడ్డంగి పనిభారం కోసం కాలమ్ ఆధారిత నైపుణ్యం.
  కాబట్టి, డేటా గిడ్డంగుల ద్వారా వెళ్ళిన వారు. 
  కాబట్టి, ఇది అధిక డైమెన్షనల్ డేటా, భారీ మొత్తంలో డేటా సేకరించి వివిధ విషయాల ద్వారా జనాభా పొందుతోంది. 
  కాబట్టి, ఇది సాధారణ డేటాబేస్ కంటే గిడ్డంగి కంటే ఎక్కువ.
  కాబట్టి, ఈ కాలమ్ ఆధారిత నిల్వ అనేది డేటా వేర్ హౌస్(warehouse) రకం లోడ్ల కోసం మరింత అనుకూలంగా ఉంటుంది, ఇది ఇండివిజువల్ డేటా(individual data) ల కాకుండా అగ్రిగేట్(aggregate) గా మెషర్(measure) చేస్తుంది. దీనిని ఎనలిటిక్స్(analytics) పై అనాలిసిస్ (analysis) చేయడానికి ఉపయోగిస్తారు.
  కాలమ్స్(columns) యొక్క డైమెన్షన్(dimension) విలువ ఆధారంగా కాలమ్స్(columns)ని అగ్రిగేట్(aggregate) గా మెషర్(measure) చేస్తుంది.
  కాబట్టి, మనము డేటా వేర్ హౌస్(warehouse)కి వెళ్ళడం లేదు.
  కాబట్టి, ఇది విభిన్న డైమెన్షన్(dimension) గల టేబల్ (tables)లను కలిగి ఉంది మరియు ఎక్కువ అగ్రిగేట్(aggregate) కార్యకలాపాలను చెయ్యాల్సిన అవసరం ఉంది, ఏదో విధమైన అనాలిసిస్(analysis) చేయాల్సివస్తుంది.
  ఒక టేబుల్(table) యొక్క ప్రొజెక్షన్(projection) ఒక కొలత క్రమంలో వేర్వేరు ప్రొజెక్షన్ ఇండెక్స్(projection index) చెయ్యబడితే, బహుళ జాయిన్(join) ఇండెక్సెస్(index) అవసరమవుతుంది, ఒక కాలమ్(column) యొక్క కోణంలో కొలత పట్టిక పరిమాణం విలువల్లో నిల్వ చేయబడుతుంది.
  కాబట్టి ఇది; వివిధ వేర్వేరు విషయాలు ఉంటే, సంస్థ వివిధ రకాలైన డేటా కోసం విభిన్న దృక్పథాలను కలిగి ఉండవచ్చు మరియు ఆ పద్ధతిలో నిల్వ చేయబడాలి.
  డేటా నిల్వ పద్దతులు; ఇది B ప్లస్ ట్రీ(plus tree) లేదా జాయిన్ ఇండెక్సెస్(join indexes).
  ఒకటి రో ఓరియెంటెడ్(row oriented), మరొకటి కాలమ్ ఓరియెంటెడ్(column oriented).
  ఈ డేటాను ఒకదాని తో మరొకదానిని అనుసంధానించడానికి అనుమతించే ఒక ఇండెక్స్(index) ని కలిగి ఉండాలి.
  ఇవన్నీ మనము ఏదైనా ప్రామాణిక డేటాబేస్(database) పుస్తకం లేదా ప్రామాణిక లిటరేచర్(literature)లో తెలుడుకుంటాము; ప్రధానంగా మేము ఈ ప్రత్యేక విషయం కోసం గౌతమ్ ష్రోఫ్ యొక్క Enterprise క్లౌడ్ కంప్యూటింగ్(cloud computing) పుస్తకంను అనుసరిస్తున్నాము.
  అందువల్ల మేము పేర్కొంటున్నాం, ఇది చాలా ప్రామాణికమైన ఆపరేషన్(operation) మరియు మీరు ఏ ప్రామాణిక పుస్తకంలోనైనా పొందవచ్చు.
  మనము సమాంతర డేటాబేస్ ఆర్కిటెక్చర్ల(database architectures)ను చూస్తే, 
  ఇది విస్తృతంగా 3 అంశాలుగా విభజించబడింది. ఒకటి షేర్డ్ మెమొరీ(shared memory), షేర్డ్ డిస్క్(shared disk) మరియు షేర్డ్ నథింగ్(shared nothing).
  పైన ఉన్న చిత్రం ని చూసినట్లైతే.
  ఇది షేర్డ్ మెమరీ(shared memory) యొక్క ఒక సాధారణ నిర్మాణం.
  ఇక్కడ వేర్వేరు ప్రాసెసర్లు(processors) మెమరీ(memory)ని పంచుకుంటాయి, ఇది ఒక షేర్డ్ డిస్క్(shared disk).
  కాబట్టి, వేర్వేరు ప్రాసెసర్లు(processors) డిస్క్(disk)ను పంచుకుంటాయి, మరొకటి షేర్డ్ నథింగ్ (shared nothing).
  ఇక్కడ, వ్యక్తిగత ప్రాసెసర్(processor) కి వ్యక్తిగత డిస్క్(disk) ఉంటుంది; కాబట్టి, బహుళ CPU లతో సర్వర్లు అనువైన షేర్డ్ మెమరీ విషయంలో.
  కాబట్టి, బహుళ CPU లు ఉంటే.
  కాబట్టి, బహుళ CPU ల యొక్క మెమరీ అడ్రస్ స్పేస్(memory address space)లు SMP ఆపరేటింగ్ సిస్టమ్స్(operating systems)ల చే భాగస్వామ్యం చేయబడతాయి మరియు నిర్వహించబడతాయి.
  ఈ మెమొరీ అడ్రెస్(memory address), SMPs మరియు షెడ్యూల్ ప్రాసెసర్ల(scheduled processors) మధ్య సమాంతరంగా భాగస్వామ్యం చేస్తుంది.
  కాబట్టి, ఇది చిన్న పనులను షెడ్యూల్(schedule) చేస్తుంది; అనగా, నేను ఒక షేర్డ్ మెమరీ స్పేస్(shared memory space) ని కలిగి ఉన్నాను మరియు నేను ప్రాథమికంగా ఒక సమాంతర రీతిలో అమలు చేస్తాను.
  చివరిగా షేర్డ్ నథింగ్ (shared nothing).
  ఇక్కడ క్లస్టర్(cluster) స్వతంత్ర సర్వర్ల(servers)లు వాటి స్వంత డిస్క్ స్పేస్ (disk space) మరియు నెట్వర్క్(network) ద్వారా కనెక్ట్(connect) చేయబడి ఉంటాయి.
  వెన్నెముకగా ఉండే హై స్పీడ్ నెట్వర్క్(high speed network) తో ఏ సర్వర్(server) అయినా దాని స్వంత డిస్క్ స్పేస్(disk space)ని పంచుకున్నప్పుడు మరియు మిగిలిన దాన్నిని అమలు చేసినప్పుడు వీటి మధ్య షేర్డ్ డిస్క్ ఉంటుంది. ఇది ఒక హైబ్రీడ్ ఆర్కిటెక్చర్(hybrid architecture) వంటిది.
  కాబట్టి, NAS లేదా SAN మరియు క్లస్టర్ల(clusters) అధిక వేగ నెట్వర్క్(network) ద్వారా స్వతంత్ర సర్వర్ క్లస్టర్(server cluster) నిల్వ ప్రామాణిక ఈథర్నెట్ ఫైబర్(Ethernet fiber) ద్వారా నిల్వ చేయబడిన డేటాకు అనుసంధానించబడి ఉంటాయి.
  కాబట్టి, ఇది ఒక షేర్డ్ స్టోరేజ్(shared storage) మరియు ఈ వేర్వేరు ప్రాసెసర్(processors)లు దీనిని యాక్సెస్(access) చేస్తాయి.
  కాబట్టి, మీ అప్లికేషన్ కి కావలసిన సమాంతరాల ఆధారంగా మీరు ఈ నిర్మాణంలో దేనిని అయిన ఉపయోగించవచ్చు.
  కాబట్టి, ఇక్కడ మనం మరింత సమర్థవంతంగా ఉంటుందో లేదో, మెమరీ(memory) విషయాలు మరింత కాంపాక్ట్ (compact) అయినట్లయితే వేరొక చివర్లో మనం ప్రాసెసర్లు(processors) వేర్వేరు డేటా సమితులపై పని చేస్తున్నట్లయితే, ఇది ప్రయోజనం కావచ్చు.
  రిలేషనల్ డేటాబేస్(relational database) కంటే సమాంతర DB ప్రయోజనాలను మనము పరిశీలిస్తే, మీరు దానిని ఉంచకూడదనుకుంటే; సంబంధిత సమాంతర డేటాబేస్ నిర్మాణాల యొక్క లక్షణాలు ఏమిటంటే, ఈ విధమైన కార్యకలాపాలకు సమాంతరంగా మరింత ప్రయోజనాలు ఉంటాయి, అప్పుడు బహుళ డేటా ప్రాసెసర్ల(processors)ను ఉపయోగించడం ద్వారా SQL క్వెరీ(query)ని సమర్థవంతంగ అమలుచేసే డేటాబేస్(databases)లు ఉంటాయి, షేర్డ్ నథింగ్ (shared nothing) ఆర్కిటెక్చర్(architectures)లు; టేబుల్(tables)లను విభజించి బహుళ ప్రాసెసర్(processors)లకి పంపిణీ చేయబడతాయి.
  టేబల్ను విభజించి అందులోని ప్రతి డేటా అకౌట్ని(account) సమాంతరంగా అమలు చెయ్యొచ్చు. వేర్వేరు రోజుల్లో అవి పంపిణీ చేయవచ్చును మరియు ప్రాసెసర్(processor) మీద ఆధారపడి పని చేయవచ్చు. అక్కడ మీ వర్కింగ్ మెకానిసం(working mechanism) ఏమిటి అనేది చూసుకోవాలి.
  SQL ఆప్టిమైజర్(optimizer) అనేది ఈ డిస్ట్రిబ్యూటెడ్ జాయిన్(distributed join) ని నిర్వహిస్తుంది.
  మనము ఎప్పుడు జాయిన్(join) చెయ్యలనుకున్న SQL ఆప్టిమైజర్(SQL optimizer)కి డిస్ట్రిబ్యూట్(distribute) చేస్తాము.
  ప్రాసెసర్ల (processors) మధ్య లావాదేవీ ఐసోలేషన్(isolation) కోసం 2 ఫేస్(phase) లాక్ ప్రోటోకాల్(lock protocol) ఉపయోగించబడుతుంది.
  కాబట్టి, ఈ కొన్ని లక్షణాలు, ఫాల్ట్ టోలేరెంట్(fault tolerant); కంట్రోల్(control)ని స్టాండ్ బై(stand by) సిస్టమ్(system) కి పంపడం ద్వారా సిస్టమ్ ఫైల్యూర్ (system failures) లని హ్యాండిల్(handle) చేస్తాయి.
  వేర్వేరు స్టాండ్బై సిస్టమ్(standby system) లేదా కొన్ని ప్రోటోకాల్(protocols) లేదా కొన్ని విధానాలతో మరియు కొన్ని వైఫల్యం ఉన్నట్లయితే, ఆ స్టాండ్బై సిస్టమ్(standby system) యొక్క కొన్ని ప్రత్యేకమైన అమలును మార్చవచ్చు.
  కాబట్టి, ఈ విషయాల దృష్ట్యా అది సాధ్యమవుతుంది మరియు ఇవి సమాచార వేర్ హౌస్(warehouse) అప్లికేషన్(applications) ల కోసం మరింత అవసరం అయినప్పటికీ డేటా కోసం గణనను పునరుద్ధరిస్తాయి.
  ఇక్కడ సమాంతర ప్రాసెసింగ్ డేటాబేస్ల ఉదాహరణలు, సంప్రదాయ ట్రాన్సాక్షన్ ప్రాసెసింగ్(transaction processing) విషయాలను నిర్వహించగల సామర్థ్యం ఉన్న ఒరాకిల్(oracle), DB2, SQL సర్వర్(server). డేటా వేర్ హౌస్(data warehouse) అప్లికేషన్(applications)లు; వెర్టికా(vertica), టెర్డాటా(Teradata), నెట్జేజా (netezza); ఇవ్వన్ని డేటా వేర్ హౌస్(warehouse) దాటబ్సే కంటే మరింత ఎక్కువ.
  ఇప్పుడు ఈ నేపథ్యంతో లేదా ఈ స్టోర్ల ని మనం క్లౌడ్ ఫైల్ సిస్టమ్(cloud file system) వద్ద చూస్తాం.
  ఇప్పుడు మనము అర్థం చేసుకున్నట్లుగా, మనము పూర్తి విషయం ఏమిటంటే ఈ కొత్త డేటాబేస్ (database) పెరిగినందున కొత్తది చేయడాన్ని ప్రారంభిద్దాం; అది ఫాల్ట్ టాలెరెంట్(tolerant)గా ఉండాలి, మనము కొన్ని రకాల రైడ్స్(raids) ఉన్నపుడు ఇది ఎఫిషియెంట్(efficient) గా ఉంటాయి.
  మనము క్లౌడ్(cloud) వెనుక ఉన్న మరికొంత ఫీలోషఫీ (philosophy)ని ఎక్స్ప్లోయిట్(exploit) చేస్తాం, మరొక ప్రధాన విషయం క్లౌడ్ ఫైలు సిస్టమ్(cloud file system); Google ఫైలు సిస్టమ్(file system) GFS; మనము HDFS అని పిలిచే ఓపెన్ సోర్స్(open source) అంశాలను కలిగి ఉన్నాము; హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్(Hadoop distributed file system).
  కాబట్టి, ఇది ఒక సిస్టమ్(system)కు గూగుల్ ఫైల్ సిస్టమ్ (google file system) అనేది ఒక మెకానిసం(mechanism) సెట్(set).
  గూగుల్ ఫైల్ సిస్టమ్ (google file system) అనేది, లార్జ్ డిస్ట్రిబ్యూటెడ్ క్లస్టర్(large distributed clusters) లను ఉపయోగించి లార్జ్ ఫైల్(large files) లను నిర్వహించడానికి రూపొందించబడింది.
  కాబట్టి, ఇది GFS లేదా HDFS, ఇవి కొమ్మోడిటీ (commodity) సర్వర్ల(servers)పై డిస్ట్రిబ్యూట్(distribute) చేయబడిన పెద్ద డేటా ఫైళ్లు(data files) పై వర్క్ చేయడానికి సహాయపడతాయి. సాధారణంగా కొన్ని విషయాలు లైనక్స్ సర్వర్లు(linux servers)గా ఉన్నాయి, ఇది చాలా వేగవంతమైన లైన్ ద్వారా ఇంటర్కనెక్ట్(interconnect) చేయబడుతుంది.
  అందువల్ల, అవి రీడ్ (read)-రైట్ (write) ఆపరేషన్(operation) నిర్వహించే సమయంలో వైఫల్యం ఉన్నట్లయితే, వ్యక్తిగత ఫైళ్ళను రీడ్(read) చేసే సమయంలో కూడా వాటి వైఫల్యాలను ను హ్యాండిల్(handle) చెయ్యగలవు.
  ఫాల్ట్ టాలరెంట్(fault tolerant) అనేది ఖచ్చితంగా అవసరం.
  కాబట్టి, మనకు ఏవైనా సరళమైన సిస్టమ్ వ్యవధి ఉంటే వ్యవస్థ వైఫల్యం P యొక్క సంభావ్యత 1 మైనస్ 1 బై(by) 1 మైనస్ 1 మైనస్ సంభావ్యత యొక్క శక్తి యొక్క వైఫల్యం పవర్(power)N.
  కాబట్టి, N అనేది పెద్దది అయినట్లయితే మీరు ఈ వైఫల్యం ప్రమాదం కనీసమంటే ప్రమాణానికి వెళ్లిపోవచ్చని మీరు చెప్పవచ్చు.
  అందువల్ల, సమాంతర రీడింగ్స్(readings), బహుళ సైమల్తెనియెస్(simultaneous) క్లయింట్ ప్రోగ్రామ్(client programs) జతచేస్తుంది.
  కాబట్టి, క్లయింట్ ప్రోగ్రామ్ ద్వారా సమాంతరంగా రీడ్(read). రైట్(write) మరియు అప్డేట్(update) చేయడం వంటివి ఉంటాయి. మనము అమెజాన్(amazon) EC2 క్లౌడ్ ప్లాట్ఫారమ్లో(cloud platforms) లభించే GFS నిర్మాణం యొక్క ఓపెన్ సోర్స్(open source) అమలు అయిన హూడోప్(hadoop) డిస్ట్రిబ్యూటెడ్ ఫైల్ సిస్టమ్(distributed file system) అయిన HDFS ను కలిగి ఉంది.
  కాబట్టి, అక్కడ ఉన్న HDFS ను కలిగి ఉంది.
  మనకు పెద్ద చిత్రాన్ని కలిగి ఉంటే.
  ఒక సాధారణ GFS ఎలా ఉన్నాయి.
  GFS లేదా నేమ్ నోడ్(name node) లేదా మాస్టర్ నోడ్(master node) HDFS లో ఉంటాయి, ఇక్కడ క్లయింట్ అప్లికేషన్లు(client applications) ఉన్నాయి మరియు మనము GFS మరియు HDFS విషయంలో డేటా నోడ్స్(data nodes) వేర్వేరు సర్వర్(server) కలిగి ఉన్నాము. సాధారణ క్లౌడ్ పర్యావరణంలో లాగా.
  కనుక ఒకే మాస్టర్(master), నేమ్ స్పేస్(name space) ని నియంత్రిస్తుంది.
  తార్కికంగా ఒకే మాస్టర్(master) ఉంటుంది, ఇది నేమ్పేస్(namespace)ను నియంత్రిస్తుంది.
  అందువల్ల, నేమ్స్పేస్(namespace) ముఖ్యం ఎందుకంటే ఇది ఎలా నిల్వ చేయబడుతుందో, డేటా(data)ను ఎలా సూచిస్తారో మనకు తెలియజేస్తుంది.
  ఇది మాస్టర్(master) నియంత్రించే మెటా డాటా(meta data) కంటే ఎక్కువ; లార్జ్ ఫైల్(large files) లను GFS లో చంక్(chunks)లుగా మరియు సమిష్టి సర్వర్లో నిల్వ చేసిన HDFS లో బ్లాక్(blocks)లుగా విభజించబడతాయి; సాధారణంగా GFS లో Linux సర్వర్(servers) లను చుంక్ సెర్వెర్స్ (chunk servers)లని మరియు HDFS లో డేటా నోడ్స్(data nodes) అని అంటారు, కాబట్టి వివిధ భౌతిక రాక్ నెట్వర్క్ సెగ్మెంట్(rack network segment) 3 రెట్లు పునరావృతం అయ్యాయి.
  వివిధ భౌతిక రాక్ మరియు నెట్వర్క్ విభాగాలు 3 విభిన్న సార్లు రెప్లికేట్(replicate) అవుతుంది .
  మనకు ఏమి ఉంది? క్రింద ఉన్న విషయాలలో మేము GFS లేదా HDFS కలిగి ఉన్నాము, ఇది ప్రాథమికంగా లైనక్స్ సర్వర్లు(linux servers) చంక్ సర్వర్(chunk server) లేదా డేటా నోడ్స్(data nodes) డేటా(data) యొక్క ప్రధాన సంరక్షకుడికి చెందినవి మరియు అవి ప్రతి డేటా Di, 
  GFS లో రీడ్ ఆపరేషన్ (read operation) చూద్దాం, క్లయింట్ ప్రోగ్రామ్(client program) ఫైల్(file) యొక్క పూర్తి ఆఫ్సెట్(offset)ని మాస్టర్(master)కి పంపుతుంది, అది ఎక్కడ HDFS విషయంలో నోడ్(node) ని రీడ్ (read) చేయడం లేదా నేమ్(name) పెట్టాలని కోరుకుంటుంది.
  వేగవంతమైన ప్రాప్యత కోసం మెటా-డేటా.
  ఇది నియమించబడిన చుంక్ సర్వర్(chunk server) నుండి డేటా(data)ను రీడ్(read) చేస్తుంది.
  మాస్టర్ నుండి మెటా-డేటా(meta-data)ను ప్రతిబింబిస్తుంది మరియు అక్కడి నుంచి ఈ చుంక్ సర్వర్(chunk server) ని ప్రాథమికంగా ఆక్సెస్(access) చేస్తుంది.
  రీడ్ ఆపరేషన్(read operation) అనేది ఈ చుంక్ సర్వర్(chunk server) లేదా రెప్లికేటెడ్ చుంక్ సర్వర్ (replicated chunk server) చేస్తుంది. కానీ ఈ GFS లో రైట్ (write), అపెండ్(append) ఆపరేషన్(operation) కొద్దిగా కష్టమైనది, క్లయింట్ ప్రోగ్రామ్(client program) ఫైల్(file) యొక్క పూర్తి పాత్ (path)ని GFS మాస్టర్ కు లేదా HDFS నేమ్ నోడ్(name node) కి పంపుతుంది. డేటా కనుగొన్న భాగాలుగా ఉన్న అన్ని రెప్లికాస్ కోసం మెటా-డాటా(meta data)లో మాస్టర్(master) ప్రత్యుత్తరాలు.
  క్లయింట్ అన్ని చంక్ సర్వర్లకు జతచేయమని డేటాను పంపుతుంది; చంక్ సర్వర్ డేటా రశీదును అంగీకరిస్తుంది, మాస్టర్‌ను చంక్ సర్వర్‌లలో ఒకటిగా పేర్కొంటుంది, ప్రాధమిక చంక్స్ సర్వర్ దాని స్వంత డేటాను కాపీకి ఆఫ్‌సెట్‌ను ఎంచుకోవడం ద్వారా చంక్‌కు జోడిస్తుంది.
  కాబట్టి, ఇది ఆకర్షణీయంగా ఉంటుంది; బహుళ ఏకకాలంలో, సరిదిద్దడం కూడా ఫైల్ ముగింపుకు మించి వర్తించబడుతుంది.
  కాబట్టి, ఇది చాలా ఆసక్తికరమైన విషయం, మీరు EOF కి మించి EOF యొక్క అనుబంధాన్ని ముగించగలిగినప్పటికీ, ఎందుకంటే ఏకకాలంలో రచయితలు వ్రాస్తున్నారు మరియు ఇది ప్రాథమికంగా తరువాతి దశలో ఏకీకృతం చేయబడింది.
  ప్రతిరూపణ కోసం ఆఫ్‌సెట్‌ను పంపుతుంది, అన్ని ప్రతిరూపణలు పేర్కొన్న ఆఫ్‌సెట్‌కు వ్రాయడంలో విజయవంతం కాకపోతే, క్లయింట్ వెనక్కి తగ్గుతుంది, నిజం.
  కాబట్టి, అన్ని ఆఫ్‌సెట్‌లు; అందువల్ల, నేను డేటా కోసం వెతుకుతున్నప్పుడల్లా, మొత్తం 3 ప్రతిరకాలకు, ఇది ఒకే ఆఫ్‌సెట్‌లో ఉండాలి అని నేను తెలుసుకోవాలి.
  కాబట్టి, నేను చదివిన ప్రక్రియ ఏమిటంటే, ఆ విషయంలో ఆలస్యం లేదు ఎందుకంటే అది లెక్కించిన తర్వాత అది ఇతర చాంకులను నేరుగా ఆ ఆఫ్‌సెట్‌లో ఉపయోగిస్తుంది, సరే.
  కాబట్టి, గూగుల్ ఫైల్ సిస్టమ్‌లో తప్పు తట్టుకోగలదు; హృదయ స్పందన సందేశం వంటి ప్రత్యక్ష రకం అని మేము చెప్పే చంక్ సర్వర్‌తో మాస్టర్ రెగ్యులర్ కమ్యూనికేషన్‌ను నిర్వహిస్తారు మరియు విఫలమైతే ప్రాధమిక చంక్ సర్వర్ యొక్క వైఫల్యాన్ని ప్రతిబింబించేలా చంక్ సర్వర్ మెటా-డేటా నవీకరించబడుతుంది గోస్, మాస్టర్ కొన్నిసార్లు మాస్టర్‌ను నియమిస్తాడు క్రొత్త ప్రాధమిక క్లయింట్లు దీన్ని విఫలమవ్వడానికి ప్రయత్నిస్తాయి, మేము ఈ విఫలమైన సెగ్మెంట్ సర్వర్‌ను ప్రయత్నిస్తాము, మాస్టర్ నుండి మీ మెటా-డేటాను నవీకరించండి మరియు మళ్లీ ప్రయత్నిస్తాము.
  కాబట్టి, వైఫల్యాన్ని ప్రతిబింబించిన తర్వాత సెగ్మెంట్ వైఫల్యం మెటా-డేటా వైఫల్యం విషయంలో.
  కాబట్టి, మెటా-డేటా విఫలమైందని బ్లాక్ సర్వర్ చెబుతోంది.
  అందువల్ల, తదుపరిసారి మీరు కేటాయించరు లేదా ఇష్టపడరు మరియు ప్రాధమిక సర్వర్ యొక్క వైఫల్యానికి, మాస్టర్ క్రొత్త ప్రాధమికతను కేటాయిస్తాడు.
  అందువల్ల, ఇది పని చేయడానికి కొత్త ప్రాధమిక పనితీరును అందిస్తుంది.
  మరియు వినియోగదారులను నవీకరించండి; కొన్నిసార్లు మేము ఈ విఫలమైన బ్లాక్ సర్వర్‌ను ప్రయత్నిస్తాము ఎందుకంటే ఇది ఫ్లాగ్ చేయబడుతుంది, సరే.
  ఇప్పుడు మరొక సంబంధిత విషయం పెద్ద డేటా లేదా పెద్ద డేటా యొక్క సంబంధిత భావన, పంపిణీ చేయబడిన నిర్మాణం నిల్వ 5 GFS లో సిస్టమ్ బిల్డ్, సరియైనది.
  కాబట్టి, ఇది నిర్మాణం; ఇది GFS లో నిర్మించిన స్ట్రక్చర్ డిస్ట్రిబ్యూటెడ్ స్ట్రక్చర్ స్టోరేజ్ ఫైల్ సిస్టమ్.
  అందువల్ల, రో కీ, కాలమ్ కీ, టైమ్‌స్టాంప్ ద్వారా డేటాను యాక్సెస్ చేయవచ్చు.
  కాబట్టి, మీరు చూస్తే.
  కాబట్టి, ఇది ఒకటి కంటే ఎక్కువ ఉదాహరణలను నిల్వ చేసింది.
  కాబట్టి, టైమ్ కీ అనేది కాలమ్ కీ మరియు వాస్తవానికి, డేటా ఎక్కడ ఉందో చెప్పే వరుస కీని చెప్పండి.
  అందువల్ల, పెద్ద పట్టికలోని ప్రతి కాలమ్ ఏకపక్ష పేరు విలువ జతలను కాలమ్ కుటుంబాలు మరియు లేబుల్ హక్కులుగా నిల్వ చేయగలదు.
  కాబట్టి, ఇక్కడ ఈ నిలువు వరుసలు కుటుంబమని మరియు లేబుల్ చేయబడిందని మరియు అవి పేరు విలువ జతను సేకరిస్తాయని మీరు చూడగలిగితే.
  సాధ్యమైన కాలమ్ కుటుంబాల సమితి సృష్టించబడినప్పుడు అది పట్టికలో ఉంటుంది.
  అందువల్ల, ప్రత్యేక కాలమ్ కుటుంబాలు ఉంటాయి.
  కాబట్టి, కొంతవరకు సరే.
  కాలమ్ కుటుంబంలోని లేబుల్స్ డైనమిక్ మరియు ఎప్పుడైనా సృష్టించబడతాయి.
  అందువల్ల, నేను ప్రతి పెద్ద టేబుల్ సెల్ వరుసను తిరిగి సృష్టించవచ్చు లేదా సృష్టించగలను మరియు కాలమ్ టైమ్ స్టాంపుల క్రమాన్ని తగ్గించడంలో అనేక వర్సెస్ డేటాను నిల్వ చేయవచ్చు.
  కాబట్టి; కాలక్రమానుసారం, ఇది ఫ్యాషన్‌లో ఉందని దీని అర్థం.
  కాబట్టి, ఇది చాలా మందికి తక్కువ టైమ్ స్టాంప్‌లో నిల్వ చేయబడుతుంది.
  కాబట్టి, అప్పుడు మేము ఈ విషయాలు చూస్తాము.
  అందువల్ల, ఈ పట్టికలో ప్రస్తావించబడిన వేర్వేరు టాబ్లెట్‌లు వేర్వేరు పట్టికలు ఉన్నాయి మరియు ఇది ఒక క్రమానుగత నిర్మాణం మరియు మనకు మాస్టర్ సర్వర్ ఉంది, ఇది ప్రధానంగా రిజిస్ట్రీ లేదా మెటా-డేటా రిపోజిటరీ.
  అందువల్ల, పెద్ద డేటాలో ప్రతి టేబుల్‌ను టాబ్లెట్‌లు అని పిలిచే రేంజర్లుగా విభజించారు, ప్రతి టేబుల్‌ను టాబ్లెట్ సర్వర్ నిర్వహిస్తుంది.
  అందువల్ల, ఇది ప్రతి కాలమ్ కుటుంబాన్ని ఇచ్చిన వరుస సరిహద్దు కోసం ఎస్ఎస్ టేబుల్ అని పిలిచే ప్రత్యేక పంపిణీ ఫైల్‌లో నిల్వ చేస్తుంది.
  కాబట్టి, ఈ రకమైన నిర్వహణ అమలులోకి వస్తుంది.
  అందువల్ల, నా ప్రాప్యత రేటు రోజు ప్రాప్యత రేటు లేదా అంతకంటే ఎక్కువ.
  కాబట్టి, మెటా డేటా పట్టిక నిర్వహించబడుతుంది. చాలా మెటా-డేటా సర్వర్ చేత నిర్వహించబడుతుంది.మెటా డేటా కూడా చాలా పెద్దదిగా ఉంటుంది.
  అందువల్ల, మెటా-డేటా నిల్వ చేసేటప్పుడు ఆ సందర్భంలో చాలా పెద్దదిగా ఉంటుంది; ఇది మళ్ళీ వ్యక్తిగత టాబ్లెట్లుగా విభజించబడింది, ఒక రూట్ టాబ్లెట్ మరొక మెటా-డేటా టాబ్లెట్కు సూచిస్తుంది. 
  అందువల్ల, మెటా-డేటా చాలా పెద్ద రిపోజిటరీ అయితే, అది మళ్ళీ ప్రత్యేక టాబ్లెట్లుగా మరియు మీ మెటా-డేటాతో సమన్వయం చేసే రూట్ టాబ్లెట్‌గా విభజించబడింది; వారు టాబ్లెట్ మరియు వాస్తవానికి ఉన్న మెటా-డేటా సేవలను అనుకరించాలని లేదా గ్రహించాలని కోరుకుంటారు. 
  ఒకే పట్టికలో పెద్ద సమాంతర రీడ్‌లు మరియు ఇన్సర్ట్‌లను ఒకేసారి మద్దతు ఇస్తుంది, క్రమబద్ధీకరించిన పద్ధతిలో చొప్పించడం, సాధారణ అనుబంధాల కంటే ఎక్కువ పని అవసరం కావచ్చు. 
  ఇతర డేటాబేస్‌ల విషయంలో కూడా ఇది నిజం. ఎందుకంటే మీరు దాన్ని ప్రాథమికంగా చొప్పించిన తర్వాత మీరు డేటాను పక్కకు నెట్టి, చొప్పించే బిందువును సృష్టించాలి, అక్కడ ఒక అనుబంధం విషయంలో మీరు ఆ నిల్వ లేదా డేటాతో ముగుస్తుంది డేటా లేదా పట్టికలను చొప్పించడం. 
  కాబట్టి, డైనమో; ఇది అమెజాన్ చేత అభివృద్ధి చేయబడింది, ఇది పెద్ద-వాల్యూమ్ లేదా ఏకకాలిక నవీకరణలకు మద్దతు ఇస్తుంది, వీటిలో ప్రతి ఒక్కటి పెద్ద పట్టిక కంటే పరిమాణంలో చిన్నదిగా ఉంటుంది, పెద్ద ఎత్తున చదవడానికి మద్దతు ఇస్తుంది మరియు సరైన ముగింపును వ్రాస్తుంది. 
  కాబట్టి, డైనమో కోసం డేటా మోడల్; ఇది వెబ్-ఆధారిత ఇ-కామర్స్ రకం అనువర్తనాలకు అనుకూలంగా ఉండే ఒక సాధారణ కీ విలువ జత మరియు పంపిణీ చేయబడిన ఫైల్ సిస్టమ్‌ల మీద ఆధారపడదు, ఫెయిల్ఓవర్ పరిష్కారాలను పరిష్కరించడంలో వైఫల్యం మొదలైనవి. 
  కాబట్టి, ఇది డైనమో యొక్క విలక్షణ నిర్మాణం, ఇక్కడ చాలా వర్చువల్ నోడ్లు మరియు విభిన్న భౌతిక నోడ్లు ఉన్నాయి మరియు అవి తార్కిక కనెక్టివిటీ జోన్లు. 
  కాబట్టి, మీరు డైనమో ఆర్కిటెక్చర్ చూస్తే. 
  అందువల్ల, ఇది ఏకపక్ష విలువ విలువ జత కలిగిన ఏకపక్ష విలువ విలువ జత, ఇది MD5 ఇరవై ఎనిమిది బితాష్ టేబుల్ హాష్ విలువను ఉత్పత్తి చేస్తుంది. 
  కాబట్టి, ఇది ప్రాథమికంగా వర్చువల్ నోడ్స్ ఏమిటో మ్యాప్ చేయడానికి ప్రయత్నిస్తుంది, ఇది ఫంక్షన్‌ను ఉపయోగించి మ్యాపింగ్ అవుతుంది. 
  ఈ ఫంక్షన్ యొక్క పరిధి మ్యాప్ చేయబడింది ఎందుకంటే వర్చువల్ నోడ్‌ల సమితి రింగ్ రకం విషయాన్ని ఏర్పాటు చేస్తుందని మేము చర్చిస్తున్నాము. 
  వాస్తును ప్రాధమిక వర్చువల్ నోడ్ వలె ప్రతిరూపం చేస్తారు, అలాగే n మైనస్ వన్ అదనపు వర్చువల్ నోడ్, n అనేది భౌతిక నోడ్ల సంఖ్య. 
  అందువల్ల, ఏదైనా ప్రయోజనం విషయాలలో పునరావృతమవుతుంది. 
  ప్రతి భౌతిక నోడ్ రింగ్‌లో పంపిణీ చేయబడిన స్థితిలో బహుళ వర్చువల్ నోడ్‌లను కలిగి ఉండటం ద్వారా నిర్వహించబడుతుంది. 
  కాబట్టి, మీరు ఈ భౌతిక నోడ్ సర్వర్‌ను చూస్తే అవి ప్రాథమికంగా ఈ వర్చువల్ నోడ్ సర్వర్‌కు అనుసంధానించబడి ఉంటాయి. 
  డైనమో ఆర్కిటెక్చర్, తాత్కాలిక వైఫల్యం నెట్‌వర్క్ విభజన కోసం లోడ్ బ్యాలెన్సింగ్ ఇది దాని వర్చువల్ నోడ్‌లలో ఒకదానిలో నిజం అయిన వస్తువులకు వ్రాత అభ్యర్థనలను నిర్వహించగలదు. 
  అన్ని అభ్యర్థనలను అన్ని ఇతర నోడ్‌లకు ఫార్వార్డ్ చేయండి; ఇది వర్చువల్ నోడ్లలో ఒకదాని నుండి అమలు చేయబడుతుంది మరియు వస్తువు యొక్క ప్రతిరూపాలను కలిగి ఉన్న అన్ని ఇతర నోడ్లకు కాల్ చేస్తుంది; దీని అర్థం, నేను ఒక వస్తువు అయితే; ఇది ఒకటి మరియు n సున్నాలతో ఒక నోడ్‌లో పునరావృతమైతే. 
  కాబట్టి, ఒక నవీకరణ జరిగింది మరియు మిగిలినవి కమ్యూనికేట్ చేయబడతాయి. 
  కాబట్టి, పెద్ద సంఖ్యలో ఏకకాలంలో చదివినప్పుడు మరియు వ్రాసేటప్పుడు ప్రతిరూపాల యొక్క తుది స్థిరత్వాన్ని నిర్వహించే కోరం ప్రోటోకాల్ ఉంది. 
  అందువల్ల, ఈ పెద్ద పఠన వ్యక్తి నిర్వహించడానికి కనీస స్థాయి ప్రతిరూపం ఏమిటో తెలుసుకోవడానికి ఈ కోరం ప్రయత్నిస్తుంది. 
  అందువల్ల, వివిధ రకాలైన వివిధ ప్రశ్నల ఆధారంగా దీన్ని మరింత సమర్థవంతంగా అమలు చేయవచ్చు. 
  నిలువు వరుసలు స్థిరత్వం కోసం ఆల్గోలు. 
  కాబట్టి, ఆపరేషన్ R చదవండి; ఆపరేషన్ రాయండి ఇ. 
  కాబట్టి, రీడ్ ప్లస్ రైట్ ఆపరేషన్ ఏ సిస్టమ్ కోరం కంటే స్థిరంగా ఉండాలి, ఇది రాబోయే ఓవర్‌హెడ్‌లను కలిగి ఉంటుంది.ఒక సమర్థవంతమైన రచన తప్పనిసరిగా పెద్ద సంఖ్యలో ప్రతిరూపాలను చదవాలి మరియు అది A, B, C అయితే పెద్ద సంఖ్యలో చదవండి ప్రతిరూపాలు చదవాలి. 
  కాబట్టి, ఈ 2 విషయాలు అవి; అందువల్ల, ఇది అమెజాన్ ఉపయోగించే నోడ్ స్థాయి బర్కిలీ DB లోని వివిధ నిల్వ ఇంజిన్‌ల ద్వారా అమలు చేయబడుతుంది మరియు MySQL మరియు etcetera ఉపయోగించి అమలు చేయవచ్చు. 
  రెండవ; మేము చేస్తున్న చివరి భావన డేటా స్టోర్. 
  అమెజాన్ విషయంలో, గూగుల్ మరియు అమెజాన్ సరళమైన సాంప్రదాయ కీ విలువ జత డేటాబేస్ స్టోర్‌ను ఉపయోగిస్తాయి, కుడి, గూగుల్ యాప్ ఇంజిన్ డేటా స్టోర్, దీనిని మేము సింపుల్‌డిబి అని పిలుస్తాము; డేటా స్టోర్‌లోని అన్ని ఎంటిటీల వస్తువులు పెద్ద పట్టికలో ఉంటాయి. 
  డేటా స్టోర్ కాలమ్ ఓరియెంటెడ్ స్టోరేజ్‌ను సరిగ్గా ఉపయోగించుకుంటుంది, డేటా స్టోర్‌గా నేను స్టోర్ డేటాను కాలమ్ ఫ్యామిలీగా అర్థం చేసుకున్నాను. 
  అందువల్ల, మా హేతుబద్ధమైన సాంప్రదాయిక విషయం కాకుండా వరుస కుటుంబం లేదా టుపుల్ ఆధారంగా దీనిని కాలమ్ ఫ్యామిలీ అంటారు. 
  కాబట్టి, చాలా ప్రయోజనాలు ఉన్నాయి లేదా సమర్థవంతమైన సూచికలకు మద్దతు ఇవ్వడానికి బహుళ సూచిక పట్టికలు వంటి అనేక లక్షణాలు లేదా లక్షణాలు ఉపయోగించబడతాయి. 
  పెద్ద పట్టిక కాల్ డిస్క్‌లో మరియు డిస్క్‌లో అడ్డంగా విభజించబడింది, అయితే కీలక అంశాలు నిఘంటువుగా నిల్వ చేయబడతాయి. 
  డేటా యొక్క లెక్సోగ్రాఫిక్ సార్టింగ్‌తో పాటు, ఉపసర్గలను అమలు చేస్తారు మరియు కీలక విలువ ఎంటిటీలపై శ్రేణి ప్రశ్నలు లావాదేవీల ప్రయోజనం కోసం సమూహం చేయబడతాయి ఎందుకంటే మనం లావాదేవీలు చేస్తున్నప్పుడు ఉంటే. 
  అందువల్ల, వివిధ రకాల ప్రశ్నలకు మరియు ఇండెక్స్ పట్టికకు ప్రాప్యత ఉన్న ఎంటిటీల సమితికి మద్దతు ఇవ్వడానికి ఇది మరింత నిరంతర మార్గం. 
  అందువల్ల, మనకు వేర్వేరు సూచికలు లేదా వివిధ రకాల ప్రశ్నలు ఉండవచ్చు. 
  అందువల్ల, ఇది సాధారణ డేటాబేస్ కాదని మనం అర్థం చేసుకోవాలి కాదు, ఇది పెద్ద డేటాబేస్. 
  కాబట్టి, దీన్ని చేయడానికి; నేను మొత్తం డేటాబేస్ను చర్చ్ చేయలేను. 
  కాబట్టి, వాటిని తగిన విధంగా ముక్కలు చేయాలి. 
  అందువల్ల, వివిధ రకాలైన వివిధ ప్రశ్నల ఆధారంగా దీన్ని మరింత సమర్థవంతంగా అమలు చేయవచ్చు. 
  ఇది స్వయంచాలకంగా ఇండెక్స్ సింగిల్ ప్రాపర్టీ ఇండెక్స్‌ను సృష్టిస్తుందా లేదా ఫారమ్ యొక్క సమర్థవంతమైన శోధన ప్రశ్నలకు మద్దతు ఇచ్చే ఒక రకమైన ఇండెక్స్ వంటి కొన్ని లక్షణాలు ఉన్నాయి. ఇండెక్స్‌లో కాన్ఫిగర్ చేయదగిన అన్ని రకాల విషయాలను ఎంచుకోండి మరియు ప్రశ్న అమలు సూచికను కలిగి ఉండండి. 
  అత్యధిక సెలెక్టివిటీ ఎంపిక చేయబడింది. కాబట్టి, మేము ప్రశ్నను అమలు చేసినప్పుడు ఇది. 
  అందువల్ల, దానితో మా చర్చను ఇక్కడ ఆపివేస్తాము. 
  అందువల్ల, మేము చర్చించడానికి ప్రయత్నించినది మన సాంప్రదాయ డేటాబేస్ యొక్క భావన యొక్క విభిన్న అంశాలు, ఇది స్థాపించబడింది, తప్పు తట్టుకోగలదు, సమర్థవంతమైనది మరియు అలా చేయడానికి వేర్వేరు యంత్రాంగాలను కలిగి ఉంది. 
  అందువల్ల, మనకు ఇప్పటికే ఈ సమాంతర అమలు మరియు దాని వర్తమానం ఉంది. 
  కాబట్టి, మేఘంలో జరిగే పెద్ద మొత్తంలో డేటాతో మేము వ్యవహరించేటప్పుడు, విభిన్న అంశాలు ఏమిటో మనం చూడాలి. 
  అందువల్ల, మేము ఈ కాలమ్ ఓరియెంటెడ్ లేదా టుపుల్ ఓరియెంటెడ్ రిలేషనల్ డేటాబేస్ను అనుసరించలేకపోవచ్చు, కాలమ్ ఓరియెంటెడ్ డేటా బేస్ కోసం మనకు నాలుగు వరుసల కోసం ఓరియంటెడ్ డేటాబేస్ అవసరం మరియు GFS (GFS), HDFS మరియు వంటివి ఈ డేటా వంటి ప్రత్యేక ఫైల్ సిస్టమ్స్. 
  డైనమో మరియు మీ సరళమైన DB లను మరియు వివిధ ఇంటర్ క్లౌడ్ సర్వీస్ ప్రొవైడర్స్ CSP చేత సమర్థవంతమైన నిల్వ ప్రాప్యత కోసం అమలు చేయబడుతున్న విషయాలు, చాలా పెద్ద డేటాబేస్ల యొక్క సరైన వ్రాత అమలు. 
  ధన్యవాదాలు.