Изградња складишта података и језера података у АВС-у

Складиште података. Дата лаке. Кућа на језеру. Ако вам ниједна од ових речи бар мало не резонује, онда ваш посао очигледно није повезан са подацима.

Међутим, то би била прилично нереална премиса, јер данас је све везано за податке. Или како то корпоративни лидери воле да описују:

  • Пословање оријентисано на податке и податке.
  • Подаци било где, било када, било како.

Најважнија имовина

Чини се да су подаци постали највреднија имовина све више компанија. Сећам се да су велике компаније увек генерисале много података, мислим на терабајте нових података сваког месеца. То је било још пре 10-15 година. Али сада можете лако да генеришете ту количину података у року од неколико дана. Неко би се запитао да ли је то заиста неопходно, чак и ако је то неки садржај који ће неко користити. И да, дефинитивно није 😃.

Неће сав садржај бити од користи, а неки делови чак ни једанпут. Често сам био сведок на првој линији како компаније стварају огромну количину података да би након успешног учитавања постале бескорисне.

Али то више није релевантно. Складиштење података – које је сада у облаку – је јефтино, извори података расту експоненцијално, а данас нико не може предвидети шта ће им требати годину дана касније када се нове услуге уграде у систем. У том тренутку чак и стари подаци могу постати вредни.

Стога је стратегија да се ускладишти што више података. Али и у што ефикаснијем облику. Тако да подаци могу бити не само ефикасно сачувани, већ и упити, поново коришћени или трансформисани и даље дистрибуирани.

Хајде да погледамо три изворна начина како да ово постигнемо унутар АВС-а:

  • Атхена Датабасе – јефтин и ефикасан, иако једноставан начин за креирање језера података у облаку.
  • Редсхифт Датабасе – озбиљна верзија складишта података у облаку која има потенцијал да замени већину тренутних локалних решења, неспособна да ухвати корак са експоненцијалним растом података.
  • Датабрицкс – комбинација језера података и складишта података у једно решење, са неким бонусом поврх свега.

Дата Лаке од АВС Атхена

Извор: авс.амазон.цом

Језеро података је место где можете брзо да складиштите долазне податке у неструктурираном, полуструктурираном или структурираном облику. У исто време, не очекујете да ће ови подаци бити измењени када се похране. Уместо тога, желите да буду што атомичнији и непроменљиви. Само ово ће обезбедити највећи потенцијал за поновну употребу у каснијим фазама. Ако бисте изгубили ово атомско својство података одмах након првог учитавања у језеро података, не постоји начин како да поново вратите ову изгубљену информацију.

АВС Атхена је база података са складиштем директно на С3 буцкетс и без кластера сервера који раде у позадини. То значи да је то заиста јефтина услуга језера података. Структурирани формати датотека као што су паркет или датотеке са вредностима одвојеним зарезима (ЦСВ) одржавају организацију података. С3 корпа садржи датотеке, а Атена се на њих позива кад год процеси изаберу податке из базе података.

Атхена не подржава различите функције које се иначе сматрају стандардним, као што су изјаве о ажурирању. Због тога треба да гледате на Атину као на врло једноставну опцију. С друге стране, помаже вам да спречите модификацију вашег атомског језера података једноставно зато што не можете 😐.

Подржава индексирање и партиционисање, што га чини употребљивим за ефикасно извршавање наредби за одабир и креирање логички одвојених делова података (на пример, раздвојених датумом или кључним колонама). Такође се може врло лако хоризонтално скалирати, јер је ово сложено као додавање нових корпи у инфраструктуру.

  Како откључати детаљну статистику стримовања на Аппле ТВ-у

За и против

Предности које треба узети у обзир:

  • Чињеница да је Атхена јефтина (састоји се само од С3 буцкета и трошкова СКЛ коришћења по употреби) чини најзначајнију предност. Ако желите да направите приступачно језеро података у АВС-у, то је то.
  • Као изворни сервис, Атхена може лако да се интегрише са другим корисним АВС услугама као што су Амазон КуицкСигхт за визуелизацију података или АВС Глуе Дата Цаталог да би креирала трајне структуриране метаподатке.
  • Најбоље за покретање ад хоц упита над великом количином структурираних или неструктурираних података без одржавања читаве инфраструктуре око тога.

Недостаци које треба узети у обзир:

  • Атхена није нарочито ефикасна у брзом враћању сложених упита за одабир, посебно ако упити не прате претпоставке модела података о томе како сте дизајнирали да захтевате податке из језера података.
  • Ово га такође чини мање флексибилним у погледу потенцијалних будућих промена у моделу података.
  • Атхена не подржава никакве додатне напредне функционалности из кутије, а ако желите да нешто специфично буде део услуге, морате то да примените на врху.
  • Ако очекујете коришћење података језера података у неком напреднијем слоју презентације, често је једини избор да га комбинујете са другом услугом базе података која је погоднија за ту сврху, као што је АВС Аурора или АВС Динамо ДБ.

Сврха и случај употребе у стварном свету

Изаберите Атхена ако је циљ стварање једноставног језера података без напредних функционалности сличних складишту података. Тако, на пример, ако не очекујете озбиљне аналитичке упите високог учинка који се редовно крећу преко језера података. Уместо тога, приоритет је имати скуп непроменљивих података са једноставним проширењем за складиштење података.

Више не морате превише да бринете о недостатку простора. Чак и трошак С3 буцкет складиштења може се додатно смањити применом политике животног циклуса података. Ово у основи значи премештање података кроз различите типове С3 буцкетс, који су више усмерени на архивске сврхе са споријим временима враћања уноса, али нижим трошковима.

Одлична карактеристика Атхене је то што аутоматски креира датотеку која се састоји од података који су део резултата вашег СКЛ упита. Затим можете узети ову датотеку и користити је у било коју сврху. Дакле, то је добра опција ако имате много ламбда услуга које даље обрађују податке у више корака. Сваки ламбда исход ће аутоматски бити резултат у структурираном формату датотеке као улаз спреман за накнадну обраду.

Атхена је добра опција у ситуацијама када велика количина необрађених података долази у вашу инфраструктуру облака и не морате то да обрађујете у тренутку учитавања. То значи да вам је потребно само брзо складиштење у облаку у лако разумљивој структури.

Други случај употребе би био креирање наменског простора за потребе архивирања података за другу услугу. У том случају, Атхена ДБ би постала јефтино резервно место за све податке који вам тренутно нису потребни, али би се то могло променити у будућности. У овом тренутку ћете само унети податке и послати их даље.

Складиште података од АВС Редсхифт

Извор: авс.амазон.цом

Складиште података је место где се подаци чувају на веома структурисан начин. Лако се учитава и извлачи. Намера је да се покрене велики број веома сложених упита, спајајући многе табеле преко сложених спојева. Постоје различите аналитичке функције за израчунавање различитих статистика над постојећим подацима. Крајњи циљ је да се издвоје будућа предвиђања и чињенице које ће се користити у будућем пословању, користећи постојеће податке.

Редсхифт је пуноправни систем складишта података. Са кластер серверима за подешавање и скалирање – хоризонтално и вертикално и системом складиштења базе података оптимизованим за брзе враћање сложених упита. Иако данас можете покренути Редсхифт иу режиму без сервера. Нема датотека на С3 или било чему сличном. Ово је стандардни сервер кластера базе података са сопственим форматом складиштења.

  4 најбоља места за музичке лекције за почетнике и професионалце

Има алате за надгледање перформанси који су постављени из кутије, заједно са прилагодљивим метрикама контролне табле које можете користити и гледати да бисте фино подесили перформансе за свој случај употребе. Администрација је такође доступна преко засебних контролних табли. Потребно је мало труда да се разумеју све могуће функције и подешавања и како они утичу на кластер. Али ипак, нигде није тако сложено као што је некада била администрација Орацле сервера у случају локалних решења.

Иако постоје различита АВС ограничења у Редсхифт-у која постављају неке границе начина на који се користи свакодневно (на пример, чврста ограничења за количину истовремених активних корисника или сесија у једном кластеру базе података), чињеница да су операције извршено заиста брзо помаже да се заобиђу та ограничења у извесној мери.

За и против

Предности које треба узети у обзир:

  • Изворна АВС услуга складиштења података у облаку коју је лако интегрисати са другим услугама.
  • Централно место за складиштење, праћење и унос различитих врста извора података из веома различитих изворних система.
  • Ако сте икада желели да имате складиште података без сервера без инфраструктуре за одржавање, сада можете.
  • Оптимизовано за анализу и извештавање високих перформанси. За разлику од решења језера података, постоји снажан релациони модел података за чување свих долазних података.
  • Редсхифт механизам базе података потиче из ПостгреСКЛ-а, који обезбеђује високу компатибилност са другим системима база података.
  • Веома корисне изјаве ЦОПИ и УНЛОАД за учитавање и истовар података из и у С3 корпе.

Недостаци које треба узети у обзир:

  • Редсхифт не подржава велику количину истовремених активних сесија. Сесије ће бити стављене на чекање и обрађене узастопно. Иако то можда није проблем у већини случајева, пошто су операције заиста брзе, то је ограничавајући фактор у системима са много активних корисника.
  • Иако Редсхифт подржава много функционалности које су раније биле познате из зрелих Орацле система, још увек није на истом нивоу. Неке од очекиваних функција можда неће бити ту (попут ДБ окидача). Или их Редсхифт подржава у прилично ограниченом облику (попут материјализованих погледа).
  • Кад год вам је потребан напреднији прилагођени посао обраде података, морате га креирати од нуле. Већину времена користите Питхон или Јавасцрипт кодни језик. Није тако природно као ПЛ/СКЛ у случају Орацле система, где чак и функције и процедуре користе језик веома сличан СКЛ упитима.

Сврха и случај употребе у стварном свету

Редсхифт може бити ваша централна продавница за све различите изворе података који су раније живели ван облака. То је важећа замена за претходна Орацле решења за складиште података. Пошто је то такође релациона база података, миграција са Орацле-а је чак прилично једноставна операција.

Ако имате постојећа решења за складиште података на многим местима која нису заиста јединствена у смислу приступа, структуре или унапред дефинисаног скупа уобичајених процеса који се покрећу изнад података, Редсхифт је одличан избор.

Само ће вам пружити прилику да спојите све различите системе складишта података из различитих места и земаља под једним кровом. И даље их можете раздвојити по земљама тако да подаци остану сигурни и доступни само онима којима су потребни. Али у исто време, то ће вам омогућити да изградите јединствено решење за складиште које покрива све корпоративне податке.

Други случај би могао бити ако је циљ изградња платформе за складиште података уз опсежну подршку самоуслуга. Можете га разумети као скуп обраде који појединачни корисници система могу изградити. Али у исто време, они никада нису део заједничког решења платформе. То значи да ће такве услуге остати доступне само креатору или групи људи које је креирао дефинисао. Они ни на који начин неће утицати на остале кориснике.

Проверите наше поређење између Даталаке-а и Датаварехоусе-а.

Лакехоусе од Датабрицкс-а на АВС-у

Извор: датабрицкс.цом

Лакехоусе је термин који је заиста везан за Датабрицкс услугу. Чак и ако није изворна АВС услуга, она живи и функционише у оквиру АВС екосистема веома лепо и пружа различите опције за повезивање и интеграцију са другим АВС услугама.

  Како направити видео сећања на иПхоне-у

Датабрицкс имају за циљ да повежу заједно (раније) веома различите области:

  • Решење за складиштење неструктурираних, полуструктурираних и структурираних података у језеру података.
  • Решење за структуриране и брзо доступне податке упита у складишту података (такође названо Делта Лаке).
  • Решење које подржава аналитику и рачунање машинског учења преко језера података.
  • Управљање подацима за све горе наведене области са централизованом администрацијом и готовим алатима за подршку продуктивности за различите типове програмера и корисника.

То је уобичајена платформа коју инжењери података, СКЛ програмери и научници података за машинско учење могу користити истовремено. Свака од група такође има скуп алата које могу да користе за обављање својих задатака.

Дакле, Датабрицкс циља на врхунско решење, покушавајући да комбинује предности језера података и складишта података у једно решење. Поврх тога, пружа алате за тестирање и покретање модела машинског учења директно преко већ изграђених складишта података.

За и против

Предности које треба узети у обзир:

  • Датабрицкс је високо скалабилна платформа за податке. Скалира се у зависности од величине радног оптерећења, а то ради чак и аутоматски.
  • То је окружење за сарадњу за научнике података, инжењере података и пословне аналитичаре. Имати могућност да се све ово ради у истом простору и заједно је велика корист. Не само из организационе перспективе, већ такође помаже да се уштеде други трошкови који су иначе потребни за одвојена окружења.
  • АВС Датабрицкс се неприметно интегрише са другим АВС услугама, као што су Амазон С3, Амазон Редсхифт и Амазон ЕМР. Ово омогућава корисницима да лако преносе податке између услуга и искористе све предности АВС услуга у облаку.

Недостаци које треба узети у обзир:

  • Датабрицкс могу бити сложени за постављање и управљање, посебно за кориснике који су нови у обради великих података. Потребан је значајан ниво техничке стручности да би се извукла максимум из платформе.
  • Иако је Датабрицкс исплатив у смислу свог модела цена по принципу „плати док идеш“, и даље може бити скуп за велике пројекте обраде података. Трошкови коришћења платформе могу се брзо повећати, посебно ако корисници морају да повећају своје ресурсе.
  • Датабрицкс пружа низ унапред направљених алата и шаблона, али то такође може бити ограничење за кориснике којима је потребно више опција прилагођавања. Платформа можда није погодна за кориснике којима је потребна већа флексибилност и контрола над њиховим радним токовима обраде великих података.

Сврха и случај употребе у стварном свету

АВС Датабрицкс је најпогоднији за велике корпорације са веома великом количином података. Овде може да покрије захтев за учитавањем и контекстуализацијом различитих извора података из различитих спољних система.

Често је захтев да се подаци обезбеде у реалном времену. То значи да од тренутка када се подаци појаве у изворном систему, процеси ће одмах покупити и обрадити и ускладиштити податке у Датабрицкс тренутно или са минималним кашњењем. Ако је кашњење нешто више од једног минута, сматра се обрадом у скоро реалном времену. У сваком случају, оба сценарија су често остварива са платформом Датабрицкс. Ово је углавном због велике количине адаптера и интерфејса у реалном времену који се повезују са разним другим изворним услугама АВС-а.

Датабрицкс се такође лако интегрише са Информатица ЕТЛ системима. Кад год систем организације већ увелико користи екосистем Информатица, Датабрицкс изгледа као добар компатибилан додатак платформи.

Завршне речи

Како обим података наставља експоненцијално да расте, добро је знати да постоје решења која се могу ефикасно носити са тим. Оно што је некада била ноћна мора за администрацију и одржавање сада захтева врло мало административног рада. Тим се може фокусирати на стварање вредности из података.

У зависности од ваших потреба, само изаберите услугу која то може да поднесе. Иако је АВС Датабрицкс нешто чега ћете се вероватно морати придржавати након што се одлука донесе, друге алтернативе су прилично флексибилније, чак и ако су мање способне, посебно њихови режими без сервера. Касније је прилично лако прећи на друго решење.