Ослобађање моћи ЕТЛ алата за АВС

ЕТЛ је скраћеница од Ектрацт, Трансформ и Лоад. ЕТЛ алати извлаче податке из различитих извора и трансформишу их у средњи формат погодан за циљне системе или захтеве модела података. И коначно, учитавају податке у циљну базу података, складиште података или чак у језеро података.

Сећам се времена од пре 15 до 20 година када је појам ЕТЛ био нешто што је само неколицина разумела шта је то. Када су различити прилагођени групни послови имали врхунац на локалном хардверу.

Многи пројекти су радили неки облик ЕТЛ-а. Чак и ако не знају, требало би да га назову ЕТЛ. За то време, кад год сам објаснио било који дизајн који укључује ЕТЛ процесе, и назвао их и тако их описао, то је изгледало скоро као друга светска технологија, нешто веома ретко.

Али данас су ствари другачије. Миграција у облак је главни приоритет. А ЕТЛ алати су веома стратешки део архитектуре већине пројеката.

На крају, миграција у облак значи узимање података из локалне локације као извора и њихово трансформисање у базе података у облаку у облику који је што је могуће компатибилнији са архитектуром облака. Управо посао ЕТЛ алата.

Историја ЕТЛ-а и како се повезује са садашњошћу

Извор: авс.амазон.цом

Главне функције ЕТЛ-а су увек биле исте.

ЕТЛ алати извлаче податке из различитих извора (било да се ради о базама података, равним датотекама, веб услугама или, у последње време, апликацијама заснованим на облаку).

Обично је подразумевало узимање датотека на Уник систему датотека као улаз и претходну обраду, обраду и накнадну обраду.

Могли бисте видети образац за вишекратну употребу имена фасцикли као што су:

  • Улазни
  • Излаз
  • Грешка
  • Архива

Испод тих фасцикли, постојала је и друга структура подфолдера, углавном заснована на датумима.

Ово је био само стандардни начин обраде долазних података и припреме за учитавање у неку врсту базе података.

Данас не постоје Уник системи датотека (не на исти начин као раније)—можда чак нема датотека. Сада постоје АПИ-ји – интерфејси за програмирање апликација. Можете, али не морате да имате датотеку као улазни формат.

Све то може бити сачувано у кеш меморији. И даље може бити датотека. Шта год да је, мора да прати неки структурирани формат. У већини случајева то значи ЈСОН или КСМЛ формат. У неким случајевима, стари добар формат вредности одвојених зарезима (ЦСВ) ће то такође учинити.

Ви дефинишете формат уноса. Да ли ће процес укључивати и креирање историје улазних датотека зависи искључиво од вас. То више није стандардни корак.

Трансформација

ЕТЛ алати трансформишу екстраховане податке у одговарајући формат за анализу. Ово укључује чишћење података, валидацију података, обогаћивање података и агрегацију података.

Као што је то био случај, подаци су прошли кроз неку сложену прилагођену логику Про-Ц или ПЛ/СКЛ процедуралних корака уређивања података, трансформације података и корака складиштења циљне шеме података. То је био сличан обавезан стандардни процес као што је био одвајање долазних датотека у поддиректоријуме на основу фазе у којој је датотека обрађена.

  Подешавање вашег Мац рачунара за продуктивност без апликација трећих страна

Зашто је било тако природно ако је истовремено било и суштински погрешно? Директном трансформацијом долазних података без трајног складиштења, губили сте највећу предност сирових података – непроменљивост. Пројекти су то једноставно бацили без икакве шансе за реконструкцију.

Па, погоди шта. Данас што мање трансформације сирових података извршите, то боље. За прво складиштење података у систем, тј. Можда ће следећи корак бити нека озбиљна промена података и трансформација модела података, наравно. Али желите да сачувате необрађене податке у што је могуће више непромењеној и атомској структури. Велики помак у односу на он-премисе времена, ако мене питате.

Учитај

ЕТЛ алати учитавају трансформисане податке у циљну базу података или складиште података. Ово укључује креирање табела, дефинисање односа и учитавање података у одговарајућа поља.

Корак учитавања је вероватно једини који прати исти образац годинама. Једина разлика је циљна база података. Док је раније то био Орацле већину времена, сада може бити шта год је доступно у АВС облаку.

ЕТЛ у данашњем Цлоуд окружењу

Ако планирате да пренесете своје податке из локалне локације у (АВС) облак, потребан вам је ЕТЛ алат. Без тога не иде, због чега је овај део архитектуре облака постао вероватно најважнији део слагалице. Ако је овај корак погрешан, уследиће било шта друго, који ће свуда делити исти мирис.

И док има много такмичења, сада бих се фокусирао на три са којима имам највише искуства:

  • Услуга миграције података (ДМС) – изворна услуга компаније АВС.
  • Информатица ЕТЛ – вероватно главни комерцијални играч у ЕТЛ свету, који успешно трансформише своје пословање из локалног у облак.
  • Матиллион за АВС – релативно нов играч унутар окружења у облаку. Није изворно за АВС, већ за облак. Са ничим попут историје упоредиве са Информатицом.

АВС ДМС као ЕТЛ

Извор: авс.амазон.цом

АВС Дата Мигратион Сервицес (ДМС) је услуга којом се у потпуности управља која вам омогућава да пренесете податке из различитих извора на АВС. Подржава више сценарија миграције.

  • Хомогене миграције (нпр. Орацле на Амазон РДС за Орацле).
  • Хетерогене миграције (нпр. Орацле на Амазон Аурора).

ДМС може да мигрира податке из различитих извора, укључујући базе података, складишта података и СааС апликације, на различите циљеве, укључујући Амазон С3, Амазон Редсхифт и Амазон РДС.

АВС третира ДМС услугу као крајњи алат за довођење података из било ког извора базе података у циљеве који су изворни у облаку. Иако је главни циљ ДМС-а само копирање података у облак, он такође добро ради на трансформацији података на путу.

Можете да дефинишете ДМС задатке у ЈСОН формату да бисте аутоматизовали различите послове трансформације за вас док копирате податке из извора у циљ:

  • Спојите неколико изворних табела или колона у једну вредност.
  • Поделите изворну вредност на више циљних поља.
  • Замените изворне податке другом циљном вредношћу.
  • Уклоните све непотребне податке или креирајте потпуно нове податке на основу улазног контекста.

То значи – да, дефинитивно можете користити ДМС као ЕТЛ алат за свој пројекат. Можда неће бити тако софистициран као друге опције у наставку, али ће обавити посао ако унапред јасно дефинишете циљ.

  Ево како да инсталирате Фирефок на Цхромебоок

Фактор прикладности

Иако ДМС пружа неке ЕТЛ могућности, првенствено се ради о сценаријима миграције података. Међутим, постоје неки сценарији у којима би можда било боље користити ДМС уместо ЕТЛ алата као што су Информатица или Матиллион:

  • ДМС може да управља хомогеним миграцијама где су изворна и циљна база података исте. Ово може бити од користи ако је циљ миграција података између база података истог типа, као што је Орацле у Орацле или МиСКЛ у МиСКЛ.
  • ДМС пружа неке основне могућности трансформације података и прилагођавања, али можда није супер зрео у том погледу. Ово и даље може бити од користи ако имате ограничене потребе за трансформацијом података.
  • Потребе за квалитетом података и управљањем су генерално прилично ограничене код ДМС-а. Али то су области које се могу побољшати у каснијим фазама пројекта другим алатима, више опредељеним за ту сврху. Можда ће вам требати да се ЕТЛ део уради што једноставније. Онда је ДМС савршен избор.
  • ДМС може бити исплативија опција за организације са ограниченим буџетима. ДМС има једноставнији модел одређивања цена од ЕТЛ алата као што су Информатица или Матиллион, што може олакшати организацијама да предвиде и управљају својим трошковима.
  • Матиллион ЕТЛ

    Извор: матиллион.цом

    је решење засновано на облаку и можете га користити за интеграцију података из различитих извора, укључујући базе података, СааС апликације и системе датотека. Нуди визуелни интерфејс за изградњу ЕТЛ цевовода и подржава различите АВС услуге, укључујући Амазон С3, Амазон Редсхифт и Амазон РДС.

    Матиллион је једноставан за коришћење и може бити добар избор за организације које тек користе ЕТЛ алате или са мање сложеним потребама за интеграцијом података.

    С друге стране, Матилион је нека врста табула раса. Има неке унапред дефинисане потенцијалне функционалности, али морате га прилагодити да бисте га оживели. Не можете очекивати да Матиллион уради посао уместо вас, чак и ако је та способност по дефиницији ту.

    Матиллион се такође често описује као ЕЛТ, а не као ЕТЛ алат. То значи да је природније да Матиллион обави оптерећење пре трансформације.

    Фактор прикладности

    Другим речима, Матиллион је ефикаснији у трансформацији података само када су већ ускладиштени у бази података него раније. Главни разлог за то је већ поменута обавеза прилагођеног скриптовања. Пошто све специјалне функционалности морају бити прво кодиране, ефикасност ће тада у великој мери зависити од ефикасности прилагођеног кода.

    Сасвим је природно очекивати да ће се тиме боље руковати у систему циљне базе података и оставити на Матиллиону само једноставан задатак учитавања 1:1—много мање могућности да га уништите прилагођеним кодом овде.

    Иако Матиллион пружа низ функција за интеграцију података, можда неће понудити исти ниво квалитета података и функција управљања као неки други ЕТЛ алати.

    Матиллион се може повећати или смањити на основу потреба организације, али можда неће бити толико ефикасан за руковање веома великим количинама података. Паралелна обрада је прилично ограничена. У том смислу, Информатица је сигурно бољи избор јер је у исто време напреднија и богатија функцијама.

    Међутим, за многе организације, Матиллион за АВС може да обезбеди довољну скалабилност и могућности паралелне обраде да задовољи њихове потребе.

      Брзи водич за ХТТП статусне кодове са инфографиком

    Информатица ЕТЛ

    Извор: информатица.цом

    Информатица за АВС је ЕТЛ алатка заснована на облаку дизајнирана да помогне у интеграцији и управљању подацима у различитим изворима и циљевима у АВС-у. То је потпуно управљана услуга која пружа низ функција и могућности за интеграцију података, укључујући профилисање података, квалитет података и управљање подацима.

    Неке од главних карактеристика Информатице за АВС укључују:

  • Информатица је дизајнирана да повећава или смањује на основу стварних потреба. Може да обрађује велике количине података и може се користити за интеграцију података из различитих извора, укључујући базе података, складишта података и СааС апликације.
  • Информатица пружа низ безбедносних функција, укључујући шифровање, контролу приступа и трагове ревизије. Усклађен је са различитим индустријским стандардима, укључујући ХИПАА, ПЦИ ДСС и СОЦ 2.
  • Информатица пружа визуелни интерфејс за изградњу ЕТЛ цевовода, што корисницима олакшава креирање и управљање радним токовима интеграције података. Такође пружа низ унапред изграђених конектора и шаблона који се могу користити за повезивање система и омогућавање процеса интеграције.
  • Информатица се интегрише са различитим АВС сервисима, укључујући Амазон С3, Амазон Редсхифт и Амазон РДС. Ово олакшава интеграцију података у различите АВС услуге.
  • Фактор прикладности

    Јасно је да је Информатица најбогатији ЕТЛ алат на листи. Међутим, може бити скупљи и сложенији за употребу од неких других ЕТЛ алата доступних у АВС-у.

    Информатика може бити скупа, посебно за мале и средње организације. Модел цена се заснива на употреби, што значи да ће организације можда морати да плате више како се њихова употреба повећава.

    Такође може бити сложено за подешавање и конфигурисање, посебно за оне који су нови у ЕТЛ алатима. Ово може захтевати значајна улагања у времену и ресурсима.

    То нас такође води до нечега што можемо назвати „сложена крива учења“. Ово може бити недостатак за оне који морају брзо да интегришу податке или имају ограничене ресурсе које могу посветити обуци и укључивању.

    Такође, Информатица можда неће бити толико ефикасна за интеграцију података из извора који нису АВС. У том смислу, ДМС или Матиллион би могли бити боља опција.

    На крају, Информатица је веома затворен систем. Постоји само ограничена могућност прилагођавања специфичним потребама пројекта. Морате само да живите са поставком коју пружа из кутије. Тако то некако ограничава флексибилност решења.

    Завршне речи

    Као што се дешава у многим другим случајевима, не постоји једно решење за све, чак ни таква ствар као што је ЕТЛ алат у АВС-у.

    Можете изабрати најкомплексније, најбогатије и најскупље решење са Информатицом. Али има смисла учинити највише ако:

    • Пројекат је прилично велики, а сигурни сте да се целокупно будуће решење и извори података повезују и са Информатицом.
    • Можете себи приуштити да доведете тим вештих Информатица програмера и конфигуратора.
    • Можете ценити снажан тим за подршку који стоји иза вас и добро плаћате за то.

    Ако је нешто одозго искључено, можда бисте то покушали Матиллиону:

    • Ако потребе пројекта уопште нису тако сложене.
    • Ако треба да укључите неке веома прилагођене кораке у обраду, флексибилност је кључни захтев.
    • Ако вам не смета да направите већину функција од нуле са тимом.

    За све што је још мање компликовано, очигледан избор је ДМС за АВС као изворни сервис, који вероватно може добро послужити вашој сврси.

    Затим погледајте алате за трансформацију података да бисте боље управљали подацима.