Шта нисте знали о АВС лепку

Амазон Глуе бележи пораст популарности јер све већи број компанија почиње да користи његове услуге за интеграцију података којима се управља.

ЕТЛ (Extract, Transform, Load) је поступак премештања података из изворне базе у складиште података. Због своје сложености, ЕТЛ може бити компликован и тежак за примену за све пословне податке. Амазон је стога представио АВС Глуе како би решио овај изазов.

ЕТЛ програмери и инжењери података користе Глуе за конструисање, надгледање и покретање ЕТЛ токова посла.

Шта је АВС Глуе?

АВС Глуе, услуга за интеграцију података без сервера, олакшава проналажење, припрему, премештање и интегрисање података из мноштва извора. Ово је од велике помоћи за машинско учење (ML) и аналитику.

У великој мери смањује време потребно за припрему података за анализу. Аутоматски идентификује и класификује податке, генерише Скала или Пајтон код за премештање података из извора и покреће и трансформише задатке у зависности од временских догађаја.

Омогућава флексибилно заказивање и креира Апачи Спарк окружење које се може скалирати за циљано учитавање података. Осим тога, АВС Глуе пружа свеобухватно праћење и модификацију токова података. АВС Глуе је услуга без сервера која поједностављује сложене операције развоја апликација.

Омогућава брзу интеграцију више валидних скупова података. Такође омогућава брзу проверу и ауторизацију података.

За шта се користи АВС Глуе?

Важно је разумети најбоље сценарије за коришћење Амазон Глуе. У наставку је неколико примера употребе АВС Глуе које треба узети у обзир:

  • Глуе је алат који вам омогућава да покрећете упите без сервера на језерима података Амазон С3. Амазон Глуе је одлично место за почетак. Чини све ваше податке доступним преко једног интерфејса, омогућавајући вам да их анализирате без потребе да их премештате.
  • Амазон Глуе се може користити за разумевање ваших података. Амазон Глуе вам олакшава претрагу различитих АВС скупова података користећи Каталог података. Такође можете да складиштите податке на више АВС услуга користећи Каталог података, задржавајући доследан преглед.
  • Глуе може бити користан за изградњу токова рада вођених догађајима. Можете да покренете своје ЕТЛ операције са Амазон С3 позивањем својих Глуе ЕТЛ задатака преко АВС Ламбда услуге.
  • АВС Глуе се такође може користити за чишћење, верификацију, форматирање и организацију података за складиштење у језерима података или складиштима.

Које су компоненте АВС Глуе?

Следе главне компоненте АВС Глуе:

  • Каталог података: Овај каталог података садржи метаподатке и структуру података.
  • База података: Ово је кључ за приступ и креирање база података за изворе и циљеве.
  • Табела: Креирајте једну или више табела у бази података које могу да користе и циљ и извор.
  • Пописивач и класификатор: Покретач преузима податке из извора користећи уграђене или прилагођене класификације. Он креира/користи унапред дефинисане табеле метаподатака у каталогу података.
  • Задатак: Ово је пословна логика за извршавање ЕТЛ задатка. Ову пословну логику интерно пише Апачи Спарк користећи Пајтон и Скала језике.
  • Окидач: ЕТЛ окидач је механизам који покреће извршавање ЕТЛ задатка на захтев или у одређено време.
  • Развојна тачка: Ово креира окружење у којем се ЕТЛ скрипта задатка тестира, развија и отклоне грешке.

Предности АВС Глуе

У наставку су наведене предности употребе АВС Глуе на вашем радном месту или унутар организације:

  • АВС Глуе скенира све расположиве податке користећи пописиваче.
  • Коначно обрађени подаци се могу складиштити на више локација (Амазон РДС и Амазон Редсхифт, Амазон С3, итд.).
  • То је услуга заснована на облаку. Нема потребе за улагањем у локалну инфраструктуру.
  • Пошто је то ЕТЛ без сервера, представља економичан избор.
  • Брз је. Одмах вам даје Пајтон/Скала ЕТЛ код.

Главне карактеристике АВС Глуе?

Амазон Глуе има све функционалности које су вам потребне за интеграцију података, омогућавајући вам да стекнете дубљи увид и искористите своје знање за нове напретке у року од неколико минута уместо месеци. У наставку су неке функције о којима треба да будете информисани.

  • Интерфејс превлачења и испуштања: Уређивач задатака превлачења и испуштања вам омогућава да креирате ЕТЛ процес. АВС Глуе ће одмах генерисати неопходан код за издвајање, конвертовање и учитавање података.
  • Аутоматско откривање шеме: Да бисте направили пописиваче који се повезују са различитим изворима података, можете користити услугу Глуе. Он организује податке и издваја релевантне информације. Ови подаци се затим могу користити за праћење ЕТЛ процеса помоћу ЕТЛ задатака.
  • Распоред задатака: Глуе се може користити на захтев или према распореду. Планер се може користити за изградњу сложених ЕТЛ токова, успостављајући зависности између задатака.
  • Генерисање кода: Глуе Еластиц Виевс вам омогућава да једноставно креирате материјализоване прегледе који комбинују и реплицирају податке из различитих извора података без потребе за писањем било каквог сопственог кода.
  • Уграђено машинско учење: Глуе има уграђену функцију машинског учења под називом „ФиндМатцхес“. Он уклања дуплиране записе који нису тачне копије једни других.
  • Развојне тачке: Ако желите да активно развијате свој ЕТЛ код, Глуе пружа развојне тачке које вам омогућавају да мењате, отклањате грешке и тестирате код који генерише.
  • Глуе ДатаБрев: То је алат за припрему података који могу да користе аналитичари података и научници за податке како би им помогли да очисте и нормализују податке. Користи активан и визуелни интерфејс Глуе ДатаБрев-а.

Како функционише одређивање цена АВС Глуе?

АВС Глуе наплаћује цену по сату, која се наплаћује по секунди за пописиваче (откривање података) и ЕТЛ задатке (обрада и учитавање података). Једноставна месечна накнада се наплаћује за приступ и чување метаподатака у АВС Глуе Дата Каталогу.

Амазон Глуе почиње од 0,44 долара. Можете бирати између четири плана:

  • ЕТЛ задаци, развојне тачке и други ЕТЛ задаци доступни су по цени од 0,44 УСД
  • Интерактивне сесије прегледача су доступне по цени од 0,44 УСД
  • ДатаБрев послови почињу од 0,48 долара
  • Месечно складиштење и захтеви за Каталог података коштају 1,00 УСД

АВС не нуди бесплатан Глуе план. Сваки сат ће коштати 0,44 долара по ДПУ (Data Processing Unit). У просеку, то би вас коштало 21 долар дневно. Цене се могу разликовати у зависности од ваше локације.

Кораци за подешавање АВС Глуе

Каталог података се може користити за брзо проналажење и претраживање више АВС скупова података без потребе за премештањем података. Након што су подаци каталогизовани, одмах су доступни за упите и претрагу користећи Амазон Атхена и Амазон ЕМР.

Реф: https://aws.amazon.com/glue/

  • Амазон Редсхифт, Амазон С3, Амазон РДС и базе података на Амазон ЕЦ2 – Откријте своје податке, складиштите метаподатке и користите АВС Глуе Дата Каталог да бисте их открили
  • АВС Глуе Дата Каталог – Управљајте подацима помоћу каталога података који служи као централно складиште метаподатака
  • АВС Глуе ЕТЛ – Читајте и уписујте метаподатке у свој каталог података
  • Амазон Атхена и Амазон Редсхифт, Амазон ЕМР, Амазон ЕТЛ – Преузмите каталог података за ЕТЛ, аналитику и друге намене.

Како да подесим АВС Глуе?

Прво се пријавите на АВС конзолу за управљање и отворите ИАМ конзолу. Кликните на Креирај улогу. Затим, за тип улоге, пронађите Глуе и изаберите Дозволе.

Изаберите АВСГлуеСервицеРоле за опште дозволе за АВС Глуе Студио и АВС Глуе, као и смерницу којом управља АВС АмазонС3ФуллАццесс за приступ ресурсима Амазон С3.

Унесите назив улоге.

Кликните на Креирај улогу.

Направите Амазон С3 кофу.

Направите фасциклу унутар С3 кофе.

Изаберите датотеку за отпремање.

На крају, отпремите датотеку у кофу.

Затим, отворите АВС Глуе са АВС контролне конзоле и направите базу података.

Сада када имате базу података у АВС Глуе, направите пописивача.

У извору података, изаберите С3 кофу коју сте креирали.

Затим изаберите ИАМ улогу за АВС Глуе коју сте креирали на почетку.

Коначно, у излазу изаберите глуедб који сте креирали.

Прегледајте сва подешавања и направите пописивача.

Када се пописивач креира, изаберите га и кликните на Покрени. Након неког времена, статус ће бити спреман.

Покретањем пописивача, база података ће добити табелу са свим подацима из ЦСВ датотеке.

Када кликнете на приказ података, бићете преусмерени на Амазон Атхена (уређивач упита). Када покренете упит, можете видети податке табеле.

Сада можете успешно да користите овај АВС Глуе претраживач у било ком ЕТЛ задатку.

Шта је АВС Глуе ДатаБрев?

АВС Глуе ДатаБрев омогућава корисницима да нормализују и чисте податке без писања било каквог кода. ДатаБрев може смањити време потребно за припрему података за машинско учење и аналитику за чак 80 процената у поређењу са припремом података по мери.

Постоји преко 250 унапред направљених трансформација података које се могу користити за аутоматизацију задатака припреме података, као што су филтрирање аномалија, исправљање неважећих вредности и претварање података у стандардне формате.

ДатаБрев олакшава научницима за податке, пословним аналитичарима и инжењерима сарадњу на извлачењу увида из необрађених података. ДатаБрев је без сервера, тако да не морате да управљате инфраструктуром или креирате кластере да бисте истражили и трансформисали терабајте сирових података.

ДатаБрев функције за компаније

Визуализована припрема података

ДатаБрев представља јединствен начин за преглед података који се обично виде у колонама база података у облику алфанумеричких вредности. ДатаБрев визуализује све учитане изворе података како би вам помогао да разумете односе и хијерархију података.

250+ аутоматизација за припрему података

Од научника за податке се очекује да прате различите поновљиве, изоловане токове посла као део свог посла. Ове радне токове и процесе је АВС моделирао као модуле који се односе на језик и податке. Ова библиотека укључује акције које крајњи корисници могу да користе.

Линеаге података

Слично ревизорским траговима који се користе за праћење активности корисника у ИТ мрежи, линеаге података вам омогућава да пратите активности трансформације података у оквиру АВС ДатаБрев. Ове информације обухватају извор података, примењене трансформације и излаз података, укључујући циљну локацију.

Мапирање података

Датабрев вам омогућава да пронађете одговарајућа поља у два извора података. Када се идентификују одговарајућа поља, могу се учитати у шему.

АВС Глуе ДатаБрев: Предности

У наставку су наведене карактеристике АВС Глуе ДатаБрев:

  • Нижа баријера за улазак у припрему података
  • Аутоматско генерисање профила података
  • Аутоматизујте 250+ процеса припреме података
  • Интелигентни предлози за рецепте

Алтернативе за АВС Глуе

Аирфлов

Аирфлов спада у категорију менаџера токова посла у оквиру техничке групе. То је алат отвореног кода који подржава ГитХуб звезде, ГитХуб виљушке и друге функције. Аирфлов вам омогућава да креирате радне токове користећи усмерене ацикличне графове (ДАГ). Планер Аирфлов извршава ваше задатке користећи низ радника и пратећи наведене зависности.

Матилион

Матилион ЕТЛ, алат за ЕТЛ/ЕЛТ, је експлицитно дизајниран за платформе база података у облаку као што су Амазон Редсхифт и Гоогле БигКуери. То је модеран кориснички интерфејс заснован на прегледачу са моћним ЕТЛ/ЕЛТ могућностима за спуштање. Можете почети да радите за неколико минута уз брзо подешавање.

Стич

Стич је ЕТЛ услуга отвореног кода која повезује више извора података и реплицира податке на жељена одредишта. Веома је једноставан за употребу, јер вам није потребно знање о кодирању да бисте премештали податке између извора и одредишта у Стичу. Једноставан је за употребу, има прилагођен графички кориснички интерфејс и брз је.

Стич вам не дозвољава да изаберете унапред направљену контролну таблу, за разлику од других ЕТЛ алата. Уместо тога, морате да интегришете своје податке у отворена складишта података која изаберете као одредиште. Може бити тешко кретати се по залихама.

Алтерикс

Алтерикс је платформа за аутоматизацију аналитике која помаже у припреми, прикупљању и комбиновању података. Ови подаци се могу користити за убрзавање процеса и пружање увида у пословање. Пошто је то алат за превлачење и испуштање, није вам потребно знање о програмирању. Алтерикс је одлично место за савете и одговоре професионалаца у индустрији.

Закључак

Дакле, то је било све о АВС Глуе, који је решење засновано на облаку које вам омогућава да радите са ЕТЛ каналима. Укратко, процес интеракције корисника АВС Глуе састоји се од три фазе. Да бисте креирали каталог података, прво користите алате за индексирање података. Затим генеришете ЕТЛ код потребан за АВС канал података. Коначно, креира се ЕТЛ распоред. Надам се да вам је овај блог пружио добар преглед Амазон Глуе.

Такође можете да истражите најбоље савете за обезбеђивање АВС С3 складишта.