Апацхе Хиве вс Апацхе Импала: главне разлике

Ако сте нови у анализи великих података, мноштво апацхе алата би могло бити на вашем радару; међутим, читав низ различитих алата може постати збуњујући и, понекад, неодољив.

Овај пост ће решити ову забуну и објаснити шта су Апацхе Хиве и Импала и по чему се разликују једни од других!

Апацхе Хиве

Апацхе Хиве је СКЛ интерфејс за приступ подацима за Апацхе Хадооп платформу. Хиве вам омогућава да постављате упите, обједињујете и анализирате податке користећи СКЛ синтаксу.

Шема приступа за читање се користи за податке у систему датотека ХДФС, омогућавајући вам да третирате податке као са обичном табелом или релационим ДБМС-ом. ХивеКЛ упити се преводе у Јава код за МапРедуце послове.

Хиве упити су написани у ХивеКЛ језику упита, који је заснован на СКЛ језику, али нема пуну подршку за СКЛ-92 стандард.

Међутим, овај језик омогућава програмерима да користе своје упите када је незгодно или неефикасно користити ХивеКЛ функције. ХивеКЛ се може проширити кориснички дефинисаним скаларним функцијама (УДФ), агрегацијама (УДАФ кодови) и функцијама табеле (УДТФ).

Како функционише Апацхе Хиве

Апацхе Хиве преводи програме написане на ХивеКЛ језику (близу СКЛ-у) у један или више задатака МапРедуце, ​​Апацхе Тез или Апацхе Спарк. Ово су три извршна механизма који се могу покренути на Хадооп-у. Затим, Апацхе Хиве организује податке у низ за датотеку Хадооп Дистрибутед Филе Систем (ХДФС) да би покренуо послове на кластеру и произвео одговор.

Апацхе Хиве табеле су сличне релационим базама података, а јединице података су организоване од најзначајније јединице до најгрануларније. Базе података су низови састављени од партиција, које се поново могу разбити у „канте“.

Подаци су доступни преко ХивеКЛ-а. Унутар сваке базе података, подаци су нумерисани, а свака табела одговара ХДФС директоријуму.

У оквиру архитектуре Апацхе Хиве доступно је више интерфејса, као што су веб интерфејс, ЦЛИ или екстерни клијенти.

Заиста, сервер „Апацхе Хиве Тхрифт” омогућава удаљеним клијентима да подносе команде и захтеве Апацхе Хиве-у користећи различите програмске језике. Централни директоријум Апацхе Хиве-а је „метасторе“ које садржи све информације.

Мотор који чини да Хиве ради назива се „возач“. Он спаја компајлер и оптимизатор да би се одредио оптимални план извршења.

Коначно, безбедност обезбеђује Хадооп. Стога се ослања на Керберос за међусобну аутентификацију између клијента и сервера. Дозволу за новокреиране датотеке у Апацхе Хиве-у диктира ХДФС, дозвољавајући кориснику, групи или на други начин ауторизацију.

Карактеристике кошнице

  • Подржава рачунарски механизам и Хадооп и Спарк
  • Користи ХДФС и ради као складиште података.
  • Користи МапРедуце и подржава ЕТЛ
  • Због ХДФС-а, има толеранцију грешака сличну Хадооп-у
  Најбољи 10 РГБ напајања за ваш лични рачунар

Апацхе Хиве: Предности

Апацхе Хиве је идеално решење за упите и анализу података. Омогућава стицање квалитативних увида, пружајући конкурентску предност и олакшавајући одговор на потражњу тржишта.

Међу главним предностима Апацхе Хиве-а, можемо поменути једноставност коришћења која је повезана са његовим „СКЛ-фриендли“ језиком. Поред тога, убрзава почетно уметање података пошто подаци не морају да се читају или нумеришу са диска у интерном формату базе података.

Знајући да се подаци чувају у ХДФС-у, могуће је складиштење великих скупова података до стотина петабајта података на Апацхе Хиве. Ово решење је много скалабилније од традиционалне базе података. Знајући да је то услуга у облаку, Апацхе Хиве омогућава корисницима да брзо покрећу виртуелне сервере на основу флуктуација у радном оптерећењу (тј. задацима).

Безбедност је такође аспект где Хиве ради боље, са својом способношћу да реплицира радна оптерећења која су критична за опоравак у случају проблема. Коначно, радни капацитет је без премца јер може да изврши до 100.000 захтева на сат.

Апацхе Импала

Апацхе Импала је масивно паралелни СКЛ механизам за упите за интерактивно извршавање СКЛ упита над подацима ускладиштеним у Апацхе Хадооп-у, написаним у Ц++ и дистрибуираним под лиценцом Апацхе 2.0.

Импала се такође назива МПП (масивно паралелна обрада) машина, дистрибуирани ДБМС, па чак и СКЛ-он-Хадооп база података стека.

Импала ради у дистрибуираном режиму, где се инстанце процеса покрећу на различитим чворовима кластера, примајући, распоређујући и координирајући захтеве клијената. У овом случају је могуће паралелно извршавање фрагмената СКЛ упита.

Клијенти су корисници и апликације које шаљу СКЛ упите према подацима ускладиштеним у Апацхе Хадооп (ХБасе и ХДФС) или Амазон С3. Интеракција са Импала се одвија преко ХУЕ (Хадооп корисничко искуство) веб интерфејса, ОДБЦ, ЈДБЦ и командне линије Импала Схелл.

Импала инфраструктурно зависи од другог популарног алата СКЛ-он-Хадооп, Апацхе Хиве, који користи своје складиште метаподатака. Конкретно, Хиве Метасторе омогућава Импали да зна о доступности и структури база података.

Када креирате, мењате и бришете објекте шеме или учитавате податке у табеле преко СКЛ наредби, одговарајуће промене метаподатака се аутоматски пропагирају на све Импала чворове користећи специјализовану услугу директоријума.

Кључне компоненте Импале су следеће извршне датотеке:

  • Импалад или Импала даемон је системска услуга која заказује и извршава упите за ХДФС, ХБасе и Амазон С3 податке. Један импалад процес се покреће на сваком чвору кластера.
  • Статесторе је услуга именовања која прати локацију и статус свих инстанци импалада у кластеру. Једна инстанца ове системске услуге ради на сваком чвору и главном серверу (Наме Ноде).
  • Каталог је услуга координације метаподатака која пропагира промене из Импала ДДЛ и ДМЛ изјава на све Импала чворове погођене тако да су нове табеле или новоучитани подаци одмах видљиви било ком чвору у кластеру. Препоручује се да једна инстанца Каталога ради на истом хосту кластера као и Статесторед демон.
  Како репродуковати датотеке по абецедном или нумеричком редоследу у ВЛЦ плејеру

Како функционише Апацхе Импала

Импала, као и Апацхе Хиве, користи сличан декларативни језик упита, Хиве Куери Лангуаге (ХивеКЛ), који је подскуп СКЛ92, уместо СКЛ-а.

Стварно извршење захтева у Импали је следеће:

Клијентска апликација шаље СКЛ упит повезивањем на било који импалад преко стандардизованих ОДБЦ или ЈДБЦ интерфејса драјвера. Повезани импалад постаје координатор тренутног захтева.

СКЛ упит се анализира да би се одредили задаци за импалад инстанце у кластеру; затим се гради оптимални план извршења упита.

Импалад директно приступа ХДФС и ХБасе користећи локалне инстанце системских услуга за обезбеђивање података. За разлику од Апацхе Хиве-а, таква директна интеракција значајно штеди време извршења упита, јер се средњи резултати не чувају.

Као одговор, сваки демон враћа податке координирајућој импалади, шаљући резултате назад клијенту.

Карактеристике Импале

  • Подршка за обраду меморије у реалном времену
  • СКЛ фриендли
  • Подржава системе за складиштење као што су ХДФС, Апацхе ХБасе и Амазон С3
  • Подржава интеграцију са БИ алатима као што су Пентахо и Таблеау
  • Користи ХивеКЛ синтаксу

Апацхе Импала: Предности

Импала избегава могуће трошкове покретања јер се сви процеси демона система покрећу директно у време покретања. То значајно штеди време извршења упита. Додатно повећање брзине Импале је зато што овај СКЛ алат за Хадооп, за разлику од Хиве-а, не чува међурезултате и директно приступа ХДФС-у или ХБасе-у.

Поред тога, Импала генерише програмски код током извршавања, а не приликом компилације, као што то чини Хиве. Међутим, нуспојава Импалиних брзих перформанси је смањена поузданост.

Конкретно, ако се чвор података поквари током извршавања СКЛ упита, Импала инстанца ће се поново покренути, а Хиве ће наставити да одржава везу са извором података, обезбеђујући толеранцију грешака.

Остале предности Импале укључују уграђену подршку за протокол за безбедну мрежну аутентификацију Керберос, одређивање приоритета и могућност управљања редом захтева и подршку за популарне формате великих података као што су ЛЗО, Авро, РЦФиле, Паркет и Секуенце.

Хиве вс Импала: Сличности

Хиве и Импала се слободно дистрибуирају под лиценцом Апацхе Софтваре Фоундатион и односе се на СКЛ алате за рад са подацима ускладиштеним у Хадооп кластеру. Поред тога, они такође користе ХДФС дистрибуирани систем датотека.

Импала и Хиве имплементирају различите задатке са заједничким фокусом на СКЛ обраду великих података ускладиштених у Апацхе Хадооп кластеру. Импала пружа интерфејс сличан СКЛ-у, омогућавајући вам да читате и пишете Хиве табеле, омогућавајући тако лаку размену података.

Истовремено, Импала чини СКЛ операције на Хадооп-у прилично брзим и ефикасним, омогућавајући коришћење овог ДБМС-а у истраживачким пројектима аналитике великих података. Кад год је то могуће, Импала ради са постојећом Апацхе Хиве инфраструктуром која се већ користи за извршавање дуготрајних СКЛ групних упита.

  Како искључити безбедни режим у Андроиду

Такође, Импала чува своје дефиниције табела у метастору, традиционалној МиСКЛ или ПостгреСКЛ бази података, тј. на истом месту где Хиве складишти сличне податке. Омогућава Импали да приступи Хиве табелама све док све колоне користе Импале подржане типове података, формате датотека и кодеке за компресију.

Хиве вс Импала: разлике

Програмски језик

Хиве је написан у Јави, док је Импала написан у Ц++. Међутим, Импала такође користи неке Хиве УДФ-ове засноване на Јави.

Случајеви употребе

Инжењери података користе Хиве у ЕТЛ процесима (Ектрацт, Трансформ, Лоад), на пример, за дуготрајне групне послове на великим скуповима података, на пример, у агрегаторима путовања и аеродромским информационим системима. Заузврат, Импала је намењена углавном аналитичарима и научницима података и углавном се користи у задацима попут пословне интелигенције.

Перформансе

Импала извршава СКЛ упите у реалном времену, док Хиве карактерише ниска брзина обраде података. Уз једноставне СКЛ упите, Импала може да ради 6-69 пута брже од Хиве-а. Међутим, Хиве боље обрађује сложене упите.

Латенција/пропусност

Пропусност кошнице је знатно већа од оне Импале. ЛЛАП (Ливе Лонг анд Процесс) функција, која омогућава кеширање упита у меморији, даје Хивеу добре перформансе ниског нивоа.

ЛЛАП укључује дугорочне системске услуге (демоне), које вам омогућавају директну интеракцију са ХДФС чворовима података и замену чврсто интегрисане структуре ДАГ упита (Дирецтед ацицлиц грапх) – модел графа који се активно користи у рачунарству великих података.

Толеранција грешака

Хиве је систем отпоран на грешке који чува све међурезултате. Такође позитивно утиче на скалабилност, али доводи до смањења брзине обраде података. Заузврат, Импала се не може назвати платформом отпорном на грешке јер је више везана за меморију.

Конверзија кода

Хиве генерише изразе упита у време компајлирања, док их Импала генерише током извршавања. Хиве карактерише проблем „хладног старта“ при првом покретању апликације; упити се споро конвертују због потребе да се успостави веза са извором података.

Импала нема ову врсту трошкова покретања. Неопходни системски сервиси (демони) за обраду СКЛ упита покрећу се приликом покретања система, што убрзава рад.

Подршка за складиштење

Импала подржава ЛЗО, Авро и Паркет формате, док Хиве ради са Плаин Тект и ОРЦ. Међутим, оба подржавају формате РЦФИле и Секуенце.

Апацхе ХивеАпацхе ИмпалаЛангуаге ЈаваЦ++ Случајеви употребе Инжењеринг податакаАнализа и аналитикаПерформансеВисока за једноставне упите Релативно ниско кашњењеВише кашњења због кеширања Мање латентне толеранције грешака Толерантније због МапРедуцеЛесс толерантности због ниског покретања МППЦОРЗоке, због ниског покретања МППЦОРЗОк, хладног покретања МППЦЛторФ-а

Завршне речи

Хиве и Импала се не такмиче, већ се ефикасно допуњују. Иако постоје значајне разлике између ова два, постоји и доста заједничког и одабир једног у односу на други зависи од података и посебних захтева пројекта.

Такође можете истражити директна поређења између Хадооп-а и Спарк-а.

.