30+ Хадооп питања и одговора за интервју

Па, статистика Форбса наводи да до 90% светских организација користи аналитику великих података за креирање својих извештаја о инвестицијама.

Са све већом популарношћу великих података, услед тога долази до пораста могућности за запошљавање у Хадооп-у више него раније.

Стога, да бисмо вам помогли да добијете ту улогу стручњака за Хадооп, можете користити ова питања за интервју и одговоре које смо саставили за вас у овом чланку како бисмо вам помогли да прођете кроз интервју.

Можда ће вас познавање чињеница попут распона плата које улоге Хадооп-а и Биг Дата чине уносним мотивисати да прођете тај интервју, зар не? 🤔

  • Према индеед.цом, програмер Биг Дата Хадооп-а са седиштем у САД зарађује просечну плату од 144.000 долара.
  • Према итјобсватцх.цо.ук, просечна плата Биг Дата Хадооп програмера је 66.750 фунти.
  • У Индији, извор индеед.цом наводи да би они зарађивали просечну плату од 16.00.000 ИНР.

Уносно, зар не? Сада, хајде да ускочимо да научимо о Хадооп-у.

Преглед садржаја

Шта је Хадооп?

Хадооп је популаран оквир написан у Јави који користи моделе програмирања за обраду, складиштење и анализу великих скупова података.

Његов дизајн подразумевано омогућава скалирање са једног сервера на више машина које нуде локално рачунање и складиштење. Поред тога, његова способност да детектује и обрађује грешке на слоју апликације које резултирају високо доступним услугама чини Хадооп прилично поузданим.

Пређимо одмах на често постављана питања Хадооп интервјуа и њихове тачне одговоре.

Хадооп-ова питања и одговори за интервјуе

Шта је јединица за складиштење у Хадооп-у?

Одговор: Хадооп јединица за складиштење назива се Хадооп дистрибуирани систем датотека (ХДФС).

По чему се мрежна меморија разликује од Хадооп система дистрибуираних датотека?

Одговор: ХДФС, који је Хадооп-ова примарна меморија, је дистрибуирани систем датотека који складишти огромне датотеке користећи стандардни хардвер. С друге стране, НАС је сервер за складиштење рачунарских података на нивоу датотеке који хетерогеним групама клијената омогућава приступ подацима.

Док је складиштење података у НАС-у на наменском хардверу, ХДФС дистрибуира блокове података на све машине у оквиру Хадооп кластера.

НАС користи врхунске уређаје за складиштење, што је прилично скупо, док је стандардни хардвер који се користи у ХДФС-у исплатив.

НАС одвојено складишти податке из прорачуна, што га чини неприкладним за МапРедуце. Напротив, ХДФС-ов дизајн омогућава му да ради са МапРедуце оквиром. Прорачуни се померају на податке у МапРедуце оквиру уместо података на прорачуне.

  Битцоин и криптовалуте: инфлаторни вс. Дефлаторно

Објасните МапРедуце у Хадооп-у и Схуффлинг-у

Одговор: МапРедуце се односи на два различита задатка које Хадооп програми обављају како би омогућили велику скалабилност на стотинама до хиљадама сервера у оквиру Хадооп кластера. Схуффлинг, с друге стране, преноси излаз мапе са Маппер-а у потребан Редуцер у МапРедуце-у.

Дајте увид у Апацхе Пиг архитектуру

Архитектура апашке свиње

Одговор: Апацхе Пиг архитектура има Пиг Латин интерпретер који обрађује и анализира велике скупове података користећи Пиг латинична писма.

Апацхе пиг се такође састоји од скупова скупова података на којима се изводе операције података као што су придруживање, учитавање, филтрирање, сортирање и груписање.

Пиг латински језик користи механизме извршења као што су Грант шкољке, УДФ-ови и уграђени за писање Пиг скрипти које обављају потребне задатке.

Пиг олакшава рад програмерима тако што претвара ове написане скрипте у серију задатака Мап-Редуце.

Компоненте архитектуре Апацхе Пиг укључују:

  • Парсер – обрађује свињске скрипте тако што проверава синтаксу скрипте и врши проверу типа. Излаз парсера представља изјаве и логичке операторе Пиг Латина и назива се ДАГ (усмерени ациклични граф).
  • Оптимизатор – Оптимизатор имплементира логичке оптимизације попут пројекције и потискивања на ДАГ.
  • Компајлер – Преводи оптимизовани логички план из оптимизатора у серију МапРедуце послова.
  • Екецутион Енгине – Овде се дешава коначно извршење МапРедуце послова у жељени излаз.
  • Режим извршавања – Режими извршавања у Апацхе пиг углавном укључују локални и Мап Редуце.

Одговор: Метасторе услуга у локалном Метасторе-у ради у истом ЈВМ-у као Хиве, али се повезује са базом података која ради у засебном процесу на истој или удаљеној машини. С друге стране, Метасторе у Ремоте Метасторе-у ради у свом ЈВМ-у одвојено од ЈВМ сервиса Хиве.

Шта је пет В великих података?

Одговор: Ових пет В представљају главне карактеристике Биг Дата. То укључује:

  • Вредност: Велики подаци настоје да обезбеде значајне користи од високог повраћаја улагања (РОИ) за организацију која користи велике податке у својим операцијама са подацима. Велики подаци доносе ову вредност захваљујући откривању увида и препознавању образаца, што резултира јачим односима са клијентима и ефикаснијим операцијама, између осталих предности.
  • Разноликост: Ово представља хетерогеност типа прикупљених података. Различити формати укључују ЦСВ, видео записе, аудио итд.
  • Обим: Ово дефинише значајну количину и величину података којима организација управља и анализира. Ови подаци описују експоненцијални раст.
  • Брзина: Ово је експоненцијална брзина за раст података.
  • Веродостојност: Веродостојност се односи на то колико су доступни подаци „неизвесни“ или „нетачни“ због тога што су подаци непотпуни или недоследни.

Објасните различите типове података свињске латинице.

Одговор: Типови података у Пиг Латину укључују атомске типове података и сложене типове података.

Атомски типови података су основни типови података који се користе у сваком другом језику. Они укључују следеће:

  • Инт – Овај тип података дефинише потписани 32-битни цео број. Пример: 13
  • Лонг – Лонг дефинише 64-битни цео број. Пример: 10Л
  • Флоат – Дефинише потписани 32-битни покретни зарез. Пример: 2.5Ф
  • Доубле – Дефинише потписани 64-битни покретни зарез. Пример: 23.4
  • Боолеан – Дефинише логичку вредност. Укључује: Тачно/Нетачно
  • Датум и време – Дефинише вредност датума и времена. Пример: 1980-01-01Т00:00.00.000+00:00

Сложени типови података укључују:

  • Мапа – мапа се односи на скуп парова кључ/вредност. Пример: [‘color’#’yellow’, ‘number’#3]
  • Торба – То је колекција скупа торки и користи симбол ‘{}’. Пример: {(Хенри, 32), (Кити, 47)}
  • Тупле – Торка дефинише уређени скуп поља. Пример: (старост, 33)

Шта су Апацхе Оозие и Апацхе ЗооКеепер?

Одговор: Апацхе Оозие је Хадооп планер задужен за заказивање и повезивање Хадооп послова заједно као један логички посао.

Апацхе Зоокеепер, с друге стране, координира са различитим сервисима у дистрибуираном окружењу. Програмерима штеди време једноставним излагањем једноставних услуга као што су синхронизација, груписање, одржавање конфигурације и именовање. Апацхе Зоокеепер такође пружа готову подршку за чекање у реду и избор лидера.

  Која оркестрација контејнера је најбоља за вас?

Која је улога Цомбинер, РецордРеадер и Партитионер у МапРедуце операцији?

Одговор: Комбинатор делује као мини редуктор. Он прима и ради на подацима из задатака мапе, а затим прослеђује излаз података у фазу редуктора.

РецордХеадер комуницира са ИнпутСплитом и конвертује податке у парове кључ-вредност да би их мапер могао прочитати на одговарајући начин.

Партиционер је одговоран за одлучивање о броју смањених задатака потребних за сумирање података и потврђивање начина на који се излази комбинатора шаљу редуктору. Партиционер такође контролише кључно партиционисање излаза средње мапе.

Поменути различите дистрибуције Хадооп-а специфичне за добављаче.

Одговор: Разни добављачи који проширују Хадооп могућности укључују:

  • ИБМ Опен платформа.
  • Цлоудера ЦДХ Хадооп дистрибуција
  • МапР Хадооп дистрибуција
  • Амазон Еластиц МапРедуце
  • Хортонворкс Дата Платформ (ХДП)
  • Кључни пакет великих података
  • Датастак Ентерприсе Аналитицс
  • ХДИнсигхт компаније Мицрософт Азуре – Хадооп дистрибуција заснована на облаку.

Зашто је ХДФС отпоран на грешке?

Одговор: ХДФС реплицира податке на различитим чворовима података, чинећи их отпорним на грешке. Чување података у различитим чворовима омогућава преузимање са других чворова када се један режим сруши.

Разликовање између федерације и високе доступности.

Одговор: ХДФС Федерација нуди толеранцију грешака која омогућава непрекидан проток података у једном чвору када се други сруши. С друге стране, висока доступност ће захтевати две одвојене машине које засебно конфигуришу активни НамеНоде и секундарни НамеНоде на првој и другој машини.

Федерација може имати неограничен број неповезаних НамеНодес-а, док су у високој доступности доступна само два повезана НамеНоде-а, активни и приправни, који раде непрекидно.

НамеНодес у федерацији деле скуп метаподатака, при чему сваки НамеНоде има свој наменски скуп. У високој доступности, међутим, активни називни чворови покрећу сваки по један, док резервни чворови имена остају неактивни и само повремено ажурирају своје метаподатке.

Како пронаћи статус блокова и здравље система датотека?

Одговор: Користите команду хдфс фсцк / и на нивоу роот корисника и на појединачном директоријуму да бисте проверили статус здравственог стања ХДФС система датотека.

ХДФС фсцк команда у употреби:

hdfs fsck / -files --blocks –locations> dfs-fsck.log

Опис команде:

  • -филес: Штампајте датотеке које проверавате.
  • –локације: Штампа локације свих блокова током провере.

Команда за проверу статуса блокова:

hdfs fsck <path> -files -blocks
  • <путања>: Започиње провере са путање која је овде прошла.
  • – блокови: Штампа блокове датотека током провере

Када користите команде рмадмин-рефресхНодес и дфсадмин-рефресхНодес?

Одговор: Ове две команде су корисне у освежавању информација о чвору било током пуштања у рад или када је пуштање чвора у рад завршено.

Команда дфсадмин-рефресхНодес покреће ХДФС клијента и освежава конфигурацију чвора НамеНоде. Команда рмадмин-рефресхНодес, са друге стране, извршава административне задатке РесоурцеМанагер-а.

Шта је контролни пункт?

Одговор: Контролна тачка је операција која спаја последње измене система датотека са најновијом ФСИмаге тако да датотеке дневника уређивања остају довољно мале да убрзају процес покретања НамеНоде. Контролна тачка се јавља у секундарном именском чвору.

Зашто користимо ХДФС за апликације које имају велике скупове података?

Одговор: ХДФС обезбеђује ДатаНоде и НамеНоде архитектуру која имплементира дистрибуирани систем датотека.

Ове две архитектуре обезбеђују приступ подацима високих перформанси преко високо скалабилних кластера Хадооп-а. Његов НамеНоде складишти метаподатке система датотека у РАМ-у, што резултира количином меморије која ограничава број датотека система датотека ХДФС.

Шта ради команда ‘јпс’?

Одговор: Команда Јава Виртуал Мацхине Процесс Статус (ЈПС) проверава да ли су одређени Хадооп демони, укључујући НодеМанагер, ДатаНоде, НамеНоде и РесоурцеМанагер, покренути или не. Ова команда је потребна за покретање из корена да би се проверили оперативни чворови у хосту.

Шта је ‘спекулативно извршење’ у Хадооп-у?

Одговор: Ово је процес где главни чвор у Хадооп-у, уместо да поправи откривене споре задатке, покреће другу инстанцу истог задатка као резервни задатак (спекулативни задатак) на другом чвору. Спекулативно извршење штеди много времена, посебно у окружењу интензивног радног оптерећења.

Наведите три режима у којима Хадооп може да ради.

Одговор: Три примарна чвора на којима Хадооп ради укључују:

  • Самостални чвор је подразумевани режим који покреће Хадооп услуге користећи локални систем датотека и један Јава процес.
  • Псеудо-дистрибуисани чвор извршава све Хадооп услуге користећи једну оде Хадооп примену.
  • Потпуно дистрибуирани чвор покреће Хадооп мастер и славе услуге користећи засебне чворове.

Шта је УДФ?

Одговор: УДФ (функције које дефинише корисник) вам омогућава да кодирате своје прилагођене функције које можете користити за обраду вредности колона током Импала упита.

Шта је ДистЦп?

Одговор: ДистЦп или Дистрибутед Цопи, укратко, је користан алат за велико копирање података између или унутар кластера. Користећи МапРедуце, ​​ДистЦп ефикасно имплементира дистрибуирану копију велике количине података, између осталих задатака као што су руковање грешкама, опоравак и извештавање.

Одговор: Хиве метасторе је услуга која чува Апацхе Хиве метаподатке за Хиве табеле у релационој бази података као што је МиСКЛ. Пружа АПИ услуге метасторе који омогућава цент приступ метаподацима.

Дефинишите РДД.

Одговор: РДД, што је скраћеница за Ресилиент Дистрибутед Датасетс, је Спарк-ова структура података и непроменљива дистрибуирана колекција ваших елемената података која израчунава на различитим чворовима кластера.

Како се изворне библиотеке могу укључити у ИАРН послове?

Одговор: Ово можете имплементирати било користећи -Дјава.либрари. опцију пута у команди или постављањем ЛД+ЛИБРАРИ_ПАТХ у .басхрц датотеци користећи следећи формат:

<property>
<name>mapreduce.map.env</name>
<value>LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/my/libs</value>
</property>

Објасните ‘ВАЛ’ у ХБасе-у.

Одговор: Дневник писања унапред (ВАЛ) је протокол за опоравак који бележи промене МемСторе података у ХБасе-у у складиште засновано на датотекама. ВАЛ обнавља ове податке ако се РегионалСервер сруши или пре испирања МемСторе-а.

Да ли је ИАРН замена за Хадооп МапРедуце?

Одговор: Не, ИАРН није замена за Хадооп МапРедуце. Уместо тога, моћна технологија под називом Хадооп 2.0 или МапРедуце 2 подржава МапРедуце.

Која је разлика између ОРДЕР БИ и СОРТ БИ у ХИВЕ?

Одговор: Док обе команде преузимају податке на сортиран начин у Хиве-у, резултати коришћења СОРТ БИ могу бити само делимично уређени.

Поред тога, СОРТ БИ захтева редуктор да би се редови поређали. Ови редуктори потребни за коначни излаз могу такође бити вишеструки. У овом случају, коначни резултат може бити делимично наручен.

С друге стране, ОРДЕР БИ захтева само један редуктор за укупан ред излаза. Такође можете да користите кључну реч ЛИМИТ која смањује укупно време сортирања.

Која је разлика између Спарк-а и Хадооп-а?

Одговор: Док су и Хадооп и Спарк оквири за дистрибуирану обраду, њихова кључна разлика је њихова обрада. Тамо где је Хадооп ефикасан за групну обраду, Спарк је ефикасан за обраду података у реалном времену.

Поред тога, Хадооп углавном чита и уписује датотеке у ХДФС, док Спарк користи концепт Ресилиент Дистрибутед Датасет за обраду података у РАМ-у.

На основу њиховог кашњења, Хадооп је рачунарски оквир са високим кашњењем без интерактивног режима за обраду података, док је Спарк рачунарски оквир са малим кашњењем који податке обрађује интерактивно.

Упоредите Скооп и Флуме.

Одговор: Скооп и Флуме су Хадооп алати који прикупљају податке прикупљене из различитих извора и учитавају податке у ХДФС.

  • Скооп(СКЛ-то-Хадооп) издваја структуриране податке из база података, укључујући Терадата, МиСКЛ, Орацле, итд., док је Флуме користан за издвајање неструктурираних података из извора базе података и њихово учитавање у ХДФС.
  • Што се тиче вођених догађаја, Флуме је вођен догађајима, док Скооп није вођен догађајима.
  • Скооп користи архитектуру засновану на конектору где конектори знају како да се повежу са другим извором података. Флуме користи архитектуру засновану на агенту, при чему је код написан као агент задужен за преузимање података.
  • Због Флумеове дистрибуиране природе, он може лако да прикупља и агрегира податке. Скооп је користан за паралелни пренос података, што резултира тиме да је излаз у више датотека.

Објасните БлоомМапФиле.

Одговор: БлоомМапФиле је класа која проширује класу МапФиле и користи динамичке филтере који обезбеђују брзи тест чланства за кључеве.

Наведите разлику између ХивеКЛ-а и ПигЛатина.

Одговор: Док је ХивеКЛ декларативни језик сличан СКЛ-у, ПигЛатин је процедурални језик тока података високог нивоа.

Шта је чишћење података?

Одговор: Чишћење података је кључни процес отклањања или поправљања идентификованих грешака у подацима које укључују нетачне, непотпуне, оштећене, дуплиране и погрешно форматиране податке унутар скупа података.

Овај процес има за циљ да побољша квалитет података и обезбеди тачније, доследније и поузданије информације неопходне за ефикасно доношење одлука у оквиру организације.

Закључак💃

Са тренутним порастом могућности за запошљавање великих података и Хадооп-а, можда ћете желети да повећате своје шансе да уђете. Питања и одговори за Хадооп интервју у овом чланку ће вам помоћи да успете у предстојећем интервјуу.

Затим можете погледати добре ресурсе за учење великих података и Хадооп-а.

Срећно! 👍