18 есенцијалних софтвера о којима би сваки научник података требало да зна

Наука о подацима је за свакога ко воли да разоткрива замршене ствари и открива скривена чуда у очигледном нереду.

То је као да тражиш игле у стоговима сена; само што научници података уопште не морају да прљају руке. Користећи фенси алате са шареним графиконима и гледајући гомиле бројева, они само зарањају у гомиле сена и проналазе вредне игле у облику увида велике пословне вредности.

Типично научник података кутија алата треба да садржи најмање једну ставку сваке од ових категорија: релационе базе података, НоСКЛ базе података, оквире великих података, алате за визуелизацију, алате за сцрапинг, програмске језике, ИДЕ и алате за дубоко учење.

Релационе базе података

Релациона база података је колекција података структурираних у табелама са атрибутима. Табеле се могу повезати једна са другом, дефинишући релације и ограничења и креирајући оно што се назива моделом података. За рад са релационим базама података, обично користите језик који се зове СКЛ (Струцтуред Куери Лангуаге).

Апликације које управљају структуром и подацима у релационим базама података називају се РДБМС (Релатионал ДатаБасе Манагемент Системс). Постоји много таквих апликација, а најрелевантније су недавно почеле да се фокусирају на област науке о подацима, додајући функционалност за рад са великим репозиторијумима података и за примену техника као што су аналитика података и машинско учење.

СКЛ Сервер

Мицрософт-ов РДБМС, развија се више од 20 година доследним ширењем функционалности предузећа. Од своје верзије из 2016. године, СКЛ Сервер нуди портфолио услуга које укључују подршку за уграђени Р код. СКЛ Сервер 2017 подиже опкладу преименовањем својих Р услуга у услуге машинског језика и додавањем подршке за језик Питхон (више о ова два језика у наставку).

Са овим важним додацима, СКЛ Сервер је намењен научницима података који можда немају искуства са Трансацт СКЛ-ом, изворним језиком упита за Мицрософт СКЛ Сервер.

СКЛ Сервер је далеко од тога да буде бесплатан производ. Можете да купите лиценце да бисте га инсталирали на Виндовс Сервер (цена ће варирати у зависности од броја истовремених корисника) или да је користите као услугу засновану на накнади, преко Мицрософт Азуре облака. Научити Мицрософт СКЛ Сервер је лако.

МиСКЛ

На страни софтвера отвореног кода, МиСКЛ има круну популарности РДБМС-а. Иако га Орацле тренутно поседује, и даље је бесплатан и отвореног кода под условима ГНУ опште јавне лиценце. Већина апликација заснованих на вебу користи МиСКЛ као основно складиште података, захваљујући његовој усклађености са СКЛ стандардом.

Његовој популарности такође помажу његове једноставне процедуре инсталације, велика заједница програмера, тоне свеобухватне документације и алати трећих страна, као што је пхпМиАдмин, који поједностављују свакодневне активности управљања. Иако МиСКЛ нема изворне функције за анализу података, његова отвореност омогућава његову интеграцију са готово свим алаткама за визуелизацију, извештавање и пословну интелигенцију које одаберете.

ПостгреСКЛ

Друга опција РДБМС отвореног кода је ПостгреСКЛ. Иако није толико популаран као МиСКЛ, ПостгреСКЛ се истиче по својој флексибилности и проширивости и подршци за сложене упите, оне који превазилазе основне изјаве као што су СЕЛЕЦТ, ВХЕРЕ и ГРОУП БИ.

Ове карактеристике му омогућавају да стекне популарност међу научницима података. Још једна интересантна карактеристика је подршка за више окружења, која омогућава да се користи у облаку и локалним окружењима, или у комбинацији оба, уобичајено позната као окружења хибридног облака.

ПостгреСКЛ је способан да комбинује аналитичку обраду на мрежи (ОЛАП) са обрадом трансакција на мрежи (ОЛТП), радећи у режиму који се зове хибридна трансакцијска/аналитичка обрада (ХТАП). Такође је погодан за рад са великим подацима, захваљујући додатку ПостГИС-а за географске податке и ЈСОН-Б за документе. ПостгреСКЛ такође подржава неструктуриране податке, што им омогућава да буду у обе категорије: СКЛ и НоСКЛ базе података.

НоСКЛ базе података

Такође познат као нерелационе базе података, овај тип спремишта података обезбеђује бржи приступ нетабеларним структурама података. Неки примери ових структура су графикони, документи, широке колоне, кључне вредности, између многих других. НоСКЛ складишта података могу оставити по страни доследност података у корист других предности, као што су доступност, партиционисање и брзина приступа.

Пошто у НоСКЛ складиштима података нема СКЛ-а, једини начин да се постави упит за ову врсту базе података је коришћење језика ниског нивоа, а не постоји језик који је тако широко прихваћен као СКЛ. Осим тога, не постоје стандардне спецификације за НоСКЛ. Због тога, иронично, неке НоСКЛ базе података почињу да додају подршку за СКЛ скрипте.

  Како уклонити позадину помоћу ГИМП-а: Водич корак по корак

МонгоДБ

МонгоДБ је популаран НоСКЛ систем базе података, који чува податке у облику ЈСОН докумената. Његов фокус је на скалабилности и флексибилности за складиштење података на неструктуриран начин. То значи да не постоји фиксна листа поља која се мора посматрати у свим сачуваним елементима. Штавише, структура података се може променити током времена, нешто што у релационој бази података подразумева висок ризик од утицаја на покренуте апликације.

Технологија у МонгоДБ-у омогућава индексирање, ад-хоц упите и агрегацију који пружају снажну основу за анализу података. Дистрибуирана природа базе података обезбеђује високу доступност, скалирање и географску дистрибуцију без потребе за софистицираним алатима.

Редис

Ово једна је још једна опција у отвореном коду, НоСКЛ фронту. То је у основи складиште структуре података које ради у меморији и, осим што пружа услуге базе података, такође ради и као кеш меморија и посредник порука.

Подржава безброј неконвенционалних структура података, укључујући хешеве, геопросторне индексе, листе и сортиране скупове. Погодан је за науку о подацима захваљујући својим високим перформансама у задацима који захтевају велику количину података, као што су израчунавање пресека скупова, сортирање дугих листа или генерисање сложених рангирања. Разлог за изванредне перформансе Редис-а је његова операција у меморији. Може се конфигурисати да селективно задржава податке.

Оквири великих података

Претпоставимо да морате да анализирате податке које корисници Фејсбука генеришу током једног месеца. Говоримо о фотографијама, видео снимцима, порукама, свему томе. Узимајући у обзир да корисници свакодневно додају више од 500 терабајта података друштвеној мрежи на друштвену мрежу, тешко је измерити обим који представља читав месец њених података.

Да бисте манипулисали том огромном количином података на ефикасан начин, потребан вам је одговарајући оквир који може да израчунава статистику преко дистрибуиране архитектуре. Постоје два оквира који воде тржиште: Хадооп и Спарк.

Хадооп

Као велики оквир података, Хадооп бави се сложеношћу повезаних са проналажењем, обрадом и складиштењем огромних гомила података. Хадооп ради у дистрибуираном окружењу, састављеном од рачунарских кластера који обрађују једноставне алгоритме. Постоји алгоритам за оркестрирање, назван МапРедуце, ​​који дели велике задатке на мале делове, а затим дистрибуира те мале задатке између доступних кластера.

Хадооп се препоручује за ризнице података пословне класе које захтевају брз приступ и високу доступност, а све то по ниској цени. Али потребан вам је Линук администратор са дубоким Хадооп знање да се оквир одржава и ради.

Искра

Хадооп није једини оквир доступан за манипулацију великим подацима. Још једно велико име на овим просторима је Искра. Спарк мотор је дизајниран да надмаши Хадооп у смислу брзине аналитике и лакоће коришћења. Очигледно је постигао овај циљ: нека поређења кажу да Спарк ради до 10 пута брже од Хадооп-а када ради на диску и 100 пута брже ради у меморији. Такође је потребан мањи број машина за обраду исте количине података.

Поред брзине, још једна предност Спарк-а је његова подршка за обраду стрима. Ова врста обраде података, која се назива и обрада у реалном времену, укључује континуирани унос и излаз података.

Алати за визуелизацију

Уобичајена шала између научника података каже да, ако довољно дуго мучите податке, признаћете шта треба да знате. У овом случају, „мучење“ значи манипулисање подацима трансформисањем и филтрирањем, како би се боље визуелизовали. И ту на сцену долазе алати за визуелизацију података. Ови алати узимају претходно обрађене податке из више извора и показују њихове откривене истине у графичким, разумљивим облицима.

Постоје стотине алата који спадају у ову категорију. Свиђало вам се то или не, најчешће се користи Мицрософт Екцел и његови алати за цртање. Екцел графикони су доступни свима који користе Екцел, али имају ограничену функционалност. Исто важи и за друге апликације за табеле, као што су Гоогле Схеетс и Либре Оффице. Али овде говоримо о специфичнијим алатима, посебно прилагођеним за пословну интелигенцију (БИ) и анализу података.

Повер БИ

Не тако давно, Мицрософт је објавио свој Повер БИ апликација за визуелизацију. Може да узима податке из различитих извора, као што су текстуалне датотеке, базе података, табеле и многе онлајн сервисе података, укључујући Фацебоок и Твитер, и да их користи за генерисање контролних табли препуних графикона, табела, мапа и многих других објеката визуелизације. Објекти контролне табле су интерактивни, што значи да можете да кликнете на серију података у графикону да бисте је изабрали и користили као филтер за друге објекте на табли.

  Како дискретно гледати Нетфлик на послу

Повер БИ је комбинација Виндовс десктоп апликације (део Оффице 365 пакета), веб апликације и онлајн услуге за објављивање контролних табли на вебу и њихово дељење са корисницима. Услуга вам омогућава да креирате и управљате дозволама за одобравање приступа плочама само одређеним људима.

Таблеау

Таблеау је још једна опција за креирање интерактивних контролних табли из комбинације више извора података. Такође нуди верзију за десктоп, веб верзију и онлајн услугу за дељење контролних табли које креирате. Функционише природно „са начином на који размишљате“ (како се тврди), и једноставан је за употребу за нетехничаре, што је побољшано кроз мноштво туторијала и видео снимака на мрежи.

Неке од најистакнутијих карактеристика Таблеау-а су неограничени конектори за пренос података, подаци уживо и у меморији, и дизајн оптимизован за мобилне уређаје.

КликВиев

КликВиев нуди чист и једноставан кориснички интерфејс који помаже аналитичарима да открију нове увиде из постојећих података кроз визуелне елементе који су свима лако разумљиви.

Овај алат је познат по томе што је једна од најфлексибилнијих платформи за пословну интелигенцију. Пружа функцију под називом Асоцијативна претрага, која вам помаже да се фокусирате на најважније податке, штедећи вам време потребно да их сами пронађете.

Са КликВиев-ом, можете сарађивати са партнерима у реалном времену, радећи упоредну анализу. Сви релевантни подаци се могу комбиновати у једну апликацију, са безбедносним функцијама које ограничавају приступ подацима.

Алати за стругање

У временима када се интернет тек појављивао, веб претраживачи су почели да путују заједно са мрежама прикупљајући информације на њиховом путу. Како је технологија еволуирала, термин веб индексирање се променио за веб скрапинг, али и даље значи исто: да се аутоматски извлаче информације са веб локација. Да бисте извршили веб скрапинг, користите аутоматизоване процесе или ботове који скачу са једне веб странице на другу, извлаче податке из њих и извозе их у различите формате или убацују у базе података ради даље анализе.

У наставку сумирамо карактеристике три од најпопуларнијих веб стругача доступних данас.

Оцтопарсе

Оцтопарсе веб стругач нуди неке занимљиве карактеристике, укључујући уграђене алате за добијање информација са веб локација које не олакшавају ботовима за стругање да раде свој посао. То је десктоп апликација која не захтева кодирање, са корисничким корисничким интерфејсом који омогућава визуелизацију процеса екстракције кроз графички дизајнер тока посла.

Заједно са самосталном апликацијом, Оцтопарсе нуди услугу засновану на облаку за убрзавање процеса екстракције података. Корисници могу искусити повећање брзине од 4к до 10к када користе услугу у облаку уместо десктоп апликације. Ако се држите десктоп верзије, Оцтопарсе можете користити бесплатно. Али ако више волите да користите услугу у облаку, мораћете да изаберете један од њених плаћених планова.

Цонтент Граббер

Ако тражите алат за стругање богат функцијама, требало би да ставите око Цонтент Граббер. За разлику од Оцтопарсе-а, да бисте користили Цонтент Граббер, потребно је имати напредне вештине програмирања. У замену добијате уређивање скриптова, интерфејсе за отклањање грешака и друге напредне функционалности. Уз Цонтент Граббер, можете користити .Нет језике за писање регуларних израза. На овај начин, не морате да генеришете изразе користећи уграђени алат.

Алат нуди АПИ (Апликацијски програмски интерфејс) који можете да користите да додате могућности гребања вашим десктоп и веб апликацијама. Да би користили овај АПИ, програмери морају да добију приступ Виндовс услузи Цонтент Граббер.

ПарсеХуб

Овај стругач може да обрађује опсежну листу различитих типова садржаја, укључујући форуме, угнежђене коментаре, календаре и мапе. Такође може да се бави страницама које садрже аутентификацију, Јавасцрипт, Ајак и још много тога. ПарсеХуб се може користити као веб апликација или десктоп апликација која може да ради на Виндовс, мацОС Кс и Линук.

Као и Цонтент Граббер, препоручује се да имате одређено знање о програмирању да бисте максимално искористили ПарсеХуб. Има бесплатну верзију, ограничену на 5 пројеката и 200 страница по покретању.

Програмски језици

Баш као што је претходно поменути СКЛ језик дизајниран посебно за рад са релационим базама података, постоје и други језици креирани са јасним фокусом на науку о подацима. Ови језици омогућавају програмерима да пишу програме који се баве масивном анализом података, као што су статистика и машинско учење.

  Шта је сервер без главе?

СКЛ се такође сматра важном вештином коју би програмери требало да имају у науци о подацима, али то је зато што већина организација још увек има много података о релационим базама података. „Прави“ језици науке о подацима су Р и Питхон.

Питхон

Питхон је програмски језик високог нивоа, интерпретиран, опште намене, веома погодан за брз развој апликација. Има једноставну и лаку за учење синтаксу која омогућава стрму криву учења и смањење трошкова одржавања програма. Постоји много разлога зашто је то преферирани језик за науку о подацима. Да поменемо неке: потенцијал скриптовања, опширност, преносивост и перформансе.

Овај језик је добра полазна тачка за научнике који планирају много да експериментишу пре него што ускоче у стварни и напорни рад на прикупљању података и који желе да развију комплетне апликације.

Р

Тхе Р језик се углавном користи за статистичку обраду података и графички приказ. Иако није намењен за развој пуноправних апликација, као што би био случај за Питхон, Р је постао веома популаран последњих година због свог потенцијала за рударење података и аналитику података.

Захваљујући стално растућој библиотеци бесплатно доступних пакета који проширују његову функционалност, Р је способан да обавља све врсте рада на прикупљању података, укључујући линеарно/нелинеарно моделирање, класификацију, статистичке тестове итд.

Није лак за учење, али када се упознате са његовом филозофијом, бавићете се статистичким рачунарством као професионалац.

ИДЕ

Ако озбиљно размишљате да се посветите науци о подацима, онда ћете морати пажљиво да изаберете интегрисано развојно окружење (ИДЕ) које одговара вашим потребама, јер ћете ви и ваш ИДЕ провести доста времена радећи заједно.

Идеалан ИДЕ би требало да састави све алате који су вам потребни у свакодневном раду као кодер: уређивач текста са истицањем синтаксе и аутоматским довршавањем, моћан програм за отклањање грешака, претраживач објеката и лак приступ спољним алатима. Осим тога, мора бити компатибилан са језиком који желите, тако да је добра идеја да одаберете свој ИДЕ након што знате који језик ћете користити.

Спидер

Ово генерички ИДЕ је углавном намењен научницима и аналитичарима који такође морају да кодирају. Да би били удобни, не ограничава се на ИДЕ функционалност – такође пружа алате за истраживање/визуелизацију података и интерактивно извршавање, као што се може наћи на научном пакету. Уређивач у Спидер-у подржава више језика и додаје претраживач класа, раздвајање прозора, прелазак на дефиницију, аутоматско довршавање кода, па чак и алат за анализу кода.

Програм за отклањање грешака вам помаже да интерактивно пратите сваку линију кода, а профилатор вам помаже да пронађете и елиминишете неефикасност.

ПиЦхарм

Ако програмирате у Питхон-у, велике су шансе да ће ваш ИДЕ бити избор ПиЦхарм. Има паметни уређивач кода са паметном претрагом, довршавањем кода и откривањем и исправљањем грешака. Са само једним кликом, можете да пређете са уређивача кода на било који прозор везан за контекст, укључујући тест, супер метод, имплементацију, декларацију и још много тога. ПиЦхарм подржава Анацонда и многе научне пакете, као што су НумПи и Матплотлиб, да наведемо само два од њих.

Нуди интеграцију са најважнијим системима за контролу верзија, као и са пробним тркачем, профилером и дебагером. Да би се закључио уговор, он се такође интегрише са Доцкер-ом и Вагрантом како би се обезбедио развој на више платформи и контејнеризација.

РСтудио

За оне научнике података који преферирају Р тим, ИДЕ би требао бити избор РСтудио, због многих карактеристика. Можете га инсталирати на радну површину са оперативним системом Виндовс, мацОС или Линук, или можете да га покренете из веб прегледача ако не желите да га инсталирате локално. Обе верзије нуде погодности као што су истицање синтаксе, паметно увлачење и довршавање кода. Постоји интегрисани прегледник података који је згодан када треба да претражујете табеларне податке.

Режим за отклањање грешака омогућава да видите како се подаци динамички ажурирају када се програм или скрипта извршавају корак по корак. За контролу верзија, РСтудио интегрише подршку за СВН и Гит. Леп плус је могућност креирања интерактивне графике, са Схини-ом и библиотекама.

Ваша лична кутија са алатима

У овом тренутку, требало би да имате потпуни увид у алате које треба да знате да бисте били успешни у науци о подацима. Такође, надамо се да смо вам дали довољно информација да одлучите која је опција најпогоднија у оквиру сваке категорије алата. Сада је на вама. Наука о подацима је поље које цвета развијати каријеру. Али ако то желите, морате пратити промене у трендовима и технологијама, јер се оне дешавају скоро свакодневно.