26 одличних отворених скупова података за ваше пројекте науке о подацима/МЛ

Потрага за правим скуповима података може бити застрашујућа, посебно када су вам потребни за машинско учење (МЛ) и пројекте науке о подацима. Смањујемо ваше истраживачке напоре пружањем коначне листе бесплатних скупова података.

Скупови података су једноставно збирке података. То могу бити финансијски, здравствени подаци, подаци о берзи, подаци о банкама, географски подаци, подаци о научним истраживањима честица, оцене производа на сајту за е-трговину итд.

Скупови података садрже податке прикупљене путем стандарда научног истраживања и важни су за даљу визуелизацију, екстракцију, предвиђање, итд. Пошто су подаци еквивалентни сировој нафти у дигиталном универзуму, скупови података постају комерцијални и ретки.

Наставите да читате да бисте сазнали основе о скуповима података. Такође ћете открити неке скупове података отвореног кода који су заиста бесплатни за ваше пројекте машинског учења (МЛ) или науке о подацима.

Преглед садржаја

Шта су скупови података?

Скупови података су збирка података у структурираном и организованом контејнеру. Обично анкетари повезују скупове података са јединственим телом, на пример, отвореним подацима Светске банке.

Опет, сакупљачи података чувају скупове података специфичне за тему као што су подаци пописа становништва Сједињених Америчких Држава 2020. које је објавио Биро за попис становништва Сједињених Држава.

Пронаћи ћете многе скупове података о глобалним и локалним питањима. Већина скупова података садржи међусобно повезане тачке података. На пример, становништво једне земље и како се гојазност односи на различите класе ове популације.

Научници података ће можда морати да очисте, реструктурирају и обрађују такве скупове података користећи алате за велике податке да би дошли до вредних закључака као што је смањење пластичног отпада анализом података о употреби пластике, решавање проблема са радном снагом анализом података о платама, обучавање вештачке интелигенције (АИ) итд. на.

Типови скупова података

У зависности од извора скупова података, они могу бити јавни или приватни. Јавни скупови података су отворени за све и много доприносе истраживању и развоју.

Опет, скупови података могу бити следећих типова у зависности од информација садржаних у њима:

  • Мултиваријантни: Такви подаци садрже више променљивих.
  • Категоричан: Приказује многе категорије људи.
  • Нумерички: Такви скупови података мере податке у бројевима као што су старост, висина итд.
  • Корелација: У овом типу тачке података су међусобно повезане.
  • Засновано на фајловима: Овде се скупови података чувају у датотекама.
  • Биваријантна: Скуп података са две променљиве и односом међу њима.
  • Веб Датасет: Подаци прикупљени са једног или више сличних интернет портала.
  • База података: Такви скупови података чувају податке у табелама, колонама и редовима.
  Како да се ваш иПхоне поново осећа новим

Скупови података отвореног кода за пројекте науке о подацима

Бесплатни скупови података су гориво које покреће вашу страст за каријеру у области науке о подацима. Јер ако сте у раној фази своје каријере у области науке о подацима, можда бисте желели да преузмете личне и некомерцијалне пројекте за самопоуздање или изградњу портфеља.

Прво, можете лако да тестирате своје новонаучене вештине применом алата и техника на проблеме скупова података из стварног света.

На пример, постоје бесплатно доступни подаци о истраживању рака, подаци о Цовид-19, подаци о кривичним евиденцијама ФБИ, подаци о анализи честица из ЦЕРН-а, итд. Можете користити такве податке и изградити модел науке о подацима да бисте одговорили на витална друштвена, финансијска и здравствена питања .

Друго, такви пројекти раде као појачивачи портфолија за вашу каријеру. Ако можете да изградите успешан модел анализе података који може да понуди увиде који се могу применити, можете да прикажете те моделе на мрежи тако што ћете креирати веб-сајтове са портфолиом. Послодавци преферирају пројекте него изјаве о сврси.

Бесплатни скупови података за пројекте машинског учења

Попут стручњака за науку о подацима, професионалац за прање веша такође мора да ради на пројектима којима се самостално управља како би испитао своје вештине. Ако пројекат постане успешан, он такође постаје идеална компонента за ваш онлајн или офлајн портфолио МЛ пројеката.

Стога сада можете разумети да наука о подацима и раст МЛ зависе од структурираних скупова података. Ако би такви скупови података били превише комерцијализовани, истраживање и развој у области науке о подацима би постали потпуно корпоративни.

Да би истраживање МЛ у области науке о подацима остало отворено за све, следеће агенције, институције и платформе нуде бесплатне скупове података:

Дата.гов

Пронаћи ћете све отворене податке које прикупља и обрађује америчка влада. у Дата.гов. Платформа такође нуди ресурсе и алате за спровођење истраживања, дизајнирање визуелизације података, развој мобилних/веб апликација итд.

Његови значајни скупови података укључују податке о одрживом коришћењу земљишта, податке о руралним стамбеним објектима, унутрашње електронске навигационе карте итд.

Отворите скупове података: Каггле

Каггле нуди океан јавних података и компјутерских кодова за пројекте науке о подацима. Можете да изаберете Скупови података за необрађене податке и Код за програмске кодове. Скупови података у тренду на Каггле-у су АМЕКС подаци, Симпсонс Виеверсхип, подаци о обуци за чет-ботове итд.

Скупови података о сегментима: ИоуТубе 8-М

Скупови података сегмента са ИоуТубе 8-М нуде вам напомене о сегментима које су верификовали људски ревизори. Такође можете приступити скупу података ИоуТубе-8М са истог портала. Скуп података садржи 6,1 милион видео ИД-ова, 350.000 сати видеа, 2,6 милијарди аудио/визуелних функција, 3863 класе видео записа и у просеку 3.0 ознаке по видео запису.

Регистар отворених података на АВС-у

РОД он АВС помаже научницима података да деле и откривају скупове података који се налазе на АВС ресурсима. Неки занимљиви скупови података које можете пронаћи овде су Атлас генома рака, Фолдингатхоме ЦОВИД-19 скупови података, Цоммон Цравл, итд.

Репозиторијум машинског учења: УЦИ

УЦИ Репозиторијум машинског учења тренутно одржава 622 скупа података који су погодни за научнике података и МЛ инжењере да обуче своје АИ моделе. Такође, постоји интерфејс за претраживање за истраживање база података. Популарне атракције су скуп података акцелерометра, скуп података синхроне машине, Википедиа Матх Ессентиалс, скуп података турских наслова итд.

  Исправите грешку ИоуТубе мреже 503

БигКуери јавни скупови података: Гоогле Цлоуд

Многи јавни скупови података се чувају на БигКуери-ју. Гоогле чини скуп података доступним бесплатно кроз Гоогле Цлоуд Публиц Датасет Програм. Међутим, бесплатни упит има ограничење од 1 ТБ месечно. Можете изводити стандардне СКЛ и старе СКЛ упите.

Сјајни јавни скупови података: ГитХуб

Сјајни јавни скупови података су скуп података отвореног кода који садржи јавне податке усмерене на тему. Прикупљена и сортирана из различитих блогова, одговора и повратних информација корисника, комбинује бесплатне и плаћене скупове података о физици, спорту, софтверу, природном језику и машинском учењу.

Подаци Светске банке

Отворени подаци Светске банке су платформа на којој добијате бесплатан приступ подацима о глобалном развоју. Такође нуди и друге вредне ресурсе као што су унапред форматиране табеле и извештаји. Можете лако да претражујете по земљи или индикатору да бисте добили потребан скуп података.

ФивеТхиртиЕигхт: Подаци

ФивеТхиртиЕигхт је америчка веб страница која се бави анализом истраживања јавног мњења, политиком, економијом и спортом. Овим анкетама и прогнозама можете приступити преко скупова података са његове платформе. Можете преузети скупове података једним кликом.

ИмагеНет

ИмагеНет је база података слика из које истраживачи широм света могу добити скупове података отвореног кода за своје некомерцијалне пројекте. Овде су слике организоване на основу ВордНет хијерархије. Пројекат игра виталну улогу у истраживању дубоког учења на напредном нивоу.

Архива скупова података: УНИЦЕФ ДАТА

Користећи Архиве скупова података, можете доћи до скупова података које је прикупио УНИЦЕФ широм света. Овде су доступни подаци о миграцијама, расељењу, исхрани, повезаности, образовању, здрављу, учењу, морталитету, насиљу, развоју у детињству, дечјим браковима, дечијем раду и разне статистике.

Пронађите отворене податке: Говт. оф УК

Ако су вашем пројекту потребни подаци које објављују локална тела и централна влада Уједињеног Краљевства, Финд Опен Дата је портал који треба да проверите. Покрива државну потрошњу, пословање, здравство, образовање, одбрану и више скупова података.

Подаци: Биро за попис становништва Сједињених Држава

Да ли су вам потребни подаци америчког пописа за релевантан пројекат? Можете добити помоћ од УСЦБ Дата. Овде можете истражити податке пописа 2020., табеле, мапе и профиле података док визуализујете податке и користите алате за податке.

Подаци и статистика: ЦДЦ

Федерална агенција Сједињених Држава Центри за контролу и превенцију болести такође пружа бесплатне скупове података јавности за приступ подацима и статистици са овог портала. Теме скупа података су здравље животне средине, хроничне болести, рађање и наталитет, смрт и морталитет, очекивани животни век, повреде и насиље, репродуктивно здравље, болести које се могу пријавити на националном нивоу, итд.

Скупови података: МИТ

Овај скуп података се фокусира на податке о вибрацијама које изазивају вртлог. Центар за океанско инжењерство на МИТ-у има неке јавно доступне скупове података за бенцхмаркинг рачунарског кода. Скупови података су отворени за све да позову нове теорије из података и истраживаче синхронизације који раде у истој области.

  4 чворишта за паметне куће за која никада нисте чули (и зашто не бисте требали да их користите)

Каталог података Светске банке

Каталог података прикупља бесплатне скупове података који податке Светске банке у вези са развојем чине лако доступним. Коришћење у различитим пројектима је лако јер можете без напора пронаћи и преузети жељене информације. Садржи преко 5000 скупова података који покривају микроподатке, финансије и енергетске платформе Светске банке.

НАСА подаци о свемирским наукама

НАСА нуди приступ својим архивским подацима о Спаце Сциенце Дата Цоординатед Арцхиве. Ова платформа је од велике помоћи за ширу јавност, посебно за људе који раде у образовању и истраживању свемира. Има 400 ТБ дигиталних података који садрже информације о 550 свемирских наука.

Преузмите податке: Унутар Аирбнб-а

Аирбнб је глобално познато онлајн тржиште за смештај у кући и одмор за одмор. Такође нуди прикупљање података о разним градовима широм света из Гет тхе Дата. Можете претраживати град да бисте брзо добили податке. Штавише, на овом порталу можете затражити своје потребне податке и прочитати претпоставке података.

Веб подаци: Амазон рецензије

Они који су заинтересовани за истраживање тржишта и прегледе производа треба да користе скупове података које обезбеђује Снап Веб Дата. Садржи више од 34 милиона рецензија корисника на Амазону, од јуна 1995. до марта 2013. Скуп података садржи обичан текст, информације о производу, корисничко име, оцене и рецензију.

Подаци ММФ-а

Портал података ММФ-а је драгоцен за све врсте економских и финансијских података. Без обзира да ли тражите финансијске податке ММФ-а, статистику спољног сектора, водеће публикације или податке о микроекономији, овде их можете пронаћи. Штавише, можете користити филтер да бисте добили податке о земљи.

Нграми Гоогле књига

Ако радите на деловима говора и језика, Гоогле Боокс Нграмс вам могу значајно помоћи. Овај скуп података отвореног кода даје вам идеју о коришћењу одређене речи и фразе током историје или одређеног временског опсега. Извор овог скупа података су дигитални документи које је индексирао Гоогле.

Тржишни подаци: Тхе Финанциал Тимес

Ако желите да се дочепате поузданих и тачних података о глобалном и регионалном тржишту акција, Маркетс Дата од Тхе Финанциал Тимес-а је ту да вам помогне. Омогућава вам да радите са тржишним подацима из Америке, Азије и Пацифика, Европе, Африке и глобалног тржишта.

Подаци о Земљи: НАСА

НАСА пружа потпун и отворен приступ својим научним подацима преко програма Еартх Дата који вам помаже да разумете нашу матичну планету и са њом радите пројекте. Можете пронаћи бесплатне скупове података о атмосфери, биосфери, криосфери, људским димензијама, површини земље, океану, чврстој земљи, интеракцији Сунце-земља и копненој хидросфери.

Претрага скупова података: Гоогле

Ако сте студент, истраживач или научник података који тражите скупове података за подршку вашем пројекту, можете потражити помоћ са портала за претрагу скупова података. Можете га назвати претраживачем скупова података јер вам омогућава да откријете скупове података који се налазе у различитим извештајима широм веба путем претраге по кључним речима.

Отворени подаци: ЦЕРН

Европска истраживачка организација ЦЕРН има портал отворених података који можете користити за приступ подацима генерисаним истраживањем у ЦЕРН-у. Овај портал скупа података садржи два петабајта података који се односе на физику честица. Штавише, долази са апликацијама и документацијом која је потребна за анализу података.

Истраживач података о криминалу: ФБИ

Цриме Дата Екплорер (ЦДЕ) је скуп података отвореног кода из ФБИ-а који има за циљ да омогући лакши приступ размјени података о криминалу, не-криминалности и полицији. Осим што вам омогућава да откријете потребне податке кроз визуелизацију и филтрирање категорија, ова платформа вам омогућава преузимање података у ЦСВ формату.

Завршне речи

До сада сте прошли кроз заиста исцрпну листу скупова података високог квалитета. Чланак представља податке из различитих ниша као што су физичке науке, медицински картони, истраживање свемира, кривични досијеи, оцене производа итд.

У зависности од пројекта науке о подацима или машинског учења који планирате, можете изабрати свој избор. Скоро сви скупови података такође имају одговарајућа упутства која ће вам помоћи у вашем пројекту.

Можда ћете бити заинтересовани и за ове ресурсе да бисте научили науку о подацима и МЛ.