Potraga za odgovarajućim setovima podataka može biti prilično zahtevna, posebno kada su vam potrebni za projekte mašinskog učenja (ML) i nauke o podacima. Mi olakšavamo vaše istraživanje, pružajući vam sveobuhvatnu listu besplatnih setova podataka.
Setovi podataka su, jednostavno rečeno, zbirke podataka. Mogu obuhvatati finansijske, zdravstvene, berzanske, bankarske podatke, geografske informacije, podatke iz naučnih istraživanja čestica, ocene proizvoda na e-trgovinskim sajtovima i slično.
Ovi setovi podataka sadrže informacije prikupljene po standardima naučnih istraživanja i ključni su za dalju vizualizaciju, analizu, predviđanje i druge obrade. S obzirom na to da su podaci poput sirove nafte u digitalnom svetu, setovi podataka postaju sve komercijalniji i teže dostupni.
Nastavite čitati kako biste razumeli osnove o setovima podataka. Takođe ćete otkriti razne setove podataka otvorenog koda koje možete besplatno koristiti za vaše projekte mašinskog učenja ili nauke o podacima.
Šta su setovi podataka?
Setovi podataka predstavljaju kolekcije podataka u strukturiranom i organizovanom formatu. Obično se setovi podataka povezuju sa specifičnim izvorima, kao što su otvoreni podaci Svetske banke.
Pored toga, sakupljači podataka čuvaju tematski specifične setove, poput podataka o popisu stanovništva Sjedinjenih Američkih Država iz 2020. godine, koje objavljuje Biro za popis stanovništva SAD.
Možete pronaći brojne setove podataka koji se odnose na globalna i lokalna pitanja. Većina setova sadrži međusobno povezane tačke podataka. Na primer, broj stanovnika neke zemlje i kako gojaznost korelira sa različitim društvenim klasama te populacije.
Stručnjaci za analizu podataka često moraju da čiste, restrukturiraju i obrade takve setove podataka koristeći alate za obradu velikih podataka kako bi došli do korisnih zaključaka. To uključuje smanjenje plastičnog otpada analizom podataka o upotrebi plastike, rešavanje problema radne snage analizom podataka o platama, obučavanje veštačke inteligencije (AI) i slično.
Tipovi setova podataka
U zavisnosti od izvora, setovi podataka mogu biti javni ili privatni. Javni setovi podataka su dostupni svima i značajno doprinose istraživanju i razvoju.
Setovi podataka se takođe mogu klasifikovati prema informacijama koje sadrže:
- Multivarijantni: Ovi setovi sadrže više promenljivih.
- Kategorični: Prikazuju različite kategorije ljudi.
- Numerički: Ovi setovi podataka mere informacije u brojevima, kao što su godine, visina itd.
- Korelativni: U ovom tipu, tačke podataka su međusobno povezane.
- Zasnovani na fajlovima: Podaci se čuvaju u fajlovima.
- Bivarijantni: Set podataka sa dve promenljive i njihovim međusobnim odnosom.
- Veb skup podataka: Podaci prikupljeni sa jednog ili više veb portala.
- Baza podataka: Ovi skupovi podataka čuvaju informacije u tabelama, kolonama i redovima.
Setovi podataka otvorenog koda za projekte nauke o podacima
Besplatni setovi podataka su gorivo koje pokreće vašu strast za karijeru u oblasti nauke o podacima. Ako ste na početku karijere, možda želite da se posvetite ličnim i nekomercijalnim projektima kako biste stekli samopouzdanje i izgradili svoj portfolio.
Pre svega, možete lako testirati svoje novostečene veštine primenom alata i tehnika na stvarne probleme iz setova podataka.
Na primer, besplatno su dostupni podaci o istraživanju raka, podaci o Covid-19, podaci o krivičnim evidencijama FBI-a, podaci o analizi čestica iz CERN-a, itd. Ove podatke možete koristiti za izgradnju modela nauke o podacima kako biste odgovorili na ključna društvena, finansijska i zdravstvena pitanja.
Drugo, takvi projekti značajno poboljšavaju vaš portfolio. Ako razvijete uspešan model analize podataka koji nudi primenljive uvide, možete ga prikazati na internetu kreiranjem veb stranica sa portfoliom. Poslodavci često više cene praktične projekte od formalnih izjava o namerama.
Besplatni skupovi podataka za projekte mašinskog učenja
Kao i stručnjaci za nauku o podacima, profesionalci u mašinskom učenju takođe moraju da rade na samostalnim projektima kako bi testirali svoje sposobnosti. Uspešan projekat postaje vredan dodatak vašem online ili offline portfoliju ML projekata.
Sada razumete da su nauka o podacima i razvoj ML-a zavisni od strukturiranih setova podataka. Ako bi takvi setovi bili previše komercijalizovani, istraživanje i razvoj u oblasti nauke o podacima bi postali isključivo korporativni.
Kako bi istraživanje u oblasti mašinskog učenja ostalo otvoreno svima, sledeće agencije, institucije i platforme nude besplatne setove podataka:
Data.gov
Ovde možete pronaći sve otvorene podatke koje prikuplja i obrađuje američka vlada. Data.gov takođe nudi resurse i alate za sprovođenje istraživanja, dizajniranje vizualizacija podataka, razvoj mobilnih i veb aplikacija.
Značajni setovi podataka uključuju informacije o održivom korišćenju zemljišta, stambenim objektima u ruralnim područjima i unutrašnjim elektronskim navigacionim mapama.
Otvoreni skupovi podataka: Kaggle
Kaggle nudi ogroman broj javnih podataka i programskog koda za projekte nauke o podacima. Možete birati između setova podataka za neobrađene podatke i koda za programske kodove. Popularni setovi podataka na Kaggle-u uključuju AMEX podatke, podatke o gledanosti Simpsonovih, podatke za obuku chat-botova itd.
Skupovi podataka o segmentima: YouTube 8-M
Setovi podataka segmenta sa YouTube 8-M nude vam anotacije segmenata koje su verifikovali ljudski recenzenti. Takođe možete pristupiti setu podataka YouTube-8M sa istog portala. Ovaj set podataka obuhvata 6,1 milion video ID-ova, 350.000 sati videa, 2,6 milijardi audio/vizuelnih funkcija, 3863 video klase i prosečno 3,0 oznake po video snimku.
Registar otvorenih podataka na AWS-u
ROD na AWS-u pomaže stručnjacima za nauku o podacima da dele i otkrivaju setove podataka koji se nalaze na AWS resursima. Značajni setovi podataka koje ovde možete pronaći uključuju Atlas genoma raka, FoldingtHome COVID-19 skupove podataka, Common Crawl itd.
Repozitorijum mašinskog učenja: UCI
UCI Repozitorijum mašinskog učenja trenutno održava 622 seta podataka koji su pogodni za stručnjake za analizu podataka i ML inženjere za obuku AI modela. Takođe postoji interfejs za pretragu baza podataka. Popularni skupovi podataka uključuju skup podataka akcelerometra, skup podataka sinhronih mašina, Wikipedia Math Essentials, skup podataka turskih naslova itd.
BigQuery javni skupovi podataka: Google Cloud
Mnogi javni skupovi podataka se čuvaju na BigQuery-u. Google omogućava besplatan pristup ovim skupovima podataka putem programa Google Cloud Public Dataset. Međutim, besplatni upit ima ograničenje od 1 TB mesečno. Možete izvršavati standardne i stare SQL upite.
Izvanredni javni skupovi podataka: GitHub
Izvanredni javni skupovi podataka su zbirka podataka otvorenog koda koja sadrži javne informacije razvrstane po temama. Podaci su prikupljeni iz raznih blogova, odgovora i povratnih informacija korisnika, i obuhvataju besplatne i plaćene setove podataka iz oblasti fizike, sporta, softvera, obrade prirodnog jezika i mašinskog učenja.
Podaci Svetske banke
Otvoreni podaci Svetske banke su platforma koja nudi besplatan pristup podacima o globalnom razvoju. Takođe nudi i druge vredne resurse, kao što su unapred formatirane tabele i izveštaji. Možete lako pretraživati po zemlji ili indikatoru kako biste pronašli željene setove podataka.
FiveThirtyEight: Podaci
FiveThirtyEight je američka veb stranica koja se bavi analizom javnog mnjenja, politikom, ekonomijom i sportom. Možete pristupiti njihovim anketama i predviđanjima putem skupova podataka koji su dostupni na njihovoj platformi. Skupove podataka možete preuzeti jednim klikom.
ImageNet
ImageNet je baza podataka slika gde istraživači širom sveta mogu pronaći setove podataka otvorenog koda za svoje nekomercijalne projekte. Slike su organizovane prema WordNet hijerarhiji. Ovaj projekat igra ključnu ulogu u istraživanju dubokog učenja na naprednom nivou.
Arhiva skupova podataka: UNICEF DATA
Kroz Arhivu skupova podataka možete pristupiti podacima koje je UNICEF prikupio širom sveta. Dostupni su podaci o migracijama, raseljavanju, ishrani, povezanosti, obrazovanju, zdravlju, učenju, smrtnosti, nasilju, razvoju u detinjstvu, dečijim brakovima, dečijem radu i raznim statistikama.
Pronađite otvorene podatke: Vlada UK
Ako su vam za projekat potrebni podaci koje objavljuju lokalne vlasti i centralna vlada Ujedinjenog Kraljevstva, Find Open Data je portal koji treba da posetite. Pokriva vladinu potrošnju, poslovanje, zdravstvo, obrazovanje, odbranu i druge setove podataka.
Podaci: Biro za popis stanovništva Sjedinjenih Država
Da li su vam potrebni podaci iz popisa stanovništva SAD za relevantan projekat? Možete potražiti pomoć od USCB Data. Ovde možete istraživati podatke iz popisa 2020., tabele, mape i profile podataka dok vizualizujete informacije i koristite alate za obradu podataka.
Podaci i statistika: CDC
Federalna agencija Sjedinjenih Država, Centri za kontrolu i prevenciju bolesti, takođe nudi besplatne setove podataka javnosti putem ovog portala. Teme skupova podataka uključuju zdravlje životne sredine, hronične bolesti, rođenja i natalitet, smrt i mortalitet, očekivani životni vek, povrede i nasilje, reproduktivno zdravlje, bolesti koje se prijavljuju na nacionalnom nivou itd.
Skupovi podataka: MIT
Ovaj skup podataka fokusira se na podatke o vibracijama koje izazivaju vrtlozi. Centar za okeansko inženjerstvo na MIT-u ima nekoliko javno dostupnih skupova podataka za proveru računalnog koda. Ovi setovi podataka su dostupni svima, podstičući nove teorije iz podataka i sinhronizovano istraživanje.
Katalog podataka Svetske banke
Katalog podataka prikuplja besplatne setove podataka koji olakšavaju pristup podacima Svetske banke o razvoju. Lako je koristiti ih u različitim projektima jer možete jednostavno pronaći i preuzeti željene informacije. Katalog sadrži više od 5000 setova podataka koji pokrivaju mikropodatke, finansije i energetske platforme Svetske banke.
NASA podaci o svemirskim naukama
NASA nudi pristup svojim arhivskim podacima putem Koordinirane arhive podataka svemirske nauke. Ova platforma je veoma korisna za širu javnost, posebno za one koji rade u oblasti obrazovanja i istraživanja svemira. Sadrži 400 TB digitalnih podataka sa informacijama o 550 svemirskih naučnih misija.
Preuzmite podatke: Inside Airbnb
Airbnb je globalno poznata onlajn platforma za smeštaj u kućama i odmor. Takođe nudi zbirke podataka za razne gradove širom sveta putem Get the Data. Možete pretražiti grad kako biste brzo pronašli potrebne podatke. Osim toga, možete zatražiti podatke koji su vam potrebni i pročitati pretpostavke o podacima.
Veb podaci: Amazon recenzije
Oni koji su zainteresovani za istraživanje tržišta i recenzije proizvoda mogu koristiti setove podataka koje pruža Snap Web Data. Sadrži više od 34 miliona korisničkih recenzija sa Amazona, od juna 1995. do marta 2013. Skup podataka uključuje običan tekst, informacije o proizvodu, korisničko ime, ocene i same recenzije.
Podaci MMF-a
Portal podataka MMF-a je dragocen za sve vrste ekonomskih i finansijskih podataka. Ovde možete pronaći finansijske podatke MMF-a, statistiku spoljnog sektora, vodeće publikacije i makroekonomske podatke. Možete koristiti filter da biste dobili podatke o određenoj zemlji.
N-grami Google knjiga
Ako radite na analizi govora i jezika, N-grami Google knjiga mogu vam značajno pomoći. Ovaj skup podataka otvorenog koda pruža uvid u upotrebu određene reči ili fraze kroz istoriju ili u određenom vremenskom periodu. Izvor podataka su digitalni dokumenti koje je indeksirao Google.
Tržišni podaci: The Financial Times
Ako vam trebaju pouzdani i tačni podaci o globalnim i regionalnim tržištima akcija, Markets Data od The Financial Times je platforma koju treba da pogledate. Omogućava rad sa tržišnim podacima iz Amerike, Azije i Pacifika, Evrope, Afrike i globalnog tržišta.
Podaci o Zemlji: NASA
NASA pruža potpun i otvoren pristup svojim naučnim podacima putem programa Earth Data koji vam pomaže da razumete našu planetu i razvijate projekte povezane s njom. Možete pronaći besplatne skupove podataka o atmosferi, biosferi, kriosferi, ljudskim dimenzijama, površini Zemlje, okeanu, čvrstom tlu, interakciji Sunca i Zemlje i kopnenoj hidrosferi.
Pretraga skupova podataka: Google
Ako ste student, istraživač ili stručnjak za analizu podataka koji traži skupove podataka za podršku vašem projektu, možete potražiti pomoć na portalu za pretragu skupova podataka. Možete ga posmatrati kao pretraživač skupova podataka jer vam omogućava da otkrijete setove koji se nalaze u različitim izvorima na vebu putem pretrage ključnim rečima.
Otvoreni podaci: CERN
Evropska istraživačka organizacija CERN ima portal otvorenih podataka putem kojeg možete pristupiti podacima dobijenim iz istraživanja u CERN-u. Ovaj portal sadrži dva petabajta podataka koji se odnose na fiziku čestica. Pored toga, dostupan je i softver i dokumentacija neophodna za analizu podataka.
Istraživač podataka o kriminalu: FBI
Crime Data Explorer (CDE) je skup podataka otvorenog koda od FBI-a koji omogućava lakši pristup razmeni podataka o kriminalu, ne-kriminalu i policijskim aktivnostima. Osim što vam omogućava da pronađete potrebne podatke kroz vizualizaciju i filtriranje kategorija, ova platforma vam omogućava i preuzimanje podataka u CSV formatu.
Završne reči
Do sada ste prošli kroz zaista iscrpnu listu visokokvalitetnih skupova podataka. Članak predstavlja podatke iz različitih oblasti, kao što su fizičke nauke, medicinska dokumentacija, istraživanje svemira, krivični dosijei, ocene proizvoda itd.
U zavisnosti od vašeg projekta u oblasti nauke o podacima ili mašinskog učenja, možete odabrati željene skupove podataka. Gotovo svi skupovi podataka imaju prateća uputstva koja će vam pomoći u vašem projektu.
Možda će vas zanimati i ovi resursi kako biste saznali više o nauci o podacima i mašinskom učenju.