Шта је Азуре СКЛ складиште података?

Microsoft je unapredio svoje Azure usluge u cloud rešenja za preduzeća, koja sada uključuju najmodernije funkcije poput upravljanja podacima i analitike.

Kada je Microsoft odlučio da se posveti cloud tehnologiji, pokrenuo je Azure SQL Data Warehouse. Microsoft snažno promoviše Azure SQL Data Warehouse, nudeći fleksibilnu uslugu upravljanja bazama podataka koja kombinuje elastične karakteristike skladišta podataka.

Šta je Azure SQL Data Warehouse?

Azure SQL Data Warehouse (sada poznat kao Azure Synapse Dedicated SQL Pool) je skladište podataka u oblaku koje omogućava kreiranje i isporuku skladišta podataka na Microsoft Azure platformi. Azure Data Warehouse je sposoban za obradu velikih količina relacijskih i nerelacijskih podataka, pružajući kako mogućnosti SQL skladišta podataka, tako i platformu za cloud računarstvo.

Ova usluga nativno podržava SQL servere i omogućava migraciju postojećih SQL servera u SQL Data Warehouse. Takođe, korisnici mogu koristiti iste upite i strukture. Pored toga, pretplatnici imaju trenutni pristup skaliranju, pauziranju i smanjivanju resursa svog skladišta podataka.

Koristi se za pružanje sveobuhvatnog rešenja za skladištenje podataka zasnovanog na SQL-u za preduzeća. Takođe se može koristiti u sledeće svrhe:

  • Migracija postojećih (lokalnih) skladišta podataka u oblak
  • Pružanje rešenja za skladištenje podataka za aplikacije i usluge koje zahtevaju skladištenje i preuzimanje podataka tokom rada – na primer, veb aplikacije.
  • Hibridno rešenje za skladištenje podataka koje se povezuje sa skladištima podataka hostovanim u Azure-u i lokalnim SQL serverima.

Najveća prednost Azure SQL Data Warehouse-a je njegova elastična priroda. On omogućava skalabilnost i odvojeno upravljanje resursima za skladištenje i računarstvo. To je platforma koja donosi obostranu korist, jer korisnici plaćaju samo ono što koriste i kada to koriste.

Računarska strana Azure SQL Data Warehouse-a bazirana je na jedinici skladišta podataka (DWU), koja prati računske resurse kao što su ulaz/izlaz za skladištenje i memorija u svim računarskim čvorovima.

Azure SQL Data Warehouse nudi funkciju bezbednosti veze. To vam omogućava da ograničite pristup određenim IP adresama ili IP opsezima putem pravila zaštitnog zida. Integracija sa Azure Active Directory autentifikacijom (AAD) omogućava povezivanje sa Azure SQL Data Warehouse-om koristeći identitete iz Azure AD.

Višeslojno šifrovanje pruža zaštitu u mirovanju, tokom prenosa i u upotrebi kako bi se osigurala zaštita podataka od zloupotrebe. Dostupni su i dodatni alati za reviziju i praćenje podataka, kao i za identifikaciju narušavanja sigurnosti.

U kombinaciji sa drugim Microsoft alatima, Azure SQL Data Warehouse nudi performanse bez premca, što predstavlja značajnu prednost u odnosu na druge slične usluge na tržištu.

Azure Synapse Dedicated SQL Pool

Azure Synapse Dedicated SQL Pool (ranije Azure SQL Data Warehouse) je masivna baza podataka za paralelnu obradu, slična tehnologijama baza podataka zasnovanim na kolonama, kao što su Snowflake i Amazon Redshift. Krajnjem korisniku se čini kao tradicionalni SQL Server, ali podaci se ne skladište i ne obrađuju na jednom čvoru.

Ovo može značajno poboljšati performanse skladišta podataka koje su veće od nekoliko terabajta, ali mogu postojati bolja rešenja za manje implementacije.

Osnovna arhitektura se značajno razlikuje od tradicionalnih SQL servera, što znači da su sintaksa i metode razvoja takođe različite.

Distribucije se mapiraju na računske čvorove u namenskom SQL skupu. Grupa premapira distribucije na računske čvorove kada se kupuju dodatni računski resursi.

Velike količine podataka se mogu uvesti putem jednostavnih PolyBase SQL upita, a zatim se distribuirani mehanizam upita može koristiti za analitiku visokih performansi.

Namenski SQL skup, ranije poznat kao SQL DW, pružaće vašem preduzeću jedinstven izvor istine koji omogućava bržu integraciju i analizu podataka, kao i bolje uvide.

Koja je razlika između Azure Synapse namenskih SQL skupova i namenskih SQL skupova u radnom prostoru Azure Synapse Analytics?

PowerShell predstavlja jedno od najkomplikovanijih područja u dokumentaciji kada se radi o razlikama između „namenskog SQL skupa (ranije SQLDW) i „Synapse Analytics“ namenskih SQL skupova.

Prvobitna implementacija SQL DW-a koristila je logički server sličan Azure SQL DB-u. PowerShell modul pod nazivom Az.Sql se deli.

Ovaj modul kreira novi SQL skup (ranije SQLDW) pomoću cmdlet-a New-AzSqlDatabase. On sadrži parametar „Edition“ koji vam omogućava da odredite da želite DataWarehouse.

Synapse Analytics je prilikom svog prvog objavljivanja došao sa novim PowerShell modulom iz Az.Synapse-a. Za kreiranje namenskog SQL skupa u radnom prostoru Synapse Analytics, koristili biste New-AzSynapseSqlPool.

Ovaj PowerShell modul ne zahteva uključivanje parametra „Edition“, jer se koristi isključivo za Synapse artefakte.

Namenski SQL skup pruža T-SQL zasnovano računanje i skladištenje. Podaci se mogu učitavati, modelirati i obrađivati u Synapse-u kako bi se obezbedili brži uvidi.

Azure Synapse nudi SQL skupove bez servera i Apache Spark, pored namenskih SQL skupova. Možete odabrati odgovarajući skup u zavisnosti od vaših zahteva.
SQL skup bez servera omogućava postavljanje upita nad podacima koji su uskladišteni u vašem jezeru podataka.

Šta radi Azure Synapse Dedicated SQL Pool?

Azure Synapse namenski SQL skup koristi arhitekturu sa skaliranjem za distribuciju obrade podataka na više čvorova. Računanje se može skalirati nezavisno od skladišta, jer se računanje razlikuje od skladišta.

SQL skupovi bez servera su bez servera i automatski se skaliraju kako bi zadovoljili zahteve resursa upita. Prilagođava se promenljivim topologijama dodavanjem, uklanjanjem ili preusmeravanjem preko čvorova. Na taj način se osigurava da upit ima dovoljno resursa i da može biti uspešno izvršen.

Synapse SQL se bazira na arhitekturi zasnovanoj na čvorovima. Synapse SQL koristi arhitekturu zasnovanu na čvorovima. Aplikacije se mogu povezati na kontrolni čvor i izdavati T-SQL komande. To je jedina tačka za Synapse SQL.

Azure Synapse SQL kontrolni čvorovi koriste mehanizam distribuiranih upita koji optimizuje upite za paralelnu obradu, a zatim prosleđuje operacije računskim čvorovima kako bi oni mogli istovremeno obavljati svoj posao.

Kontrolni čvor SQL skupa bez servera koristi mašinu za distribuiranu obradu upita (DQP), da optimizuje i organizuje distribuirano izvršavanje.

To se postiže deljenjem korisničkog upita na manje upite koji se mogu izvršiti na računskim čvorovima. Svaki zadatak predstavlja distribuiranu izvršnu jedinicu. On preuzima podatke iz drugih zadataka, grupiše datoteke i čita ih iz skladišta.

Računski čvorovi čuvaju sve korisničke podatke i izvršavaju paralelne upite. Data Movement Service (DMS), interna usluga na nivou sistema, premešta podatke između čvorova kako bi omogućila paralelne upite i vratila tačne rezultate.

Synapse SQL koristi Azure Storage za sigurnost korisničkih podataka. Azure Storage čuva i upravlja vašim podacima. Postoji posebna naknada za korišćenje skladišta.

Karakteristike Azure Synapse namenskih SQL skupova

Evo glavnih karakteristika Azure Synapse SQL skupova:

  • Možete pretraživati podatke u različitim formatima kao što su Parquet, JSON i CSV u jezeru podataka.
  • Korisnici mogu videti najnovije podatke koristeći relacijsku apstrakciju.
  • T-SQL omogućava transformaciju podataka u jezeru na jednostavan i skalabilan način.
  • Naučnici podataka mogu brzo ispitati strukturu i sadržaj podataka o jezeru koristeći OPENROWSET ili funkcije za automatsko zaključivanje šeme.
  • Inženjeri podataka mogu koristiti skup za istraživanje jezera i transformaciju, kreiranje ili pojednostavljivanje svojih kanala za transformaciju podataka.
  • Analitičari podataka mogu pristupiti podacima i pokretati spoljne tabele putem T-SQL jezika i drugih poznatih alata. Ovi alati se takođe mogu povezati sa SQL skupom bez servera.
  • Trenutno generišete BI izveštaje profesionalaca za poslovnu inteligenciju putem Spark tabela ili jezera podataka.

Namenski SQL skup vs. SQL skup bez servera

SQL skup bez servera

Azure Synapse radni prostori imaju SQL skup bez servera koji funkcioniše kao usluga upita nad jezerom podataka. Ne zahteva dodatnu konfiguraciju za pristup podacima. Potpuno je bez servera i ne zahteva infrastrukturu za postavljanje ili održavanje.

Skaliranje se može izvršiti automatski kako bi se zadovoljili zahtevi za resursima. Korisnik plaća samo za obrađene podatke, a ne za rezervisane resurse. SQL skup bez servera takođe kreira statistiku za optimizaciju izvršavanja upita.

Na primer, kada dvaput pokrenemo isti upit ili dva upita sa sličnim planovima izvršavanja, ova statistika se može ponovo koristiti.
Ove funkcije omogućavaju brzu analizu velikih količina podataka bez kopiranja ili učitavanja u određenu memoriju.

Namenski SQL skup

Synapse namenski SQL skup je naslednik Azure SQL Data Warehouse-a i nudi sve funkcije za skladištenje podataka za preduzeća. Međutim, ne postoji SQL skup bez servera. Umesto toga, korisnici moraju da kreiraju i brišu Synapse namenski SQL skup. Takođe, možemo odabrati resurse koje ćemo koristiti.

Ovi resursi se mere korišćenjem Synapse-ovih namenskih SQL skupova. Oni se nazivaju jedinicama skladišta podataka (DWU). DWU se odnosi na kombinaciju CPU, memorije i I/O resursa.

Broj DWU-a određuje performanse i troškove skupa. Umesto da budemo naplaćeni po upitu, biće nam naplaćeno svaki put kada je skup aktivan, bez obzira na obim posla koji je obavio.

Da bi se izbegli dodatni troškovi, namenski skupovi se mogu zaustaviti i ponovo pokrenuti. Za naš test smo napravili namenski SQL skup sa 100 DWU.

Nakon kreiranja skupa, podaci se mogu učitati u njega pomoću naredbe COPY, PolyBase sa T–SQL upitima ili cevovodima. Ovi podaci će biti uskladišteni u kolonskom skladištu u relacijskim tabelama.

Namenski SQL Pool Serverless SQL Pool
Omogućava ispitivanje jezera podataka i unošenje podataka. Korisnici mogu postavljati upite datotekama jezera podataka.
Zahteva infrastrukturu. Nije potrebno uspostavljati infrastrukturu ili održavati klastere.
Pre nego što se bilo koja operacija može obaviti, potrebno je nabaviti namenske servere. Nije potrebna infrastruktura za transformaciju podataka ili istraživanje.
Relacijske tabele se koriste za skladištenje podataka. Data Lake skladišti podatke.
Troškovima se može upravljati pauziranjem SQL skupa i smanjivanjem skladišta. Troškovi se obrađuju automatski i fakturišu se prema modelu plaćanja po zahtevu.
Rezervisani resursi podležu troškovima. Troškovi obrade podataka po upitu se naplaćuju.
Plaćanje po obezbeđenom DWU. Plaćanje po TB obrađeno.

Zaključak

Dakle, to je bilo sve o Azure SQL Data Warehouse-u (sada poznatom kao Azure Synapse Dedicated SQL Pool). Iako namenski SQL skup iz mnogo uglova može izgledati slično tradicionalnom SQL Serveru, osnovna arhitektura (masivna paralelna obrada) je potpuno drugačija. To znači da se određeni koncepti i tehnike primenjuju isključivo na namenski SQL skup.

Takođe, možete istražiti razlike između jezera podataka i skladišta podataka.