Aplikacije koje omogućavaju identifikaciju muzike deluju gotovo magično, ali iza tog intuitivnog interfejsa krije se složen algoritam koji omogućava pronalaženje pesama u trenutku. Hajde da istražimo kako one zapravo funkcionišu.
Muzička identifikacija – naizgled čarolija
Svi smo se verovatno našli u situaciji da smo, dok smo ručali u restoranu, opuštali se u kafiću ili šetali kroz prodavnicu, čuli sjajnu muziku. Možda je to bila pesma koju smo nekada slušali, ili nešto potpuno novo. U tom trenutku, uzimamo telefon, pokrećemo Shazam i držimo uređaj usmeren ka zvučniku. U samo nekoliko sekundi, aplikacija nam otkriva ime pesme, izvođača i gde je možemo slušati.
Ove aplikacije su brze, neverovatno precizne i sposobne su da prepoznaju čak i manje poznate numere. U osnovi, njihov rad se svodi na izolovanje pesme iz audio snimka i njeno upoređivanje sa ogromnom bazom podataka. Tehnologija koja stoji iza ovog procesa je prilično kompleksna i impresivna.
Možda će vas iznenaditi činjenica da je prva verzija Shazama, onakvog kakvog ga danas poznajemo, predstavljena još davne 2002. godine, a sistem je već tada bio jednako precizan i brz kao i danas. Sve to je zahvaljujući jedinstvenom algoritmu koji je promenio način na koji doživljavamo muziku.
Više od stihova
Na prvi pogled, aplikacije za prepoznavanje muzike, poput Shazama, mogu delovati jednostavno. Možda pretpostavljate da one analiziraju tekst pesme, slično kao glasovni asistenti, i pretražuju ga u bazi podataka kako bi pronašli odgovarajući naslov.
Međutim, većina aplikacija za identifikaciju muzike može prepoznati i instrumentalne delove ili čak obrade pesama. Razlog tome je što, umesto da analiziraju tekst, one traže „otisak prsta“ koji je jedinstven za svaku pesmu u njihovoj velikoj bazi podataka.
Tehnologija „otisaka prsta“
Verovatno imate uređaje koji se otključavaju pomoću otiska prsta, jedinstvenog rasporeda linija na vašem prstu. Slično tome, kada mikrofon snimi kratak audio zapis pesme, taj klip se pretvara u podatke koje Shazam ili slična aplikacija mogu pretražiti u svojoj bazi podataka.
Ova metoda naizgled ima nekoliko potencijalnih problema. Često, kada slušamo muziku u javnosti, prisutni su pozadinska buka i distorzija zvuka, što može otežati identifikaciju ili dovesti do netačnih rezultata. Takođe, čak i kratak audio zapis sadrži mnogo podataka, što može usporiti pretragu ovih obrazaca u bazi koja sadrži milione pesama.
U intervjuu za Scientific American 2003. godine, Ejveri Li-Čun Vang, glavni naučnik podataka i suosnivač Shazama, objasnio je kako njihov algoritam rešava ove probleme. Informacije o audio klipu se mogu vizualizovati pomoću 3D grafikona, takozvanog spektrograma, koji prikazuje promenu frekvencija tokom vremena. Takođe se uzima u obzir amplituda, odnosno jačina zvuka, koja se na spektrogramu prikazuje intenzitetom boje.
Baš kao što ljudsko uho ne percipira sve frekvencije, Shazam, umesto da uzima u obzir celu pesmu, fokusira se samo na „vrhove“, odnosno delove audio klipa sa najvećim energetskim sadržajem. Otisci prstiju koje snima sadrže samo tačke najveće frekvencije u datom vremenskom okviru, a zatim tačke najveće amplitude unutar tih frekvencija.
U istraživačkom radu za Univerzitet Kolumbija, Vang je naveo da im ova metoda omogućava da uklone većinu nepotrebnih delova audio klipa, kao što su pozadinska buka i distorzija. Takođe, veličina otisaka prstiju je dovoljno mala da je potrebno samo nekoliko milisekundi za identifikaciju pesme u njihovoj ogromnoj bazi podataka.
Shazam-ov uticaj
Pored toga što su korisne za prosečne slušaoce, aplikacije za identifikaciju muzike takođe pomažu u oblikovanju muzičke industrije.
Radio stanice i servisi za strimovanje često koriste podatke o tome koje pesme se najčešće prepoznaju kako bi otkrili šta javnost sluša. To je korisno jer ukazuje na privlačnost i potencijalnu popularnost pesme, bez obzira na izvođača. Kada identifikujete pesmu pomoću aplikacije, odmah možete videti koliko je ljudi takođe pokušalo da je prepozna.
Od pojavljivanja Shazama, pojavilo se i nekoliko konkurenata. SoundHound tvrdi da može da prepozna pesmu jednostavno tako što je pevate ili zviždite, sa različitim rezultatima. Postoji i identifikator pesama integrisan u glasovne aplikacije kao što je Google Assistant, koji radi slično Shazam-ovom sistemu.