Kao ljudi, mi svo vreme klasifikujemo stvari. Smeštamo svoje dokumente u odgovarajuće fascikle, odvajamo poslovne kontakte od ličnih, sređujemo stvari po abecednom redu itd. Bez ovih klasifikacija, teško bismo organizovali svoj život. Kompanije moraju da organizuju podatke na isti način, što znači da avio kompanije treba da klasifikuju svoje klijente prema tome koliko često putuju a trgovci da izdvoje svoje najveće potrošače. Pretraživači žele da odrede koliko iznosi verovatnoća da ćete nešto kupiti na Internetu.
Binarna klasifikacija je jedan od najpopularnijih izazova nadgledanog mašinskog učenja. Kod nje postoje samo dva moguća ishoda. Da li će hotelska soba biti rezervisana sledeće nedelje ili ostati prazna? Hoće li berza danas popodne rasti ili padati? Da li je ova elektronska pošta prava ili neželjena? Binarna klasifikacija se koristi za nadgledano mašinsko učenje jer ovaj postupak direktno zavisi od označenih podataka. To znači da je sistem mašinskog učenja obučen da klasifikuje dva odgovora a da biste koristili ove sisteme, prvo morate da kreirate skup podataka za obuku.
Sistemi za otkrivanje prevara sa kreditnim karticama predstavljaju odličan primer korišćenja binarne klasifikacije. Svaki put kada koristite svoju kreditnu karticu, algoritam mašinskog učenja klasifikuje vašu transakciju kao pravu ili lažnu. Pošto je ovo nadgledano mašinsko učenje, kompanije za kreditne kartice su morale da za obuku koriste desetine hiljada primera lažnih transakcija. Sistemi za razmenu elektronske pošte koriste nadgledano mašinsko učenje za prepoznavanje neželjene poruke. Oni za obuku koriste skup poruka koje su označene kao neželjena pošta.
Ove tehnike zahtevaju unos ogromnih količina podataka, a zatim koriste algoritme mašinskog učenja da klasifikuju vaše podatke u kategorije koje su unapred kreirane a to mogu biti podaci o rezervacijama, lažne transakcije i neželjena elektronska pošta. Klasifikacija je sada jedan od najpopularnijih oblika mašinskog učenja, ali je takođe potrebno da se unapred uloži mnogo napora da se sistem obuči. U praski nije lako obezbediti desetine hiljada lažnih transakcija kreditnim karticama ili još veći broj neželjenih poruka. Osim toga, ne postoji garancija da će čak i ovako velika baza podataka biti dovoljna da se naprave tačna predviđanja. Zato je neophodno da se algoritam za mašinsko učenje stalno „hrani“ novim podacima sve dok njegova preciznost ne dostigne izuzetno visok nivo. Čak i danas se događa da vam vaša banka, čak i nakon nekoliko godina razvoja, pošalje upozorenje o prevari, iako se radi o sasvim normalnoj transakciji. Stručnjaci za VI se truda da neprestano obučavaju ove sisteme kako bi klasifikacije bile što tačnije. Prevara sa kreditnim karticama, otkrivanje neželjene pošte i onlajn kupovina mogu izgledati kao veoma različiti izazovi, ali za vaš sistem mašinskog učenja, oni predstavljaju samo različite načine da se postigne isti rezultat, tj. da se označeni podaci klasifikuju u unapred definisane kategorije.