Pregled posta

Adresa bloga: http://blog.dnevnik.hr/hal

Marketing

Google u raljama života

T-Zombix je na svom blogu spomenuo nedavni govor Larryja Pagea, jednog od osnivača Googlea, i link na interesantni članak o Googleu kao vladaru svijeta, koji impliciraju da Google razvija umjetnu inteligenciju. Tragom te informacije otvorio sam nekih tridesetak stranica vezanih uz Google AI (artificial inteligence) i zaključio da tu svakako nešto smrdi. Page ima teoriju po kojoj se ljudski genom može komprimirati i svega 600 Mb i smatra da bi znanost također trebala prihvatiti neke marketinške principe. Između ostalog. Iako bi ponekad svog silikonskog ljubimca lupili jer ne radi ono što smo mi htjeli da radi i možda ne vjerujemo da jedna takva nakupina tranzistora može ikad dobiti božansku pamet, malo sam se zamislio nad čitavom pričom. Hoće li Google napraviti prvi upotrebljivi AI? Potrudio sam se i što bolje 'polinkati' neke stvari da ipak ne ispadne da sve pričam totalno u bunilu.

Google ima jednu od najvećih baza podataka o svemu i svačemu. Ta baza je doduše samo skupina podataka bez duše i pameti. Iako je prvobitno zamišljen kao tražilica, pokazalo se dobrim da ono što Google pronađe uvijek spremi na neko mjesto. Možda tada nisu razmišljali o praktičnoj primjeni tih podataka već su se podaci indeksirali isključivo kako bi se ubrzala učinkovitost samog sustava pretraživanja. Rastom broja podataka prikupljenim po internetskim bespućima, Google je prisiljen stalno unaprijeđivati svoje sustave kako bi se nosili s tom bujicom i time ne samo spremati dobivene rezultate već ih nadalje i analizirati.

Naizgled banalna stvar je kad upišete neku krivu riječ u Google (npr. bananna), on će vas ljubazno zapitati 'Did you mean : banana'. Ne tvrdim da je to umjetna inteligencija i svatko tko makar površno zna ponešto o programiranju shvaća da tražilica prije nego potraži rezultate konzultira svoj rječnik u potrazi za tom riječi pa ako ona ne postoji ponudi vam ispravnu alternativu. Čista programerska logika, daleko od misli, ako ovo, onda ono.... Ali recimo da je to začetak. Tek mali dodatak da se na tražilici osjećamo bolje.

AdSense i AdWords programi za reklamiranje su također u početku radili prema ključnim riječima ali se zna da je ovaj pogon ipak malo sofisticiraniji od jednostavne provjere rječnika. Google naime već duže vremena razvija svoju semantičku platformu i neprestano na njoj radi. Nije dakle više riječ samo o pojedinačnim riječima već i u smislu koji čine grupe riječi. To omogućava da oglašivači zaista uvale svoje reklame na pravo mjesto. Ako malo pogledamo Google reklame po raznim stranicama vidjet ćemo da time vlada nešto jača mašinerija (iako još uvijek nije savršena). Semantički sustavi imaju zadatak shvatiti (uvjetno rečeno) sadržaj vaše stranice na osnovu rečenica, međusobnih ovisnosti i odnosa među riječima (bolje rečeno - konteksta), jezika kojim pišete i naravno svekolikih indeksa i klastera u Googleovoj bazi podataka da bi shvatili jeste li prava meta za reklamu. Semantički sustav u sprezi sa svekolikom bazom znanja je zapravo i jedno od glavnih oružja koje Googleu osigurava prednost pred drugim potencijalnim pokušajima. Uz neke dodatne razloge, svakako. Ako ste programer i napravili ste neku aplikaciju koju ste nazvali Titanic, Google će nastojati da vam ne servira reklame za film Titanic, za povijesne studije o Titanicu i slično nego će pronaći one koje su relevantne za softver i razvoj aplikacija, programiranje i slično. Iako je možda riječ Titanic na vašoj stranici spomenuta najviše puta i sasvim sigurno jedna od vodećih u Googleovim indeksima koji tu riječ povezuju s vašom stranicom, njihov semantički engine nekako prepoznaje sa čime još je ta riječ povezana i zaključuje (opet uvjetno rečeno) čime se vi zapravo bavite. Iako se radi o programu, nikako o svijesti, ovo je već nešto bliže.

Iako napredni sustav traženja još uvijek koristi razne dodatke na riječima kako bi tražilici rekli konkretnije na što mislimo i kako da filtrira rezultate (navodnici, plus, minus, site:, link: itd) pitanje je vremena kad će to u potpunosti biti izbačeno. Vjerojatno onog trenutka kad Googleova semantika bude u stanju prepoznati to iz vašeg konteksta. Ne bude li u stanju, ponudit će vam alternative obogaćene s malo predefinirane gramatike (koju je u engleskom jeziku lakše napraviti nego u hrvatskom). Ovo s alternativama bi mogla biti zasluga širokog opsega podataka i prepoznavanja pojmova koji nastaju grupiranjem riječi u klastere i analizom njihovih odnosa (što Google radi također već godinama).

Što još Google radi kako bi poboljšao svoj semantički pogon? Skenira knjige. Jedan je njihov službenik izjavio: Ne skeniramo knjige da bih čitali korisnici, skeniramo ih da bi ih čitao AI.
Vjerojatno to AI-u neće dati ni pamet ni dušu ali će svakako utažiti glad za riječima i pojmovima. Je li kompletan sadržaj interneta premali pa su navalili na druge izvore ljudskog izražavanja? Priča se da u Googleovim laboratorijima rade na zvučnom prepoznavanju uzoraka. Televizija i filmovi su već na internetu. Čim ih se Google dočepa kako treba moći će navodno na osnovu 5 sekundi zvučnog zapisa točno znati o kojem se filmu ili emisiji ili muzici radi. Čisti search kroz bitove. Jednom kad prepozna zvučni uzorak i poveže ga s naslovom moći će vam na osnovu naslova reći i gomilu drugih podataka koji su povezani s tim. Je li u tome najava ultimativne tražilice koja će biti u stanju s nama raditi mali chat kad se zaputimo tražiti nešto za što ne znamo kako se zove. Sve je dakle u semantici i utvrđivanju smisla.

I sâm sam svojedobno isprogramirao mali programčić koji je pogađao koju ste životinju zamislili na osnovu pitanja ili odgovora. Vi ste odgovarali s da ili ne i on bi pogodio o kojoj se životinji radi. Ako ne bi znao odgovor, tražio bi vas da postavite neko pitanje u svezi te životinje i da kažete kako biste na to pitanje odgovorili. Tako bi učio. Jednostavno ali s vremenom sve glomaznije. Čista logika, nema semantike niti krativnosti. S kojih godinu dana povremene upotrebe mogao je pogoditi tristotinjak životinja. Kako su odgovori na pitanja vezani uz naše vlastito znanje i kako je nekome vrabac smeđe a nekome sive boje ipak s vremenom je program pogodio vrapca bez obzira na vaš izbor. Ali zbog primitivnog da/ne učenja to su u bazi bila zapravo samo dva različita vrapca , nikako pametni zaključak.

Ali pogledate li 20Q (AI baziran na neuralnoj mreži) na ovom linku, vidjet ćete da stvar može raditi daleko bolje. Nakon kratkog uvoda ova mašinerija bi trebala pogoditi razne pojmove s manje od 20 pitanja. Koliko ja znam, ovaj AI uči već 19 godina. Iako se sve svodi na pitanja i odgovore, gdje uz da i ne imate još i nepoznato, nevažno, možda, vjerojatno i ponekad. Ako ne pogodi u 20 pitanja ponudit će vam odgovor gdje trebate reći je li odgovor točan, pogrešan ili je blizu. Ako nije točan, 20Q igra se nastavlja s dodatnih 10 pitanja. Na kraju će vam čak i ponuditi analizu odgovora, gdje misli da je pogriješio i gdje misli da ste vi pogriješili te koji su vam odgovori nekonzistentni jer većina populacija (koja je igrala) misli drugačije. Ne pogodi li zamolit će vas da objasnite na špto ste mislili. Tako uči. Ova igra je do sada odigrana skoro 50 milijuna puta. Neat i full zabavno!!!

Google ima daleko jače izvore, gotovo svekolikog ljudskog znanja koje je objavljeno na internetu, dostupne su mu enciklopedije, dokumenti, blogovi, vijesti, publikacije a u zadnje vrijeme i knjige. Semantički pogon koji se 24/7 vrti u moćnim mašinama i dalje na osnovu nama neshvatljivih algoritama slaže riječi i pojmove u klastere kako bi im pridodao značenje i pripadnost. Google bi mogao postati jedna velika igra pogađanja koja bi začinjena finom gramatikom čak mogla djelovati i smisleno.

Može li Google proći Turingov test? Gospodin Turing je još 50-ih postavio zadaću svakoj mašini koja bi se htjela predstaviti kao umjetno inteligentna. Test se sastoji u tome da stroj mora moći voditi konverzaciju s čovjekom na način da ovaj ne shvati razgovara li sa strojem ili s živom osobom (naravno razgovor ne mora biti u zvučnom obliku, dovoljan je samo običan chat). Možete isprobati neke od uradaka, nisu najbolji ali dočaravaju priču. Da bi Google to mogao trebati će mu dobro isprogramirati gramatiku kako bi baratao podacima i davao povratne informacije ili podpitanja na čovjeku smisleniji način nego da samo vraća obične liste rezultata na traženi pojam. Trebati će znati odrediti i vrijednost toga što je rečeno.

Zametak toga je i u također vrlo složenom i misterioznom algoritmu Googleovog PageRanka. Neki smatraju da je PageRank zapravo jedan od zametaka budućeg AI-a. O PageRanku se malo zna, a ono što se zna je nama smrtnicima malo razumljivo (barem meni). Ako ne vjerujete pogledajte što je neki matematički freak prostudirao o PageRanku na Wikipediji. Viša matematika. Iako naizgled beznačajna brojka od 1 do 10 ovaj algoritam je više od pukog brojanja klikova. On obuhvaća i PageRankove stranica na kojima je pronašao link na vašu, broj takvih stranica, ali ono što je značajnije obuhvaća i sve ostale metode vezane uz rangiranje ključnih riječi i pojmova pronađenih po internetu, na vašoj stranici i na stranicama na kojima postoje veze. PageRank zapravo određuje i koliko je semantički važan sadržaj vaše stranice na određeni upit te vas shodno tome rangira i u rezultatima pretraživanja. U kakvim su oni točno relacijama teško ćemo znati ali vjerujem da je PageRank samo još jedan dodatni poligon za testiranje svekolike Googleove pametne mašine. Njegova je namjena da komadićima informacija da određenu vrijednost što će za budući AI svakako biti značajni detalj.

Mnogo toga znamo, ili barem mislimo da znamo, ali Google iza plota ima daleko više tajni nego se to na prvi pogled čini. Na Googleovom labu već postoji čitav niz aplikacija koje se mogu koristiti, od rokovnika, kalendara, podsjetnika, programa za obradu teksta, tabličnih kalkulatora, elektronske pošte, pretraživanja proizvoda, prevodioca... da ne nabrajam, cijeli mali operativni sustav. Iako se o Googleovom operativnom sustavu svojedobno šuškalo izgleda da od toga ipak neće biti ništa i da je sve ostalo na nivou špekulacije. Pričalo se o zamisli da uz računalo imate samo mali rudimentarni pogon s vezom na Google preko interneta. Sve ostalo bi bilo tamo i radilo bi se online. No Google nije naprosto odustao od toga već izgleda da puca daleko dalje nego što nam se čini, dok mi i dalje možemo samo špekulirati. Svatko tko je ikad malo ozbiljnije ušao u Google svijet uvidio je da se Googleove funkcije i aplikacije integriraju, spajaju i preklapaju i siguran sam da su informacije u njima savršeno povezane. Jedan account, više funkcija i interakcija među podacima koji se tamo nalaze.

Možda Google neće nikad pisati romane i poeziju i imati vlastiti um, možda neće nikad biti kreativan ali da bi mogao postati vraški napredni mehanizam koji zna sve. Neki kažu da će to biti za našeg života.

Možda bi mogao odgovoriti na bilo koje pitanje postavljeno normalnim ljudskim jezikom.
Možda bi mogao analizirati sve tekstove vezane uz neki pojam i pomoći u rješavanju misterija, nedosljednosti, kriminala, istine i laži. Jer Google će biti u stanju znati sve što se pisalo, snimilo, pjevalo a možda čak i govorilo nekom događaju, bilo gdje bilo kad. Jer Google već odavno ne pretražuje internet samo za nas. On ga pretražuje i za sebe. Hoće li nam čitava priča donijeti problema, narušenu privatnost ili nešto drugo? Moguće, ali samo ako mu to dozvolimo. Mnogi pišu i pisat će još o dvojbama moralnosti i humanosti umjetne inteligencije. Trebamo biti svjesni da budemo li ikad 'razgovarali' s Googleom, on to nikad neće zaboraviti, i svaka konverzacija bit će novi temelj za nova saznanja o nama o našim navikama i samim time, pod krinkom svesrdne pomoći korisnicima, predmet nekih novih rasprava. A mi bismo mogli postati otvoreni kao knjiga. Google će znati kako se zovemo, što smo tražili prošle godine u isto vrijeme, kakvu muziku volimo slušati, kako organiziramo svoje vrijeme, koje stranice obilazimo, s kim se družimo, tko je kad i gdje pričao ili pisao o nama, pokazat će nam našu kuću na satelitskoj snimci...

Da malo karikiram.

Jednog dana možda mi osvane poruka na Googlu: Previše surfaš! Posveti se djeci jer ti imaju loše ocjene u školi, a žena ti NE ostaje duže na poslu kao što misliš jer uredno isključuje računalo na kraju radnog vremena, GPS u autu uključuje odmah nakon toga, a garažna vrata otvara u prosjeku četiri sata kasnije. GPS podaci su nedostupni zbog zaštite privatnosti. U frižideru je ponestalo jaja. Da naručim novo pakovanje?

Post je objavljen 21.02.2007. u 01:01 sati.