Projekt Mobvis (www.mobvis.org) je izdatno financirala Evropska unija. Od junija 2005 do konca oktobra 2008 pa je pogoltnil dobra dva milijona evrov. Koordinatorji projekta so bili raziskovalci iz Gradca (Avstrija), sodelovali so še univerzi na Švedskem in v Nemčiji, belgijsko podjetje Tele Atlas, ki je poznano kot dobavitelj zemljevidov za navigacijske naprava in, kar nas še zlasti veseli, Univerza v Ljubljani. Vodja projekta na slovenski strani je bil Aleš Leonardis, redni profesor računalništva in informatike in predstojnik Laboratorija za umetne vizualne spoznavne sisteme na Fakulteti za računalništvo in informatiko.
Prepoznavanje stvari
Osnova raziskave je bila relacija z mobilnim telefonom posnete fotografije urbanega objekta (zgradbe, logotipi, znaki, ljudje) in digitalnimi podatki o njem v zbirki oziroma razširjenem digitalnem zemljevidu mesta (razširjena resničnost). Sliši se učeno. Mora biti, saj smo si definicijo ravnokar izmislili. Z drugimi besedami, po mestih, med njimi je glede na razpoložljive fotografije na visokem mestu Ljubljana, so krožila vozila s šestimi kamerami, ki jih »posodil« Tele Atlas, snemala okolje, slike in video pa opremila z natančnimi lokacijskimi podatki. Tako je nastala zbirka, model mesta s fotografijami najzanimivejših objektov, ki vključuje vse, od zgradb, prek znakov, vozil, ljudi ...
Od tu naprej gre kot po maslu, vsaj na teoretični ravni. Uporabnik posname objekt, ki ga zanima, ga pošlje ponudniku storitve, kjer je strežnik, ta primerja poslano fotografijo s fotografijami v zbirki, in če je iskanje pozitivno, se na zaslonu mobilnega telefona (kar na fotografiji ali na zemljevidu ožjega območja), pojavijo ikone s hiperpovezavo do razpoložljivih podatkov o objektih.
Težje, kot se sliši
Teorija je preprosta, praksa pa daleč od tega. Fotografija, ki jo posname »naključni« turist, skoraj nikoli ni idealna. Posneta je lahko v različnih vremenskih razmerah, pod različnimi koti, da pa je mera polna, so si zgradbe po mestih zelo podobne (še zlasti če je na sliki zgolj del stavbe, na primer pročelje). Algoritem, ki te težave odpravi, so razvili slovenski znanstveniki. Ta lahko zazna neznatne razlike med podobnimi objekti, kot so stavbe ali spomeniki, glede na njihovo pojavitev v prostoru. Na primer. Če ima zgradba določene dimenzije, stoji blizu mosta, levo od nje pa ni trgovine, potem ne more biti zgradba X, temveč njej podobna zgradba Y. Praktični testi so pokazali, da je uspešnost algoritma 80 odstotna in, kar je morda še pomembnejše, preostalih 20 odstotkov ne pomeni napačne identifikacije zgradbe (tako imenovana napačna pozitivna prepoznava). V teh primerih algoritem na fotografijo ni dodal povezave do podatkov podobne zgradbe, temveč te sploh ni dodal.
Uporabnikov položaj
Fotografija je tudi osnova za eno od predlaganih metod določanje položaja uporabnika. Znotraj projekta so se znanstveniki usmerili v raziskavo dveh scenarijev določanja položaja v realnem svetu – določanja enkratnega položaja na podlagi ene same fotografije z uporabo novih večdimenzionalnih primerjalnih metod in neprekinjeno spremljanje z uporabo kombiniranja več fotografij. S triangulacijo, ko primerjajo uporabnikovo fotografijo s fotografijami razširjene resničnosti, izračunajo njegov položaj, kakor tudi, v katero smer je ta obrnjen. Kot pravijo sami, je natančnost primerljiva z natančnostjo GPS-naprav. Raziskali so tudi, kakšne so možnosti kombinacije določanja položaja na podlagi računalniškega vida (prepoznavanja stvari) z drugimi metodami, kot so satelitska navigacija (GPS), določanje novega položaja na podlagi znanega zadnjega položaja ter smeri in hitrosti gibanja (DRC) in določanje položaja s spremljanjem brezžičnih omrežij (WLAN). Dodatne metode določanja položaja pridejo do izraza v mestih, kjer je uporabnik v umetno narejenem kanjonu. Visoke okoliške stavbe blokirajo pot signala iz satelitov, GPS-sprejemnik sočasno sprejema manj signalov, zaradi česar je njihova natančnost nižja.
Povezane informacije
Algoritmov, ki prepoznajo objekt na fotografiji, je v svetu veliko, poteka pa tudi veliko raziskav, ki želijo čim bolje rešiti ta problem. Večina od teh »zna« le prepoznati objekt, zanemarijo pa kontekst objekta – zgradba stoji in je tam za vse večne čase, človek na fotografiji pa lahko hodi, sedi, stoji ... Delo raziskovalcev je bilo zato usmerjeno tudi v metode »zajema« teh dodatnih mehkih informacij, ki lahko izboljšajo obstoječe algoritme. Primer je iskanje peščev na fotografiji. Običajni algoritmi bodo iz slike »izluščili« veliko objektov, kot so zgradbe, okna …, če pa jih opremimo z dodatnimi informacijami, pa le iskano – torej pešce, podkrepljeno s podatki, kaj posameznik počne. Na primer, giblje se po peš coni, v kateri so trgovine. »Dejavnost« objekta je bistvena kontekstualnih informacija, zato so raziskali tudi možnost pridobivanja teh informacije s tipali, ki bodo na telesu uporabnika, kot so števec korakov, merilec pospeška in podobno.
Čemu, zakaj … pa ne že spet
Spet se bomo ponavljali, saj smo o potencialni uporabi storitev vizualne spoznave, že večkrat pisali. Prva in morda najzanimivejša možnost uporabe je povezana z interaktivnim turizmom. Turist ne bo več potreboval karte ali vodnika, kar ga bo zanimalo, bo fotografiral, v svoj mobilni telefon prejel zahtevane informacije, hkrati pa ga bo storitev lahko tudi vodila po »turistični poti«. Drugo področje so nepremičnine. Način uporabe je podoben. Potencialni kupec bo na podlagi fotografije želenega zemljišča ali stavbe dobil podatke, ali je ta v prodaji in vse, kar je s tem povezano. A kot pravijo člani projektne skupine, je to le vrh ledene gore.
Zakaj tega še ni v praksi
Metode in algoritmi, ki so bili razviti, kot del projekta Mobvis, bodo nekoč lahko del komercialnih aplikacij. Znano pa je, da je prehod iz teorije v prakso pri teh zadevah zelo dolg in poln ovir, ki si jih znanstveniki pri svojem delu niti ne morejo predstavljati. Pustimo ob strani potrebo po oblikovanju dobrega poslovnega modela, ki bo povrnil investicijo. Je še veliko drugih ovir. Kot so nam povedali pri našem največjem mobilnem operaterju: »Od projekta do delujoče storitve je pri takih stvareh še veliko dela, stroškov in porabljenega časa. Izdelati je treba konkretno podatkovno zbirko, da lahko tovrstno vizualno prepoznavanje uporabniku ponudi kaj oprijemljivega, ne zgolj lepo delujoče demo zmožnosti.« Ocenimo lahko, da bomo na komercialno storitev morali še čakati. Ker pa je eden od članov projektne skupine po novem član ekipe izza iskalnika Najdi.si, se morda lahko nadejamo, da bomo vsaj del tega videli morda tam …
Moj mikro, Marec 2009 | Jan Kosmač