Da lahko podjetje uvrsti uporabnika v najbolj primeren profil, mora povezati njegove podatke z uporabniškimi profili. Potrebuje še več podatkov, ki mu jih zagotavljajo piškotki. Ti počnejo marsikaj, kar nas pravzaprav ne moti, hkrati pa tudi stvari, ki so v navzkrižju z varovanjem zasebnosti. Zato smo v Evropski uniji sprejeli pravilo, da morajo biti uporabniki o piškotkih na straneh obveščeni in se morajo z njihovo namestitvijo strinjati. Namesto da se ti namestijo brez uporabnikove vednosti, mora namestitev uporabnik dovoliti. Pa smo spet v sivem področju. Slovenske, kmalu tudi evropske strani morajo zahtevo upoštevati, tuje pa ne. Pravzaprav nismo storili dosti za varovanje uporabnikov, saj ti dobijo piškotke, ne da bi se tega zavedali, že če obiščejo stran, ki ni zavezana spoštovanju evropskih zahtev. Piškotki zagotavljajo raznovrstne podatke, tudi o tem, kje ste bili pred in kam greste po obisku strani, kar pove veliko o zanimanju uporabnikov. Poleg tega je uporabniku na voljo še cela vrsta vtičnikov za spletne brskalnike, ki mu po eni strani nekaj ponudijo, a hkrati tudi sporočajo dodatne podatke o njem. Že nekaj časa je jasno, da vsi ti podatki – dodajmo še podatke, ki jih zagotavljajo sistemi spletnega oglaševanja – oblikujejo uporabnikov spletni prstni odtis, ki je lasten le njemu samemu.

V nepovezanem (offline) svetu metode zbiranja podatkov niso tako tehnično izpopolnjenje, vendar so enako učinkovite. Iz javno dostopnih podatkov in s podatki, ki jih ponujajo specializirana podjetja oziroma so kako drugače na voljo, je mogoče razporediti ljudi v podobne vedenjske profile, kot to počnejo spletna podjetja. Obdelani podatki so nato na voljo vsem, ki so jih voljni plačati. Dogaja se, da po spletu zaokroži ponudba za bazo podatkov z nekaj tisoč osebami, v kateri so imena in priimki, naslovi, telefonske številke in drugi osebni podatki, pri kateri je jasno, da nima dovoljenja od vsakega posameznika, ki je v bazi in katerih podatki so pravzaprav na prodaj. Najprej zbiraj in obdeluj, šele nato vprašaj. Mimogrede, ponudba za nakup baze z osebnimi podatki je po Sloveniji krožila letos poleti in nanjo je opozoril informacijski pooblaščenec kot na nekaj, kar ni skladno z zakonom in kar se ne sme. Zunaj Slovenije pa imajo ti podatki že dlje časa svojo ceno, kupujejo pa jih tudi uveljavljena podjetja. Trgovec lahko kupi le podatke o ljudeh, pri katerih je bilo zaznano zanimanje za njegove izdelke in podobno.

Piko na i zbiranju in analiziranju podatkov uporabnikov pomeni združevanje podatkov iz digitalnega in analognega (nepovezanega) sveta. Pionir na tem področju je ameriško podjetje Acxion, omenjeno v članku v prejšnji številki revije, ki deluje tudi v Evropi oziroma na večjih trgih evropskih držav. Podjetje trdi, da ima v svoji bazi analiziranih in v ustrezne profile uvrščenih 500 milijonov uporabnikov z vsega sveta z do 1500 zapisi o posamezniku. Baza je tako velika, ker so združili nekaj desetletij zbiranja podatkov na nepovezani način (ankete, telefonska prodaja …) z digitalnimi podatki, zbranimi na 75 tisočih spletnih straneh. Prodaja takšnih podatkov je zagotovo velik posel. Obe vrsti podatkov združujejo tudi obveščevalne agencije, a to je že druga zgodba, o kateri smo že poročali. Zasebna podjetja in državne agencije se analize velikih podatkov lotevajo popolnoma enako, le cilje imajo drugačne.

Gore zbranih podatkov analizirajo zmogljivi programski algoritmi, ki najprej ločijo (destilirajo) podatke. Iz nestrukturiranih podatkov, glasovnih zapisov, podatkov po povezavah, besedil in ostalih podatkov oblikujejo (ustvarjajo) strukturirano bazo na podlagi preprostih poizvedb. Kdo se je pogovarjal s kom, kaj sta se pogovarjala, kakšne volje je bil sogovornik …? Tako deluje na primer Facebookova storitev iskanja Graph Search. Strukturira na primer podatke na podlagi poizvedbe: prijatelji iz Ljubljane, ki so rojeni oktobra.

Najbolj znano orodje (sistem) za analizo podatkov je prostokodni Hadoop, ki ga uporablja tudi Facebook. Sposobno je analizirati podatke v distribuiranem omrežju strežnikov v redu velikosti petabajtov podatkov, uporablja pa model, ki ga je Google razvil za svojo kartografsko storitev. Podatke razdeli na bloke, velike 64 megabajtov, ki jih nato posamično razvršča. Bolj običajne aplikacije nad bazami podatkov so sposobne tega le z bloki podatkov 32 kilobajtov. Vzemimo primer, razumljiv vsakemu. En sam popisovalec bi izvajal popis prebivalstva leta, če bi moral potovati v vsak kraj in se pogovoriti z vsakim prebivalcem. Namesto tega je popisovalcev več, vsak je odgovoren za svoj kraj ali del mesta, ti pa pridobljene podatke pošljejo v centralo, ki izdela popis. Podobno deluje Hadoop in zato je proces »popisa« podatkov kratek. V naslednjem koraku analize ustvari napovedni model, za to pa uporabi različne matematične metode, ki so odvisne od cilja analize. To vključuje ugotavljanje anomalij (neobičajnih pojavov) v nizu podatkov in analizo grozda podatkovnih blokov, s ciljem uvrščanja »predmetov« v skupine glede na njihove skupne značilnosti ali podobnosti. Tako lahko analiza na primer oblikuje omrežje povezav (povezane točke) telefonskih klicev ali elektronskih sporočil in med seboj poveže ljudi iz različnih delov sveta in v različnih časih opravljenih komunikacij (povezav). Znano je na primer, da je ameriška agencija NSA sposobna sto posameznikov povezati do tretje ravni komunikacije, kar pomeni z milijonom ljudi (100 x 100 x 100). Vsak od stoterice je v povezavi z naslednjo stoterico, ti pa že s stotimi.

Ključno vprašanje analize podatkov je, kaj naj iz njih razumemo, kaj lahko sklepamo oziroma kaj nam govorijo. Analiza podatkov sama po sebi ni negativna ali pozitivna, to določi namen uporabe. Veliko je pozitivnosti. Če Google predlaga napačno iskanje ali nam Amazon predlaga napačno knjigo, je to nadležno, a še ne nevarno. Bolj bi nas moralo skrbeti, če na primer analiza napačno obdolži posameznika, da je škodljiv za družbo in ga ta strpa v zapor. Med obema skrajnostma (pozitivna oziroma negativna uporaba analize) pa je veliko, recimo sivo področje ribarjenja v kalnem, za katerega uporabnik ne ve, kaj se dogaja z »njegovimi« podatki. Razen tega, da nekdo drug služi denar z njimi. Za oglaševalsko industrijo so podatki o na primer zgodovini bolezenskih stanj, zakonskem stanju ali dejstvu, da človek ravno tedaj gradi hišo, dragocenejši in s tem tudi pomembnejši kot njegov naslov, starost in telefonska številka. Spletnim tatovom so vrednejši osebni podatki. Na trgu pa imajo najvišjo ceno popolni zapisi o človeku, ki običajno vsebujejo ime, podatke o bančnem računu in plačilnih karticah, osebne podatke, kot so telefonska številka in poštni naslov. Komplet, v katerem so že izdelane lažne plačilne kartice ali vozniška dovoljenja, naj bi bil na črnem trgu po predvidevanjih vreden nekje okoli tisoč evrov na osebo. Sam popolni zapis je vreden 400 evrov, le delne informacije, na primer podatki za dostop do računa PayPal, pa med 15 in 150 evri (vir: http://www.secureworks.com/), nekateri podatki pa še manj. Vse to spada v črno kroniko, v kriminalna dejanja. Vendar je nekaj jasno. Vsaj del podatkov, ki jih kriminalci prodajajo, je pridobljen na podlagi podatkov, ki jih nevede puščamo na spletu. Zaščitimo se lahko, če smo bolj previdni pri tem, kaj počnemo na spletu, vendar moramo za to žrtvovati nekaj svojega udobja.

Moj mikro, november december 2013 | Marjan Kodelja |