Ameriška organizacija EFF je zagnala zanimiv projekt, s katerim želi ugotoviti, ali je s podatki brskalnika, ki jih pridobi spletni strežnik, mogoče identificirati posameznega uporabnika. Oziroma ali ima naš brskalnik unikaten prstni odtis. Ko smo preizkusili storitev v istem računalniku, a z dvema različnima brskalnikoma (Internet Explorer in Firefox), je storitev sporočila, da sta njuna prstna odtisa unikatna med prek 600 tisoč izvedenih testih – toliko posameznikov je do takrat zagnalo storitev. Zgovornejši podatek je, da njuna prsta odtisa vsebujeta 19,28 bita identifikacijskih podatkov. Še daleč od 33 bitov, kolikor jih potrebujemo za pravilno identifikacijo vsakega Zemljana. Kaj to pomeni, zahteva daljšo razlago.

Vzemimo primer. Če poznamo poštno številko nekoga, ga ne moremo najti v množici vseh ljudi – lahko le najdemo skupino, del množice, v kateri je. Če poznamo samo njegov spol tudi ne. Enako če poznamo datum njegovega rojstva. Če pa poznamo vse tri podatke, potem imamo več možnosti, da ga najdemo. Toliko lažje, če stanuje v okraju z manj prebivalci.

Obstaja matematična količina, ki izmeri, kako blizu smo, da nekoga unikatno identificiramo. Entropija (Shannonova entropija), merimo jo v bitih, je v informatiki količina, ki meri negotovost izida poskusa, povezanega z naključno spremenljivko. Če sta samo dva možna izida, je entropija 1 bit, če so štirje izidi, je entropija 2 …, povečanje entropije za 1 bit podvoji število možnosti. Na Zemlji naj bi bilo 7 milijard prebivalcev, toliko možnih izidov, kar pomeni, da trenutno potrebujemo 33 bitov (233 je 8 milijard), pa lahko identificiramo vsakega od nas. Če zvemo o iskani osebi nov podatek, to zniža entropijo po formuli:

∆S=-log2 Pr(X=x), kjer je ∆S znižanje entropije, Pr(X-x) pa verjetnost, da je nekaj res, pri naključno izbrani osebi. Vzemimo nekaj primerov za lažje razumevanje.

Poznavanje znaka horoskopa: ∆S=-log2 Pr( znak je škorpijon) = -log2 (1/12) = 3,58 bita podatkov.
Poznavanje datuma rojstva: ∆S=-log2 Pr25.10.1967) = -log2 (1/365) = 8,51 bita podatkov.

Ni nujno, da kombinacija znanih podatkov zniža entropijo za seštevek posameznih znižanj, kar kaže tudi gornji primer. Če poznamo dan rojstva, potem samodejno poznamo tudi znak horoskopa. Na podoben način lahko izračunamo znižanje entropije za vsak podatek, ki ga izvemo. Vzemimo dva primera, v kraju A živi 21733 oseb, v kraju B pa 452, na svetu pa nas je 6,625 milijard:

∆S=-log2 Pr( kraj A) = -log2 (21733/6625000000) = 18,21 bitov
∆S=-log2 Pr( kraj B) = -log2 (452/6625000000) = 23,81 bitov

Manj ko je prebivalcev v nekem kraju, večje je znižanje entropije. Če torej poznamo kraj bivanja (kraj B) in rojstni datum, poznamo 32,32 bita za unikatno identifikacijo. Še malo manjka do 33 bitov – dodamo še podatke o spolu, pa smo tam!

Kako je ta teorija uporabna pri brskalniku. Izkaže se, da so poleg običajnih načinov identifikacije prek IP-naslova in sledilnih piškotkov zgovorni tudi drugi podatki, ki jih prejme spletni strežnik. Med njimi je na prvem mestu niz »User-Agent«, ki vsebuje ime brskalnika, operacijski sistem in številko različice. V kombinaciji s še nekaterimi podatki, je naš test prišel do entropije dobrih 19 bitov. Je prstni odtis brskalnika lahko grožnja zasebnosti? Močno dvomimo! Sta pa test in razlaga zelo zanimiva in spadata v kategorijo »dobro je vedeti«!

Povzeto po: http |