Shranite ga pri nas

Eksplozija podatkov ni obšla raziskovalnih laboratorijev, ki kupujejo novejšo in hitrejšo opremo za dekodiranje DNK-verige. Ameriški inštitut (Broad Institute, www.broadinstitute.org) naj bi oktobra dekodiral ekvivalent enemu človeškemu genomu vsakih 32 minut, pri tem pa pridelal 200 terabajtov neobdelanih podatkov.

Googlova ponudba za raziskovalce je lahko izrednega pomena. Povezava in primerjava tisočev, nekoč milijonov genomov bo dala zagon medicinskim odkritjem v naslednjem desetletju, pri iskanju zdravil, terapij in diagnostiki. Takšna so predvidevanja. Je pa v tem ena težava. Podatkov je veliko in le še več jih bo. Malo je ustanov, ki imajo dovoljšne zmogljivosti za hranjenje tolikšne količine podatkov in dovolj procesorskih zmogljivosti za opravljanje analiz. Ni samo Google v tem zaslutil svoje priložnosti, tekmeci Amazon, IBM in Microsoft razmišljajo podobno. Kjer je zainteresiranih ponudnikov več, konkurenca naredi svoje. Zaradi znižanja cen, ki jih je sprožila cenovna vojna med Googlom in Amazonom, je strošek laboratorija enak, kot če bi podatke hranili na lastnih strežnikih. Verjetno pa bodo cene še padale.

Google je na storitvi začel delati pred skoraj dvema letoma. Pogovarjal se je z raziskovalci in gradil vmesnik zanje (API), ki omogoča premik velike količine podatkov na njihove strežnike ter izvajanje poskusov nad njimi. Pri tem je uporabil enake tehnologije podatkovnih zbirk, kot jih uporablja za indeksiranje spleta in sledenje milijard spletnih uporabnikov. Čas pa naj bi bil pravi, saj se biologi iz raziskav enega genoma naenkrat preusmerjajo na sočasne raziskave milijonov.

Google in druga velika globalna spletna podjetja imajo izkušnje s prenosom velike količine podatkov prek internetnih povezav. Omenjeni ameriški inštitut v dveh mesecih ustvari toliko podatkov, kot jih uporabniki naložijo na storitev Youtube v enem dnevu. Veliko manj, a to je količina, ki močno presega tisto, s katero so biologi delali do zdaj. Hkrati ti želijo, da so vsi podatki hranjeni in dosegljivi na enem mestu, pa čeprav to lahko stroškovno učinkovito ponudijo le zasebna podjetja.

Ameriški center za rakava obolenja bo 2,6 petabajtov podatkov nekaj tisoč bolnikov hranil na dveh mestih. V Googlovi storitvi in hkrati še v Amazonovem podatkovnem centru. Želijo oblikovati oblak podatkov o genomih obolelih za rakom, kjer bi raziskovalci lahko izmenjevali informacije in hitro opravljali navidezne poskuse. Podobno enostavno, kot je spletno iskanje. Hkrati naj bi to omogočilo dodatni zagon mladim podjetjem (startupom), ki izdelujejo »brskalnike«, ki jih raziskovalci in bolnišnice lahko uporabijo med raziskovanjem genskih podatkov. Medicina se bo kmalu zanašala na »globalni internet medicinskih podatkov«, po katerem bodo zdravniki lahko iskali. V povezavi z rakavimi bolniki bo lahko prihodnost takšna. Zdravnik bo podatke o genomu tumorja bolnika primerjal s podatki nekaj milijonov bolnikov z enakim obolenjem ter hitreje našel učinkovito zdravilo.

Google ni povedal, koliko genomov je shranjenih na njegovih strežnikih in koliko uporabnikov ima, ocena pa je, da ima vsaj 3500 genomov, ki so bili del javnih projektov. So pa povedali, da ni povezav med to storitvijo in njegovim prizadevanjem podaljšati življenjsko dobo človeka. S takšnimi raziskavami se namreč ukvarja laboratorij Calico (www.calicolabs.com).

Moj mikro Januar Februar 2015 | Marjan Kodelja

Išči