ATI je svojo novo generacijo grafičnega procesorja predstavil sredi septembra, prve dni oktobra so bile tudi na slovenskih policah že njihove nove grafične kartice, točneje, modela HD 5870 in HD 5850. Nekaj dni pozneje je ATI napovedal še malce okrnjena derivata novega grafičnega procesorja RV870 (Cypress), in sicer RV810 in RV840. Na njih temelječi poceni grafični kartici HD 5770 in HD5750, namenjeni množičnemu trgu, sta bili tudi pri nas naprodaj le nekaj dni pozneje, torej pred sredino oktobra.

MED DIAPOZITIVI IN TRGOM

16. junija letos je CEO in predsednik Nvidie, karizmatični, a »težavni« Jen-Hsun Huang na srečanju z analitiki ostro napadel Intelov grafični čip, češ da Larrabee ni drugega kot »PowerPointova predstavitev«. Le nekaj mesecev pozneje, 30. septembra, je isti Jen-Hsun Huang na Nvidiini konferenci o tehnologijah grafičnih procesorjev javnosti prvič predstavil Nvidiino naslednjo generacijo grafičnega procesorja Fermi (GT300). Na otvoritvenem govoru je v nekaj PowerPointovih predstavitvah obelodanil specifikacije nove arhitekture ter pokazal tudi znanstveni model Fermija (kartica Tesla). Med drugimi so prisotni lahko slišali, kak napredek je Nvidia naredila predvsem pri hitrosti izračunavanja z dvojno natančnostjo plavajoče vejice. Pokazal so tudi lep video izrisa/izračuna vodne površine, kjer je bila uporabljena dvojna plavajoča vejica. Prikazana kartica naj bi bila delujoča grafika Fermi, video pa izrisan z njo. Časovno se je »predstavitev« lepo ujela z začetkom prodaje nove ATI-jeve serije HD5xxx, zato lahko špekuliramo, da je bila poteza načrtna, s ciljem premamiti kupce, da počakajo na »pravo stvar«, na Fermi ... A celotna poteza se je zalomila že nekaj dni pozneje, ko so novinarji iz analize slik prikazane kartice ugotovili, da to nikakor ne more biti Fermi, sploh pa ne delujoča kartica. Nvidia je naslednji dan priznala da je šlo za »model« nove kartice, čeprav so prej govorili popolnoma drugače. Zato se je Fermija že takoj na začetku prijel naziv papirnatega zmaja, za katerega nihče več ne verjame, da bo na prodajne police res prišel še pred največjo prodajno sezono, prazniki. Glede na informacije, ali bolje rečeno namigovanja, ki smo jih dobili od nekaterih proizvajalcev grafičnih kartic, bodo kartice Fermi v resnici množično na trgu šele aprila 2010!

Fermi - 512 jeder v 16-tih blokih.

Nvidia GT300 Fermi

A vendarle je iz specifikacij (vsaj tistega javno objavljenega dela) moč sklepati kar veliko. Predvsem – GT300 bo velik. Po naših informacijah bo čip velik vsaj 23 x 23 mm, proizveden v TSMC-jevem 40 nm procesu. GT200 je bil velik 24 x 24 mm a proizveden v 55 nm procesu! Glede na kalkulacije proizvodnih stroškov bi moral biti strošek Nvidie za izdelavo enega čipa zato okoli 30 % višji od najmočnejšega GT200 (GTX285), kar pomeni, da se utegnejo cene novih kartic zvišati.

Velik čip je posledica mnogih tranzistorjev, in Nvidia jih je v GT300 natlačila res veliko. Kar 3 milijarde tranzistorjev tiči v čipu. Kot vedno in povsod (tako pri ATI-i kot Nvidii) je nova arhitektura ena in skupna, na njej pa izdelajo posamezne modele bodisi za igričarski del trga bodisi za resne uporabnike. V preteklosti so bili slednji uporabniki opreme CAD/CAM, torej tisti, ki v delovnih postajah potrebujejo močno grafiko, ki zna strojno pospeševati jezik OpenGL; z zadnjima dvema generacijama Nvidie, pa se Nvidia s svojo CUDO premika še v eno smer. V zadnjih treh letih je namreč Nvidia nedvomno naredila velik napredek predvsem v smeri računalništva HPC (high performance computing). Vsi grafični procesorji so namreč v svojem bistvu sestavljeni iz več sto namenskih procesorjev. Včasih so bili namenski, s CUDO in DX10 pa so postali programirljivi in uporabni za računanje česarkoli. Zaradi močne vzporedne procesne moči so grafične kartice mnogi uporabljali tudi za izračun ogromnih količin podatkov, ki jim običajni procesorji niso kos oziroma jih izračunavajo zaporedno enega za drugim, kar traja več desetkrat počasneje. Prvi aplikaciji, ki sta izrabili ta potencial, sta bili Folding@home in Seti@home.

Pa si poglejmo, kako je zares videti Fermi. GT300 je arhitekturno precej spremenjen glede na GT200, saj ne gradi na njem, temveč nekatere ključne stvari delujejo povsem drugače. Fermi za začetek združi procesna jedra v skupine po 32 (GT200 po 8), poleg tega pa ne gre več za jedra, ki bi razumela le po en ukaz (SIMD – Single Instruction Multiple Data), temveč delujejo bolj po načelu MIMD (Multiple Instruction Multiple Data). To pomeni, da brez težav obdelujejo tako preproste kot kompleksne senčilne in druge računske operacije ter se v načelu ne razlikujejo več procesorjev FPU (floating point processing unit) v klasičnih Intelovih in AMD-jevih procesorjih. GT300 se ponaša s kar 16 takimi skupinami, kar pomeni, da ima 512 procesnih jeder (dvakrat več kot GT200). Sama hitrost delovanja jeder ne bo znana, dokler kartice ne bodo na trgu, verjetno pa je varno predpostaviti, da ne bodo počasnejša od tistih v GT200, kar pomeni, da bo procesna moč podvojena (če frekvenco postavijo na 2 GHz, bo to znašalo kar 3 teraflope enojne natančnosti). Procesna moč pri dvojni natančnosti plavajoče vejice (nekaj, kar je pomembno predvsem v resnem izračunavanju in v superračunalnikih) je odvisna od učinkovitosti jeder MIMD, a zlahka bo vsaj 5-kratna glede na GT200. Tudi hitri predpomnilnik je organiziran drugače in ni več statičen, temveč dvonivojski. Nov 1 MB velik Scratch Cache je veliko bolj porazdeljen in spominja na predpomnilnik L1 klasičnih procesorjev – še nekaj, kar bi moralo pohitriti izračune v GPU, predpomnilnik L2 pa je zrasel na 768 KB. GPU ima šest 64-bitnih pomnilniških particij, kar skupaj sestavlja 384-bitni pomnilniški vmesnik. Fermi bo znal nasloviti do 6 GB pomnilnika GDDR5.

Vse kaže, da bomo videli kartice z 1,5, 3, 4,5 in 6 GB pomnilnika. Ker je GT300 osnova za vse nove kartice (Tegra, GeForce, Tesla in Quadro) bo zanimivo videti, kaj bodo izklopili v cenejših različicah in predvsem kakšna bo energijska poraba tega mamuta (tu pričakujemo, da se bo odrezal precej slabše od novih Radeonov). Najprej je pričakovati GeForce 380, šele mesece pozneje nižje in cenejše modele.

Poleg tehnologij in jezikov DirectCompute, CUDA, Fortran, Java, Python, OpenCL je GPU po novem moč programirati tudi neposredno s C++, kar je vsekakor velik korak naprej k preprostosti in uporabnosti tudi zunaj igričarskega področja. Če k temu prištejemo še podporo za pomnilnik ECC (zahteva z HPC), potem je GT300 res bolj revolucija kot evolucija.
Vseeno ne moremo mimo opazke, da večina novega tranzistorskega prostora presenetljivo ni namenjena igričarskim funkcijam, temveč prav funkcijam vzporednega procesiranja, in to zelo resnemu procesiranju ...

Očitno je da si Nvidia prihodnost igričarstva s PC-ju predstavlja kot mešanico grafike in zelo močnega procesiranja v ozadju – umetna inteligenca, fizika ... Prav DirectCompute, ki je del knjižnice DirectX 11, naj bi to omogočal vsem uporabnikom Windows 7 oziroma, bolje rečeno, bistveno širšemu krogu programerjev, kot se jih trenutno ukvarja s CUDO. Nvidia je prepričana, da se bo igričarstvo povzpelo mimo vizualnih učinkov in da bodo igričarji v prihodnosti zahtevali več doživetij interaktivne narave. Ta pa bodo prinesle tehnologije, kot so stereoskopska 3D-grafika (Nvidiin 3D Vision) in napredna fizika (Nvidia PhysX).

Srednji (cenovno dosegljiv) razred grafičnih kartic, temelječih na Fermiju, naj bi po napovedih Nvidie na trg prišel šele marca 2010! To ni pretirano dobra novica za Nvidio, saj ATI že od oktobra prodaja svoji odlične in poceni grafiki HD 5770 in HD5750 (100–150 evrov). Nvidia se očitno drži svojega ustaljenega ritma: najprej predstavi svojo najmočnejšo, kraljevsko različico, šele pozneje modele za množični trg. Vse kaže, da bomo najprej dobili Fermi z enim GPU-jem (GeForce 380), nekaj tednov pozneje pa še dražjo izvedenko z dvema GPU-jema (GeForce 395). Vprašljiva ostaja tudi cena novincev, saj proizvodnja ne bo poceni, kartice pa bodo zajetne in verjetno bodo zahtevale dobro hlajenje (model 380 bi utegnil stati med 400 in 500 evri!). Le čas bo pokazal, ali se je Nvidia s Fermijem začela poslavljati od igričarskega sektorja (in se usmerjati bolj v HPC in znanstvene vode) ali pa gre le za začasno »motnjo«, dokler proizvodnega procesa ne spravijo pod 32 nm ...

Fermi bi lahko poganjal tudi operacijski sistem
Nvidia je v enem izmed intervjujev obelodanila, da čeprav Fermi GPU ni namenjen poganjanju ukazov x86, obstaja možnost poganjanja zelo optimiranega jedra operacijskega sistema, recimo Linuxa, na GPU-ju. Kot kaže, se fuzija dogaja (AMD-jev napovedan procesor Fusion z GPU-delom v istem čipu), Nvidia pa očitno namerava tja priti po drugi poti – dodajati CPU-zmožnosti GPU-ju. Močni indici kažejo na možnost, da bo Fermi 2 postal tudi konkurenca Intelu (ki Nvidii verjetno prav zaradi tega že zadnji dve leti močno nagaja).

Diagram ATI-jeve arhitekture

ATI R800 Evergreen

ATI-jeva nova generacija grafičnega procesorja R800 je proizvedena v 40 nm procesu, kar je omogočilo občutno zmanjšanje površine procesorja, oziroma bi, če bi število tranzistorjev ostalo enako ... A med posebnostmi nove grafike oziroma njenega trenutno najmočnejšega modela RV870 (Cypress) je prav število tranzistorjev, ki sestavlja grafični procesor in znaša kar 2,15 milijarde (v prejšnji generaciji HD4870 in čipu RV770 jih je bilo »le« 956 milijonov). S tem RV870 na prvi pogled deluje precej podhranjen proti Fermiju, a morda vse le ni tako lepo, kot je videti, saj je bil cilj ob snovanju procesorja dvakratno povečanje zmogljivosti glede na R700. Atijev HD 5xxx ima že v tem hipu tri prednosti. Prvič, lahko ga kupimo danes. Drugič, deluje odlično. In tretjič, veliko funkcij, s katerimi se v belih papirjih specifikacij bohoti Fermi, s skromnostjo že v celoti obvlada.

ATI je spet uporabil zmagovito strategijo iz pretekle generacije R700: zasnuj optimalen čip za srednjo zmogljivost. Nato ga podvoji v svojih najmočnejših karticah (Hemlock) ter oskubi za cenejše (Juniper). Zaradi optimalnosti čipa je tak čip tudi razmeroma »čist« in s tem preprost za izdelavo. To se je potrdilo tudi tokrat, saj ni videti, da bi imel ATI težave s proizvodnjo, izkoristki pa so očitno dovolj visoki (kar je nasprotje Nvidie), in to pri istem proizvajalcu, TSMC, za katerega je znano, da ima sicer težave probleme s 40 nm proizvodno linijo.

Za začetek: ATI-jeva nova arhitektura TeraScale 2 gradi na predhodnici, v katero so vnesli določene izboljšave in nove funkcije. Med spremembami najdemo povečanje pretočnih procesorjev, opravili so prerazporeditev pogonov SIMD (zdaj 20 skupin, vsaka ima 16 nitnih procesorjev, vsak od teh pa 5 pretočnih procesorjev). S tem so dosegli 1600 pretočnih procesorjev (vsak deluje pri 850 MHz) ali dvakrat več kot v prejšnji generaciji. Izboljšali so tudi enote za obdelavo tekstur, ki jih je zdaj 80, ter uporabili pomnilniški krmilnik, ki omogoča le delo z najhitrejšim pomnilnikom GDDR5 (do 2 GB, ki deluje pri frekvenci 1200 MHz in dosega 4,8 GB/s) in omogoča skupno prepustnost nad 150 GB/sekundo.
Čeprav ATI ni integriral podpore za pomnilnik ECC (ta bi prinesel višje stroške, 20 % poslabšanje zmogljivosti ter dodatno segrevanje komponent), pa so v svoji peti generaciji krmilniške arhitekture GDDR dodali EDC (error detection code), ki opravlja preglede CRC na prenesenih podatkih, s čimer večajo zanesljivost, a hkrati ohranjajo visoko pretočnost pomnilnika.

ATI je posebej izpostavil nove algoritme za filtriranje tekstur, ki omogočajo bistveno hitrejše celozaslonsko mehčanje slike oz. robov, in prehod s 4x na 8x FSAA brez opaznega upada zmogljivosti!

Že prek nekaj leti smo ob vse večji porabi energije grafičnih kartic govorili o tem, da bi morali prav v tej generaciji končno videti rešitve tudi na tem področju. ATI je z novo generacijo gotovo naredil velik korak naprej, saj je poraba novincev v stanju pripravljenosti (s tem je mišljen 2D-način delovanja, torej na namizju in v pisarniških aplikacijah brez videa) bistveno manjša kot prej, tudi pod polno 3D-obremenitvijo pa so nekateri modeli nove družine manj potratni kot njihovi predhodniki v stanju pripravljenosti oz. v 2D- načinu!
Če pogledamo golo moč glede na vat, vidimo da je glede na R700 novinec skoraj dvakrat učinkovitejši, saj se ponaša s 14,47 gigaflopa na vat, medtem ko je bil predhodnik pri 7,5 GFLOP/W. To pomeni, da procesor v stanju pripravljenosti potrebuje vsega 27 W (prej 90 W), pod najvišjo obremenitvijo pa ne preseže 188 W (prej 160 W), kar je za dvakratno izboljšavo zmogljivosti kar zavidanja vredno! Glede na konkurenco oziroma na obstoječe grafike HD 5870 tako pod polno obremenitvijo kot v stanju pripravljenosti porabi 20–50 W manj, kot recimo GeForce 285, kaj bo prinesel Fermi pa še ni znano (a glede na dva priključka molex za dodatno napajanje (6+8-žična) pričakujemo, da bo poraba med 225 in 300 W.

Kako se bo zmogljivostno obnesel ATI HD5xxx na daljši rok, bomo še videli, ko pride na trg Fermi in predvsem ko pridejo prve igre in preizkusni programi za DirectX 11. A glede na skoraj dvakrat boljše rezultate, ki jih nova arhitektura dosega v starih, na DirectX 10 in 9 temelječih igrah in testih, tudi v zmogljivost v DX11 ne dvomimo. Poleg tega bo ATI še pred iztekom leta splavil tudi svojo dvoprocesorsko grafiko (Hemlock), najverjetneje bo poimenovana HD 5870 X2. Sama procesna računska moč novega R800 je 2,7 teraflopa, oziroma 588 gigaflopov dvojne natančnosti!

Tudi AMD vzporedno procesiranje obvlada že leta (tudi za fiziko), a pristop oziroma jezik za programiranje GPU-ja se je skozi čas spreminjal. Najprej so v časih serije X1000 podprli stanfordske programerje z osnovnimi funkcijami GPGPU. Nato so propagirali funkcije CTM (Close to Metal) neposredno na sami strojni opremi. To je bila sicer optimalna pot, a težavna za programiranje. Z zamudo (za CUDO) so sestavili svojo knjižnico funkcij (API), poimenovano CAL, nato so jo razširili in preimenovali v Stream. Končno pa so konec leta 2008 v Streamu podprli še odprto knjižnico OpenCL (Open Computing Language) ter sredi 2009 izdali že drugo različico Stream API-ja s polno podporo OpenCL in z izvedbo izračuna fizike Havok FX v OpenCL. ATI HD5xxx je trenutno v procesu certifikacije za Open CL 1.0 ki ga v celoti strojno podpira (kot DirectCompute 11), a sam GPU bi moral biti združljiv tudi z naprednimi zahtevami Open CL 1.1, ki predpisuje podporo dvojni natančnosti plavajoče vejice, 32-bitne atomske ukaze in 64 KB globalno deljenih podatkov.

AMD se seveda zaveda pomena napredne fizike in je zato že pred leti zakupil licenco Havok FX (ki ga je sicer kupil Intel). Medtem ko se zdi, da Nvidia skoraj vse stavi prav na CUDO in paralelizem, ATI svojega Stream API-ja ne poriva tako močno. Bolj se zavzema za odprt standard, ki bi ga lahko podprli vsi razvijalci iger in tudi proizvajalci strojne opreme (OpenCL).

Še ena popolna novost pri R800 je Eyefinity, tehnologija, s katero lahko en AMD-jev R800 GPU krmili do šest zaslonov. Pri vseh karticah HD5xxx, ki so že na trgu, je zaradi prisotnosti standardnih vmesnikov (dva DVI, HDMI in DisplayPort) Eyefinity omejen na tri zaslone sočasno, vse z ločljivostjo do 2560 x 1600. A še v decembru bi morala na trg priti kartica Radeon HD 5870 Eyefinity6 Edition, ki bo imela kar 6 priključkov DisplayPort in seveda bo lahko prek vseh sočasno dajala sliko – tako namizje kot igre. Zaslone bomo lahko zložili v kakršno koli konfiguracijo (6 v vrsto, po 3 v dve vrsti, po 3 v dva stolpca) in grafika bo prilagodila virtualno ločljivost, kar bi naj delovalo pravilno ne glede na program ali igro. Ljubitelji letalskih simulatorjev – nekaj za pod vašo smrečico ... In to še ni vse – če bi potrebovali še več monitorjev (recimo za večji video zid), lahko povežemo v CrossFire X kar tri take kartice in krmilimo do 36 monitorjev sočasno! Prihodnji, za zdaj še nenapovedali modeli naj bi teoretično prinesli tudi HD 5870 X2 Eyefinity12, s podporo za 12 monitorjev.

Eyefinity je velik korak naprej, saj smo bili zadnjih deset let omejeni na dva monitorja. In ob ceni prek 1300 evrov za 30-palčni monitor z ločljivostjo 2560 x 1600 lahko z Eyefinityjem z nakupom treh 24-palčnih monitorjev 1920 x 1200 dobimo bistveno večje namizje za bistveno manj denarja (750 evrov) oziroma si za isti denar privoščimo še namensko stojalo za monitorje. Komplete monitorjev za Eyefinity je že začel prodajati Samsung. Že samo ta funkcija bo za marsikoga pomenila veliko več, kot bo ponudila Nvidia v Fermiju, če tega ne bo znal (in za enkrat ne zgleda da bi)...

KAJ KUPITI?

Tudi pri karticah se zastavlja večno vprašanje: Kupiti novo tehnologijo ali staro, ki je morebiti zdaj ugodnejša?

Težko je biti objektiven, ko imaš na trgu samo enega ponudnika. Ena varovalka v takem primeru je seveda razmišljanje o tem, ali nas monopolist skuša »nategniti« s ceno – saj ve, da je edini, in bo to verjetno izkoristil. Druga varovalka je razmišljanje o tem, kaj boljšega zame in za moje potrebe bo prinesel konkurent, čeprav s časovno zamudo.

Koliko je znano o Fermiju ta hip in kolikor smo preizkusili HD5xxx, je odločitev jasna. Zlasti ko pogledamo cene. In posebej ko vidimo, da za DirectX 11 ni potrebna nadgradnja na Windows 7, temveč lahko ostanemo na Visti. Vsekakor je po našem mnenju zmagovalec ATI.

Kartice podpirajo vse funkcije, ki jih bomo potrebovali v naslednjih nekaj letih, z vključitvijo vmesnika DirectCompute v DX11 pa CUDA in PhysX izgubljata svoj monopolni položaj. Seveda bodo nekatere še vedno igre podpirale le Nvidiine tehnologije, saj Nvidia za »podporo« razvijalcev zapravi velike denarje, a to ne more biti večno.

ATI HD 5870 je s ceno dobrih 350 evrov kot najmočnejša kartica nove generacije grafik razmeroma poceni. Njegov malce okrnjen model 5850 pa je še 100 evrov cenejši. Novi HD 5750 pa kot najcenejši model najdemo tudi pri nas po ceni med 100 in 130 evri (a le za dvajset evrov več se morda bolj splača vzeti 5770). Cene Fermija bodo verjetno bistveno nad 400 evri, vsaj za prve modele, ki bodo na trgu verjetno šele pozno drugo leto. Če želite nujno imeti Nvidio, se cene za obstoječi top model GTX 285 gibljejo okoli 350 evrov, za GTX 275 okoli 210 €, najmočnejši dvojedrni model GTX 295 stane preko 450 evrov. Sami ne vidimo smisla v tem, saj je dejstvo da ima ATI trenutno tako boljšo kot ugodnejšo ponudbo, ki bo tudi varnejši nakup z vidika uporabne življenjske dobe. Tudi v Nvidiinem spodnjem cenovnem razredu bomo namreč odšteli 130 evrov za GTS250, kar je nesmiselno, saj ga HD5750 bistveno prekaša.

Moj mikro, december 2009 | Jaka Mele |