Napisah pre neko vece (par dana pre lansiranja) da se cifre koje smo imali u raznim leakovima ne slazu (broj tranzistora itd.), a sada imamo objasnjenje zasto je to tako - cipovi imaju daleko vise CUDA cores nego sto je i jedan jedini leak nagovestavao. Ono sto mene malo buni i dalje su performanse... samo na osnovu tog broja (i znatnog uvecanja broja TMU) razlika bi morala da bude daleko veca u odnosu na jedno sto je jedino "nagovesteno" o performansama (3080 ce imati 80% vise performanse u odnosu na 2080). Posto je razlicita klasa cipova u te dve karte (TU104 i GA102) nisu bas direktno uporedive, ali razlika u specifikacijama kaze da bi (u situacijama kada memorija nije prepunjena) 3090 trebalo da bude ~25% brzi od 3080, sto bi dalje znacilo da je razlika izmedju 2080Ti i 3090 nekih ~80-90%. Razlika u broju CC je skoro 2.5 puta, slicno kao i u broju TMU. Ako nesto nisam prevideo (ispravi me svakako) ispada da je Ampere manje efikasan u odnosu na Turing, a dobici su posledica brute force pristupa i naprednijeg proizvodnog procesa. Opet, mozda su performanse vise nego sto je receno , ili zbog izmene arhitekture koju si i sam nagovestio treba jos raditi na drajverima.
U svakom slucaju, treba sacekati jedan ozbiljan deep dive u arhitekturu, uz prve review-e ).
@Dusan K: Vezano za uvećanje broja jezgara i efikasnosti, i ja sam o tome razmišljao i mislim da postoje dva ugla gledanja na stvar:
- da je broj jezgara uvećan 2,5x i tada je efikasnost CUDA jezgara dosta slabija u odnosu na Turing karte
- da je broj Streaming Multiprocesora povećan za 20% (ako se uporedi 3090 sa 2080 Ti) a da su sami SM-ovi znatno poboljšani (ubacivanje još jedne kolekcije od 64 FP CUDA jezgara umesto INT jezgara) i tada je efikasnost mnogo povećana u odnosu na Turing
Mislim da je drugi način pravilniji jer CUDA jezgra dele mnoge resorse u okviru SM-a. Ali dobro, nVidia je već objavila 10000+ jezgara tako da su se oni odlučili za prvi način
Za TMU jedinice, nisam siguran ali mislim da je broj ostao isti po SM-u ?
Kako god da se posmatra, broj tranzistora je dosta manji nego što je procurelo (28 a bilo je 35 milijardi) tako da je sada uvećanje "samo" 10 milijardi u odnosu na Turing odnosno ravno 50% tako da u tih 50% uspeli su da ubace 20% više jedinica globalno, preko toga duplirali CUDA jezgra, ubacili bolja/više RT, Tensor jedinica..tako da kad se sagleda šta je sve ubačeno rekao bih da vredi povećanja čipa. Ali GPU je i dalje velike površine zbog Samsung 8nm, da je kojim slučajem ostao kod TSMC-ovih 7nm kao A100 sa istom gustinom, čip bi bio površine ~420mm2 umesto 628mm2 ili koliko se već priča da je površina.
Ono što se meni ne uklapa je potrošnja. Na slajdovima kažu da je efikasnost 1,9x u odnosu na Turing. Da kažemo i da su karte zaista brže koliko tvrde, to bi značilo da je potrošnja u najmanju ruku ostala na nivou Turinga, tj. 250W. Verovatno je cherry picked situacija.
Sve u svemu, fali whitepapers i jedna odlična analiza da bi moglo sve dobro da se sagleda.
EDIT: Inače, ako je 3080 brži 25-35% od 2080 Ti nek je i 35%, onda ne vidim kako 3090 može biti brži od 2080 Ti za više od 60-65% jer ne očekujem da je 3090 brži od 3080 za više od 20%.
Testovi će za dve nedelje, živi bili pa videli