delimir je napisao(la):
Ma nije to nista sporno. Znam ja da zbog integrisanog mem.kontrolera A64 ima FSB jednak taktu procesora, pa samim tim ume itekako da iskoristi dual chanell (cak mu je i to malo, tj. mogao bi i neki 4x DDR400 mod da iskoristi kada bi tako nesto bilo implementirano), ali zbog kratkog pipelinea nema toliko potrebe da se cesto kao P4 obraca sistemskoj memoriji, pa su samim tim i beneficije od brzog rada sa memorijom drasticno manje.
Nije samo problem u arhitekturi procesora, nego u samom softveru koji se uglavnom izvrsava u L1 i L2 kesu i relativno malim segmentima memorije. Ekstremni slucaj su tzv. "streaming" aplikacije koje zahtevaju memorijski protok. Primer je DVD konverzija koja na Socket939 platformi radi ultra brzo. Naravno, na Intelu radi mozda za nijansu brze zbog 1 GHZ veceg takta i SSE2 optimizacije, ali ce na A64 Dual Chanell pokazati pravu snagu na vecim radnim taktovima procesora i sa 64-bitnim optimizacijama. Rad sa 64-bitnim patternima ce zahtevati tacno dva puta veci mem. protok, a da ne pricamo sta ce biti na 2.8 i vise gigaherca, ili sa dual core Opteron cipovima.
Za sada, kod izvrsavanja velike vecine "branch" koda A64 benificira od niske latencije integrisanog memorijskog kontrolera.
delimir je napisao(la):
Sigurno si primetio i da P4 kada su saseces L2 kes ili dodas, kako hoce, dobija znatno losije/bolje performanse. Kod A64 to nije slucaj u tolikoj meri iz istog razloga kao sa memorijom.
A64 kao prvo ima 128K L1 kesa, sto mnogo znaci. PIII je imao 10-stepeni pipeline, kao i Athlon, pa je Celeron (bogalj) radio daleko slabije od Durona, koji je cak imao manje L2 kesa od Celerona. PIII je bio po IPC broju blizak, t.j. izmedju Durona i Athlona. PIII je bio "neznatnih" 30-40% brzi od "bogalja". Secam se samo da je moj nekadasnji Duron na 600 Mhz radio brze od Celerona na 800 Mhz FSB100 Mhz.
Cela stvar je u tome sto AMD-ovi procesori u odnosu na Intelove imaju veci "cache hit rate" , u 128K L1 kesa se nadje 92% potrebnih informacija, u 256K L2 se nadje jos 93% od tih 8% miss rate-a iz L1 kesa. Athlon i Athlon 64 imaju 16-way associative L2, koji znacajno povecava "hit rate".
S' druge strane Intel, zahvaljujuci manjoj asocijativnosti, ostvaruje veci transfer L2 kesa, a tu je naravno i 256-bitni transfer. Samim tim P4 zahteva velik transfer memorije. Uostalom, dovoljno je da vidis rezultat L2 kes transfera u Science marku na 845 cipsetu i na 875p cipsetu, sa P4 CPU-om na recimo 2.4 Ghz.
Intel je posebnim prefetch mehanizmima anulirao negativne uticaje povecane latencije kesa i magistrale, narocito L2 (P4 ima preko 24 ciklusa latenciju L2, dok A64 ima oko 16 ciklusa), Intel omogucuje da njihovi procesori traze veci protok, umesto nize latencije. Prescott ima jos vecu latenciju kesa, a povecana je i latencija L1 kesa sa 2 na 4 ciklusa. Ipak, Prescott ne gubi puno od NW jezgra zato sto je taj isti L1 povecan, kao i naravno L2. Jednom reciju, Intel je Prescott-a optimizovao za DDR2.
delimir je napisao(la):
Zabavni softver tj. igrice su skoro jedini softver danas koji ume da iskoristi blagodeti veceg kesa i brzeg pristupa memoriji, ali opet mislim da je snizena latencija znacajnija i za igrice nego li veliki protok, ali sa visokom latencijom memorije. Zato A64 i cepa P4 u D3...
Naravno, ni P4 nije imun na visoke latencije. To se jako lepo vidi, P4 na 250 Mhz FSB-u sa memorijom na 250 CL3 4-4-8 radi kudikamo sporije u 3D-u od istog takvog P4 sa 250 FSB-om i asinhronom memorijom na 200 Mhz na CL2 2-2-6.
Uostalom masa igrica ima u sebi vrlo malo data stream-a. Sve se svodi na komunikaciju procesora sa memorijom i GPU-om koji svake sekunde vrsi milione poligonskih proracuna. Masa tekstura se kopira iz RAM-a preko AGP-a ili PEG interfejsa u Video RAM i to bez koriscenja procesora.