A sta je sa letencijama, ti podoaci ipak prelaze iz L3 keha u L2 kesh, pa onda do samog procesora. Latencije kesh memorije mogu da igraju veliku ulogu, mada treba sacekati da vidmo konacno Fenom na delu. Doduse, zanimljivo je da AMD ima integrisan mem kontroler sto moze dosta da kompenzuje poviusene latencije kesh memorije. Intel je do sada uvek bio bolji u radu sa kesh memorijom, ali je AMD odvaljivao u radu sa sistemskom memorijom, gde je Intel bio los zbog FSB-a koji je usko grlo. Da ne pricam o stvarima koje su nam svima jasne.
Cache prefetcher kod K10 je na L1 kesu za razliku od K8 koji je na L2. Dakle, svi podaci i instrukcije prvo idu u L1, pa onda u L2, pa onda u L3. Shareovani podaci idu u L3.
Malo je izmenjena kesh polisa. U slucaju promasaja L1, podatak se ucitava iz L2, pa na kraju iz L3. S' obzirom da je cache hit za L1 recimo 90%, za L2 je nekih 95% od onih 5%, a za L3 bi trebalo da suzbije zagusenje na sistemskoj magistrali prilikom inter-core komunikacije. Svakako da ce L3 od recimo 20 ciklusa biti mnogo brzi od DDR2 memorije od npr 50 ciklusa.
Ko' sto rece DeanXP, K10 ce imati varijabilni L3 cache latency i bandwidth, u zavisnosti od stanja, odnosno aktivnosti jezgara i power-plane-a.
Ono sto je zanimljivo videti jeste u kojoj meri ce, nadam se, unapredjeni memorijski kontroler kod K10 da kompenzije povisene latencije deljene kesh memorije.
Deljena kes memorija kod K10 uopste nije usko grlo. Cak i da je ostao isti kontroler, usporenja zbog L3 sigurno ne bi bilo. Vecina brzih operacija se obavlja iz L1, pa onda tek iz L2. S' obzirom na to da je prefetcher mnogo bolje odradjen ovog puta, slicno kao i kod C2D, ne bi trebalo da bude bilo kakvih problema sa latencijama.
Neko je naveo da resenje sa deljenim keshom moze i ne mora biti prednost. Slazem se sa time. Ako npr. jedno jezgro prepuni L2 kesh tada drugo jezgro radi manje efikasno. Zato je i dobro sto npr. Kenstsfiled ima 2 porcije deljenog kesha iako to deluje kao nedostatak.
Deljen L2 nije neka narocita prednost zbog trashing-a. Svaki od procesora ima 256-bitni bus ka L2 kesu, a kesh kontroler je takodje 256-bitni. Problem koji se javlja je ukoliko ta dva procesora, t.j. jezgra, istovremeno pristupaju razlicitim podacima u L2, onda dolazi do usporenja.
K10 je, sa druge strane, hibrid - svako jezgro ima svoj ekskluzivni L2 kesh i L3 kesh koji deli sa ostalim jezgrima. Zvuci, interesantno, mada mislim da je buducnost u vlikim kolicinama deljenog L2 kesha i tehnikama za dinamicko particionisanje istog, kao kod Cell-a.
Nemoj da mesas exclusive L2 sa separate ili private L2.

Bitna je razlika.
Kod AMD-a postoji tzv. exclusive cache arhitektura, gde se ne kopira kesh linije iz L1 u L2, kako je to slucaj kod Intela. Prednost ovakve tehnike je bolje iskoriscenje kapaciteta kesa, ali ukoliko L1 ima promasaj kes linije, za kopiranje podataka iz L2 u L1 potrebni su tzv. victim buffer-i koji predstavljaju usko grlo, povecavaju latenciju. Sam transfer iz L2 u L1 nije tako jednostavna stvar, pa traje par ciklusa, sto utice na performanse.
Ono sto je bitno je to da kod K10 nece biti cache trashing-a, multitask, a i mulithread performanse ce skalirati skoro linearno, ukoliko je softver koji se koristi napisan tako da pravilno koristi sva jezgra.
Ne mozemo porediti babe i zabe, svaka kesh arhitektura odgovara odredjenoj mikroarhitekturi. Pa tako AMD-u odgovara exclusive. Jedan od glavnih razloga za takvu kes arhitekturu je i povrsina jezgra, velicina SRAM celija u kesu, proizvodni troskovi... SRAM cache je najskuplja stavka u jednom mikroprocesoru. Do sada je Intel prednjacio u tehnologiji izrade kesha, t.j. gustini, a AMD je imao integrisan kontroler, pa je to kompenzovalo potrebu za inkluzivnom kes arhitekturom i ogromnim kesom. Time su dobili jeftiniji i brzi procesor. Ostaje naravno, da je IMC i dalje jako primamljiva stvar, koja prilicno podize performanse u radu sa memorijom.