Šta je novo?

AMD noviteti 2007 (klapa2)

ivanbo2003

Slavan
Učlanjen(a)
18.07.2005
Poruke
2,295
Poena
380
AMD's new core named "Hound"

Koliko je tacno ne znam,ali deluje da jeste.Dosta informacija sa sve grafikonima za proizvodne procese.
Vise informacija u ovom trapavom prevodu sa japanskog na engleski:

http://www.google.com/translate?u=h...31/kaigai273.htm&langpair=ja|en&hl=en&ie=UTF8

Po tekstu Rev G je malko promenjeni Rev F u 65nm(valjda ... bar sudeci po onim shot-ovima,ima nekih izmena na drugoj slicici,a i trapavi prevod ovo potvrdjuje).
Treca slicica bi trebalo da je "Hound"(K8L?, 2 FP unita jasno vidljiva 😀)

Gde je u celoj stvari Bulldozer?Znam da je pominjano da je to neki novi mobile cpu koji je posebno razvijan,ali ime mi deluje bas lozacki(kao da gazi sve pred sobom 🙂 )

Takodje se pominje koegzistencija dve linije na polju server i mobile serije(mozda i desktop).
Moje pitanje: Da li se to odnosi na ovu ili sledecu godinu?


In other words, micro architecture itself of the CPU core, is presumed that 2 types of core of high performance and high electrical efficiency and core whose for Mobile electrical efficiency is very high are designed. The Hound core for the server is the core not to be wrong. It becomes the scenario that on that, you bring two cores to also the desktop market. But details the expectation which with Analyst Day becomes clear, if you think proper, it does extensions in for the server and preparing the core which pulls up performance. As for performance expansion the possibility of throwing the core which is stopped smallest is high in for Mobile. Perhaps it becomes some division, as for the desktop it is not understood, but both cores exist together.

PS Znam ,prevod je smesan kao crtani film 🙂
 

Prilozi

  • kaigai273_01.jpg
    kaigai273_01.jpg
    422.9 KB · Pregleda: 138
Kako sam ja razumeo, AMD je odbacio "plavo" jezgro, i odlucio se da ide direkt na "zeleno" sa dodatnim unapredjenjima! Tako da je ovo Zeleno jezgro zapravo K8L, od sada znan kao Hound!
G ce biti samo shrinkovani F!
 
Dirk Mayer (The Darkness Mayor) ! :d

Nego, izgleda da necemo mi videti taj K8L pre kraja sledece godine! 🙁
 
drfedja je napisao(la):
Dirk Mayer (The Darkness Mayor) ! :d

Nego, izgleda da necemo mi videti taj K8L pre kraja sledece godine! 🙁

Sto se tice quad-core resenja sa L3 Z-Ram Cache'om to je moguc termin

Ali vjerujem da ce Dual Core resenje sa prosirenom 128 Bitnom FPU jedinicom bez L3 cache'a vec pocetkom 2007dme biti dostupni
 
Poslednja izmena:
Pa bilo bi im pametno da preskoce "die shrink" Windsor-a, inace bice im modro dupe od batina koje ce da pretrpe od plavih. :d
Pitanje je samo da li oni vec imaju prototipove K8L procesora. Ako je to tako, onda u prvoj polovini 2007. mozemo ocekivati K8L, koji ce po FPU performansama verovatno da dere sve zivo.
 
Poslednja izmena:
Posto je vezano za temu AM2 moze da ide i ovde,a moze i u novi thread.

Link: http://rufus.hackish.org/~rufus/amd/big.html


U svakom slucaju novosti su velike i zasluzuju posebnu paznju(novosti su izdvojene sa amdzone-a):

-HT links can totally shutdown to reduce power consumption while the box is idle(nisam siguran da li su socket AM2 procesori obuhvaceni ili samo novi Opteroni)

-demoed 65nm based cpu in a working machine

-mentioned that 65 nm is very mature, and will likely ramp very quickly(ovo moramo da verujemo AMDu na rec 🙂 )

-mentioned 4x4:
AMD also mentioned the ultimate gaming (enthusiasts) platform called, 4X4. Apparently the name comes from the dual sockets with dual core for 4 cores plus 4 graphic slots. Alienware is onboard for this.


-the new core is due out in 2007, not 2008

-confirmed that the mobile core has only one FP pipeline

-AMD confirmed that the clock speeds for a quad core chip are individually, automatically adjusting depending on the work load. In other words, if one were running say a single threaded benchmark, the other three cores can be idle. The power levels for the northbridge are also adjusted separately. They mentioned a 40% reduction in power consumption

-AMD claims a "significant" performance advantage over their competitor in VMware with their Pacifica technology

-The 4x4 platform is supposed to be able to accept co-processors for HT coupled physics, etc
 
drfedja je napisao(la):
Ne znam samo kako su smislili da odrade Dual CPU koherenciju HTT linkova sa procesorima koji su pravljeni sa 1 HTT linkom? Sam znas, valjda da 2xx i 8xx Opteron ima do 3 HTT linka, za komunikaciju sa ostalim procesorima u sistemu. Prema tome, to vise lici na prazno naklapanje, u stilu "sta bi bilo kad bi baba imala qratz!" :d

Svi K8 procesori imaju 3 HTT linka samo se za A64 i Opteron 1xx, dodatna dva onesposobljavaju prilikom pakovanja. Izgleda da ce FX-u da ostave linkove i naprave ovo 4x4 cudo: http://rufus.hackish.org/~rufus/amd/Slide073.JPG

Ocajnicki potez. Dovlace dual socket na desktop. Da su bar napravili "quick and dirty" quad-core sa 2x dual-core MCM. Ciljaju istu publiku kao i QuadSLI, znaci svih 100 ljudi... Jako los potez IMHO.
 
DeanXP je napisao(la):
Dovlace dual socket na desktop. Da su bar napravili "quick and dirty" quad-core sa 2x dual-core MCM. Ciljaju istu publiku kao i QuadSLI, znaci svih 100 ljudi... Jako los potez IMHO.

Licno ja se nista ne bih bunio kada bi DualSocket postao Mainstream, a ako ova 4x4 inicijativa do toga dovede, onda bravo za nju!

Dobro si konstatovao ovo za "svih 100 ljudi", ali ostaje neosporna chinjenica da je DELL svoj cuveni Renegade 600 vredan 10K USD rasprodao potpuno za par dana, a kolicine su ipak bile merene hiljadama.

Poenta je da za ovakve platforme ima mesta na trzistu, jer uvek ce biti onih koji zele da se qrche, a mogu to sebi da priuste. U svakom slucaju bi bilo extra da je zaista rec o AM2 socketu, pa da se u 4x4 ploce mogu ubadati i dzeftinoza procesori... mada, cini mi se da je ATX format premali za dva AM2 socketa... dodushe ni 'vidijina Quad 7900GX2 kartica nije standardnih dimenzija...

No da ne duzim pricu i da se vratimna pocetak, pod utiskom sam da ce ovo biti dostupno samo sistem integratorima (Alianware, VoodooPC, Falcon Northwest i ostali), tako da nista od moje zelje da se 4x4 nadje u retailu!
 
AMD je ocigledno cuvao tajnu vrlo dobro,a drfedja je dobio odgovor na pitanje "sbbkbb dobila piiip" :d

Meni se cini da su oni prvo ispitali trziste za 4x4 pa onda krenuli da prave chipset,jer za te stvari treba jedno bar pola godine(s'obzirom na vec skoro skroz sazrelu (A)M2 platformu u to vreme).
Eh da je moguce ubosti regularan(non fx) cpu u tu plocu,to bi bila prava stvar.Mada ima ljudi koji ce ovo kupiti a da ne trepnu.Nema ih puno(gledano u odnosu na globalnu consumer bazu),ali su tu🙂.

Edit: K8L details continue to pour in at AMD's Technology Analyst Day ==> http://www.dailytech.com/article.aspx?newsid=2637

A major push for AMD’s K8L design is in “modular” component design – meaning everything from L3 cache to memory controllers are developed as individual components and linked together with reusable, robust designs. To some extent, processor design is already modular with libraries and designs that are developed individually. However, Hester insists this new modular approach takes this modular approach even further, claiming that the company is developing “better define the interfaces for each of these building blocks.”

Ovi mi se veoma svidja,modularan(flexibilan) dizajn.Zaista pametno osmisljen koncept.
 
Poslednja izmena:
Nedjo je napisao(la):
Licno ja se nista ne bih bunio kada bi DualSocket postao Mainstream, a ako ova 4x4 inicijativa do toga dovede, onda bravo za nju!

Kao sto si zakljucio na kraju post, tesko da ce od toga biti nesto. U startu ce malo koji proizvodjac moci da izdvoji para za RnD dual socket ploca. Onda jos troskovi proizvodnje, pa velicina... Onaj kome stvarno treba tako nesto je odavno mogao da kupi Opteron 2xx.

S druge strane Hound izgleda sve bolje. Imace 4 HTT 3.0 linka! 80GB/s bandwidth. Moguce je razdvajanje na osam 8-bitnih linkova tako da je u 8S konfiguraciji svaki socket direktno povezan sa svakim. Preko 8 socketa tj. direct connect 2.0 ce izgleda tek 2008.

Pripremaju i on-chip coprocesore: http://rufus.hackish.org/~rufus/amd/Slide078.JPG

Steta sto nema vise informacija o samom jezgru. Zanimam me da li pod OOO Loads podrazumevaju load before load reordering ili potpuni load before store reordering a.k.a disambiguation.
 
Poslednja izmena:
ivanbo2003 je napisao(la):
Ovi mi se veoma svidja,modularan(flexibilan) dizajn.Zaista pametno osmisljen koncept.
Pa to je ono o cemu sam pricao u zatvorenom tredu! Tako su dizajnirali K8L da ce moci da ga seckaju i kombinuju i na taj nacin shire portfolio zadrzavajuci proizvodne troskove na minimumu. Unapredjenje Hyper Transporta, mogucnost prosirenja broja lnikova u letu, gasenje linkova, gasenje jezgara... u principu K8L je na prvom mestu osmisljen kao serverski chip i u datacentrima ce fleksibilnost njegopvog dizajna najvise doci do izrazaja. AMD-u je izuzetno bitno da zadrzi pozicije na serverskom trzisu i sva je prilika da ce im to poci za rukom zahvaljujuci K8L-u! Nisu zaboravili ni na "fizicka lica", ali za njih ima vremena, a dok K8L ne stigne u desktop masine, fore i fazoni poput 4x4 treba da drze vodu...
K8L je zaista zanimljiv dizajn i samo istice svestranost bazicne arhitekture. Malo se proshiri i produbi i eto ubrzanja... mada, to je topla voda... Intel je istu stvar napravio sa Conroeom, koji je, objektivno, proshirenje i produbljenje P6 baze!
 
Poslednja izmena:
ivanbo2003 je napisao(la):
AMD je ocigledno cuvao tajnu vrlo dobro,a drfedja je dobio odgovor na pitanje "sbbkbb dobila piiip" :d

Meni se cini da su oni prvo ispitali trziste za 4x4 pa onda krenuli da prave chipset,jer za te stvari treba jedno bar pola godine(s'obzirom na vec skoro skroz sazrelu (A)M2 platformu u to vreme).
Eh da je moguce ubosti regularan(non fx) cpu u tu plocu,to bi bila prava stvar.Mada ima ljudi koji ce ovo kupiti a da ne trepnu.Nema ih puno(gledano u odnosu na globalnu consumer bazu),ali su tu🙂.

Edit: K8L details continue to pour in at AMD's Technology Analyst Day ==> http://www.dailytech.com/article.aspx?newsid=2637



Ovi mi se veoma svidja,modularan(flexibilan) dizajn.Zaista pametno osmisljen koncept.
Citajuci malo AMD-zoneov forum, skapirao sam da drezdenske fabrike imaju isto tako visok stepen flexibilnosti, pa mogu u hodu da svasta menjaju na procesorima! Bilo kakvu gresku u proizvodnji ceo sistem sam ispravlja, a za promene na proizvodnim linijama im je u proseku, navodno potrebno, oko nedelju dana!!!
To znaci, da oni mogu da oduzimaju i dodaju cache, izvrsne jedinice, FPU pipeline, tweakuju proizvodni proces kako god hoce. Ispada da je ceo K8 CPU lepo "sklopljen" po modularnom principu, a na dijagramima cak i tako deluje.
 
pa u sustini kako bi tako veliki projekat uspeo da nije modularan? vazan princip objektno orijentisanog hardware-a 🙂) i to samo 50 inzinjera....

p.s.
doduse koliko je tesko napraviti procesor govori cinjenica da je registar deklarisan sa jednim redom koda u recimo isp' ili sl..
 
Poslednja izmena:
drfedja je napisao(la):
Citajuci malo AMD-zoneov forum, skapirao sam da drezdenske fabrike imaju isto tako visok stepen flexibilnosti, pa mogu u hodu da svasta menjaju na procesorima! Bilo kakvu gresku u proizvodnji ceo sistem sam ispravlja, a za promene na proizvodnim linijama im je u proseku, navodno potrebno, oko nedelju dana!!!
To znaci, da oni mogu da oduzimaju i dodaju cache, izvrsne jedinice, FPU pipeline, tweakuju proizvodni proces kako god hoce. Ispada da je ceo K8 CPU lepo "sklopljen" po modularnom principu, a na dijagramima cak i tako deluje.

Cinjenica je da su svojom APM tehnologijom kupili kako saradnju sa IBM tako i onih 2000 wafera mesecno u Chartered-u.
Zahvaljujuci APM-u je proizvodnja u Fab36 pocela sa zrelim yield-om. Navodno eng samplove mogu da proguraju kroz fabriku po ubrzanom postupku uporedo sa obicnim waferima. Mada, sve je to logicno. AMD je morao da razvije dobru tehnologiju za nadgledanje fabrike, jer nema luksuz brute force proizvodnje kao intel.

Nego, ima par interesantnih stvari vezanih za 65nm core. Gustina cache-a je vise nego udvostrucena. Ako je verovati ovome: http://www.chip-architect.com/news/Quad_vs_Dual_.jpg K8L Quad-core ce biti extra kompaktan. Tek nesto veci od Core 2 Duo. To stavlja dual-core na oko 100mm^2. Bez L3 cache bi bili ispod 100mm^2. Single core sa 512Kb ide na manje od 40mm^2! Ne secam se da je od AMD/Intel procesora bilo koji imao ovako malo jezgro. Dual-core sa 256KB cache bi bio oko 70mm^2 sto je manje od danasnjeg Venice-a i Semprona. Sa ovako malim jezgrima, mozda postoji sansa da ce AMD spustiti dual-core u Sempronske vode.

@genuine: Ti si u jos nekom threadu rekao kako je mnogo lakse napraviti hardware nego software. Odakle ti uopste ta ideja?
 
Poslednja izmena:
naucili su nas na fakultetu 🙂

pa jeste tacno zato sto niko vise ne sedi za papirom i crta tranzistore..
sada se radi u jezicima za opis hardware-a koji ima sasvim dovoljno i za razlicite namene... mislim svi su culi za vhdl ... bukvlano se deklarisu registri, kaze a + b za sabiranje i sl.. a posle silicijumski kompajler odradi sve ostalo.. naravno jedan deo se rucno odradi da bi bilo minimalne povrsine, da disipacija bude ravnomerna po celom chipu i sl.... na primer video sam opis 32-bitnog procesora koji je nas profan napravio 85 ( za darpu culi ste sigurno GaAs na 200MHz ) koji staje na nekoliko desetina stranica a4

u ostalom hardware nema bugove ( ima ali toliko retko ) za razliku od software-a sto vam odma govori sta je kompleksnije 🙂
to da li za hardware treba vece znanje potpuno je relativna stvar...
u ostalom athlone i sl za amd radi najvise 50 inzinjera a vidite kako izbabuju procesore ko ludi

p.s. cinjenica je da ne moze svako da pravi procesore ( bilo opste namene bilo posebne namene ) ali zar je silicijumski kompajler kao program laksi, ili operativni sistem, program za rutiranje stampanih plocica, simulator vremena z a celu planetu i sl ..
 
Poslednja izmena:
Pa mislim da si donekle u pravu, ali ne bas skroz. Nije problem definisati registre, itd.... problem je napraviti dobru organizaciju i optimizaciju, bas kao i u softveru, za sta se koriste kompleksni matematicki modeli.
Uostalom, ni softver ne pravi niko od samog pocetka kao ni hardware, vec se radi samo o updateovanim verzijama
U softveru dodas neku funkciju, uradis neku optimizaciju, ispravis neki bug, poboljsas staru funkciju, promenis dizajn maske, rekompajliras ga novijom verzijom kompajlera i eto ti nove verzije softvera.
Isto tako je i kod hardware-a: dodas izvrsnu jedinicu, dodas novi core, ispravis bug, nabudzis SSE2, prosiris ALU registre na 64-bita i dobijes X86-64, dodas novi power state, a u osnovi je to isti onaj stari, evolucirani CPU.
Ono sto ne postoji kod softvera je proizvodni proces koji je posebna nauka. Kako tweakovati alate, kako napraviti informacioni sistem koji ce sam da detektuje probleme, pa posebna naucna istrazivanja koja se vode ne bi li se poboljsale elektricne specifikacije tranzistora, itd....mnogo je tu tehnologija koje se koriste.
Uostalom, ko kaze da procesori nemaju bug-ove ? Pa u prvoj verziji K8 jezgra je dokumentovano cak preko stotinak bug-ova, koji su kasnije ispravljani. To su tzv. errata, a mnogi od njih mogu biti sredjeni updateovanjem mikrokod rom-a u samom CPU.
Prema tome, hardware i software su medjusobno isprepletani, a sad pitaj profu na faxu sta je starije, kokoska ili jaje ?! 🙂
 
Siguran sam da je najmanji problem napraviti single-cycle non-superscalar in-order cacheless procesor. To bi bio "Hello World" program medju procesorima.
Za CMOS kola ima brdo predefinisane logika koja se slazu k'o lego kockice. Ali ako dodas bilo sta malo komlikovanije onda moras sam da radis. Koliko je samo tesko implementirati jedan OOO superskalar. Svi proizvodjaci imaju svoj pristup. A tek spekulativno izvrsavanje? Ne samo da se mora razvijati prediction logika nego i osigurati da ce sve biti u redu ako ta logika pogresno predvidi. Onda ima stotine izuzetaka od pravila na koje se uvek mora racunati. Dovoljno je samo da scheduler nije iza execute i moras da pravis nocnu moru od replay sistema. Dodas onda cache hijerarhiju sve sa dual-port L1D cache. Uz to moras voditi racuna na sve tipove instrukcija, pa cak i razlicite kombinacije istih. A onda dodje slag na tortu i neko ti kaze implementiraj sve to ali na 20 godina stari CISC ISA, koji nije ni cuo za performanse 😉 Ne ostaje ti druge nego da se bacis na pravljenje nepotrebno komplikovanog dekodera. Nije uopste tesko napraviti procesor koji radi. Tesko je napraviti procesor koji radi brzo.

Hardware ima bugova. Samo se oni beznacajni prokradu u final silicon i oni su popisani u errata listi. Jedina razlika izmedju softver i hardver bugova je to sto hardver ne moze da se patch-uje na terenu (microcode bug je izuzetak). Zato se proizvodjaci trude da sve rese pre nego sto dodje i do prvog tapeout-a, a i onda po pravilu ima nekoliko revizija. Kao gotov proizvod obicno stigne neki rev. B ili C.
 
skoro sve sto si rekao(nije bas sve ali dobar deo) je vec akademski razradjeno odavno i modularno je tako da moze da se pristupa nezavisno jedno od drugog... postoji milion problema... ali kada se udje u stos siguran sam da nije toliko strasno koliko zvuci iz tvog teksta..

p.s.
ja sam tek na pocetku i cekaju me phd studije pa cu sigurno vise detalja tamo nauciti o ovome... ali mislim da nije toliko strasno... (mislim procesore ipak ne prave bogovi )
 
Poslednja izmena:
Tesko je relativna stvar. Nisam hteo da kazem da je pravljenje procesora jedna stepenica pred nemogucim, nego da nije tako lako kao sto si ti postavio u prethodnom postu. Software i hardware moraju biti u ravnotezi. Po tako nekoj logici pravljenje dobrog procesora bi bilo tezinski na nivou pravljenja dobrog kernela. Kod oba ima akademski deo, nesto rucnog rada, i oba se cesce unapredjuju nego prave od nule.
 
genuine je napisao(la):
doduse koliko je tesko napraviti procesor govori cinjenica da je registar deklarisan sa jednim redom koda u recimo isp' ili sl..

Pa jeste na V godini ETF-a u nDot-u ili AVHDL-u 🙂
 
naveo sam kao primer.. recimo moj prijatelj radi u firmi u kojoj koriste vhdl slican jezik za opis hardware-a koji daljinski izvrsavaju sa server-a u inostranstvu ( zbog cene samog software-a).. rade chipove za texas intruments...
 
DeanXP je napisao(la):
On-topic:

K8L i 4x4 na RWT: http://www.realworldtech.com/includes/templates/articles.cfm?ArticleID=RWT060206035626&mode=print

Bice 256-bit L2 cache - to i dva 128bitna load-a ce obezbediti da K8L bude nepobediv u bilo cemu FP.

OOO Loads - nista od load before store reordering.

P.S. Izgleda da DailyTech sve vise i vise gubi kredabilitet.
Verovatno ce ga vaditi integrated mem. cntrl. K8L je tweakovan i doteran K8, t.j. K7, bas kao sto je i Conroe sredjen Pentium Pro.
Naredna generacija ce imati shareovane izvrsne jedinice, dva fizicka ALU-a, jedan FPU, po jednom jezgru, shareovan L2, ali odvojen od drugog procesorskog segmenta. To ce se desiti onog trenutka kada vecina softvera bude threadovana, jer ce inace biti i usporenja. Do 2008-2009. bi trebalo da sve bude threadovano.

U svakom slucaju sto se tice K8L, jos uvek ima relativno malo informacija. Mikroarhitektura deluje jos uvek kao 3-way, tu je 36-entry FP scheduler, kao i kod K8, a za Integer scheduler nema podataka, niti za to koliko CPU moze da "odradi" instrukcija u letu. K8 moze 72. Kod K8 je u odnosu na K7 povecan sa 16 na 24.
FP blok na K8L deluje prilicno impresivno, ali kako ce to zapravo da radi, videcemo. Datapath, ce svakako morati da povecaju, ne bi li se ispostovao trougput, koji imaju upgradeavane FPU jedinice.
U svakom slucaju, K8L ce verovatno biti konkurentan sa NGMA, ali da li ce ga tuci, to je veliko pitanje.
 
Poslednja izmena:
drfedja je napisao(la):
U svakom slucaju, K8L ce verovatno biti konkurentan sa NGMA, ali da li ce ga tuci, to je veliko pitanje.

Ako bude konkurentan po pitanju performansi i po pitanju performance-per-wat to bi bilo sjajno. Nisam siguran da je teorijski moguce napraviti core za znatno vecim IPC-om od Intel Core 2.
Ono sto je izgleda glavni adut K8L je modularan dizajn, koji AMD-u omogucava dve prednosti:

- interno brzi razvoj, tj. upgrade core-a. Ovo bi verovatno omogucilo manjem AMD da parira vecem Intel-u koji sebi moze da priusti znatno vise sredstava za razvoj procesora.

- extenzije procesora posebnim 'accelerator'-ima. Za ovo ce verovatno trebati dosta logistike i marketinga da proradi na trzistu, a ukoliko proradi mogla bi biti prava revolucija. Ali imajuci u vidu relativno losu egzekuciju AMD u zadnjih par godina (pa imali su bolji procesor godinama, od pojave K8, i tek nedavno su uspeli da to pretoce u znacajniji pomak na trzistu) bojim se da ce to da potraje.
 
drfedja je napisao(la):
Verovatno ce ga vaditi integrated mem. cntrl. K8L je tweakovan i doteran K8, t.j. K7, bas kao sto je i Conroe sredjen Pentium Pro.

Integrisani mem. ctrl. ga je do sada vadio. K8L ce morati na druge stvari da se oslanja. K8 ima ogromnu brute force snagu sa 3 AGU + 44-entry L/S unit + dual-port L1 + int. mem. ctrl., ali ih ne koristi ni blizu pametno kao Conroe svoje relativno skromne load AGU + store AGU + ext. mem. ctrl.
O prefetcher-ima malo govore i AMD i Intel, ali su oni itekako bitni u celoj memorijskoj prici. AMD je izgleda zaostao i u ovom pogledu. To bi objasnilo K8-icinu zavisnost od latency-a. Testovi overklokovanog FX-62 sa DDR2-1066 memrorijom to donekle potvrdjuju. S druge strane Conreo najverovatnije ima znacajna unapredjenja prefetchera o kojima Intel mudro cuti (slicno kao sto su cutali o P6->Banias unapredjenjima). K8L ce svakako morati da se znacajno popravi u ovim poljima ako zeli da konkurise Conroe-u u integer kodu.

drfedja je napisao(la):
U svakom slucaju sto se tice K8L, jos uvek ima relativno malo informacija. Mikroarhitektura deluje jos uvek kao 3-way, tu je 36-entry FP scheduler, kao i kod K8, a za Integer scheduler nema podataka, niti za to koliko CPU moze da "odradi" instrukcija u letu. K8 moze 72. Kod K8 je u odnosu na K7 povecan sa 16 na 24.

Kako stoji K8, ni nemaju razumnog nacina da ga prosiruju preko 3-way, mada to ne mora biti negativno. Kad se radi o executionu, K8 i Conroe su izjednaceni. Oba izvrsavaju 3ALU + mem. Tako se Conroe-ova 4-way prednost svodi na decode bandwidth, za sta bi K8L-ova 4 decodera mogla da nadoknade. S tim da sem bandwidtha pri 128-bit SSE instrukcijana, mogu da pomognu i pri integer kodu sa puno grananja. Ako se tome pridoda i novi indirect branch predictor, mogla bi se videti pristojna ubrzanja, mada nije zagarantovano. Kao sto kazes jos uvek je malo poznato o K8L.
Jedino mi se cini da je FPU ocigledna prednost.

mcekovic je napisao(la):
Nisam siguran da je teorijski moguce napraviti core za znatno vecim IPC-om od Intel Core 2.

Hehe, to se pitanje vrti vec nekoliko godina. Kad ce se dostici granica ILP-a? Uvek se tvrdi da je taj i taj procesor dostigao zid ILP-a, ali se isto tako uvek pojavi procesor koji pokaze da to nije tako (bas kao Conroe). Cinjenica je da inzinjeri jos uvek nije ponestalo ideja i da ce uspeti da jos malo paralelizma izvuku hardverski. Kao sto sam gore napisao, o prefetcherima se ne prica puno ali tu ima dosta mesta za unapredjivanje. Po intelovim podacima, indirect branch prediction je na 75% tacnosti - i tu moze bolje. Takodje su zanimljivi AMD-ovi patenti za L0 instruction cache i "go both ways before deciding" branch prediction. Dobro znaju Intelovi i AMD-ovi inzinjeri gde su uska grla i sta jos treba popraviti.
 
Poslednja izmena:
DeanXP je napisao(la):
Integrisani mem. ctrl. ga je do sada vadio. K8L ce morati na druge stvari da se oslanja. K8 ima ogromnu brute force snagu sa 3 AGU + 44-entry L/S unit + dual-port L1 + int. mem. ctrl., ali ih ne koristi ni blizu pametno kao Conroe svoje relativno skromne load AGU + store AGU + ext. mem. ctrl.
O prefetcher-ima malo govore i AMD i Intel, ali su oni itekako bitni u celoj memorijskoj prici. AMD je izgleda zaostao i u ovom pogledu. To bi objasnilo K8-icinu zavisnost od latency-a. Testovi overklokovanog FX-62 sa DDR2-1066 memrorijom to donekle potvrdjuju. S druge strane Conreo najverovatnije ima znacajna unapredjenja prefetchera o kojima Intel mudro cuti (slicno kao sto su cutali o P6->Banias unapredjenjima). K8L ce svakako morati da se znacajno popravi u ovim poljima ako zeli da konkurise Conroe-u u integer kodu.
Slozio bih se sa tobom. Egzekucioni resursi K8-mice su dosta veliki, a K8L ima jos vece egzekucione resurse. To je verovatno i razlog zasto AMD polaze tolike nade u njihovu arhitekturu. S' druge strane, zaista je trebalo napraviti integrisani memorijski kontroler. Mislim da to nije bio lak posao. Sad je dosao red na prefetcher.

DeanXP je napisao(la):
Kako stoji K8, ni nemaju razumnog nacina da ga prosiruju preko 3-way, mada to ne mora biti negativno. Kad se radi o executionu, K8 i Conroe su izjednaceni. Oba izvrsavaju 3ALU + mem. Tako se Conroe-ova 4-way prednost svodi na decode bandwidth, za sta bi K8L-ova 4 decodera mogla da nadoknade. S tim da sem bandwidtha pri 128-bit SSE instrukcijana, mogu da pomognu i pri integer kodu sa puno grananja. Ako se tome pridoda i novi indirect branch predictor, mogla bi se videti pristojna ubrzanja, mada nije zagarantovano. Kao sto kazes jos uvek je malo poznato o K8L.
Jedino mi se cini da je FPU ocigledna prednost.
Upravo tako. Intel je NGMA nazvao 4-way zbog mogucnosti dekodiranja 4 x86 instrukcije u ciklusu i njihovog ubacivanja u pipeline. Ono sto ne znamo jos sigurno, je to da li ce K8L imati cetvrti dekoder ili je u pitanju samo jos jedan mikrokod rom, kako kažu sa Chip-Architecta.

K8L ce imati 2x2 64-bitne SSE vektorske FPU jedinice i prakticno 2 FADD, 2 FMUL i 2 FSTORE - misc, 3 ALU i AGU jedinice. Svakako da ce dekoding bandwidth morati da bude povecan, da bi se "nahranio" toliki exec. engine. Do sada decoding engine K8 procesora je mogao da teoretski dekodira jednu i po 128-bitnu SSE instrukciju, a da bi sada mogao da dekodira 2 128-bitne instrukcije, potreban je veci trougput, bar za jos jednu decoding jedinicu. AMD nije nista naveo po tom pitanju.
Conroe pak ima 3 vektorske SSE FPU jedinice, od kojih su bar dve 128-bitne, pa je moguce izvrsavanje do 2 128-bitne FPU instrukcije, sto je max. za decoding bandwidth, pa se cela prica svodi na isto, kao kod K8L. Pri koriscenju double precision FP instrukcija peformanse ce im biti vrlo slicne, a u tradicionalnom x87 legacy kodu ce ga K8L kidati.
S' druge strane K8 ima 3 FPU jedinice, od kojih je jedna FMUL, druga FADD, a treca FSTORE. Na prve dve moze se izvrsavati i SSE SIMD u 64-bitnoj preciznosti. U 128-bitnoj preciznosti radi se split instrukcije na 2x64bit.
Ono sto je veliko pitanje je latency ovih instrukcija.
Hehe, to se pitanje vrti vec nekoliko godina. Kad ce se dostici granica ILP-a? Uvek se tvrdi da je taj i taj procesor dostigao zid ILP-a, ali se isto tako uvek pojavi procesor koji pokaze da to nije tako (bas kao Conroe). Cinjenica je da inzinjeri jos uvek nije ponestalo ideja i da ce uspeti da jos malo paralelizma izvuku hardverski. Kao sto sam gore napisao, o prefetcherima se ne prica puno ali tu ima dosta mesta za unapredjivanje. Po intelovim podacima, indirect branch prediction je na 75% tacnosti - i tu moze bolje. Takodje su zanimljivi AMD-ovi patenti za L0 instruction cache i "go both ways before deciding" branch prediction. Dobro znaju Intelovi i AMD-ovi inzinjeri gde su uska grla i sta jos treba popraviti.
Sto mislis da ne moze da se poveca ILP. Evo, primera radi Alpha EV8 8-wide issue wide sa svojih 8 integer jedinica i 4 floating point. Pored toga je 4 SMT ! To je zaista impresivan procesor. Sto ne bi mogao da se prosiri i x86 egzekucioni core ? Ostaje pitanje samo, na koliko bi Mhz mogao da radi takav CPU i ono najvaznije, koliko bi to trosilo ! 🙂

Jednostavno ne zavise sve performanse od prefetchera i rada sa memorijom. Mnogo toga zavisi i od sirove snage. K8L ce biti verovatno, mnogo veca "sirovina" nego sto je to K8, ali da bi to sve "pilo vodu", mora se poboljsati i front end procesora, cache, prefetcheri, BPU itd...
Prefetcher, koliko mi se cini nisu prakticno menjali jos od Palomino CPU-a, osim dodavanja nesto TLB-ova. Prve K7 verzije nisu ni imale hardverski prefetcher, a ovaj koji poseduje K8 je verovatno, rudimentaran!

BPU, je takodje vrlo slican i rudimentaran kao kod K7, a i K6, s' tom razlikom sto je branch history table povecan na 16K. Reverse Branch Prediction zvuci vrlo zanimljivo, ali za sada jako malo podataka ima o tome.

Sto se tice povecanog decoding bandwidth-a, mislim da bi on uticao pozitivno i na integer performanse.

Pricu oko shareovanog L0 cachea, dvostrukog pipeline-a itd... sam citao davno, jos pre izlaska K8 procesora, negde jos 2002.
 
Poslednja izmena:
drfedja je napisao(la):
S' druge strane, zaista je trebalo napraviti integrisani memorijski kontroler. Mislim da to nije bio lak posao.

Verovatno je u celoj stvari najteze bilo napraviti x-bar. On ce biti kljuc njihove cele modular dizajn filozofije. Prosto je zadivljujuce sta je sve povezano na quad-core x-bar: 4 jezgra, 4 HTT 3.0 linka, L3 kes, int. mem. ctrl., a u buducnosti verovatno i on-die koprocesori.

drfedja je napisao(la):
Ono sto ne znamo jos sigurno, je to da li ce K8L imati cetvrti dekoder ili je u pitanju samo jos jedan mikrokod rom, kako kažu sa Chip-Architecta.

To sto se videlo sa die shota je sigurno jos jedan mikrokod ROM, ali za cetvrti dekoder niko nista nije potvrdio (ni da postoji ni da ne postoji). Na onom detaljnom dijagramu sa chip-arhitecta se vidi da svaki K8 dekoder ima svoj ROM. Ako su dodali jos koda, logicnije bi bilo da su pojedinacni ROM-ovi postali veci, a ne da su dodali cetvrti. Tri dekodera bi morala da dele cetrvti rom sto nema smisla. Tako da ili postoji cetvrti dekoder ili su, po jednoj teoriji, napravili dedicated vector path decoder. Videcemo...

drfedja je napisao(la):
Do sada decoding engine K8 procesora je mogao da teoretski dekodira jednu i po 128-bitnu SSE instrukciju, a da bi sada mogao da dekodira 2 128-bitne instrukcije, potreban je veci trougput, bar za jos jednu decoding jedinicu. AMD nije nista naveo po tom pitanju.

Koliko mi je poznati K8 je namerno pravio double dispatch tj. 2 macroop-a od jedne 128-bitne instrukcije kako bi izbegao kasnije deljenje na 2x64 i dodatni latency. Sto ne znaci da ne moze da generise samo jedan 128-bitni SSE macroop. Zapravo, obzirom da ce K8L imati 128-bitne jedinice, to je i jedini nacin. 128-bitne SSE instrukcije prelaze na direct path.

drfedja je napisao(la):
Conroe pak ima 3 vektorske SSE FPU jedinice, od kojih su bar dve 128-bitne, pa je moguce izvrsavanje do 2 128-bitne FPU instrukcije, sto je max. za decoding bandwidth, pa se cela prica svodi na isto, kao kod K8L. Pri koriscenju double precision FP instrukcija peformanse ce im biti vrlo slicne, a u tradicionalnom x87 legacy kodu ce ga K8L kidati.

Treca Conroe-ova FPU jedinica je ekvivalentna K8-icinoj FMISC jedinici (sem sto nije zaduzena za store). Ono sto Conroe-a muci je samo jedan 128-bitin LOAD po ciklusu dok ce K8L moci da uradi 2. Ne znam koliko ce x87 biti prednost K8L-a, pogotovo kad se (tj. ako se napokon) predje na x86-64.

drfedja je napisao(la):
Sto mislis da ne moze da se poveca ILP.

Mozda sam bio nejasan u proslom postu. Bas mislim da ima jos mesta za povecanje ILP.

drfedja je napisao(la):
Prefetcher, koliko mi se cini nisu prakticno menjali jos od Palomino CPU-a, osim dodavanja nesto TLB-ova. Prve K7 verzije nisu ni imale hardverski prefetcher, a ovaj koji poseduje K8 je verovatno, rudimentaran!

To je upravo i problem. Hans de Vries sa Chip-architecta je nedavno komentarisao da su na K8L-quad i K8L-mobile delovi zaduzeni za memorijski interfejs ucetvorostruceni. K8 se i kod branch prediction vise oslanja na brute force (ogromne tabele) nego na pametne algoritme.
 
DeanXP je napisao(la):
To sto se videlo sa die shota je sigurno jos jedan mikrokod ROM, ali za cetvrti dekoder niko nista nije potvrdio (ni da postoji ni da ne postoji). Na onom detaljnom dijagramu sa chip-arhitecta se vidi da svaki K8 dekoder ima svoj ROM. Ako su dodali jos koda, logicnije bi bilo da su pojedinacni ROM-ovi postali veci, a ne da su dodali cetvrti. Tri dekodera bi morala da dele cetrvti rom sto nema smisla. Tako da ili postoji cetvrti dekoder ili su, po jednoj teoriji, napravili dedicated vector path decoder. Videcemo...
Pa, s' obzirom da deluju identicno, verovatno se radi o klasicnim mikrokod romovoima poznatim sa K8 procesora. Ipak cela prica vodi ka tome da K8L ima 4 kompleksna dekodera, koji su u stanju da rade i sa vector path i sa direct path.
DeanXP je napisao(la):
Koliko mi je poznati K8 je namerno pravio double dispatch tj. 2 macroop-a od jedne 128-bitne instrukcije kako bi izbegao kasnije deljenje na 2x64 i dodatni latency. Sto ne znaci da ne moze da generise samo jedan 128-bitni SSE macroop. Zapravo, obzirom da ce K8L imati 128-bitne jedinice, to je i jedini nacin. 128-bitne SSE instrukcije prelaze na direct path.
Ja ne mislim da ce biti bas tako. Ostace i dalje double dispatch. Oni su prakticno dodali jos tri K8 FPU jedinice i na taj nacin su izbegli detaljan redizajn sadasnjih, a latency je ostao nepromenjen.
DeanXP je napisao(la):
To je upravo i problem. Hans de Vries sa Chip-architecta je nedavno komentarisao da su na K8L-quad i K8L-mobile delovi zaduzeni za memorijski interfejs ucetvorostruceni. K8 se i kod branch prediction vise oslanja na brute force (ogromne tabele) nego na pametne algoritme.
Hmmm, izgleda da je napraviti dobar BP velika indijska mudrost! 😉 Videcemo sta ce dalje da urade. Nestrpljiv sam!
 
drfedja je napisao(la):
Videcemo sta ce dalje da urade. Nestrpljiv sam!

Cek, zar ti ne prelazis u plavi tabor :d ?
 
Nazad
Vrh Dno