Nehalem

illidan · 26.03.2008

Beckton (Nehalem-EX)

i naslednik Westmere

Northwood · 26.03.2008

i celokupan roadmap za Nehalem do 2010. godine 😉
http://sx-team.com/index.php?option...-do-2010-godine&catid=1:latest-news&Itemid=50

audiofreak · 26.03.2008

PCI-Express 2.0 u chipu?!? :zgran:

E ***, ovi utrpase ceo racunar u CPU (jos samo RAM, HDD, optika i napajanje fali :d), a Creative ne moze da napravi PCI-Express native X-Fi DSP.

topuz · 27.03.2008

Ajde neka neko prosvetli nas malo manje upucene... Da li ovo znaci da northbridge kakav danas znamo odlazi u istoriju?

DeanXP · 27.03.2008

Mali roundup:

Intel info:
Nehalem
QuickPath
Slides

Die shots:
Nehalem
Dunnington

Hans:
http://chip-architect.com/news/Shanghai_Nehalem.jpg
Po ovim podacima jezgro (bez L2) je ~11% vece u odnosu na Penryn.

PC Watch:
Naslednik Nehalem-a: Westmere 32nm 6-core 12MB L3
Nehalem i svi derivati

Die size:
Nehalem 4-core 8MB L3: ~246mm^2
Dunnington 6-core 16MB L3: ~500mm^2

---------------------------------

Vec na prvi pogled se vidi da Nehalem najvise cilja server i HPC trzista: point-to-point QuickPath interface, multi-threading, prosiren fizicki adresni prostor na 44 bita, 3-channel DDR3 odnosno 4-channel FB-DIMM (za 8-core verziju), povecan BTB, TLB, unapredjenja za virtualizaciju i verovatno jos par stvari kojih se nisam setio.

Ovaj procesor ce na desktop zavrsiti samo kao Extreme Edition - Bloomfield u socket 1366 pakovanju. Za mainstream desktop prelazi u socket 1160. Tako ostaje bez QuickPath-a, ali dobija integrisan PCIe x16 i DMI interface za chipset (koji ce u sustini biti single-chip resenje). Socket 1160 verzija ima "samo" dvokanalni IMC, ali Intel je svakako sugerisao da treci kanal na Nehalem-u sluzi vise za prosirivanje raspolozivog kapaciteta memorije nego za dodatam bandwidth.

Malo je cudno da nisu unapredili dekoder. Moguce je da samo nisu naveli kao promenu, mada Anand kaze:
"Despite the increase in ability to support more micro-ops in flight, there have been no significant changes to the decoder or front end of Nehalem. Nehalem is still fundamentally the same 4-issue design we saw introduced with the first Core 2 microprocessors. The next time we'll see a re-evaluation of this front end will most likely be 2 years from now with the 32nm "tock" processor, codenamed Sandy Bridge."
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=3264&p=2

Ako se izuzme dekoder, poradili su na nekoliko slabih tacakah dosadasnjih arhitektura: interconnect i IMC, kao najociglednije, ali i TLB koji je izgleda znacajno izmenjen. S druge strane, stvari koje su i do sad bile odlicne su jos unapredili, sto je za svaku pohvalu (branch prediction, data prefetch, mem. reordering).

Kes hijerarhija izgleda odlicno, pogotovi sto je L3 striktno inclusive (znaci da su L1 i L2 write through), sto *potpuno* eliminise dodatan snoop sobracaj na nivou socket-a. Bice zanimljivo videti kako su povezali kes nivoe medjusobno ali i sa integrisanim northbridge-om.

Broj in flight microOp-ova je povecan iskljucivo zbog SMT-a, tesko da ce mnogo doprineti single-threaded situacijama.

DeanXP · 27.03.2008

topuz je napisao(la):
Ajde neka neko prosvetli nas malo manje upucene... Da li ovo znaci da northbridge kakav danas znamo odlazi u istoriju?

A kakav northbridge danas znamo? 🙂 Evo meni bar tri varijante padaju na pamet:

1) Klasican northbridge sa memorijskim kontrolerom koji koristi Intel (i AMD pre K8).
2) Northbridge koji sluzi samo kao PCIe hub - npr. AMD RD780.
3) Single-chip resenje kao neka nVidina resenja za AMD.

Po svemu sudeci novi Intelovi "chipset" ce liciti na varijantu 3:
http://pc.watch.impress.co.jp/docs/2008/0326/kaigai07l.gif

audiofreak je napisao(la):
Nema smisla povecati L2 bus ako L3 ostane usko grlo. Drugim recima sta bi ti znacio 512-bitni L2 bus ako imas 4 jezgra iza 256-bitnog L3? Moja pretpostavka je da ce prosiriti sve do L3. Nije nemoguce cak ni da se odluce za 768-bitni bus, s obzirom na najavu instrukcija sa 3 operanda.

Nehalem-u bas i ne treba nesto posebno, ali za njegovog naslednika sa AVX se vec zna sta ce dobiti (vidi attachment): ring - i to prilicno sirok 2048 bit/cycle :smoke:
Uz to na prikacenom fajlu ima jos par podataka o Sandy Bridge (the CPU formerly known as Gesher) i Larrabee.

Pogotovo je zanimljivo iz Gesher kolone:
512MB fast DRAM i 7 DP flops/cycle.
7 je stvarno cudna brojka... Hoce li biti MAC instrukcije, 256-bit AVX per cycle ili nesto trece. 2xMAC jedinice dodje na 6 flopsa, 2xAVX je 8 flopsa... mnogo cudan taj broj 7 🙂

audiofreak · 27.03.2008

Ja nisam tako siguran da su Sandy Bridge i Gesher ista stvar. Mislim da je Intel napravio zbrku sa tim imenima. Treba da pocepaju roadmap i da naprave nov.

U svakom slucaju ne ocekujem ring bus van Larrabee chipa, a Sandy Bridge nije Larrabee koliko mi se cini jer ima mnogo manji broj TFLOPS dole na dnu tabele -- pre bih rekao da je Larrrabee ono levo sto dobacuje do 1 TFLOPS.

DeanXP · 27.03.2008

Jesu ista stvar. Intel je morao da menja ime Gesher zbog istoimene politicke partije. Gesher inace znaci most (bridge).

kovacm · 27.03.2008

zasto u tabeli (post #186) za "GDDR/Fast DRAM" stoji npr. 128GB/s a kod "Memory Bandwidth" 17GB/s/link?

128GB/s je terijski maximum memorije a 17GB/s BUS-a/linka?
i sta je link kod Larrabee/Gesher-a?

drfedja · 27.03.2008

Misli se na brzinu CSI linka od 17GB/s. Brzina memorije prema GPGPU je 128 GB/s.

kovacm · 27.03.2008

jel ima negde "svez" opis Larrabee-a? (a da nije official intel PDF 🙂) ili ako neko moze da mi odgovori sta je link, koja je njegova uloga, kod Larrabee-a?

i kako mislis "Brzina memorije prema GPGPU je 128 GB/s." - sta je GPGPU kod Larrabee-a?

DeanXP · 27.03.2008

Link je QuickPath (CSI) i ima istu ulogu kao kod Nehalem-a: komunikacija u multi socket sistemima. Isto je u slucaju Opteron-HyperTransport resenja.
Kad Nehalem/Gesher/Larrabee pristupa memoriji drugog procesora to radi preko QP linka. 128GB/s je bandwidth za lokalnu (direktno dostupnu) memoriju.

drfedja · 27.03.2008

kovacm je napisao(la):
jel ima negde "svez" opis Larrabee-a? (a da nije official intel PDF 🙂) ili ako neko moze da mi odgovori sta je link, koja je njegova uloga, kod Larrabee-a?

i kako mislis "Brzina memorije prema GPGPU je 128 GB/s." - sta je GPGPU kod Larrabee-a?

Larrabee je GPGPU, General Purpose GPU. GPU ima svoj IMC, kao i procesor, preko kojega komunicira sa memorijom. E pa ta brzina zavisi od brzine memorije i naravno od brzine IMC-a, sirine magistrale itd... to je brzina kojom ce GPU ili CPU da dobije podatke iz lolalne memorije i naravno brzina kojom ce da napuni memoriju podacima. U pitanju je direktna komunikacija GPGPU(CPU)<->RAM. Indirektna podrazumeva komunikaciju putem QPI linka preko drugog uredjaja koji je povezan sa memorijom. Razumeo ?

CSI, QPI, HTT itd... sluze za IO komunikaciju izmedju chipa i ostatka sistema. Npr, preko CSI odnosno QPI interfejsa Nehalem moze biti konektovan sa IO portovima, northbidgeom odnosno PCI Express uredjajima i/ili sa jos jednim Nehalemom.
Brzina kojom uredjaji putem QPI interfejsa mogu da komuniciraju sa memorijom je limitirana brzinom QPI magistrale, a to je 17GB/s.
Npr. hoces da imas integrisanu graficku, baziranu na larrabee GPGPU, koja share-uje memoriju sa procesorom. Komunikacija sa memorijom ce se obavljati preko QPI magistrale. Tako je recimo i sada sa integrisanim nForce i AMD690-780G chipsetovima. S' tim sto 780G ima sideport, 64MB dodatne Video memorije koja ubrzava stvar sa grafikom. Primera radi, kod integruse za AMD, kada ubrzas HTT link, grafika radi kudikamo brze. Na Phenomu koji ima HT3.0 780G grafika radi mnogo brze nego na X2 sa HT1.0. Jedan od razloga sto Griffin CPU ima HT3.0 je i taj da bi notebook sa njim imao bolju komunikaciju sa video memorijom.

kovacm · 27.03.2008

nisam znao da se Larrabee vodi kao GPU pa me je to zbunilo...

i nevezano za neki konkretan procesor, sad bash razmisljam: kad se kaze brzina od 128GB/s sta to danas znaci? da u sekundi moze da se uradi 128.000.000.000/16* npr. read ili write operacija iz glavne memorije u registre?? ili...?

*deljeno sa 16 ako je procesor 128bitan

audiofreak · 27.03.2008

Kako ste dosli do 17GB/sec za CSI? Svugde gde sam citao pominje se 3.2GB/s po kanalu.

DeanXP · 27.03.2008

kovacm je napisao(la):
nisam znao da se Larrabee vodi kao GPU pa me je to zbunilo...

Ne znam ni koliko se moze nazvati GPU-om. Koncept se znacajno razlikuje od ATI/nVidia GPU-a.
Inace su u planu dve Larrabee verzije. Jedna na zasebnoj PCIe x16 ploci kao klasican GPU, a druga u socket varijanti kao klasican CPU. Socket varijanta bi se mesala sa general purpose Nehalem/Gesher socket-ima.

Na ovoj prezentaciji su prikazane obe verzije - strane 16 i 17.

kovacm je napisao(la):
i nevezano za neki konkretan procesor, sad bash razmisljam: kad se kaze brzina od 128GB/s sta to danas znaci? da u sekundi moze da se uradi 128.000.000.000/16* npr. read ili write operacija iz glavne memorije u registre?? ili...?

*deljeno sa 16 ako je procesor 128bitan

128GB/s znaci da memorija pruza toliki protok i nista vise. Registri su predaleko od memorije da bi se dovodili u bilo kakvu direktnu vezu sa njom, a pogotovo je tesko kvantifikovati tako nesto. Put memorija<->registri je prilicno dugacak i moze se pricati smo o pojedinacnim delovima: register file, load-store jedinica, kes hijerarhija, on-chip interconnect, mem. kontroler i glavna memorija. Iako u sustini samo registri, kes i glavna memorija cuvaju podatke, svi ovi delovi ucestvuju u prenosu i svi imaju razlicit bandwidth (s tim da bandwidth znacajno opada iduci od registara do memorije).

Kod samih registara, jedinica GB/s uopste nema smisla, vec samo broj read/write portova (podrazumeva se da svaki read/write traje samo jedan ciklus). Kad bi se izracunao protok u GB/s za bilo koji register file dobila bi se jedna astronomska cifra koja malo znaci.

Mala igra brojeva:
Slucaj K10 quad-core -> FP register file ima 5 read i 5 write portova (128-bit)
(128 / 8) byte * (5 + 5) ports * 2.5Ghz * 4 jezgra = 1.6 TB/s
1.6 TB/s ukupnog register file protoka, naspram svega 12.8 GB/s koji pruza dual channel DDR2-800.

audiofreak je napisao(la):
Kako ste dosli do 17GB/sec za CSI? Svugde gde sam citao pominje se 3.2GB/s po kanalu.

Ne znam gde si video 3.2GB/s - to je strasno malo.
Najnovije prezentacije spominju do 6.4 GT/s (GigaTransfers per second) tj. 25 GB/s.
Cifra od 17GB/s je iz prezentacije koju je drzao Ed Davis, chief architect iz Intel-a (strana 31). Prezentacija je stara oko godinu dana pa je moguce da su povecali brzinu od tad, ili ne zele da guraju QuickPath do maksimalnih 25 GB/s dok ne moraju.

Prezentaciju je ovde. U njoj je info o Larrabee i Gesher-u koji se slucajno tamo nasao i zatim je brzo uklonjen u izmenjenoj verziji iste prezentacije koja se sad nalazi na Intelovom sajtu.

kovacm · 27.03.2008

DeanXP je napisao(la):
128GB/s znaci da memorija pruza toliki protok i nista vise. Registri su predaleko od memorije da bi se dovodili u bilo kakvu direktnu vezu sa njom, a pogotovo je tesko kvantifikovati tako nesto. Put memorija<->registri je prilicno dugacak i moze se pricati smo o pojedinacnim delovima: register file, load-store jedinica, kes hijerarhija, on-chip interconnect, mem. kontroler i glavna memorija. Iako u sustini samo registri, kes i glavna memorija cuvaju podatke, svi ovi delovi ucestvuju u prenosu i svi imaju razlicit bandwidth (s tim da bandwidth znacajno opada iduci od registara do memorije).

Kod samih registara, jedinica GB/s uopste nema smisla, vec samo broj read/write portova (podrazumeva se da svaki read/write traje samo jedan ciklus). Kad bi se izracunao protok u GB/s za bilo koji register file dobila bi se jedna astronomska cifra koja malo znaci.

Mala igra brojeva:
Slucaj K10 quad-core -> FP register file ima 5 read i 5 write portova (128-bit)
(128 / 8) byte * (5 + 5) ports * 2.5Ghz * 4 jezgra = 1.6 TB/s
1.6 TB/s ukupnog register file protoka, naspram svega 12.8 GB/s koji pruza dual channel DDR2-800.

dobro.
sada mi tek nije jasno: znaci K10 moze po jednom ciklusu da upise/procita 10 x 128bita (pretpostavljam iz cache memorije)??? pa koliko ima jedinica za obradu ili: zasto ima mogucnost da upise/procita 10 x 128bit-a ako ne moze da ih obradi (primeni bilo koju operaciju nad podacima, makar ADD)?

dakle, ako se kaze da je memorija 128GB/s to znaci da toliko moze sigurno da prodje kroz procesor (samo stigne do registara, ne mora nista drugo da radi sa podacima...)? ili ipak ne?

audiofreak · 27.03.2008

DeanXP je napisao(la):
Ne znam gde si video 3.2GB/s - to je strasno malo.
Najnovije prezentacije spominju do 6.4 GT/s (GigaTransfers per second) tj. 25 GB/s.

Ne, ta cifra koju pominjes je 25.6Gbps. Ako je tacno napisano, onda je to 25.6 / 8 = 3.2 GB/sec.

GT/s ne znaci nista ako ne znas koja je jedinica prenosa.

DeanXP · 27.03.2008

kovacm je napisao(la):
dobro.
sada mi tek nije jasno: znaci K10 moze po jednom ciklusu da upise/procita 10 x 128bita (pretpostavljam iz cache memorije)??? pa koliko ima jedinica za obradu ili: zasto ima mogucnost da upise/procita 10 x 128bit-a ako ne moze da ih obradi (primeni bilo koju operaciju nad podacima, makar ADD)?

K10 moze iz L1 kes memorije da procita 2 x 128 bita.
10 x 128-bit se odnosi iskljucivo na FP register file, koji mora mnogo vise da radi od kes memorije. Evo zasto:
K10 ima tri FP jedinice: FPADD, FPMUL, FPMISC. To znaci da moze da izvrsi najvise tri FP instrukcije po ciklusu. Instrukcije koje izvrsavaju FPADD i FPMUL jedinice su takve da imaju dva ulazna podatka i jedan izlazni. FPMISC izvrsava samo instrukcije koje imaju jedan ulazni podatak. Da bi sve tri instrukcije mogle da se izvrse u istom ciklusu, register file mora da ih sve snabde sa ulaznim podacima u istom ciklusu - 2 za FPADD, 2 za FPMUL i 1 za FPMISC - otuda potreba za 5 read portova.
E sad, u istom momentu kad se nove instrukcije posalju na izvrsavanje, neke stare su mozda zavrsile i njihovi podaci moraju biti zapisani u register file. Sve tri jedinice imaju po jedan izlazni podatak - to je 3 write porta.
Takodje FP register file je povezan na load/store jedinicu (koja je dalje povezana na L1D kes).
FP register file ima 2 porta za upis iz L/S jedinice (a taj upis se moze izvrsiti istovremeno sa radom tri FP jedinice). I kad se doda na prethodna tri to postaje ukupno 5 write portova.

Dakle, za rad tri FP jedinice moraju postojati 5+3 porta i za load/store jedinicu jos 2 - ukupno 10.

kovacm je napisao(la):
dakle, ako se kaze da je memorija 128GB/s to znaci da toliko moze sigurno da prodje kroz procesor (samo stigne do registara, ne mora nista drugo da radi sa podacima...)? ili ipak ne?

Da.

U sustini, samo sam hteo da kazem da kad se gleda procesor, mera po sekundi je jako neprecizna. Na nivou jezgra se sve gleda po ciklusu, a izvan jezgra po sekundi sto nije uopste zgodno.

audiofreak je napisao(la):
Ne, ta cifra koju pominjes je 25.6Gbps. Ako je tacno napisano, onda je to 25.6 / 8 = 3.2 GB/sec.

GT/s ne znaci nista ako ne znas koja je jedinica prenosa.

http://www.intel.com/pressroom/archive/reference/whitepaper_QuickPath.pdf

Pogledaj stranu 4: 25 Gigabytes/second.
Nema nikakve greske, 3.2GB/s bi stvarno bilo smesno, stavise nedopustivo za 2008/2009. Pa HyperTransport se pojavio sa 6.4GB/s jos u 2003.

U pravu si, GT/s nista ne znaci bez sirine linka, ali mislim da je vec duze poznato da je QuickPath 16/16-bit bidirectional.

audiofreak · 27.03.2008

DeanXP je napisao(la):
Pogledaj stranu 4: 25 Gigabytes/second.

Nisam gledao to nego prezentacije po netu gde je pisalo Gbps. I meni se cinilo cudno.

Medjutim, te cifre su mi i dalje sumnjive.

6.4 GT/s po linku -- ako je kao sto kazes 16-bit bidirectional onda bi samo jedan link imao 25.6GB/sec ((6.4 x 16 x 2) / 8) pod uslovom da se pod "transferom" podrazumeva 2x 16 bita (1x in/1x out). To mi se cini malo nestvarno uzevsi u obzir da neki od transfera sigurno nisu podaci (adresiranje, odrzavanje koherencije, odrzavanje linka, etc), drugim recima tu verovatno nije uracunat overhead od samog komunikacionog protokola. Uzgred, obrati paznju na fusnotu:

"Source: Intel estimates based on internal measurements March 2008"

DeanXP · 27.03.2008

audiofreak je napisao(la):
6.4 GT/s po linku -- ako je kao sto kazes 16-bit bidirectional onda bi samo jedan link imao 25.6GB/sec ((6.4 x 16 x 2) / 8) pod uslovom da se pod "transferom" podrazumeva 2x 16 bita (1x in/1x out). To mi se cini malo nestvarno uzevsi u obzir da neki od transfera sigurno nisu podaci (adresiranje, odrzavanje koherencije, odrzavanje linka, etc), drugim recima tu verovatno nije uracunat overhead od samog komunikacionog protokola.

Da svakako da u 25.6GB/s nije uracunat packet overhead, ali kakve veze ima? To bi znacilo da je sporiji od FSB-a u situaciji da oba imaju isti maksimalni protok, ali QP ima 2 puta veci protok, uz jos brojne pogodnosti.
Normalno je da se sve salje po istim zicama. To je i osnovna ideja. Znacajno manje zica je potrebno za ostvarivanje QP linka nego starog FSB-a koji je, em siri (64-bita), em su potrebne dodatne zice za komande i adrese.

Jedina stvar koja ima zasebne zice je CRC - dodatnih 4 bita na 16, tako da CRC ne krade protok i Intel moze da tvrdi "ensures data quality and performance by providing CRC without the performance penalty of additional cycles".

audiofreak je napisao(la):
Uzgred, obrati paznju na fusnotu:

"Source: Intel estimates based on internal measurements March 2008"

Mislim da se ta fusnota odnosi na tvrdnju da QP pruza 3 puta veci bandwidth od bilo cega na trzistu. Nisu sigurno procenjivali brzinu sopstvenog linka.

audiofreak · 28.03.2008

DeanXP je napisao(la):
Da svakako da u 25.6GB/s nije uracunat packet overhead, ali kakve veze ima?

To znaci da je 25.6GB/s teorijski maksimum linka u oba smera istovremeno. Osim kod "idealnog" test slucaja (kopiranje memorije) retko kad aplikacije imaju isti protok u oba smera.

DeanXP je napisao(la):
Mislim da se ta fusnota odnosi na tvrdnju da QP pruza 3 puta veci bandwidth od bilo cega na trzistu. Nisu sigurno procenjivali brzinu sopstvenog linka.

Fusnota ako je prevedes kako treba kaze "Intelove procene bazirane na internim merenjima obavljenim u martu 2008". Znaci obavili su neka merenja, ali su do 25.6GB/s dosli ekstrapolacijom inace bi napisali samo "Actual results based on internal measurements March 2008". Izmedju te dve recenice postoji razlika.

To ti je kao kad kazes da jedan covek moze da postavi 3m2 rigips tabli na sat pa iz toga izvedes zakljucak da tri coveka mogu da postave 9m2 ne uzimajuci uopste u obzir njihovu individualnu efikasnost ili cinjenicu da je dvojci mozda zapalo "teze" parce zida.

Znaci ja mislim da su se na taj nacin ogradili i da je cifra vise marketing (kao i spec_int), naravno radovace me ako nisam u pravu.

kovacm · 28.03.2008

DeanXP je napisao(la):
K10 moze iz L1 kes memorije da procita 2 x 128 bita.
10 x 128-bit se odnosi iskljucivo na FP register file, koji mora mnogo vise da radi od kes memorije. Evo zasto:
K10 ima tri FP jedinice: FPADD, FPMUL, FPMISC. To znaci da moze da izvrsi najvise tri FP instrukcije po ciklusu. Instrukcije koje izvrsavaju FPADD i FPMUL jedinice su takve da imaju dva ulazna podatka i jedan izlazni. FPMISC izvrsava samo instrukcije koje imaju jedan ulazni podatak. Da bi sve tri instrukcije mogle da se izvrse u istom ciklusu, register file mora da ih sve snabde sa ulaznim podacima u istom ciklusu - 2 za FPADD, 2 za FPMUL i 1 za FPMISC - otuda potreba za 5 read portova.
E sad, u istom momentu kad se nove instrukcije posalju na izvrsavanje, neke stare su mozda zavrsile i njihovi podaci moraju biti zapisani u register file. Sve tri jedinice imaju po jedan izlazni podatak - to je 3 write porta.
Takodje FP register file je povezan na load/store jedinicu (koja je dalje povezana na L1D kes).
FP register file ima 2 porta za upis iz L/S jedinice (a taj upis se moze izvrsiti istovremeno sa radom tri FP jedinice). I kad se doda na prethodna tri to postaje ukupno 5 write portova.

hvala na odgovoru!
jos samo jedno pitanje: znaci da bi se podatak nasao u registry fajlu ne mora da prodje kroz Load/Store jedinicu ili mora? u tom slucaju, da mora, znaci samo dva podatka po ciklusu mogu da udju/izadju iz FPU-a u cache (RAM)? (izvini sto pitam sve ovo ali poslednje sto sam radio u asembleru je bilo na MC68K)...

drfedja · 30.03.2008

DeanXP je napisao(la):
K10 moze iz L1 kes memorije da procita 2 x 128 bita.
10 x 128-bit se odnosi iskljucivo na FP register file, koji mora mnogo vise da radi od kes memorije. Evo zasto:
K10 ima tri FP jedinice: FPADD, FPMUL, FPMISC. To znaci da moze da izvrsi najvise tri FP instrukcije po ciklusu. Instrukcije koje izvrsavaju FPADD i FPMUL jedinice su takve da imaju dva ulazna podatka i jedan izlazni. FPMISC izvrsava samo instrukcije koje imaju jedan ulazni podatak. Da bi sve tri instrukcije mogle da se izvrse u istom ciklusu, register file mora da ih sve snabde sa ulaznim podacima u istom ciklusu - 2 za FPADD, 2 za FPMUL i 1 za FPMISC - otuda potreba za 5 read portova.
E sad, u istom momentu kad se nove instrukcije posalju na izvrsavanje, neke stare su mozda zavrsile i njihovi podaci moraju biti zapisani u register file. Sve tri jedinice imaju po jedan izlazni podatak - to je 3 write porta.
Takodje FP register file je povezan na load/store jedinicu (koja je dalje povezana na L1D kes).
FP register file ima 2 porta za upis iz L/S jedinice (a taj upis se moze izvrsiti istovremeno sa radom tri FP jedinice). I kad se doda na prethodna tri to postaje ukupno 5 write portova.

Dakle, za rad tri FP jedinice moraju postojati 5+3 porta i za load/store jedinicu jos 2 - ukupno 10.

Na tvoju pricu bih dodao samo jednu sliku koja sve objasnjava. 🙂 Jedino sto je izmenjeno u odnosu na K8 je sirina FPU jedinica i sirina magistrale.

DeanXP · 30.03.2008

audiofreak je napisao(la):
Znaci ja mislim da su se na taj nacin ogradili i da je cifra vise marketing (kao i spec_int), naravno radovace me ako nisam u pravu.

Nisam siguran da li mislis na cifru 25GB/s ili 300%.
Sa 25GB/s iznose teoretski najveci dostizan protok i tu ne vidim nista lose. Istina, lepa je to cifra za marketing, ali ima znacaj.
S druge strane, "300% brzi link" je cist marketing (pogotovo sto nisu izneli s cime ga porede).

drfedja je napisao(la):
Na tvoju pricu bih dodao samo jednu sliku koja sve objasnjava. 🙂 Jedino sto je izmenjeno u odnosu na K8 je sirina FPU jedinica i sirina magistrale.

Naravno, Hansov najbolji i najdetaljniji rad: Understanding the detailed Architecture of AMD's 64 bit Core
Najveci deo toga se odnosi i na K10.
Dosta se bavio i sa Netbust-om. Jedino je steta sto nije tako detaljno obradio i P6/P-M/Core liniju.

kovacm je napisao(la):
hvala na odgovoru!
jos samo jedno pitanje: znaci da bi se podatak nasao u registry fajlu ne mora da prodje kroz Load/Store jedinicu ili mora?

Podatak ne mora da potice iz memorije. On moze da bude rezultat neke instrukcije i zatim da se koristi kao ulaz za jednu ili vise drugih instrukcija. Posle toga moze biti unisten bez da se smesta u memoriju. Takav podatak je postojao samo u register file-u i nije imao nikakav kontakt sa memorijom, pa samim tim ni sa L/S jedinicom.

Ako se podatak originalno nalazio u memoriji, onda on mora da prodje kroz L/S jedinicu.

kovacm je napisao(la):
u tom slucaju, da mora, znaci samo dva podatka po ciklusu mogu da udju/izadju iz FPU-a u cache (RAM)? (izvini sto pitam sve ovo ali poslednje sto sam radio u asembleru je bilo na MC68K)...

U konkretnom slucaju K8/K10 FPU-a:
Moguca su 2 load-a po ciklusu iz kes memorije i 1 store.

U sustini L/S jedinica i kes memorija kod K8/K10 mogu da izvrse 2 store-a, ali FPU ima samo jednu jedinicu koja moze da vrsi store operacije - FPMISC (oznacava i kao FPSTORE, ali mislim da je FPMISC prikladnije, pogotovo za K10 gde je dobila vecu funkcionalnost).

audiofreak · 30.03.2008

DeanXP je napisao(la):
Nisam siguran da li mislis na cifru 25GB/s ili 300%.

Na obe :d

audiofreak · 01.04.2008

Najnovije vesti -- Nehalem izlazi u Q3 2008 (Bloomfield za 2P sisteme)! U Q4 se ocekuje da pokrije 8% 2P trzista.

Izvor: xbitlabs

Jerry[NS] · 17.04.2008

Nehalem nece podrzavati SLI.
Izgleda da Intel i Nvidija vole da ratuju 😀

http://www.itx.ba/index.php?option=com_content&task=view&id=5675&Itemid=1

Typhoon.X · 17.04.2008

Kakva izjava lol

Bloomfeld (prvi cipset koji ce izaci za Nehalem-core procesore) nece podrzavati SLI, ali to je i bilo ocekivano s obzirom na dosadashnju istoriju intel chipseta (kao shto je Fudo i rekao)...

Northwood · 17.04.2008

Typhoon.X je napisao(la):
Kakva izjava lol

Bloomfeld (prvi cipset koji ce izaci za Nehalem-core procesore) nece podrzavati SLI, ali to je i bilo ocekivano s obzirom na dosadashnju istoriju intel chipseta (kao shto je Fudo i rekao)...

Bloomfield nije chipset vec kodno ime za Nehalem procesore :trust:

Nehalem

- Bike Camper -

Slavan

Banned

Čuven

Čuven

Čuven

Prilozi

Banned

Čuven

Čuven

Čuven

Čuven

Čuven

Čuven

Čuven

Banned

Čuven

Čuven

Banned

Čuven

Banned

Čuven

Banned

Čuven

Čuven

Čuven

Banned

Banned

Slavan

Čuven

Slavan