Šta je novo?

Nehalem

Status
Zatvorena za pisanje odgovora.
"Performance Mainstream Quad-Core Lynnfield/Clarkfield: 4 CPU cores, 8 threads, 8MB shared cache, 95W, DDR3, PCI Express Gen2, integrated memory controller."

Nehalem ce imati onaj stari Hyper-Threading?

Pa to sto ima osam thredova samo ce mu zakomplikovati snalazenje sa postojecim softverom koji onako ne moze da se snadje kako valja ni sa 4,koliko ja znam AMD vec ima integrisani memoriski kontroler,tako da to i nije neka revoluvcija.

P.S. Proci ce oni kao sto sad TRENUTNO AMD prolazi sa Phenom-om.😀
 
Bravo hektore, izgleda si ti jedini optimista ovde :wave:

Pogle sta pisu dusmani:

"AMD mistakenly delivered 500 of its new CPU parts to one customer but forgot the charge. Intel wags promptly suggested it was the largest AMD delivery they heard of this year to date."
 
Pa to sto ima osam thredova samo ce mu zakomplikovati snalazenje sa postojecim softverom koji onako ne moze da se snadje kako valja ni sa 4,koliko ja znam AMD vec ima integrisani memoriski kontroler,tako da to i nije neka revoluvcija.

P.S. Proci ce oni kao sto sad TRENUTNO AMD prolazi sa Phenom-om.😀

Mojne se nadas. Nehalem pravi isti Intelov izraleski tim koji je pravio i Conroe, tako da treba dosta ocekivati od Nehalem-a. Sto se tice hyperthreading-a, sve zavisi od implementacije. Npr u IBM power 5 i Sun Niagara, hyper-threading je odlicno odradjen.

Conroe je odlicno optimizovan sto se tice IPC-a single-core-a i cache-a, Nehalem samo treba da tom core-u omogci da bolje dise u uslovima potrebe za brzom i velikom komunikacijom sa memorijom i drugim core-ima i vec su obavili posao. Dosta je teze postici veci IPC nego veci memorijski bandwidth i inter-core komunikaciju (sto se moze videti na Barcelona/Phenom primeru). Intel nije isao na tu varijantu da ne bi ugrozavao Itanium (cista politika, pokazalo se pogresna). Sada kada je Itanium niche market, sve karte naravno bacaju na X86-64.
 
Mojne se nadas. Nehalem pravi isti Intelov izraleski tim koji je pravio i Conroe, tako da treba dosta ocekivati od Nehalem-a. Sto se tice hyperthreading-a, sve zavisi od implementacije. Npr u IBM power 5 i Sun Niagara, hyper-threading je odlicno odradjen.

Netacno, Nehalem nije dizajnirao tim u Izraelu, vec tim u Americi.
 
Nehalem je nesto slicno Phenomu ali i jedni i drugi u punoj funkcionalnosti, dobroj rasprostranjenosti na trzistu i ok ceni ocekuju se tek u 2009. godini. Mislim na AM3 pored Nehalema.
 
Netacno, Nehalem nije dizajnirao tim u Izraelu, vec tim u Americi.

Nedjo el bi mogao da potkrepiš ovu svoju tvrdnju nekim stranim sajtom, jer koliko se sećam Audiovog postovanja od pre par meseci, Izrael je zadužen za ovaj procesor. 😉
Pozdrav. :wave:
 
Poslednja izmena:
Nehalem je nesto slicno Phenomu ali i jedni i drugi u punoj funkcionalnosti, dobroj rasprostranjenosti na trzistu i ok ceni ocekuju se tek u 2009. godini. Mislim na AM3 pored Nehalema.

Nehalem jos nije izasao, a i kada bude predstavljen bice baziran na uhodanom 45nm proizvodnom procesu koji se upravo uhodava na Penryn-ima. AMD ima problem sa proizvodnim procesom, tj. ocigledno je da 65nm proizvodni proces nije primeren takvoj arhitetkuri, pa otuda toliko problema sa Barsom i Agenom. Na kraju, usled nekonkurentnosti po pitanju troskova proizvodnje, dobije se Phenom 9500 koji kosta 200 eura, tek malo manje od Q6600 koji je dosta brzi od njega.

Sto se tice Nehalema, mozda je ovo zanimljivo videti...
http://www.youtube.com/watch?v=gUbCaDT9PME
http://www.youtube.com/watch?v=Whg_cZJCW_4&feature=related

PS: Nehalem je takodje i naziv jezera u Oregonu.
 
Nedjo el bi mogao da potkrepiš ovu svoju tvrdnju nekim stranim sajtom, jer koliko se sećam Audiovog postovanja od pre par meseci, Izrael je zadužen za ovaj procesor. 😉
Pozdrav. :wave:
pokusacu negde da iskopam gde sam procitao explicitnu izjavu nekog intel zvanicnika koji je rekao da je nehalem delo americkog tima. Ono sto mozes ovde procitati jeste da se u Izraelu priprema naslednik Nehalema:

http://www.bit-tech.net/news/2007/09/19/westmere_is_nehalem_successor/1

Tako da je i logicno da nakon Corea, amerikanci rade nehalem, a izraelci Sandy bridge.
 
Dobar summa-summarum u vezi Nehalema:

http://www.beyond3d.com/content/news/540

Najise sam iznenadjen cinjenicom da se pominju cak TRI nova socketa! Zar nije trebalo da bude samo jedan?

Ja koliko znam pominjala su se dva (1366 i 715), a onaj 1160 iskrsnu sad odnekud 🙂

Meni licno se ta igranka sa socketima ni malo ne dopada, da ne kazem da mi se ogadila. Kada izadje Penryn quad-core na 2.66GHz probacu da ga zabodem u D975XBX plocu pa ako radi to ce biti poslednji upgrade procesora koji cu da uradim do H2 2009 dok se situacija ne iskristalise. Nemam ni ja bas para za bacanje.
 
Poslednja izmena:
Ja koliko znam pominjala su se dva (1366 i 715), a onaj 1160 iskrsnu sad odnekud 🙂

Meni licno se ta igranka sa socketima ni malo ne dopada, da ne kazem da mi se ogadila. Kada izadje Penryn quad-core na 2.66GHz probacu da ga zabodem u D975XBX plocu pa ako radi to ce biti poslednji upgrade procesora koji cu da uradim do H2 2009 dok se situacija ne iskristalise. Nemam ni ja bas para za bacanje.
Hm.Isti su nam planovi.Ja planiram Q9450 da ubacim u moju G.B. dq6 p35.Za naredne 3 godine ne diram nishta.
Q9450 mi se svidja jer ima dovoljnu brzinu od 2.66ghz.4 jezgra,12 mb kesha i 95w.Sasvim lepo bi radio na 3.2ghz.4 jezgra sa ovom brzinom na konfi sa 3 giga RAM-a na 1100mhz ce mi biti dovoljno.
Jer,ma koliko da se oni trude da naprave neshto epohalno,uvek ce se vrteti oko 3ghz.Tako je vec duzi niz godina.Ove fore sa vishe jezgara pomazu u multitaskingu ali tek kad se programeri dovoljno "probude ".Arhitektura je poboljsana i takodje pomoglo je.Ali koliko ce josh da "zatezu".35nm? I posle toga?Mozda samo promena tj.pronalazenje boljeg materijala.Trka u kojoj nam konstatno "muzu" pare sa 5% boljitka.
Sa grafichkim karticama su poboljshanja veca,mada u tu ima josh malo prostora za budzenje.
 
Poslednja izmena:
Hm.Isti su nam planovi.Ja planiram Q9450 da ubacim u moju G.B. dq6 p35.Za naredne 3 godine ne diram nishta.
Q9450 mi se svidja jer ima dovoljnu brzinu od 2.66ghz.4 jezgra,12 mb kesha i 95w.Sasvim lepo bi radio na 3.2ghz.4 jezgra sa ovom brzinom na konfi sa 3 giga RAM-a na 1100mhz ce mi biti dovoljno.
Jer,ma koliko da se oni trude da naprave neshto epohalno,uvek ce se vrteti oko 3ghz.Tako je vec duzi niz godina.Ove fore sa vishe jezgara pomazu u multitaskingu ali tek kad se programeri dovoljno "probude ".Arhitektura je poboljsana i takodje pomoglo je.Ali koliko ce josh da "zatezu".35nm? I posle toga?Mozda samo promena tj.pronalazenje boljeg materijala.Trka u kojoj nam konstatno "muzu" pare sa 5% boljitka.
Sa grafichkim karticama su poboljshanja veca,mada u tu ima josh malo prostora za budzenje.

Sluzice taj Penryn sto ga planiras sasvim dobro naredne 2-3 godine.Malo zagrevanje,visok IPC,odlican OC potencijal.Jedino ostaje "zal" za promenom podnozja za manje od godinu dana od uvodjenja Penryn-a u mainstream.Moje misljenje je da ce "igranka sa podnozjima", kako audiofreak rece,prestati sa "selidbom" IMC-a pored samih jezgara i uvodjenjem QP.Mocice da koriste isti socket u teoriji i za sledecu generaciju, pod uslovom da ne menjaju memorijske standarde svake godine(sto se verovatno nece desiti).Nehalem ce se isplatiti najvise tamo gde je intel trenutno slabiji(ne po pitanju sirove brzine vec same arhitekture).Za desktop ce Penryn i K10(.5) biti vrlo dobra resenja.
Sto se tice novih materijala,evo intel je uspeo bas to sa Hafnium-om 🙂.Videcemo sta ce se desavati dalje kada idu na sitnije procese.

PS Dobar ti je sig,Hard Rock je jedino sto se nalazi na mom hard-u 🙂 😀
 
Hm.Isti su nam planovi.Ja planiram Q9450 da ubacim u moju G.B. dq6 p35.Za naredne 3 godine ne diram nishta.

Kako vidim ti (i vecina ovde) nisi korisnik koji se zadovoljava da ga komponente "dobro" sluze, vec da ga vrhunski sluze. Da zelis da te "dobro" sluzi ti bi sad imao recimo am2 4000+ 🙂 ili eventualno neki e21xx. i neki ddr2-800. Nije mi jasno zasto bacas pare za kvad i posle intel kriv sto menja sockete. Nije bas socket kriv za sve ...
Sto se mene tice neka menjaju, jer su mi uglavnom neke periferne stvari so sada bile glavni razlog zbog cega sam menjao plocu i procesor. Recimo prvo pojava sata(pa sata2/w ncq), pa pciexpres, pa ddr1, pa ddr2 ... sad idu ddr3 i solid state drives i ko zna sta jos ... ne pratim detalje ... mozda neki sli-pro, usb3, sata-expres ...

poz
 
Poslednja izmena:
Kako vidim ti (i vecina ovde) nisi korisnik koji se zadovoljava da ga komponente "dobro" sluze, vec da ga vrhunski sluze. Da zelis da te "dobro" sluzi ti bi sad imao recimo am2 4000+ 🙂 ili eventualno neki e21xx. i neki ddr2-800. Nije mi jasno zasto bacas pare za kvad i posle intel kriv sto menja sockete. Nije bas socket kriv za sve ...

Paaa, delimicno si u pravu. Ali evo recimo ja guram E6300. Kad sam ga kupio terao sam ga neko vreme (prvih mesec dana otprilike) na 2.8GHz, a kad se "entuzijazam" istrosio takt je pao na 2.24GHz i tako stoji od onda. Zasto kad moze na 2.8GHz? -- zato sto mi u svakodnevnom radu to stvarno ne treba.

I ovih 2.24GHz drzim iskljucivo zbog RAM-a (DDR2-800), iz koga pomenuti CPU izvlaci vise bandwidth-a sa 320MHz FSB i 5:4 nego sa default 266MHz i 3:2. Po mojim testovima, 2.24GHz je sweet spot za E6300. Ne trazi extra napon za NB, CPU i memoriju, ne povecava primetno ni grejanje ni potrosnju, a donosi solidno ubrzanje.

Zasto quad-core? Kada sam kupovao Core 2 isao sam logikom "sto jeftinije" i E6300 je bio najjeftiniji u tom trenutku i ta odluka se pokazala ispravnom jer je skok u performansama sa Pentium D 930 na njega bio ogroman.

Objektivno gledano uopste mi nije potreban quad-core, ali posto vec moram da uzmem novi CPU (zbog posla kojim se bavim), a Penryn nije bolji od Core 2 koliko Core 2 od Pentium D, smatram da jedino kupovina Q9450 moze da opravda investiciju u novi procesor.
 
Sluzice taj Penryn sto ga planiras sasvim dobro naredne 2-3 godine.Malo zagrevanje,visok IPC,odlican OC potencijal.Jedino ostaje "zal" za promenom podnozja za manje od godinu dana od uvodjenja Penryn-a u mainstream.Moje misljenje je da ce "igranka sa podnozjima", kako audiofreak rece,prestati sa "selidbom" IMC-a pored samih jezgara i uvodjenjem QP.Mocice da koriste isti socket u teoriji i za sledecu generaciju, pod uslovom da ne menjaju memorijske standarde svake godine(sto se verovatno nece desiti).Nehalem ce se isplatiti najvise tamo gde je intel trenutno slabiji(ne po pitanju sirove brzine vec same arhitekture).Za desktop ce Penryn i K10(.5) biti vrlo dobra resenja.
Sto se tice novih materijala,evo intel je uspeo bas to sa Hafnium-om 🙂.Videcemo sta ce se desavati dalje kada idu na sitnije procese.

PS Dobar ti je sig,Hard Rock je jedino sto se nalazi na mom hard-u 🙂 😀
Da.Vidim da se slazemo u procenama a i u muzichkom ukusu.😉
Inace nije meni problem promena socketa.Nerviraju me i chipsetovi.Ali ajd' sad neshto mora da te tera da kupish novu plochu.Pre toga je bio pwr.itd.Marketing..***.Lichno sam ubedjen da ce ovaj quad 9450 biiti jako dobro reshenje ako se pogleda ostala ponuda.I to reshenje za duzi period.

PS.HArd Rock kick ass!

Kako vidim ti (i vecina ovde) nisi korisnik koji se zadovoljava da ga komponente "dobro" sluze, vec da ga vrhunski sluze. Da zelis da te "dobro" sluzi ti bi sad imao recimo am2 4000+ ili eventualno neki e21xx. i neki ddr2-800. Nije mi jasno zasto bacas pare za kvad i posle intel kriv sto menja sockete. Nije bas socket kriv za sve ...
Sto se mene tice neka menjaju, jer su mi uglavnom neke periferne stvari so sada bile glavni razlog zbog cega sam menjao plocu i procesor. Recimo prvo pojava sata(pa sata2/w ncq), pa pciexpres, pa ddr1, pa ddr2 ... sad idu ddr3 i solid state drives i ko zna sta jos ... ne pratim detalje ... mozda neki sli-pro, usb3, sata-expres ...
Zashto bacam pare za quad kad je meni veoma chest video enkoding i uvek imam problem sa vremenom?Zashto mi uvek komp.radi po 5 taskova odjednom?Vreme!Meni je vreme jako ograniceno.Mislim da sam ti odgovorio.A programeri vec rade na optimizacionim kodovima za 4 jezgra.Ovom dinamikom mislim da ce u naredne 4 godine biti prilichna software-ska zastupljenost u tom smislu.
U vezi tvog predloga za AMD:
tu sam kantu imao 2 puta i vishe nikad.Moje misljenje pa nemojte ovo polemisati.Previse je zasvakano ovde.
Pozzz....
 
Poslednja izmena:
Da dignemo temu nazad s obzirom na vesti da ce nehalem biti brzi od Penryin-a 45nm oko 20-30%,imace integrisan DDR3 memorijski kontroler(nista od DDR2) sto ce spustiti cene DDR3 memorija u narodne mase.Glavni konkurent ce mu biti AMD-ov Deneb K10.5 45nm sa 6MB cache-a,mada bi Deneb trebao par meseci pre Nehalema da se pojavi.
Nehalem ce dolaziti u verzijama od 2 do 8 jezgara i moci ce da podrzava 2 thread-a po 1 jezgru.

http://www.itx.ba/index.php?option=com_content&task=view&id=5240&Itemid=1

http://www.itx.ba/index.php?option=com_content&task=view&id=5239&Itemid=1

http://www.itx.ba/index.php?option=com_content&task=view&id=5238&Itemid=1
 
Nehalem uArch Improvements - 256KB L2, 8MB L3 Confirmed

neh2jg1.jpg


neh3fa3.jpg


neh5xv1.jpg


neh4wg6.jpg


Performance Improvement Features:

With the next generation microarchitecture, Intel made significant core enhancements to further improve
the performance of the individual processor cores. Below we describe some of these enhancements.

Instructions per cycle improvements. The more instructions that can be run per each clock cycle, the greater the performance. In addition, in many cases, by running more instructions in any given clock cycle, the work task can complete sooner enabling the processor to more quickly get back into a lower power state. To run more instructions per cycle, Intel made several key innovations.

• Greater parallelism. One way to extract more parallelism out of software code is to increase the
amount of instructions that can be run “out of order.” This enables more simultaneous processing and
overlap latency. To be able to identify more independent operations that can be run in parallel, Intel
increased the size of the out-of-order window and scheduler, giving them a wider window from
which to look for these operations. Intel also increased the size of the other buffers in the core to
ensure they wouldn’t become a limiting factor.

• More efficient algorithms. With each new microarchitecture, Intel has included improved algorithms in places where previous processor generations saw lost performance due to stalls (dead cycles). Next generation Intel microarchitecture (Nehalem) brings many such improved algorithms to increase performance. These include:

• Faster Synchronization Primitives: As multi-threaded software becomes more prevalent, the
need to synchronize threads is also becoming more common. Next generation Intel
microarchitecture (Nehalem) speeds up the common legacy synchronization primitives (such
as instructions with a LOCK prefix or the XCHG instruction) so that existing threaded
software will see a performance boost.

• Faster Handling of Branch Mispredictions: A common way to increase performance is
through the prediction of branches. Next generation Intel microarchitecture (Nehalem)
optimizes the cases where the predictions are wrong, so that the effective penalty of
branch mispredictions overall is lower than on prior processors.

• Improved hardware prefetch and better load-store scheduling: Next generation Intel
microarchitecture (Nehalem) continues the many advances Intel made with the 45nm next
generation Intel Core microarchitecture (Penryn) family of processors in reducing memory
access latencies through prefetch and load-store scheduling improvements.

Enhanced branch prediction. Branch prediction attempts to guess whether a conditional branch will be taken or not. Branch predictors are crucial in today's processors for achieving high performance. They allow processors to fetch and execute instructions without waiting for a branch to be resolved. Processors also use branch target prediction to attempt to guess the target of the branch or unconditional jump before it is computed by parsing the instruction itself. In addition to greater performance, an additional benefit of increased branch prediction accuracy is that it can enable the processor to consume less energy by spending less time executing mis-predicted branch paths.

Next generation Intel microarchitecture (Nehalem) uses several innovations to reduce branch mispredicts
that can hinder performance and to improve the handling of branch mispredicts.

• New second-level branch target buffer (BTB). To improve branch predictions in applications that have large code footprints, such as database applications, Intel added a second-level branch target buffer (BTB). BTBs reduce the performance penalty of branches in pipelined processors by predicting the
path of the branch and caching information used by the branch.

• New renamed return stack buffer (RSB). RSBs store forward and return pointers associated with call and return instructions. Next generation microarchitecture’s renamed RSB helps avoid many common
return instruction mispredictions

Intel Smart Cache Enhancements:

The new three-level cache hierarchy for next generation Intel microarchitecture (Nehalem) consists of:

• Same L1 cache as Intel Core microarchitecture (32 KB Instruction Cache, 32 KB Data Cache)
• New L2 cache per core for very low latency (256 KB per core for handling data and instruction)
• New fully inclusive, fully shared 8MB L3 cache (all applications can use entire cache)

A new two-level Translation Lookaside Buffer (TLB) hierarchy is also included in next generation Intel
microarchitecture (Nehalem). A TLB is a processor cache that is used by memory management hardware to improve the speed of virtual address translation. The TLB references physical memory addresses in its table.

All current desktop and server processors use a TLB, but next generation Intel microarchitecture (Nehalem)
adds a new second level 512 entry TLB to further improve performance.

Improved virtualization performance. Next generation Intel microarchitecture (Nehalem) adds new features that enable software to further improve their performance in virtualized environments. For example, the next generation microarchitecture includes an Extended Page Table (EPT) for reconciling memory type specification in a guest operating system with memory type specification in the host operating system in virtualization systems that support memory type specification.

http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=3264&p=2
 
Ćemo da vidimo 😉. AMD je od pojave K8 imao mnooogo revizija IMCa, bilo je tu svakojakih problemčića.
 
Mozda je Intel nesto uspeo da nauci iz AMD-ovog isqstva oko integracije IMC-a. AMD je od 1999. do sada razvijao svoju platformu baziranu na "system on chip" definiciji, dok je Intel razvijao procesorsku snagu, cache algoritme, branch prediktor i naravno uvek prvi je imao novi proizvodni proces sto mu je pomoglo da i bez IMC-a ima odlicne performanse, ako naravno izuzmemo Netburst. S' druge strane Intel ima dosta isqstva oko dizajniranja chipsetova, kao i mnogo novcanih resursa, pa tako ne bi trebalo da bude veci problem da naprave solidan IMC, mada ipak, tu se javljaju razliciti problemi.
 
Poslednja izmena:
Ja mislim da ce oni to resiti brute-force metodom -- na primer 512-bitni data interfejs izmedju IMC i L3 cachea 😀
 
Kompatibilnost, mix raznih mem. čipova i modula, a da to radi ... neće ići sa brute force metodom. Zatim, utjecaj IMCa na overclock ...
 
Ja mislim da ce oni to resiti brute-force metodom -- na primer 512-bitni data interfejs izmedju IMC i L3 cachea 😀
Pitanje koliko bi dobili brute force metodom sa 512 bitnim interfejsom... 😀
L3 ce svakako imati veci latency nego L2 u danasnjim Conroe/Penryn procesorima.
Prilicno je mali onaj L2 kes, ali izgleda da ce biti prilicno brz, s' obzirom da je bukvalno integrisan u samo jezgro kao i L1, mozda bude L2 latency oko 10 ciklusa, a L1 oko 2-3.
Interesantna je prica da Nehalem komunicira sa IMC-om preko L3. Takodje, zanimljivo bi bilo i to da se vidi kako su zamislili SMT na ovom procesoru, baziranom na Core mikroarhitekturi i koliki su dobici tu. Verovatno da ce skaliranje threadova biti idealno ili cak vece nego sto je broj fizickih jezgara, al to ostaje da se vidi.
 
Sto se tice Nehalema:

- 33% more micro-ops in flight possible (verovatno Hyper-Threading, sta mislis fedja?)
- faster "unaligned" cache access (to smo vec nekoliko puta dobijali, valjda ce ovaj put raditi)
- faster synchronization primitives (i to smo vec dobili jednom, MONITOR/MWAIT)
- up to 25.6Gb/sec per link (3.2GB/sec, usko grlo za pristup PCIE uredjaja RAM-u?)

Nehalem ce biti prvi macici izgleda, ali ovaj Sandy Bridge AVX zaista deluje zanimljivo!

- 256-bitni SIMD (izgleda da nisam pogresio kad sam rekao 512-bit L3 bus, trebace im za ovo 😀)
- three operand non-destructive syntax (kako li su to izveli?!?)

Jos samo sacekati 2010...

I slag na torti:

What really seals the deal is the fact that Intel is expanding its software development tools to enable support for the Larrabee Architecture... and that includes supporting industry-standard APIs (like DirectX and OpenGL).
 
Poslednja izmena:
Samples iz Intel developer alata otkrivaju neke novosti:

MOVBE instruction. For the first time in Bonnell. (Bonnell = Silverthorne, Atom)
STTNI Instructions, Nehalem first instance. (Ovo nije SSE4.2 ni POPCNT nego nesto trece!)

Ako neko iskopa nesto na tu temu neka javi ovde.
 
Sto se tice Nehalema:

- 33% more micro-ops in flight possible (verovatno Hyper-Threading, sta mislis fedja?)
Pitanje je kako su izveli SMT na tom procesoru. Verovatno da nije ista prica kao kod Netbursta.

- up to 25.6Gb/sec per link (3.2GB/sec, usko grlo za pristup PCIE uredjaja RAM-u?)
pitanje je koliko je usko grlo u desktop sistemu.

Nehalem ce biti prvi macici izgleda, ali ovaj Sandy Bridge AVX zaista deluje zanimljivo!

- 256-bitni SIMD (izgleda da nisam pogresio kad sam rekao 512-bit L3 bus, trebace im za ovo 😀)
Sta ce im 512-bitni bus za L3 ? Pre ce im trebati brzi bus za L2 i L1 i naravno veci fetch bandwidth od 16-byte-a po ciklusu, koliko je sada ili ce mozda opet primeniti neki drugi trik poput internog fetch buffer-a.
 
Sta ce im 512-bitni bus za L3 ? Pre ce im trebati brzi bus za L2 i L1 i naravno veci fetch bandwidth od 16-byte-a po ciklusu, koliko je sada ili ce mozda opet primeniti neki drugi trik poput internog fetch buffer-a.

Zato sto je L2 vec 256-bitni, a prosiruju se SIMD registri sa 128 na 256 bita. Znaci mora da se prosiri i interfejs ka memoriji. Fetch ce biti 32 bajta a ne 16.
 
Sandy Bridge ce imati 256-bitne vektorske instrukcije, sto ne mora da znaci da je hardver 256-bitni, ali pretpostavljam da hoce. Sasvim je logicno da povecaju fetch zbog toga, ali je isto tako logicno da ce da povecaju L2 bus na 512-bita pre nego L3. L3 bi mogao da bude multiportovan, npr, 4x64-bit ili 4x128-bit, radi manje trashinga.
 
Sandy Bridge ce imati 256-bitne vektorske instrukcije, sto ne mora da znaci da je hardver 256-bitni, ali pretpostavljam da hoce. Sasvim je logicno da povecaju fetch zbog toga, ali je isto tako logicno da ce da povecaju L2 bus na 512-bita pre nego L3. L3 bi mogao da bude multiportovan, npr, 4x64-bit ili 4x128-bit, radi manje trashinga.

Mora da znaci, nema nikakvog smisla prosirivati SIMD u 2010 godini bez prosirivanja hardvera.

Nego da rascistimo neke cinjenice:

- Fetch (iz RAM-a) je 8 bajtova po ciklusu jos od Pentiuma I.
- Cache bus je 256-bitni jos od Pentiuma III.

Nema smisla povecati L2 bus ako L3 ostane usko grlo. Drugim recima sta bi ti znacio 512-bitni L2 bus ako imas 4 jezgra iza 256-bitnog L3? Moja pretpostavka je da ce prosiriti sve do L3. Nije nemoguce cak ni da se odluce za 768-bitni bus, s obzirom na najavu instrukcija sa 3 operanda.
 
Status
Zatvorena za pisanje odgovora.
Nazad
Vrh Dno