Nehalem

audiofreak · 11.08.2007

DeanXP je napisao(la):
Da nije slucajno Netburst Nehalem 😀
Ako povezujes multithreading i Netburst, nije to to.

Vuces me da idem u off i da ljutim Nedju pa cu samo kratko:

Sto se tice Netbursta, evo ti O/C od 8GHz sto znaci da su ALU jedinice u cipu radile na 16GHz. To ne samo sto nije Nehalem, nego je i vise od "najavljenih" 10GHz zar ne? 😀:d😀

Kad me vec cikas, pogledaj rekorde (obrati paznju na rezultate sa jos neobjavljene DFI P35 ploce i na postignut FSB).

Nehalem ce imati HyperThreading. Na cemu li ce biti zasnovan? Nemam pojma za sada. Fali nam Hans de Vries da nam kaze.

ivanbo2003 je napisao(la):
Kao sto je Dean rekao ,dakako je zasnovan na Core-u(nego na cemu?),kao sto i slide-ovi sa poslednjeg IDF-a govore...

Onda je po toj logici Phenom zasnovan na K8 :d

Odoh ja da spavam, probudite me kad tranzistori u AMD-ovim procesorima budu mogli da switch-uju ispravno na taktu od 16GHz pa makar bili hladjeni i na apsolutnu nulu umesto "samo" tecnim azotom.

DeanXP · 11.08.2007

audiofreak je napisao(la):
Vuces me da idem u off i da ljutim Nedju pa cu samo kratko:

Sto se tice Netbursta, evo ti O/C od 8GHz sto znaci da su ALU jedinice u cipu radile na 16GHz. To ne samo sto nije Nehalem, nego je i vise od "najavljenih" 10GHz zar ne? 😀:d😀

Kad me vec cikas, pogledaj rekorde (obrati paznju na rezultate sa jos neobjavljene DFI P35 ploce i na postignut FSB).

Ne bih ni ja previse u off, al’ sta je tu je:
Da ne ulazim u to koliko su nebitne ove frekvencije koje si naveo, samo cu reci da je Northwood na 5GHz mnogo impresivnija pojava nego Cedar Mill na 8GHz.

audiofreak je napisao(la):
Nehalem ce imati HyperThreading. Na cemu li ce biti zasnovan? Nemam pojma za sada. Fali nam Hans de Vries da nam kaze.

Izjasnio se vec sam Intel:
"Leverages leading four-instruction issue Intel® Core™ microarchitecture"

To sto ce Nehalem imati SMT uopste ne znaci da ce koristiti istu implementaciju kao Netburst, stavise nemoguce je da ce imati istu implementaciju. Dinamika mikroarhitektura se znacajno razlikuje. Kod sirokih mikroarhitektura sa ravnopravnim jedinicama (kao sto je Core) ce multithreading doci mnogo vise do izrazaja po horizontali, dok uske arhitekture kao Netburst imaju vise koristi po vertikali.
Inace je Hyperthreading samo marketinski naziv. Tako i Netburst i Itanium (Montecito jezgro) imaju Hyperthreading, ali same implementacije drasticno razlikuju. Nije cak ni isti tip threadinga: Netburst ima SMT (Simultaneous MT), a Montecito SoEMT (Switch-on-Event MT), a kamoli same mikroarhitektonske promene koje ih omogucavaju.

Sem toga, koliko mi je poznato, za Nehalem ce promeniti i sam marketinski naziv SMT-a.

audiofreak je napisao(la):
Onda je po toj logici Phenom zasnovan na K8 :d

Nije mi jasan ovaj komentar. Pa, K10 jeste zasnovan na K8 🙂 A K8 na K7.
Prescott na Northwood. Core na P-M. P-M na P6.

audiofreak je napisao(la):
Odoh ja da spavam, probudite me kad tranzistori u AMD-ovim procesorima budu mogli da switch-uju ispravno na taktu od 16GHz pa makar bili hladjeni i na apsolutnu nulu umesto "samo" tecnim azotom.

Samo ako mozes da se probudis u proslosti 🙂
Danas se brzina switch-ovanja tranzistora meri u THz (tacnije prica se o brzini propagacije manjoj od pikosekunde) bez obzira ciji prosec se gleda. Ono sto ti gledas je jedan ciklus pipeline-a (8GHz) i jedan ciklus ALU-a tj. poluciklus pipeline-a (16 GHz). Vreme svakog (polu)ciklus se dobija sabiranjem vremena propagacije tranzitora koji ga cine (plus skew, jitter i slicne napasti).

Inace, prilicno sam siguran da Intelovi tranzistori jesu brzi od AMD-ovih, ali ne mozes porediti razlicite aritekture, cikluse u prici o switch-ovanju tranzistora.

audiofreak · 11.08.2007

Vreme je da zapocnemo novi thread.

Evo za pocetak ovo da se upoznate sa pojmovima:
Nehalem Info.

DeanXP je napisao(la):
Izjasnio se vec sam Intel:
"Leverages leading four-instruction issue Intel® Core™ microarchitecture"

Hvala, promace mi to iako sam procitao tu stranu. Medjutim to ne znaci da elemenata Netbursta nece biti (ima ih i u postojecim Core procesorima).

DeanXP je napisao(la):
To sto ce Nehalem imati SMT uopste ne znaci da ce koristiti istu implementaciju kao Netburst, stavise nemoguce je da ce imati istu implementaciju. Dinamika mikroarhitektura se znacajno razlikuje. Kod sirokih mikroarhitektura sa ravnopravnim jedinicama (kao sto je Core) ce multithreading doci mnogo vise do izrazaja po horizontali, dok uske arhitekture kao Netburst imaju vise koristi po vertikali.

Ne znam o kakvoj horizontali i vertikali pricas, a jos manje o ravnopravnim (neravnopravnim) jedinicama. I Netburst i Core imaju iste izvrsne jedinice (kao i svaki drugi CPU), razlike su na potpuno drugom nivou. Da li je 4-wide ili 3-wide instruction issue to nije u ovoj prici bitno.

Nehalem SMT implementacija ne moze biti mnogo drugacija od Netbursta. Moze biti samo efikasnija zato sto je Core arhitektura efikasnija, ali sigurno nece trositi vise od 5% silicon real estate-a kao i kod Netbursta jer je to jednostavno fizicki neizvodljivo. Razmisli malo i sam, ako Penryn sa 4 jezgra u 45nm ima 120W TDP, sta bi bilo sa 8 jezgara + SMT, pogotovo ako bi taj SMT imao mnogo vise dupliranih resursa nego sto je to bio slucaj kod Netbursta?

Da se Nedjo ne bi ljutio zapoceo sam novi thread:
Off-topic vezan za Nehalem.

DeanXP je napisao(la):
Nije mi jasan ovaj komentar. Pa, K10 jeste zasnovan na K8 🙂 A K8 na K7. Prescott na Northwood. Core na P-M. P-M na P6.

Upravo to i hocu da kazem. Ne vidim onda zasto se to uvek potencira kad se prica o Intelovim novim procesorima, a ne kad se prica o AMD-ovim?

drfedja · 11.08.2007

Evo i SuperPi za Nehalem! :d

http://img184.imageshack.us/img184/4521/nehalem2custom3im.jpg

audiofreak · 11.08.2007

drfedja je napisao(la):
Evo i SuperPi za Nehalem! :d

http://img184.imageshack.us/img184/4521/nehalem2custom3im.jpg

DeanXP · 11.08.2007

Sem informacija sa Intel-ovog sajta, evo jos malo zanimljivosti:

http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=2955&p=3
- “Nehalem will also use multi-level shared cache. Pat Gelsinger indicated that only the highest level of cache would be shared”
- “The power of each core is "dynamically managed" which might indicate that Nehalem goes one step further than AMD's Barcelona core: it could have independent power planes.”

http://www.theinquirer.net/?article=38567
- “The biggest advance comes in FP capability, so expect big gains there.”
IMC + unapredjen L1 sa 2x128-bit laod porta + po koji FPU tweak => ovo bi moglo vrlo dobro da izgleda.

audiofreak je napisao(la):
Hvala, promace mi to iako sam procitao tu stranu. Medjutim to ne znaci da elemenata Netbursta nece biti (ima ih i u postojecim Core procesorima).

Zavisi sta podrazumevas pod elementima Netbursta. Ako mislis na opstu ideologiju mikroarhitekture, onda definitivno ne. Ako mislis na odredjene jedinice, definitivno da, ali se onda takodje moze reci da ce imati i elemente P6 i P5 i 486 i 386, pa cak i K8 i Alpha i slicnih RISC procesora.
Stvarno "ground-up new, clean sheet of paper" procesor ne moze vise da se napravi. Zato se procesori dizaniraju sa logickim blokovima koji se kasnije mogu ponovo koristiti bilo samo "copy/paste" ili uz znacajne modifikacije. Da se stvarno sve pravi od nule i rucno sredjuje indzinjeri bi mogli da rade do kraja vremena i jos ne bi zavrsili.
Na kraju krajeva na potpuno isti nacin se mora pristupati i softveru.

audiofreak je napisao(la):
Ne znam o kakvoj horizontali i vertikali pricas, a jos manje o ravnopravnim (neravnopravnim) jedinicama. I Netburst i Core imaju iste izvrsne jedinice (kao i svaki drugi CPU), razlike su na potpuno drugom nivou. Da li je 4-wide ili 3-wide instruction issue to nije u ovoj prici bitno.

Netburst ima dva ALU porta. Jedan je za simple a drugi complex instrukcije. Podela je prilicno asimentricna.
Core ima tri ALU porta. Na sva tri se mogu slati sve instrukcije. (Izuzetak je integer multiplier koji zauzima veliku povrsinu pa postoji samo jedan, ali sem toga je sve simetricno.)

Threading po horizontali znaci da ce se instrukcije dva thread-a izvrsavati na dva razlicita ALU-a u istom trenutku. Obzirom da Core ima na raspolaganju tri simetrucna ALU-a (ravnoptavna) mnogo je veca sansa da ce doci do izrazaja ovaj scenario. S druge strane na Netburstu je sansa mnogo manja obzirom da ima dva asimetricna ALU-a.
Threading po vertikali dolazi do izrazaja kad jedan thread blokira. Tada drugi moze da koristi resurse dok prvi saceka load iz memorije i sl. Netburst ima dug pipeline sa dugim queue-ovima instrukcija i ogromnim register file-om. Dok se jedan thread oporavlja od branch promasaja drugi moze da radi. I Core ce imati koristi od ovoga ali ne na isti nacin. S toga mora da se prilagodi i nacin deljenja queue-ova, register file-a, scheduler-a tako da se najbolje iskoristi Core mikroarhitektura. To podrazumevam pod drugacijom implementacijom.

audiofreak je napisao(la):
Nehalem SMT implementacija ne moze biti mnogo drugacija od Netbursta. Moze biti samo efikasnija zato sto je Core arhitektura efikasnija, ali sigurno nece trositi vise od 5% silicon real estate-a kao i kod Netbursta jer je to jednostavno fizicki neizvodljivo. Razmisli malo i sam, ako Penryn sa 4 jezgra u 45nm ima 120W TDP, sta bi bilo sa 8 jezgara + SMT, pogotovo ako bi taj SMT imao mnogo vise dupliranih resursa nego sto je to bio slucaj kod Netbursta?

Slazem se za TDP, medjutim to opet ne znaci da implementacije nece biti drugacija. Nisam ni rekao da SMT na Nehalemu mora biti veci i da vise trosi. Intel cak trvdi suprotno: "SMT to enhance performance and energy efficiency"

Inace:
- 5% od Northwood-ovih jezga nije isto kao 5% C2D jezgra. 5% C2D jezga bi znacilo bar 2 puta vise tranzistora nego 5% Northwood-a.
- Cak i da je utrosen isti broj tranzistora oni se mogu upotrebiti na drasticno razlicite nacine.

Nedjo · 12.08.2007

audiofreak je napisao(la):
Da se Nedjo ne bi ljutio zapoceo sam novi thread:
Off-topic vezan za Nehalem.

Konstruktivan potez! Pozdravljam.
Ako mozes napravi jedan post koji pored linkova sdrzi i neke slajdove i quoteove. U prevodu, "sazvaci" malo informacije za one sa jeftinijim ulazinacama 😉

:wave:

audiofreak · 12.08.2007

DeanXP je napisao(la):
Zavisi sta podrazumevas pod elementima Netbursta. Ako mislis na opstu ideologiju mikroarhitekture, onda definitivno ne.

Definisi sta ti licno mislis da je opsta ideologija Netbursta pa onda mogu da odgovorim eventualno na to.

DeanXP je napisao(la):
Ako mislis na odredjene jedinice, definitivno da, ali se onda takodje moze reci da ce imati i elemente P6 i P5 i 486 i 386, pa cak i K8 i Alpha i slicnih RISC procesora.

Ne moze se reci jer ti procesori nisu imali te jedinice ili nisu radili neke stvari na isti nacin.

DeanXP je napisao(la):
Na kraju krajeva na potpuno isti nacin se mora pristupati i softveru.

Da je tako, ne bi bilo nikakvog razvoja softvera. Upravo je reimplementacija algoritama ta koja dovodi do velikih poboljsanja i ubrzanja u radu.

DeanXP je napisao(la):
Netburst ima dva ALU porta. Jedan je za simple a drugi complex instrukcije. Podela je prilicno asimentricna.

Ako se uglavnom koriste jednostavne instrukcije to nema mnogo veze.

DeanXP je napisao(la):
Core ima tri ALU porta. Na sva tri se mogu slati sve instrukcije.

Jeste ali ta tri ALU-a rade na daleko nizem taktu od Netburstovih cisto da se ima u vidu.

DeanXP je napisao(la):
S toga mora da se prilagodi i nacin deljenja queue-ova, register file-a, scheduler-a tako da se najbolje iskoristi Core mikroarhitektura. To podrazumevam pod drugacijom implementacijom.

Koliko se ja secam, register file je bio kompletno dupliran cak i kod Netbursta. Sto se tice ostatka implementacije (scheduler, queue, etc) mislim da postoji sansa da se vrati µop tagging, a mozda cak i replay.

DeanXP je napisao(la):
- 5% od Northwood-ovih jezga nije isto kao 5% C2D jezgra. 5% C2D jezga bi znacilo bar 2 puta vise tranzistora nego 5% Northwood-a.

Da ali ako je C2D register file porastao 2x onda je to i dalje 5% u odnosu na ceo procesor. Ja o tome pricam.

@Nedjo:
Videcu moze li nesto da se iskopa pa cu okaciti.

DeanXP · 13.08.2007

audiofreak je napisao(la):
Definisi sta ti licno mislis da je opsta ideologija Netbursta pa onda mogu da odgovorim eventualno na to.

Koliko mi je poznato formalni argument je sledeci:
IPC je tesko dostizan i nepredvidljiv. Posle odredjene granice za ulozene tranzistore se dobija neproporcijalno mali dobitak IPC-a. Zbog toga je bolje ostaviti IPC na razumnom nivou gde se svi ulozeni tranzistori isplate, a ukupne performanse procesora podizati radnim taktom. Sam radni takt bi se mogao lakse regulisati nego IPC i to produbljivanjem pipeline-a i usavrsavanjem prizvodnog proseca.

audiofreak je napisao(la):
Ne moze se reci jer ti procesori nisu imali te jedinice ili nisu radili neke stvari na isti nacin.

Eto. Onda se ne moze ni reci da Nehalem nasledjuje SMT od Netbust-a, jer SMT ne cini jedna jedinica nego po potrebi pravljene modifikacije duz celog pipeline-a. Dakle, samim tim sto se pipeline razlikuje, razlikuje se i implementacija SMT-a.

audiofreak je napisao(la):
Da je tako, ne bi bilo nikakvog razvoja softvera. Upravo je reimplementacija algoritama ta koja dovodi do velikih poboljsanja i ubrzanja u radu.

Znas dobro na sta sam mislio.
Ono staro: „ne treba ponovo izmisljati tokac“ i sl. Ako je algoritam spor svakako da treba napraviti bolji, ali ako vec postoji nesto dobro onda se moze ponovo koristiti. Ne treba biti novo samo zato da bi bilo novo - mora biti i bolje.

audiofreak je napisao(la):
Jeste ali ta tri ALU-a rade na daleko nizem taktu od Netburstovih cisto da se ima u vidu.

Da, ideja je da dva ALU-a na dva puta vecem taktu efektivno izgledaju kao 4 ALU-a za ostatak procesora. Medjutim, zbog specificnog nacina scheduling-a na Netburst-u, dobar deo instrukcija koje stignu do ALU-a zapravo nece biti spremne za izvrsavanje i tada nastupa replay. Veci deo kapaciteta Double Pumped ALU-a odlazi na lanac replay instrukcija, pa kad se sve sabere i oduzme one se ne ponasaju mnogo bolje od obicnih ALU-a. To naravno ne treba shvatiti kao da su Double Pumped ALU-i bezvredni, vec samo da ih ostatak Netburst mikroarhitekture anulira. Zapravo, lanac je ovakav: DP ALU-i kompenzije za dodatni saobracaj koji pravi replay, a replay sam po sebi omogucava da procesor uopste funkcionise sa dugim pipeline-om.

audiofreak je napisao(la):
Koliko se ja secam, register file je bio kompletno dupliran cak i kod Netbursta. Sto se tice ostatka implementacije (scheduler, queue, etc) mislim da postoji sansa da se vrati µop tagging, a mozda cak i replay.

Samo je arhitektonski register file bio dupliran. Njega cine nespekulativna stanja arhitektonskih registara. Mnogo veci renamed register file koji cine spekulativna stanja registara je deljen.

Replay ne mogu da vrate, posto ga Core vec ima, kao i svi P6 procesori. Nije mi jasno sta je toliko zanimljivo kod replay mehnizma kad ga smatras posebno znacajnim feature-om (ili sam bar takav utisak dobio na osnovu ovog i jos par tvojih postova).
Ukoliko procesor ima bar jednu fazu pipeline-a izmedju schedule i execute on mora da ima replay mehanizam inace procesor uopste ne moze da funkcionise.

Evo zasto: Npr. P6 ima jednu register file read fazu izmedju schedule i execute. Samim tim scheduler mora da „misli“ dva ciklusa unapred. Recimo, posalje jedan op na izvrsavanje u nultom ciklusu. U prvom ciklusu salje drugi op na izvrsavanje koji je zavisan od rezultata prvog. U drugom ciklusu prvi op stize u ALU medjutim ne moze da se izvsi posto je doslo do cache miss-a. Samim tim taj op mora da se povuce nazad, ali takodje mora da se povuce i drugi op koji je vec poslat racunajuci da ce se prvi uspesno isvrsiti. Ta dva op-a se povlace i ponovo izvrsavaju a.k.a. replay. E sad, P6 ima dva ALU-a i AGU-a, pa treba viditi racuna i na komplikovanije slucajeve do kojih moze doci.

Kod Netburst-a je rastojanje izmedju scheduler-a i execute 6 pipe faza, tako da on mora da prati vise instrukcija, ali je osnovni princip isti: lanac zavisnih instrukcija se povlaci nazad i ponovo izvrsava. Kao posledica dugog pipeline-a (tacnije schedule-execute razmaka) nastace mnogo duzi lanci. Ali bez tog mehanizma bi dug pipeline bilo nemoguce ostvariti.
Rusi su odradili detaljnu analizu: http://www.xbitlabs.com/articles/cpu/display/replay.html
Navescu samo zakljucak:
„Replay is more likely to be regarded as “the other side to the picture” of the longer pipeline, as an auxiliary mechanism intended to help resolve speculation issues. The performance drop caused by replay is the price we have to pay for high working frequency. That is probably why we can rarely come across some scarce mention of the replay system in Intel’s official manuals and docs. Replay very often causes unjustified waste of resources and significant performance drops.”

A upravo DP ALU-i amortizuju ovaj „unjustified waste of resources and significant performance drops”.

audiofreak je napisao(la):
Da ali ako je C2D register file porastao 2x onda je to i dalje 5% u odnosu na ceo procesor. Ja o tome pricam.

C2D ima manji register file nego Netburst. Ali razumem sta hoces da kazes.

audiofreak · 13.08.2007

DeanXP je napisao(la):
Koliko mi je poznato formalni argument je sledeci:
IPC je tesko dostizan i nepredvidljiv. Posle odredjene granice za ulozene tranzistore se dobija neproporcijalno mali dobitak IPC-a. Zbog toga je bolje ostaviti IPC na razumnom nivou gde se svi ulozeni tranzistori isplate, a ukupne performanse procesora podizati radnim taktom. Sam radni takt bi se mogao lakse regulisati nego IPC i to produbljivanjem pipeline-a i usavrsavanjem prizvodnog proseca.

To uopste nema veze sa zivotom. Opsta ideologija Netbursta nije samo dizanje takta niti produzavanje pipeline-a. Osnovni koncept te arhitekture je efikasan streaming (podataka) i paralelna obrada preko SIMD-a. To je nazalost jako kasno pocelo da se koristi u softveru, tako da je Netburst ni kriv ni duzan okarakterisan kao izuzetno neefikasna arhitektura, a kao glavni krivac za to "novinari" (inace "strucnjaci" za tu temu) su navodili to o cemu ti pricas -- takt i dugacak pipeline.

Druga stvar koja je iskakala iz cele price je bio trace cache koji je bio prilicno inovativan koncept u 2000-toj godini i pokazao se vrlo sposobnim da odrzi visok instruction decoding throughput. Treca stvar je implementacija HTT preko uop tagging-a (jedan decoder i front end koji taguje instrukcije za core0/core1), a cetvrta replay, ali ne onakav kako ga ti zamisljas.

DeanXP je napisao(la):
Da, ideja je da dva ALU-a na dva puta vecem taktu efektivno izgledaju kao 4 ALU-a za ostatak procesora.

Ne, ideja je bila da pola takta kasnije mozes zapoceti drugu polovinu neke operacije (npr drugih 16 bita od 32-bitnog mnozenja ili drugih 32-bita od 64-bitnog ADD/SUB) pa je na taj nacin ALU izgledao 2x siri, a ne 2x brojniji.

DeanXP je napisao(la):
Veci deo kapaciteta Double Pumped ALU-a odlazi na lanac replay instrukcija, pa kad se sve sabere i oduzme one se ne ponasaju mnogo bolje od obicnih ALU-a.

Ovde vec pocinjes da diskutujes o stvarima o kojima ja znam mnogo vise. Ne znam gde si to procitao, ali ja iz prakse mogu da tvrdim da to nije tako kod optimizovanog softvera.

DeanXP je napisao(la):
Samo je arhitektonski register file bio dupliran. Njega cine nespekulativna stanja arhitektonskih registara. Mnogo veci renamed register file koji cine spekulativna stanja registara je deljen.

Naravno, zato sam i rekao da bi 5% ostalo 5% i pored smanjenja proisteklog iz procesa jer je i RAT (Register Alias Table se zove to sto pominjes, a ne renamed register file) verovatno adekvatno uvecan na C2D.

DeanXP je napisao(la):
Ukoliko procesor ima bar jednu fazu pipeline-a izmedju schedule i execute on mora da ima replay mehanizam inace procesor uopste ne moze da funkcionise.

To nije replay kakav je imao Netburst.

DeanXP je napisao(la):
Rusi su odradili detaljnu analizu: http://www.xbitlabs.com/articles/cpu/display/replay.html

Video sam to jako davno i poslao im email u kome sam tvrdio da nije tacno da se replay ne pominje u dokumentaciji i trazio da to isprave u tekstu. Naravno, nisu mi nikad odgovorili. Ceo tekst je senzacionalisticki i u fazonu "Sta X ne zeli da znate o Y".

Prvo, nigde nisu navedeni nikakvi konkretni podaci o uticaju replay-a na performanse (na primer izmeren procenat CPU taktova potrosen na Replay uz pomoc performance countera), samo spekulacije.

Drugo, evo ti primer lose osmisljenog testa:
http://www.xbitlabs.com/articles/cpu/display/replay_15.html#sect0

Razlog zasto jedan thread usporava nije replay uopsteno, vec Load Replay. Ukoliko se citanje ponavlja u brzoj petlji koja nema dovoljno koda sa vecom latencijom da pokrije to citanje pre nastupanje sledece iteracije petlje (kao na primer kada testiras sinhronizacionu varijablu), procesor (bejavsi deep-out-of-order-execution engine) spekulativno salje na izvrsavanje nekoliko narednih load instrukcija iz nekoliko buducih iteracija petlje.

Posto je ovde u pitanju random citanje iz memorije veliko je opterecenje na AGU (Address Generation Unit), hardverski prefetcher koji pomaze kod linearnog pristupa memoriji je beskoristan pa cak i stetan samim tim cache miss je neizbezan, a kao kombinovana posledica svega toga javlja se Load Replay pa performanse padaju u drugom threadu. Samo jedna pause instrukcija pre citanja iz memorije bi verovatno bila dovoljna da se skoro u potpunosti eliminise taj penal.

DeanXP je napisao(la):
A upravo DP ALU-i amortizuju ovaj „unjustified waste of resources and significant performance drops”.

To oni tek treba da dokazu real-world testom, umesto lose osmisljenom sintetikom, a ti bi morao biti malo vise analitican i sumnjicav kad se vec upustas u sve to.

Na osnovu mog iskustva, Netburst (pa cak i Prescott) je bio izuzetno efikasna arhitektura kad je u pitanju streaming i SIMD. Kod koji sam optimizovao za njih radio je u nekim slucajevima cak i do 20% brze, a nikad sporije nego na uporedivim AMD procesorima. Kad kazem uporedivim, mislim na recimo AMD64 2800+ i Prescott 2.8GHz oba na default taktu onako kako ih ozbiljni klijenti koriste.

Da ne idemo vise u off, cela ta prica oko neefikasnosti Netbursta je prenaduvana, a lansirali su je aljkavi developeri da bi imali pokrice za svoj bedan legacy kod.

DeanXP · 14.08.2007

Netburst Offtopic

Odosmo iz offtopica u offtopic 🙂

audiofreak · 15.08.2007

Evo i vesti vezanih za Nehalem:
http://www.theinquirer.net/?article=41693

Ukratko:
- Bloomfield, Gilo, Gainestown/Becktown (desktop, notebook, server)
- Northbridge za sada ostaje u igri ali ce imati CSI umesto FSB
- 65nm fab-ovi ce proizvoditi chipsete u 2008
- Serveri ce imati opciju FB-DIMM ili registered ECC/DDR2 kontrolera u NB
- XE verzije procesora bi trebale da imaju integrisani memorijski kontroler
- Broj pinova na socketu se smanjuje -- Socket H (LGA715)

To bi bilo to za sada.

ivanbo2003 · 15.08.2007

Kako kaze user FLG_Poncho(intel) sa XS-a:
http://www.xtremesystems.org/forums/showpost.php?p=2372002&postcount=13

That's exactly what they are doing... at least for the next generation. Yes, CSI and IMC will be standard across the board, but not for another few years. The next get desktop and mobile chipsets will use the Penryn uArch CPUs, while High end Desktop and server will use Nehalem uArch and IMC

http://www.xtremesystems.org/forums/showpost.php?p=2371893&postcount=6

That's for desktop models. Only the High End Desktop (XE) will use Nehalem uArch. For DP and UP server they will all be using Nehalem. Now... ALL nehalem CPUs will have an IMC, there are no "non-IMC" versions of nehalem

Znaci Penryn ce biti standarni desktop cip u 2008. dok ce XE verzija Core-a(3) biti Nehalem verzija sa posebnim cipsetom i IMC+CSI-em.Lici mi na Skulltrail ponovo,samo sto ce koristiti novi socket i novi cipset,normalno.Pitanje ostaje da li ce biti FB-DIMM ili DDR2??

drfedja · 15.08.2007

Mislim da ce Nehalem postepeno da se spusta iz High End u Mainstream segment, slicno kao sto je AMD uradio pri uvodjenju K8. Tek 2009. ce skoro svaka Intel konfiguracija imati IMC.

Naravno, novi socket i chipset je neminovan. Komunikacija sa memorijom tesko da ce se ostvarivati preko CSI. 🙂

mcekovic · 15.08.2007

I naravno AMD nece iskoristiti sansu koja mu se tu pruza zbog objektivno dugotrajnog uvodjenja platfrome sa IMC na trziste, kao sto je nije iskoristio da znacajnije ugrozi Intel sa A64 kada je mogao, vec su slepo verovali da ce Intel da tera NetbBurst doveka...

drfedja · 16.08.2007

Pretpostavljam da se šališ! 🙂

Ne verujem da je AMD mislio da ce Intel da gura netburst doveka. Naprotiv, Intel je shvatio da ne treba da gura netburst i izbacio Core 2. Čudi me da to malo ranije nisu shvatili, već onda kada su videli da su Pentium M Banias i Dothan veoma dobri proizvodi, sa dobrim performansama i niskom potrošnjom.
Pre bih rekao da je AMD to lepo iskoristio i pretvorio se u daleko veću kompaniju nego što je to bio pre pet godina. Teško je da mali AMD može da tek tako ugrozi diva poput Intela, ali ko zna, za 20 - 30 godina, možda. 🙂
Do tada mogu da im budu dobra konkurencija na tržištu i odlična altenativa, kao i protivteža kada su u pitanju cene.

S druge strane, netburst je morao da zasluži penziju, baš kao što to treba da se desi i sa K8 i njihovim 90nm procesom.

audiofreak · 16.08.2007

ivanbo2003 je napisao(la):
Kako kaze user FLG_Poncho(intel) sa XS-a...

Naime, lik je samo delimicno u pravu. Nehalem ce svakako biti nadogradnja Penryn-a.

Zapravo to ce biti Penryn +SSE4.2, +CSI, +IMC.

Ono sto se iz tog posta ne vidi je da li ce svi Nehalem cipovi imati CSI umesto FSB.

ivanbo2003 · 16.08.2007

To jeste ostalo nedoreceno.Iz konteksta njegovog posta ja mislim da ce svi biti CSI bazirani jer bi ovo povlacilo izradu skroz drugih chipsetova a i na cemu bi onda Nehalem ostao ako bismo ga lisili IMC-a i CSI-a?Licio bi umnogome na na nesto doradjenog Penryn-a ,7 novih(doduse bitnih SSE instrukcija) i SMT-om(i ovo je pitanje da li ce biti na desktop-u i da li je uopste i potrebno kad vec imamo quad core proizvode i to monolitic-Nehalem).
Jos nesto sto sam skoro video na XS-u,jedini nativni cip ce biti 4 core.Prvi octo core ce biti isto kao i do sada MCM,ovoga puta preko CSI-a umesto FSB-a,sto je naravno veliki pomak posebno u serverskom segmentu.Znaci bice bitka izmedju Barcelona-e(Budapest-a) i Penryn-a u prvoj polovine iduce godine i Shangai(i octo coreMontreal-a u vidu MCM) i Nehalem-a(quad i octo MCM)

DeanXP · 16.08.2007

Zar nije trebalo biti ovako?

Xeon 4S+ => FB-DIMM2 IMC
Xeon 1-2S => DDR3 IMC
Desktop Xtreme Edition => DDR3 IMC
Desktop regular => DDR3 eksterno preko CSI

drfedja · 16.08.2007

A zasto bi pravili razlicita jezgra sa i bez memorijskog kontrolera i zasto bi na CSI I/O magistralu kacili DDR3 memorijski kontroler ?

Slicna lupetanja su se mogla cuti u vreme kada je AMD izbacivao K8, kako ce S754 Athlon komunicirati sa memorijom preko HTT linka.

Ako ce da imaju chip bez IMC-a, onda je to Penryn. Neki Xtreme Edition bi mogao biti Nehalem, kao i Xeoni.

ivanbo2003 · 16.08.2007

drfedja je napisao(la):
Ako ce da imaju chip bez IMC-a, onda je to Penryn. Neki Xtreme Edition bi mogao biti Nehalem, kao i Xeoni.

To je upravo i rekao onaj lik na XS.U naredne dve godine navodno Penryn ce biti desktop cip,dok ce samo XE i Xeon-i biti bazirani na Nehalem arh.

audiofreak · 17.08.2007

drfedja je napisao(la):
A zasto bi pravili razlicita jezgra sa i bez memorijskog kontrolera i zasto bi na CSI I/O magistralu kacili DDR3 memorijski kontroler?

A zasto da ne? :trust:

1. Zato sto je cela poenta Nehalem arhitekture skalabilnost i mogucnost prekrajanja za svaciji dzep (tako kaze sam Intel na sajtu)

2. Zato sto Intel kao firma koja ima vecinski udeo na trzistu chipset-ova ne sme tek tako da ukine NB (NVIDIA, SiS, Via, etc)

Uostalom, gledaj na to kao na situaciju pri prelasku sa S462 na S939. Postojala je medjufaza (S754) za korisnike sa plicim dzepom. Tako je i ovde sa LGA715.

Mislim da komunikacija sa NB preko CSI uopste nije losa ideja, cak naprotiv, mislim da je sasvim dovoljna, i da je IMC za desktop nepotreban.

Licno bih vise voleo da Intel razvije sistem komunikacije procesora i memorijskog kontrolera koji ce biti jednako efikasan kao da su u istom pakovanju, a da nam pritom ostane fleksibilnost koja proizilazi iz mogucnosti da se upari bilo koji (DDR2, DDR3, ..., DDRX) memorijski kontroler u NB sa bilo kojim procesorom.

illidan · 17.08.2007

pitam se hoce li procesori sa IMC imati coldbug 🙂

drfedja · 17.08.2007

audiofreak je napisao(la):
A zasto da ne? :trust:

1. Zato sto je cela poenta Nehalem arhitekture skalabilnost i mogucnost prekrajanja za svaciji dzep (tako kaze sam Intel na sajtu)

A ti im sve verujesh ! :d 😉

audiofreak je napisao(la):
2. Zato sto Intel kao firma koja ima vecinski udeo na trzistu chipset-ova ne sme tek tako da ukine NB (NVIDIA, SiS, Via, etc)

Zato sto imaju onda manji trosak za proizvodnju cipsetova, a istu ili nesto nizu cenu. isti R&D tim za chipsetove ce za razvoj IMC-a sasvim lepo odraditi posao.

audiofreak je napisao(la):
Uostalom, gledaj na to kao na situaciju pri prelasku sa S462 na S939. Postojala je medjufaza (S754) za korisnike sa plicim dzepom. Tako je i ovde sa LGA715.

S754 je imao prepolovljenu memorijsku magistralu, pa je na taj nacin dobijen nesto jeftiniji dizajn i nesto slabije performanse. Komunikacija sa memorijom i NB-om se nije obavljala preko HTT linka.

audiofreak je napisao(la):
Mislim da komunikacija sa NB preko CSI uopste nije losa ideja, cak naprotiv, mislim da je sasvim dovoljna, i da je IMC za desktop nepotreban.

Prvo, IMC na desktop platformi znacajno smanjuje latenciju izmedju procesora i memorije, zbog vise razloga. Povecava bandwith, a samim tim povecava multithread performanse kod multicore procesora. Mozda za prosecnu desktop primenu i za single core procesore, pa cak i za dual core nije toliko od znacaja, IMC ce nadalje biti jos znacajniji.

audiofreak je napisao(la):
Licno bih vise voleo da Intel razvije sistem komunikacije procesora i memorijskog kontrolera koji ce biti jednako efikasan kao da su u istom pakovanju, a da nam pritom ostane fleksibilnost koja proizilazi iz mogucnosti da se upari bilo koji (DDR2, DDR3, ..., DDRX) memorijski kontroler u NB sa bilo kojim procesorom.

Sve je moguce, evo AMD planra u nekoj buducnosti da omoguci koriscenje razlicitih memorijskih standarda na jednom te istom procesoru.

audiofreak · 18.08.2007

drfedja je napisao(la):
A ti im sve verujesh ! :d 😉

Samo ono sto procitam na njihovom sajtu. Ono sto cujem od drugih ne verujem njima ako razumes sta hocu da kazem. 😉

drfedja je napisao(la):
Zato sto imaju onda manji trosak za proizvodnju cipsetova, a istu ili nesto nizu cenu. isti R&D tim za chipsetove ce za razvoj IMC-a sasvim lepo odraditi posao.

Da ali onda bi imali i monopol na chipsete pa bi ih tuzili. Trenutno osim NVIDIJE niko nema CSI licencu koliko ja znam.

Njima trosak nije problem uopste, a pokazalo se da vise timova koji rade na istoj stvari daje bolje rezultate prema tome...

drfedja · 18.08.2007

Ma ne brinem se ja za njih, prodace oni jos ponekome (ko bude bio dobar 😀 ) CSI licencu.

Ne kazem da ce mnogo da ih finansijski "osteti" kompleksniji cipset, samo IMC pored nize latencije donosi i ukupno nizu potrosnju, tako da ne vidim zasto bi pored penryna za siroke narodne mase uopste pravili Nehalema bez IMC kontrolera.

audiofreak · 18.08.2007

drfedja je napisao(la):
Ne kazem da ce mnogo da ih finansijski "osteti" kompleksniji cipset, samo IMC pored nize latencije donosi i ukupno nizu potrosnju, tako da ne vidim zasto bi pored penryna za siroke narodne mase uopste pravili Nehalema bez IMC kontrolera.

Zato sto cak ni oni nemaju proizvodnih kapaciteta (u 45nm) na bacanje. Chipseti idu u 65nm koji ce "zvrjati prazni" kad procesori predju na 45nm. Memorijski kontroler u NB vec u 65nm tesko da ce trositi iole relevantnu struju, pogotovo u njihovom tweakovanom procesu gde Core Celeroni imaju 35W TDP, a ko zna koliko ce tek malo biti kad 45nm bude mainstream.

DeanXP · 18.08.2007

Po dosadasnjim informacijama CSI propusta 17GB/s sto bi bilo dovoljno da zameni FSB za komunikaciju sa memorijom.
Pretpotastvljam da Intel ne zeli nimalo da olaksa posao drugim chipset proizvodjacima. Bez mem kontrolera na chipsetu bi imali manje troskove proizvodnje (a resili bi se i troskova razvoja samog mem kontrolera). Te olaksice bi mnogo bolje dosle 3rd patry proizvodacima, nego samom Intelu.

alfaunits · 19.08.2007

Ako neko "kazhe" da CSI propusta 17GB/s, zvuci premalo.. isto su "rekli" da FBDIMM propusta 21GB/s - sto je daleko od tacnog. Ali je barem prvi korak ka fully interleaved memoriji.

audiofreak · 22.08.2007

17GB/sec is plenty. Ni jedan (cenovno isplativ) RAM ne premasuje znacajno 10GB/sec i tako ce biti sigurno jos neko vreme. Posto je CSI serijski bus, moze se prosiriti/ubrzati lakse nego FSB.

Nehalem

Banned

Čuven

Banned

Čuven

Banned

Čuven

Čuven

Banned

Čuven

Banned

Čuven

Banned

Slavan

Čuven

Čuven

Čuven

Banned

Slavan

Čuven

Čuven

Slavan

Banned

- Bike Camper -

Čuven

Banned

Čuven

Banned

Čuven

Znamenit

Banned