Šta je novo?

Nehalem

Status
Zatvorena za pisanje odgovora.
Koliko bi bilo *****ato da se naprave 4 jezgara koje dele izvrsne jedinice a imaju skroz nezavisne keseve i sve ostalo? Tako da ako je single threaded aplikacija da ona moze da koristi resurse svih ostalih jezgara?

Single-threaded aplikacija kod SMT uvek moze da koristi sve resurse jer su resursi uglavnom deljeni dinamicki osim par kljucnih koji se particionisu staticki da ne bi doslo do thread starvationa. Jezgro koje ima vece opterecenje dobija vise izvrsnih resursa nego drugo koje ima manje opterecenje i to je to.
 
Upravo videh ovo, rezultati su zaista brutalni, bez komentara. Svaka cast Intelovim inzenjerima na ovako efikasnoj arhitekturi.
Latencije memorije su izvanredne, kudikamo bolje nego na K10. Ovo je prilican napredak u odnosu na Core 2.

Jedini je problem sto ce se ovo zaista lose odraziti na konkurenciju. AMD sa K10 nece moci ni da pridje ovome. Njima je pod hitno potrebna spremna nova mikroarhitektura za 2009. godinu. 45nm K10 bi eventualno mogao da bude alternativa 45nm Penryn jezgrima.
 
Poslednja izmena:
Upravo videh ovo, rezultati su zaista brutalni, bez komentara. Svaka cast Intelovim inzenjerima na ovako efikasnoj arhitekturi.
Latencije memorije su izvanredne, kudikamo bolje nego na K10. Ovo je prilican napredak u odnosu na Core 2.p

Takođe treba imati u vidu da su testovi odrađeni na "faličnoj" ploči. Ponavlja se 2006 x2. Ehheh.
 
:Klanjanje :Klanjanje :Klanjanje :Klanjanje
:Klanjanje :Klanjanje :Klanjanje :Klanjanje

(ne za Audija vec za Intel 😀, za svaki thread po jednom )
 
Poslednja izmena:
Takođe treba imati u vidu da su testovi odrađeni na "faličnoj" ploči. Ponavlja se 2006 x2. Ehheh.

Ovo samo znaci da nemaju nameru da ponavljaju pricu kao sa Netuburstom. AMD mora dobro da se zapita za svoju buducnost na trzistu mikroprocesora.
 
Upravo videh ovo, rezultati su zaista brutalni, bez komentara. Svaka cast Intelovim inzenjerima na ovako efikasnoj arhitekturi.
Latencije memorije su izvanredne, kudikamo bolje nego na K10. Ovo je prilican napredak u odnosu na Core 2.
Sta mislis o ovom vidjenju redpriesta sa Aceshardware foruma:

redpriest je napisao(la):
Anand's measurements are correct but reported in the wrong context.

If the core sees the L3 in 43 cycles, you have to measure the absolute latency in nanoseconds at core clock frequency, and not northbridge clock frequency. The Northbridge clock could be running at 1 mhz, but if the core clock only sees it after 43 core clocks, you don't do the latency measurement using 1 mhz. Is that more of a clear explanation?

I am making the bold assumption, of course, that Anand ran the 2.5 ghz frequency part with a 2.0 ghz northbridge.

The correct number would then be 17.2 ns. at 2.66 ghz it would be 16.1 ns. Clearly, 39 < 43 cycles, but again, Barcelona's L3 latency is variable depending on numerous factors including NB clock, core clock, frequency of access, ratio of NB/Core clocks, bypass etc. Best case is < 43 cycles.

So in the context of the thread, jumping on AMD for cache performance is not the correct argument to make for saying why Intel is ahead in performance with the Nehalem part - in fact, you should wonder why the cache performance isn't better given Intel's historical cache advantage.

Here's a hint: Having 2 threads access a cache make the latency go longer.

Meni se cini kao sasvim logicno rezonovanje, no ja nisam expert u oblasti cachea, pa me interesuje tvoje misljenje!
 
Poslednja izmena:
Ovo samo znaci da nemaju nameru da ponavljaju pricu kao sa Netuburstom. AMD mora dobro da se zapita za svoju buducnost na trzistu mikroprocesora.

Ako pogledas trenutni AMD-ov lineup, jasno je da nema razloga za bilo kakvo strahovanje od Nehalema koji ipak cilja na vise cenovne rangove u odnosu na ono gde se AMD danas nalazi (ne vislje od $250).
Po ovom pitanju interesantno je jos jedno misljenje autoriteta sa Aceshardwarea:
Hans De vries je napisao(la):
The performance increase from Hyper Threading seems to be in the
same range as that of the Pentium 4 (see table at the end of)
http://www.xbitlabs.com/articles/cpu/display/pentium4-3066_2.html
Single thread performance might suffer slightly due to the average
increase in cache latency.


Intel somehow doesn't want to compete in the mainstream segment
(< $330) with Nehalem until Q3, 2009 with the introduction of Lynnvile
and Havendale
http://pc.watch.impress.co.jp/docs/2008/0602/kaigai01l.gif
http://66.102.9.104/translate_c?hl=...ch.impress.co.jp/docs/2008/0602/kaigai442.htm


Probably due to the 1% for 1% principle (1% performance increase
for 1% power/transistor count increase) So there is not so much
performance increase within a given TDP segment.
http://66.102.9.104/translate_c?hl=...ch.impress.co.jp/docs/2008/0424/kaigai437.htm


Intel also doesn't want to compete in the 4 to 8 socket server segment
with Nehalem until Q3, 2009 with Beckton. (to avoid overlap with Tukwilla?)
http://pc.watch.impress.co.jp/docs/2008/0602/kaigai02l.gif


Regards, Hans
Kao sto rekoh - uprkos onome sto je Anand objavio, Nehalem nije AMD-ov nemezis 😉
 
Ako pogledas trenutni AMD-ov lineup, jasno je da nema razloga za bilo kakvo strahovanje od Nehalema koji ipak cilja na vise cenovne rangove u odnosu na ono gde se AMD danas nalazi (ne vislje od $250).

Osim kada je u pitanju Opteron koji kako-tako moze da poveca AMD-ov ocajno nizak ASP i poveca konacno prihode kompanije... Ipak, imajuci u vidu perfomanse Nehalem-a, inferiornost AMD-a na lukrativnom serverskom trzistu ce, kao i segmentu desktopa, postati permanentna stvar...
 
Poslednja izmena:
Ipak, imajuci u vidu perfomanse Nehalem-a, inferiornost AMD-a na lukrativnom serverskom trzistu ce, kao i segmentu desktopa, postati permanentna stvar...

"Permanentno" zvuci suvise decidirano u industriji koja je bezbroj puta do sada pokazala da nista nije permanentno 😉
:wave:
 
"Permanentno" zvuci suvise decidirano u industriji koja je bezbroj puta do sada pokazala da nista nije permanentno 😉
:wave:

Da, pojedini igraci koji su u proslosti bili jako poznati, danas vise ne postoje 🙂

Npr. Commodore koji je zario i palio - sada je deo istorije. Slazem se da je IT jako dinamicna grana industrije.

Sa druge strane, skoro smo imali svojevrstan "povratak otpisanih": Via sa svojim Nano procesorom.
 
Poslednja izmena:
Anand se mnogo zatrcao sa hype-om. Par stvari:

1) Ocigledna greska:
Cinebench R10 rezultat za Q9450 je pogresan - po njegovim rezultatima skaliranje sa jednog na 4 thread-a je 4.25 sto je nemoguce za quad-core bez SMT-a. Gledajuci rezultate za Q9450 u jednom od prethodnih testova http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3216&p=11 vidi se da je single thread rezultat ~3300 umesto ~2400. Sa 3300 bi Penryn bio brzi od Nehalem-a u single threaded slucaju.
Sami rezultati od Nehalem-a daju skaliranje od 4.17 sto je moguce za Nehalem i prikazuje rad SMT-a.

2) Da li je ovo hteo da prikrije?
U rezultatima za Valve Map Compilation benchmark se nesto krije sto Anand ocigledno nije hteo direktno da prikaze. Testirao je benchmark sa 4 i 8 thread-ova. U drugoj tabeli su prikazani rezultati za 8 thread-ova, a u prvoj razlika izmedju rezulatata za 8 i 4 thread-a.
Rezultate za 4 thread-a nije direktno prikazao ali se mogu dobiti ako se od drugih brojki oduzmu prvi. Tada se dobija da Penryn zavrsava benchmark za 138 sekundi, a Nehalem za 148, sto je sporije i sto ocigledno nije hteo da kaze.

3) Lose izlaganje:
Problem je nacin prikaza 4 na 8 thread skaliranja. On je prikazao razliku u sekundama, sto je besmisleno, jer tako nema referentne tacke (npr. razlika od 15 sekundi nije ista ako se poredi sa inicijalnih 100 ili sa 1000 sekundi).
Posle brzog racuna dobija se da Penryn-u za 8 threadova treba 92% vise vremena nego za 4. S druge strane, Nehalemu je potrebno svega 33% vise vremena - ovo je SMT + IMC kombinacija na delu i daje odlicne rezulate.

4) Neznanje:
Racunajuci latency u nano sekundama za Barcelona L3 kes, mesao je tektove procesora i northbridge-a i tako dobio pogresan broj. Sem toga, kasnjenje on-die kes memorije nema smisla izrazavati u nano sekundama - ciklusi su na tom nivou znacajnija i konstantnija velicina.

5) Zatrcao se:
Uhvatio je da hvali IMC za 13.1 GB/s bandwidth, ne pominjuci da ce finalna verzija verovatno izvuci bar 18GB/s. Sa 13.1GB/s efikasnost IMC-a je samo 50% i to ce se sigurno dovesti u red sa finalnom verzijom. Medjutim, Anand ovo ni ne spominje vec proglasava da je Nehalem-ov IMC sa 50% efikasnisti bolji od Barcelona IMC-a koji ima preko 80% efikasnost.

EDIT: Ispravio je Cinebench rezulata za Penryn. Mada opet je rezultat manji nego prethodni sa njegovog sajta - pri tome sporiji rezultat koristi brzu memoriju (1066 vs. 800).
 
Poslednja izmena:
Odlicno zapazanje Deane.
Ono pod 4) za latency sam i ja primetio. Lupio je glupost da je L3 latency 50% manji na Nehalemu nego na K10, a izrazen je u ciklusima koji govore da je latency kesa vrlo slican.
No, ipak, performanse ovog procesora su izgleda veoma dobre. Verovatno da ovi preliminarni testovi sluze da malo naduvaju halabuku. U narednom periodu ce poceti na povrsinu da isplivavaju prednosti i nedostaci.
 
Poslednja izmena:
cenis da bi ovaj CPU brze terao taj tvoj program od 8800GT-a? 😉

Sigurno!

Vec dual core E8200 zavrsi za 126 sec, a 8800GT za 78. CPU uopste ne zaostaje za GPU koliko neki ovde misle. Program je trenutno bandwidth bound (radimo na poboljsavanju lokaliteta podataka upravo) tako da je FSB limitirajuci faktor za skaliranje na vise threadova.
 
Anand se mnogo zatrcao sa hype-om. Par stvari:2) Da li je ovo hteo da prikrije?
U rezultatima za Valve Map Compilation benchmark se nesto krije sto Anand ocigledno nije hteo direktno da prikaze. Testirao je benchmark sa 4 i 8 thread-ova. U drugoj tabeli su prikazani rezultati za 8 thread-ova, a u prvoj razlika izmedju rezulatata za 8 i 4 thread-a.
Rezultate za 4 thread-a nije direktno prikazao ali se mogu dobiti ako se od drugih brojki oduzmu prvi. Tada se dobija da Penryn zavrsava benchmark za 138 sekundi, a Nehalem za 148, sto je sporije i sto ocigledno nije hteo da kaze.
Ne, vec je thread scheduling smanjio rezultat za 4 thread-a. Iako si "tehnicki" u pravu, nije ni bitno sto jesi 😉
Sa ovim ne mislim o delay-u pri rescheduling-u, vec o tome da su 4 thread-a u sustini "bacena" na prva 4 "procesora", od kojih su 2 virtuelna.
 
Hmm svidja mi se sta je intel uradio sa Nehalem-om.Prakticno su zadrzali i nesto unapredili IPC po jezgru(tweak Penryn-a) i drasticno popravili MT perfrormanse sa IMC-om i SMT-om.QuickPath je zamenio FSB i sad ce imati vise nego dobar odgovor AMD-ovom DirectConnect-u.Ocekivao sam malo vise kad su singlethread perf. u pitanju,mada i ovako su uspeli da urade odlican posao imajuci u vidu mali L2 i povecanu latenciju L1D kesa.Sve u svemu bice to odlican procesor!
 
Procesor je babaroga. Rezultat je najvažniji.
 
Hmm svidja mi se sta je intel uradio sa Nehalem-om.Prakticno su zadrzali i nesto unapredili IPC po jezgru(tweak Penryn-a) i drasticno popravili MT perfrormanse sa IMC-om i SMT-om.QuickPath je zamenio FSB i sad ce imati vise nego dobar odgovor AMD-ovom DirectConnect-u.Ocekivao sam malo vise kad su singlethread perf. u pitanju,mada i ovako su uspeli da urade odlican posao imajuci u vidu mali L2 i povecanu latenciju L1D kesa.Sve u svemu bice to odlican procesor!

Ostaje jos da se vide zvanicni rezultati. Uvek kod prviih testova mnoge stvari nisu bas najjasnije, a narocito sta se poredi sa cime. Ja licno ocekujem da ce multithread skaliranje biti daleko bolje nego sto je kod C2Q. Single thread performanse mogu biti bolje u aplikacijama koje su bandwidth bound. Povecan latency L1 D kesa i L3 kesa moze biti maskiran boljim branch prediktorom i brzim L2 kesom. Verovatno je da ce se negde videti penal u performansama zbog ovih latencija, ali to trazi kudikamo podrobniju analizu od one koje je uradio Anand.
 
Javicu vam ja kad nabavim :d

Gary Key je napisao(la):
I was able to view but not personally benchmark a recently optimized Bloomfield/X58 system this week and it was blindingly fast in several video benchmarks compared to a QX9650. These numbers were before the GPUs became a bottleneck. 😉
 
Poslednja izmena:
Ne, vec je thread scheduling smanjio rezultat za 4 thread-a. Iako si "tehnicki" u pravu, nije ni bitno sto jesi 😉
Sa ovim ne mislim o delay-u pri rescheduling-u, vec o tome da su 4 thread-a u sustini "bacena" na prva 4 "procesora", od kojih su 2 virtuelna.

Pazi, u prethodom postu nisam uopste spekulisao zasto je Nehalem sporiji sa 4 thread-a, nego sam samo ukazao na to su rezultati pazljivo uredjeni tako da se to ne vidi. Sasvim je moguce da je thread scheduler lose rasporedio posao zbog SMT-a. "Slon u sobi" je i cinjenica da nije u pitanju finalni proizvod. Medjutim, od Ananda se ocekuje neka objektivnost, da sve izlozi kako jeste a ne selektivno. Ocekuje se i da bude malo bolje potkovan tehnickim znanjem.

Ne obaziruci se na Ananda, vec na sam procesor: Core microarhitektura + SMT + IMC je monstruozna kombinacija, pogotovo gledajuci da testirana platforma ima znacajno manji bandwidth od finalnog (sto ce se odraziti u jos boljim rezultatima za heavily multithreaded uslove).
 
Ae malo da dignemo temu iz mrtvih 😉

NVIDIA today officially announced it will bring SLI technology to the Intel Bloomfield (Nehalem) processor platform. The firm will roll out a new chip called nForce 200 SLI processor. Rumour has it that NVIDIA will charge motherboard makers roughly $30 to use this chip on Intel X58 based motherboards. This actually is the same switch chip being used on Skulltrail mainboards

Link
 
Ae malo da dignemo temu iz mrtvih 😉

NVIDIA today officially announced it will bring SLI technology to the Intel Bloomfield (Nehalem) processor platform. The firm will roll out a new chip called nForce 200 SLI processor. Rumour has it that NVIDIA will charge motherboard makers roughly $30 to use this chip on Intel X58 based motherboards. This actually is the same switch chip being used on Skulltrail mainboards

Link

Ako si vec to okacio trebalo je i ovo : Link
 
Moze i ovo: "2.66GHz 8MB the L3 model only sells $284 US
dollars" 🙂 izvor: hkepc.
:wave:
 
Poslednja izmena:
Predstavljanje je na IDF-u, na kome ce verovatno biti i nasih novinara.
 
Ako si vec to okacio trebalo je i ovo : Link

Trudim se da zaobidjem Inq a posebno Charlija D, posto je meni licno veoma neprijatan za citanje zbog neverovatne potrebe da najobicniju vest pretvori u pljuvacinu... Al nekima se to ocigledno svidja...

P.S. : Sve u svemu, ako Lucid Hydra bude radila kako se najavljuje (u shta iskreno sumnjam), sve ovo nece biti mnogo bitno 🙂
 
Poslednja izmena:
P.S. : Sve u svemu, ako Lucid Hydra bude radila kako se najavljuje (u shta iskreno sumnjam), sve ovo nece biti mnogo bitno 🙂

Hidra je isto Intelova investicija dobrim delom, jos malo napada na proizvodjace GPU-ova 😀
 
Results of Nehalem-EP (Gainestown) @ 3.06Ghz*2



http://en.hardspell.com/doc/showcont.asp?news_id=3799

Intel brings forward Nehalem launch

Originally scheduled to launch in November or December this year, Intel's Nehalem-based Bloomfield processors will now launch in September along with X58 chipsets, sources at motherboard makers have revealed.

However, the sources pointed out that CPUs and motherboards will not officially appear in the channel until early October.

Since Bloomfield CPUs are not socket compatible with previous Intel platforms, the accelerated launch is not expected to cause competition between the company's own products, although the same cannot be said for AMD's scheduled AM3-based CPU launch, noted the sources.

http://www.digitimes.com/news/a20080724PD205.html
 
Poslednja izmena:
Status
Zatvorena za pisanje odgovora.
Nazad
Vrh Dno