Šta je novo?

Conroe in action!!!

  • Začetnik teme Začetnik teme Space
  • Datum pokretanja Datum pokretanja
Status
Zatvorena za pisanje odgovora.
Poslednja izmena:
stormwatch153 je napisao(la):
Hehehe....bas je u tome caka....svaki kompresor pod Premierom krene izuzetno brzo u prvih nekoliko sekundi pa mu je da dodje na realne vrednosti potrebno neka 3-4 minuta materijala da se FPS stabilizuje, kako bi se dobio merodavan prosecan frame rate minimum je 15 min materijala sa sto vise pokreta kamere i menjanja boja...znaci ako ste za testove postovacu novi thread pod maticnim plocama i procesorima.

Zar nije onda lakse da se izmeri vreme u sekundama stopericom i podeli sa brojem frejmova u video fajlu?
 
Mozda: "tresla se gora iznikao Corov?". Ostaje da vidimo za koji mesec. Ovako imamo brzog_spori_Pi racunac.
 
Makita je napisao(la):
Dok AMD fanovi trose svoje vreme pokusavajuci da omalovazavaju najnovije Intelove procesore, za to vreme Conroe, Merom i Yonah pokupise sve moguce benchmark rekorde. Merom na taktu od 3.4ghz postize 62.400 poena u 3dmarku 01 :

http://www.xtremesystems.org/forums/showthread.php?t=99375

A sada gospodo, nastavite da pljujete po Intelu...
Mnogo je dobar bre taj Conroe, a gde to ima da se kupi, hocu odma' jedan! :d
 
aj jedno pitanje za sve koji prate ovaj thread:
-gledajuci testove po netu, koliko ste stekli utisak da je Conroe brzi od Prescota/preslera... a na istom taktu?
moja procena je do 40%, ne vise. (25-30% najmanje)

Sta vi mislite?
 
Evo sta mislimo. Conro je na istom taktu skoro dvostruko brzi od Preskota! Računica je sledeća A64 je oko 60% brži od isto klokovanog Preskota (eg. A64 3500 i P4 3.5Ghz su tu negde a razlika u kloku je oko 60%), a Conro je brzi recimo 20% od A64 na istom taktu => 1.6x1.2=1.92
 
Paradigma je napisao(la):
Evo sta mislimo. Conro je na istom taktu skoro dvostruko brzi od Preskota! Računica je sledeća A64 je oko 60% brži od isto klokovanog Preskota (eg. A64 3500 i P4 3.5Ghz su tu negde a razlika u kloku je oko 60%), a Conro je brzi recimo 20% od A64 na istom taktu => 1.6x1.2=1.92

mnogo mi to !!! (sledi onaj smajli sa balama 😉 )
😛
 
Poslednja izmena:
Dzabe babe, ja to sracunam za 2 sekunde PiFast-om 🙂 A sad ozbiljno, zasto su se svi uhvatili tog SuperPi-a kao pijan plota? Odavno postoji ovo:

http://pifast.hexus.net/pifast.php

Tabela odavno nije azurirana, bas bih voleo da neko potera taj Melanom 🙂, ovako bih pomislio da Core ima u sebi optimizaciju za SuperPi 🙂
 
Lukija za predsednika🙂
Definitivno, zasto SuperPi?
Melanom, kool🙂
 
U stvari, sto ne bi napisali vlastiti racunac broja Pi? I to sa optimizacijama i bez. Mnogo mi lame ideja da neko patchuje program star 10 godina pa jos od toga napravi 'ultimativni' test.
 
Conroe-oficijalno ime.

1339_ic2d_4c_FPO_050506.jpg


Ko li im samo izmišlja ovakva imena?
Sad će biti problem noob-u objasniti kako nema više Pentuima. A on uporno hoće Pentuim.
 
Какви проблеми, какви бакрачи?

Ово ће за нуба бити PentiJum 6 исто као и K8L.
 
starac je napisao(la):
Conroe-oficijalno ime.

1339_ic2d_4c_FPO_050506.jpg


Ko li im samo izmišlja ovakva imena?
Sad će biti problem noob-u objasniti kako nema više Pentuima. A on uporno hoće Pentuim.
Pa oni ce ga prodavati kao PentiJum 5 ili Pentijum 6 :d pa ce za jedno dvadeset godina shvatiti da je to Core n+1 Octa 😀 😀 😀
Ali ce se razocarati ako im neko kaze da su kupili pentiJum III. :d
 
Poslednja izmena:
Lukija je napisao(la):
Dzabe babe, ja to sracunam za 2 sekunde PiFast-om 🙂 A sad ozbiljno, zasto su se svi uhvatili tog SuperPi-a kao pijan plota? Odavno postoji ovo:

http://pifast.hexus.net/pifast.php

Tabela odavno nije azurirana, bas bih voleo da neko potera taj Melanom 🙂, ovako bih pomislio da Core ima u sebi optimizaciju za SuperPi 🙂
Sa chudnovsky metodom ide za oko 2 sekunde 1m superpi na 2.8 Ghz AMD K8.
 
drfedja je napisao(la):
Sa chudnovsky metodom ide za oko 2 sekunde 1m superpi na 2.8 Ghz AMD K8.

Ozbiljno, razmisjlam da zanimam tim Pi racunanjem ali sa optimizacijama. Da vidimo koliko to stvarno vredi. Naime, probao sam SuperPi sa kao optimizacijama i nisam nista primetio. Naravno, to je daleko od optimizovanog SW jer se radi o patch-ovanju.
 
audiofreak je napisao(la):
Pusti ga illidane vidis da je beyond help.



Imas tri odgovora na pitanje:

1. Netburst je doneo najbolji branch predictor, odlican cache i prefetch mehanizme, i sjajne SSE2 instrukcije. Pokazao je da se i sa izuzetno dugackim pajplajnom moze napraviti tako komplikovan superskalaran OOO procesor. Ti bi stvarno mogao malo dublje da zagrebes od one praistorijske 5 stage RISC arhitekture koju si ucio na faxu pa bi ti neke stvari u vezi arhitekture procesora bile daleko jasnije.

2. Netburst je zbog SIMD koncepta naterao (pametne) programere i softverske firme da promene nacin rada i da optimizaciju koda i algoritama shvate onako kako treba -- ozbiljno. Zbog toga smo dobili mnogo brzi Photoshop, Lightwave, SoundForge, Sonar, Cubase, 7-Zip, WinRAR, you name it, a ne zbog K8.

3. Netburst je, hteo to ti da priznas ili ne doneo multithreading na desktop, a ne tamo neki K8.

Sve je to lepa priča, ali nije baš tako.

1. Šta ste se uvatili predikcije grananja kao da je ona sve i svja. Nije Intel prvi koji je otkrio čari pumpanja takta rastezanjem pipelinea, DEC je bio prvi u tome sa Alphom (malecan direktno mapiran instrukcijski keš, in order izvršavanje i eto 300 i 500 MHz, jedino što onda procesor na 2x nižem taktu i 2x manjim teorijskim performansama bude brži u SPEC benchmarcima). Sve te razne napredne tehnike što spominješ su samo u službi bržeg čitanja i dekodiranja instrukcija koje se iovako posle izvršavaju na RISColikom jezgru.

Što je pipeline duži to je veća latencija instrukcija, a da bi se sakrila ta latencija treba da imaš što više nezavisnih instrukcija koje nisu međuzavisne po podacima, odakle sledi da ti treba puno puno registara. x86 je tu uvek bio na začelju. Takođe, integer programi imaju neuporedivo manji stepen paralelizma od fp programa pa su razne tehnike tipa loop unrolling daleko manje uspešne, ali da ne zalaizim previše u domen kompajlera.

Ti bi inače mogao da malo bolje prostudiraš tu organizaciju procesora i da naučiš da razlikuješ organizaciju od arhitekture.

Sjajne SSE2 instrukcije su daleko od sjajnih. Jedan od većih gafova: svega 8 registara. Zatim, tvrdoglavo insistiranje na 2 adresnom formatu. Zatim mali broj elemnata u registru, za double brojeve svega 2. Sa SSE instrukcijama više je stvar da se ne koristi retardirani FPU sa stekom i tim divotama koji jednostavno nije pravljen za brzo izvršavanje instrukcija i koji je bio sve osim pogodan za primenu tehnika za optimizaciju petlji. Sem toga, meni na pamet ne pada nijedan razlog zašto praktično samo x86 procesori nisu mogli da urade fp add ili fp mul u 3-4 ciklusa sa repeat rateom 1. Svi RISC procesori su to savladali pre više od 10 godina (MIPS, PA-RISC, POWER, Alpha).

2. Slavne optimizacije koje spominju uglavnom ljudi koji nisu programeri i koji nemaju nikakvo iskustvo sa Intelovim C i Fortran kompajlerima. Vektorizacija koda je bajata stvar, a Intel je pametno kupio firmu KAI koja je imala neke od najboljih optimizujućih i vektorizujućih kompajlera (između ostalog pravili ih i za razne Cray mašine gde bez vektorizacije ne može ni u WC da se ode 😀 ). KAI inače znači Kuck and Asociates Inc, a dotični Kuck je pre 30 i kusur godina radio na vetorizaciji koda i imao verovatno najbolji tim na svetu; ovo čisto za one koji nisu čuli za tu firmu pa da se ne pitaju koji su ti levaci. ,) Svaki kod koji je pristojno pisan i poseduje paralelizam može se relativno lako vektorizovati. Ako paralelizma nema, ništa od bilo kakvih SIMD instrukcija, a često ništa ni od korišćenja paralelizma od superskalara. Plus standardne biblioteke kao što su BLAS 1/2/3, LAPACK, ATLAS i Intelove tipa IPP i MKL. Inaše dotična MKL biblioteka sadrži optimizovan BLAS i LAPACK za sve Intelove procesore i pri tome košta nešto smešno malo. Primer iz prakse: program pisan u čistom i standardnom Cu, samo preveden za SSE (čak ne ni SSE2) pri čemu je ograničen uglavnom brzinom memorije radio je 10-15% brže od ne-SSE verzije.

Inače, Netburst nije produkt marketinga, već činjenice da se performanse procesora mogu poboljšati na 2 načina: povećavanjem broja instrukcija izvršenih u ciklusu i dizanjem takta. Intel se odlučio na ovo drugo jer se lakše može proceniti dokle će to stići što se tiče takta. Sa druge strane, dizanje broja instrukcija po taktu zahteva daleko veće resurse i usporava takt, a koliko če biti ukupno ubrzanje (više instrukcija po ciklusu, a sporiji takt) je teško proceniti dok procesor nije dobrim delom urađen (da su probali tako i zeznuli se mogli bi da bace 1-2 godine rada gomile inženjera). A svo vreme kamn o vratu je x86, a najveći od svih mali broj registara i FPU stek.
 
Inače računanje broja Pi je test reda igračke. Sve staje u registre, u gorem slučaju u L1 keš, a svima nam je od interesa obrada podataka reda par desetina do par stotina bajtova. Probajte FFT u 2 i 3 dimenzije, pa da vidite kako će da ispomera dupe i procesoru, kešu i memoriji. Isto to, ali na malo drugi način: iterativno rešavanje slabo popunjenog sistema jednačina. I za razliku od računanja broja Pi iznova, ove stvari imaju vrlo veliku primenu.
 
ziveo MadTexel!

MadTexel-a za predsednika! 🙂

ekstra text!
 
pa superpi jeste budjav i ja sam za FFT... sakoro sam citao u jednoj knjizi o multiprocesorima da su radili simulatore multiprocesorskih sistema da ispitaju performanse u funkciji velicine kesa, velicine ces linije, broja procesora i sl.. i niko nije koristio izracunavanje pi za simulaciju... koristili su prakticne stvari FFT, LU dekompoziciju, Barns algoritam za simuliranje nebeskih tela preko oktalnog drveta i ocean algoritam za racunanje parcijalnih eliptickih diferencijalnih jednacina(ovim se nisam bavio tako da pojma nemam kako se sta racuna samo sam naveo naziv ako nekog interesuje) za simuliranje globalnih struja u morima ... ja bi pre to merio nego racunanje pi-a. isto sto me puno nervira kod pc-ja je sto vuce ko zna koliko arhitektura sa sobom ( mislim na real mod, protekted mod i sad ove nove modove ) , nervira me mali broj registara ( sa glupim nazivim al,ax,eax,rax gde covek moze da se pogubi sta mu je sta ) i sto nema troadresni format instrukcija koji bi skratio velicinu programa i popravio performanse za puno procenta)... atmega128 ima vise registara nego pc....🙂

Evo poziv svim ljudima dobre volje koji bi zeleli da razglabaju o arhitekturama i orgranizacijama procesora,multiprocesora i sl. da se prikljuce tredu Multiprocesorski problemi da se ne bi kvarili ovi overklokerski tredovi ( koji kada bi se malo bolje optimizovali stali bi u manje od nekoliko registara 🙂
 
Poslednja izmena:
A u FFT...

Kako kaze moj ortak...kad neshto meri...Prst u oko puta Pi...😀
 
Poslednja izmena:
MadTexel je napisao(la):
DEC je bio prvi u tome sa Alphom (malecan direktno mapiran instrukcijski keš, in order izvršavanje i eto 300 i 500 MHz

Podebljao sam ti ono zbog cega takvom procesoru branch prediction manje treba nego ovim danasnjim.

MadTexel je napisao(la):
Što je pipeline duži to je veća latencija instrukcija, a da bi se sakrila ta latencija treba da imaš što više nezavisnih instrukcija koje nisu međuzavisne po podacima, odakle sledi da ti treba puno puno registara.

To za latenciju instrukcija nije tacno jer ne prolaze sve instrukcije kroz sve stepene u pajplajnu i postoje razni nacini za skracivanje latencija. Vec smo se mcekovic i ja raspravljali na tu temu pa da ne bih pisao sve ponovo potrazi ovde na benchu, dao sam cak i link na PDF gde lepo pise kakvi su "trikovi" korisceni u Netburst arhitekturi za smanjenje latencije instrukcija.

Sto se tice broja registara, sve je to lepo (taj RISC koncept) ali po meni je sasvim svejedno da li imas 128 registara na raspolaganju ili 8 i hardverski register renaming.

MadTexel je napisao(la):
Takođe, integer programi imaju neuporedivo manji stepen paralelizma od fp programa pa su razne tehnike tipa loop unrolling daleko manje uspešne, ali da ne zalaizim previše u domen kompajlera.

Odakle ti ta ideja da integer programi imaju manji stepen paralelizma??? Dokle god je izracunavanje u pitanju moze se paralelizovati. Pogotovo ako je u pitanju obrada slike, zvuka -- bilo kakva multimedija jer nemoj zaboraviti sve su to integerski podaci. Sto se tice loop unrolling to je samo jedna od tehnika koja se koristi.

MadTexel je napisao(la):
Ti bi inače mogao da malo bolje prostudiraš tu organizaciju procesora i da naučiš da razlikuješ organizaciju od arhitekture.

Hajde ako te ne mrzi objasni mi ukratko razliku, nemam vremena trenutno da se smaram time.

MadTexel je napisao(la):
Jedan od većih gafova: svega 8 registara.

Ne vidim problem u tome.

MadTexel je napisao(la):
Zatim, tvrdoglavo insistiranje na 2 adresnom formatu.

Posto iza 2 nema tacke pretpostavljam da si hteo da kazes dva adresna formata. Ni tu ne razumem u cemu je problem?

MadTexel je napisao(la):
Zatim mali broj elemnata u registru, za double brojeve svega 2.

Ovo nema veze sa SSE2 nego sa sirinom data busa ali pretpostavljam da ti je to jasno ako znas razliku izmedju arhitekture i organizacije? :trust:

MadTexel je napisao(la):
Sa SSE instrukcijama više je stvar da se ne koristi retardirani FPU sa stekom i tim divotama koji jednostavno nije pravljen za brzo izvršavanje instrukcija i koji je bio sve osim pogodan za primenu tehnika za optimizaciju petlji.

Uopste nisi u pravu. Prvo vecina proracuna ne trazi double precision matematiku pa je float (koga ima 4 u SSE) sasvim dovoljan. Inace i uraditi dva deljenja ili mnozenja u double precision za vreme koje je potrebno za jedan inace preko FPU je cist car.

MadTexel je napisao(la):
Sem toga, meni na pamet ne pada nijedan razlog zašto praktično samo x86 procesori nisu mogli da urade fp add ili fp mul u 3-4 ciklusa sa repeat rateom 1. Svi RISC procesori su to savladali pre više od 10 godina (MIPS, PA-RISC, POWER, Alpha).

Inace SSE ADDPS (4x float ADD) traje 4-5 taktova sa throughputom 2, dok MULPS traje 6-7 (Northwood-Prescott) sa istim throughputom. To znaci da imas od 1-1.25 taktova za sabiranje (po elementu) i 1.5-1.75 taktova za mnozenje. Pride, sta mislis o tome koliko traje jedan ciklus kod svakog od tih procesora?

MadTexel je napisao(la):
Slavne optimizacije koje spominju uglavnom ljudi koji nisu programeri i koji nemaju nikakvo iskustvo sa Intelovim C i Fortran kompajlerima.

Jel se ovo odnosi na mene? Ako je odgovor da onda si debelo pogresio jer ja imam iskustva sa tim.

MadTexel je napisao(la):
Vektorizacija koda je bajata stvar

Mozda u odnosu na AltiVec i tome slicno ali na x86 platformi je jos uvek suvise nova (citaj slabo se koristi). Ako si mislio da je bajata u smislu tehnike onda ne bi bilo lose da kazes i koje su tehnike po tebi bolje?

MadTexel je napisao(la):
Primer iz prakse: program pisan u čistom i standardnom Cu, samo preveden za SSE (čak ne ni SSE2) pri čemu je ograničen uglavnom brzinom memorije radio je 10-15% brže od ne-SSE verzije.

To zavisi od mnogo faktora. Ako je kod napisan tako da je lokalitet podataka los onda ni najbolji kompajler ne moze tu nista da uradi. Uzgred, nisi naveo da li je taj rezultat postignut MSVC ili ICC kompajlerom. Ja ti iz licnog iskustva mogu reci da su retka ubrzanja manja od 50% za ispravno napisan algoritam.

MadTexel je napisao(la):
A svo vreme kamn o vratu je x86, a najveći od svih mali broj registara i FPU stek.

Ja naprotiv verujem da je kamen o vratu LEGACY kod, kao i neznanje i nezainteresovanost programera da koriste sofisticiranije metode od brute force.

MadTexel je napisao(la):
Probajte FFT u 2 i 3 dimenzije, pa da vidite kako će da ispomera dupe i procesoru, kešu i memoriji.

Probao ja, Ooura algoritam koji koristim je par puta brzi nego recimo qsort iz C runtime biblioteke. I onda u cemu je problem? Reci cu ti ja -- u algoritmu i kodu, a ne u hardveru.
 
Poslednja izmena:
Status
Zatvorena za pisanje odgovora.
Nazad
Vrh Dno