INTEL 45-nanometarska evolucija

audiofreak · 28.02.2007

drfedja je napisao(la):
Nije mi jasno samo gde ce da naprave 45nm procesore, s' obzirom na to da D1D fabrika i FAB32 u Arizoni pocinju sa ramp-om 45nm u drugoj polovini 2007.
Ako sudimo na osnovu realnih podataka, Charlie lupeta gluposti da ce se 45nm Penryn pojaviti u prvoj polovini godine.
Realno, Penryn moze da se ocekuje krajem 2007. ili pocetkom 2008.

Khm...
http://www.xbitlabs.com/news/cpu/display/20070221162530.html

DAS · 29.03.2007

http://www.techamok.com/?pid=2350

Sve u svemu,fin upgrade Conroe arhitekture.

drfedja · 29.03.2007

Sve u svemu, nesto visi radni takt i vise kesha koji ce doneti jos par promila performansi, kao sto se i ocekivalo.
Sto se tice Nehalema, nigde se ne prica o IMC-u, ali SSE engine update deluje zanimljivo.

Doktor · 29.03.2007

Intelova 45-nanometarska evolucija

Intel je objavio detalje o svojim predstojećim procesorima temeljenim na 45-nanometarskoj arhitekturi kodnog imena Penryn.

Najvažnija novost u odnosu na postojeće Core 2 i Xeon procesore proizvedene u 65-nanometarskom procesu je povećanje cache memorije. Tako će dvojezgreni modeli imati do 6 MB integrirane cache memorije, dok će kod četverojezgrenih procesora biti integrirano 12 MB cachea.

Također se ističe da će procesori temeljeni na jezgri Penryn imati novi skup multimedijalnih instrukcija, SSE4, raditi na maksimalnim taktovima većim od 3 GHz, no moći će se koristiti u kombinaciji s postojećim matičnim pločama za najnovije verzije Intelovih Core 2 i Xeon procesora.

FXGT · 29.03.2007

Na koliko ce moci da se kloknu ti procesori jedno 5-6 GHz

kUdtiHaEX · 29.03.2007

A ovo ste promasili?

At a press meeting today, Intel's Pat Gelsinger also made a number of high-level disclosures about the successor to Penryn, the 45nm Nehalem core.

A few questioners tried to get clarification from Gelsinger as to whether he meant that there would be a GPU integrated onto the actual die along with the general-purpose CPU cores. (Recall that AMD claims this CPU/GPU die-level integration for their Fusion project.) Gelsinger clarified that the GPU would be "in the socket" with the CPU, but wouldn't say more.

http://arstechnica.com/news.ars/pos...ed-graphics-on-die-memory-controller-smt.html

audiofreak · 30.03.2007

Intel Penryn set to despoil pretty streets of AMD Barcelona

Intel says Penryn will deal 45 percent speed boost

Intel talks specifically about Penryn

Rezime za Penryn (sta se zna za sada):

- SSE4, 50 novih instrukcija, izmedju ostalog CRC32, fast string operations (za regex i slicno), population count
- Super Shuffle Engine (S3), data shuffle/interleave/deinterleave unutar registra u jednom taktu
- Radix-16 divider, 4 umesto 2 bita po taktu, duplo veci throughput za mul/div + leading zero/early exit tweaks
- 6MB L2, 24-way umesto 16-way (veca asocijativnost je uvek bolja)
- speculative load/store neosetljiv na prelaz iz jedne u drugu cache liniju (ranije stall)
- 1600MHz FSB
- Vanderpool, ubrzan VMEntry i VMExit (25 - 75%)
- TDP se ne menja (iako bi realno mogao biti i manji)
- Polovicni mnozioci(!)
- 3GHz+ za sve platforme (osim za mobilnu), ukljucujuci i Quad-Core

I dok varite ove podatke, Nehalem se krcka na tihoj vatri.

Bice ovo vrelo leto...

Typhoon.X · 30.03.2007

Evo josh malko infoa za Penryn : http://www.guru3d.com/newsitem.php?id=5147, mada u globalu isto shto je i audio napisao...

drfedja · 30.03.2007

FXGT je napisao(la):
Na koliko ce moci da se kloknu ti procesori jedno 5-6 GHz

Verovatno da, ali sa kaskadnim hladjenjem, suvim ledom ili mozda LN2. :d
Penryn nece doneti klok za klok performanse vece od 5-6% u odnosu na Conroe-a. Visoka FSB magistrala nece bog zna sta povecati performanse, a 50% veci L2 kes, koji je vec ionako dovoljno velik, ce minimalno uticati. Mozda povecana asocijativnost ostvari veci hit-rate ali ne ocekujmo spektakularne skokove kao kad se Core 2 pojavio.

Dodatni kes moze da poboljsa skaliranje performansi na visim taktovima. Brze racunanje kvadratnog korena je pitanje koliko ce se videti u sirokom spektru aplikacija koje ljudi koriste na svojim racunarima.

Sasvim sigurno je da Penryn nece biti sporiji od C2D, a da li ce biti bolji i brzi od konkurencije, to ne mozemo da kazemo, jer jos nismo videli nista konkretno. Klok za klok mislim da nece.

audiofreak · 31.03.2007

drfedja je napisao(la):
Verovatno da, ali sa kaskadnim hladjenjem, suvim ledom ili mozda LN2. :d

Ja ne bih tako olako podcenjivao 45nm proces. Cini mi se da ima sanse da 4GHz bude dostupno na vazduhu.

Anandtech je napisao(la):
Link
It has also been confirmed that Penryn will deliver higher IPC and higher clock speeds. Intel wouldn't say more than "more than 3 GHz", but considering that the FSB is bumped up to 1600 MHz, 3.2 GHz is likely. However, several Intel people confirmed that if necessary ("depending on what the competition does"), the 45nm CPUs can go quite a bit higher (3.6 GHz is probably a safe estimate, considering how far current Core 2 CPUs are able to overclock).

drfedja je napisao(la):
Penryn nece doneti klok za klok performanse vece od 5-6% u odnosu na Conroe-a.

Pa nece biti, pominje se 20% brze od najbrzeg Core 2 Duo procesora, a ocekuju se 2x bolje performanse za deljenje i 4x bolje za kvadratni koren klok za klok. Tu su i 128-bit shuffle operacije u jednom taktu koje se odnose na sve dosadasnje instrukcije tipa shufps/shufpd/pshufd/punpcklwd/packssdw itd, sto ce ubrzati postojeci SIMD kod:

Super Shuffle Engine

A evo i slike gde se vidi koje instrukcije su ubrzane radix-16 deljenjem:

drfedja je napisao(la):
Visoka FSB magistrala nece bog zna sta povecati performanse

Hoce kod bandwidth bound aplikacija tj. onih koje intenzivno rade sa memorijom, na primer Photoshop.

drfedja je napisao(la):
Brze racunanje kvadratnog korena je pitanje koliko ce se videti u sirokom spektru aplikacija koje ljudi koriste na svojim racunarima.

Eh, nemoj tako, a Super PI? :d

drfedja je napisao(la):
da li ce biti bolji i brzi od konkurencije, to ne mozemo da kazemo, jer jos nismo videli nista konkretno.

Ja se samo bojim da necemo na vreme ni videti nista konkretno i da ce Intel opet da zaspi na lovorikama (citaj: da se "osloni" na monopol).

drfedja je napisao(la):
Klok za klok mislim da nece.

Heh, ja bas mislim da AMD nece moci da isprati Penryn-ov takt :smoke:

Da ne zaboravimo i Enhanced Intel Dynamic Acceleration Technology, kad se jedno jezgro ne koristi (citaj: radi Super PI

), drugo jezgro ce biti overklokovano. Izgleda da ce procesori ubuduce imati dva rejtinga, jedan za dual-core i jedan za single core mode.

Sto se tice Nehalema, mozda je rano da se o njemu prica, ali vredi napomenuti da ce se sa njim vratiti Hyper-Threading. Najavljuju procesor sa 8 fizickih odnosno 16 logickih procesora. Da li ce HTT doneti 30% kao kod Netbursta ili manje to ostaje da se vidi.

ideupark · 31.03.2007

djalex je napisao(la):
Ja mislim da cemo citati na Benchu full test krajem decemra 2007.

Dobro si mislio svi cemo citati na Benchu vec u Q4 2007

zagarantovano!

drfedja · 31.03.2007

audiofreak je napisao(la):
Ja ne bih tako olako podcenjivao 45nm proces. Cini mi se da ima sanse da 4GHz bude dostupno na vazduhu.

Niko ne potcenjuje, ali mislim da Penryn u startu sigurno nece raditi na 4Ghz. Mozda Nehalem, nesto kasnije.

audiofreak je napisao(la):
Pa nece biti, pominje se 20% brze od najbrzeg Core 2 Duo procesora, a ocekuju se 2x bolje performanse za deljenje i 4x bolje za kvadratni koren klok za klok. Tu su i 128-bit shuffle operacije u jednom taktu koje se odnose na sve dosadasnje instrukcije tipa shufps/shufpd/pshufd/punpcklwd/packssdw itd, sto ce ubrzati postojeci SIMD kod:

Realno, u kom broju aplikacija ce se videti ubrzanje. Ne mozes reci, procesor je brzi 20% tek tako. To je samo jedan tweak.

audiofreak je napisao(la):
Hoce kod bandwidth bound aplikacija tj. onih koje intenzivno rade sa memorijom, na primer Photoshop.

Photoshop intenzivno radi sa SSE engine-om, za to da je bandwith bound, tek sad cujem.

audiofreak je napisao(la):
Eh, nemoj tako, a Super PI? :d

Pa zavisi kakav algoritam koristi SuperPi :d Ako koristis Leibniz-ovu formulu nece ti trebati square root!

audiofreak je napisao(la):
Heh, ja bas mislim da AMD nece moci da isprati Penryn-ov takt :smoke:

Da ne zaboravimo i Enhanced Intel Dynamic Acceleration Technology, kad se jedno jezgro ne koristi (citaj: radi Super PI ), drugo jezgro ce biti overklokovano. Izgleda da ce procesori ubuduce imati dva rejtinga, jedan za dual-core i jedan za single core mode.

Hehe, pa o tome je pricano i ranije, kao mali power managemant tweak da bi se ubrzale single thread performanse.
Sto se AMD-a tice, mislim da ce se ponoviti situacija iz 2003. Prvi procesori nece raditi na mnogo vecem taktu, ali kasnije ce biti dosta brzih.

audiofreak je napisao(la):
Sto se tice Nehalema, mozda je rano da se o njemu prica, ali vredi napomenuti da ce se sa njim vratiti Hyper-Threading. Najavljuju procesor sa 8 fizickih odnosno 16 logickih procesora. Da li ce HTT doneti 30% kao kod Netbursta ili manje to ostaje da se vidi.

Pa danasnje, a i buduce aplikacije ce jedva iskoristiti i dual core/quad core, a kamoli neki octa-core sa hyperthreadingom. Uostalom, neke preterane koristi od Hyperthreading nema na Pentium D EE procesorima.

genuine · 31.03.2007

drfedja je napisao(la):
Pa danasnje, a i buduce aplikacije ce jedva iskoristiti i dual core/quad core, a kamoli neki octa-core sa hyperthreadingom. Uostalom, neke preterane koristi od Hyperthreading nema na Pentium D EE procesorima.

Od dual core je velika korist, ako ne koristi jedna aplikacija vise niti tada u multi-programskom okruzenju on postaje ekstra.. a u buducnosti sve biti vise nitno zahvaljujuci dobrim kompajlerima i bibliotekama tipa openmp i sl..

andjelkoyu · 31.03.2007

drfedja je napisao(la):
Pa zavisi kakav algoritam koristi SuperPi

Super Pi koristi Borwenov kvartni algoritam, ima intenzivne upotrebe kvadratnog korena.

audiofreak · 31.03.2007

drfedja je napisao(la):
Niko ne potcenjuje, ali mislim da Penryn u startu sigurno nece raditi na 4Ghz.

Nisam mislio "fabricki". Mislio sam ako sada C2D na 2.4GHz ide na 3+ bez problema na vazduhu, zasto Penryn na 3.2GHz ne bi isao na 4GHz?

drfedja je napisao(la):
Photoshop intenzivno radi sa SSE engine-om, za to da je bandwith bound, tek sad cujem.

Ako tako kaze Scott Byer, ja mu verujem.

drfedja je napisao(la):
Pa zavisi kakav algoritam koristi SuperPi :d Ako koristis Leibniz-ovu formulu nece ti trebati square root!

E moj Fedja, da si nekad pogledao help od SuperPI-ja, video bi da koristi jedan od najsporijih po danasnjim standardima -- Gauss-Legendre algoritam:

Kao sto vidis, ima korenovanja i deljenja koliko hoces :d

okmijun · 01.04.2007

Ako moze jedan rezime za laike, na ISTOM kloku conroe<>penryn koliko je penryn brzi? 20%? ili je tih 20% u stvari obicno dizanje MHz? pa je onda 3Ghz>2.4Ghz za 20%?

djalex · 01.04.2007

Lepo je da spekulišmo ali ljudi dajte da sačekamo i da dođu pravi realni testovi na netu i Bechu.Da će biti brži biće a za koliko i u kojim aplikacijama , videćemo.Ja očekujem niže startne cene za modele u donjoj klasi reda 100$ do 200$ a da budu generalno brži 20% od parnjaka C2D.

delimir · 01.04.2007

ideupark je napisao(la):
Dobro si mislio svi cemo citati na Benchu vec u Q4 2007 zagarantovano!

OK. Imam crno na belo + svedoke

NE bih bas Penryn karakterisao kao "Core 2" sa vishe kesha. Magick je dao dobar pregled noviteta koji stizu sa evolucijom Core 2 arhitekture. Mislim da ce povecanje IPC-a najvise biti posledica S3, vece asocijativnosti kesha (to su morali da urade posto su ga povecali do bola), veceg FSB-a (iskreno jedva cekam da integrisu i mem.kontroler i napuste arhaicni FSB kod Nahlema). Super je sto se ponovo vracaju u igru i polovicni mnozioci, ako je to tacno!

Ne verujem da ce radni takt biti preterano visi, jer je Intel odavno najavio da se vise nece fokusirati na povecanje radnog takta, vec na povecanje IPC broja. Ne treba polemisati koliko je to ispravniji pristup. Takodje, ne vidim razlog zasto bi se neko pribojavao da ce ovog puta sitniji proces da znaci vecu potrosnju. Prescott je, usled veceg pajplajna i neproporcionalnog povecanja broja tranzistora usled toga, i pored 90nm proizvodnog procesa disipirao vishe toplote. Sada situacija nije takva. Povecanje broja tranzistora posledica je prevashodno povecanja L2 kesh memorije, a to nece uticati na povecanje potrosnje. Ostale prednosti koje donosi nova arhitektura se svakako mogu smatrati pre evolutivnim pomakom, ali i dalje je rec o vecim promenama nego sto je to bio slucaj u vreme smene Northwood jezgra, Prescott-om ili S939 platforme na AM2 (kao i S754 na S939 pre toga). Odlicno je da su se i jedni i drugi trgnuli i poceli da rade nesto. Procesori su jeftiniji, arhitekture se menjaju brze nego ikada ranije, a performanse se povecavaju...

Kakve ce performanse doneti Barselona pouzdano ne znam, ali sam cuo nekoliko najava od strane proizvodjaca i njihovih partnera koje se uglavnom poklapaju međusobno. Misljenja sam da ce Penryn omoguciti da Intel u desktop segmentu odrzi prednost koju ima sada, a koja i jeste i nije velika, ali postoji. Isto tako mislim da ce AMD prvih 6 meseci, ako ne i duze, K10 da nudi iskljucivo u Opteron segmentu i da krajnji korisnici nece imati mnogo koristi od nove AMD-ove arhitekture, vec ce im se i dalje nuditi "dobar stari" K8.

Ipak, situacija u proteklih par meseci je pokazala da tehnoloska prednost predstavlja samo deo cele price, a da se kljucna borba odvija upravo u fabrikama i kljucno je ko moze jeftinije da proizvede i u vecim kolicinama. Intel je dobro namucio AMD u proteklom periodu svojom cenovnom politikom, ali daleko od toga da AMD nije adekvatno odgovorio - jednostavno uvazeni su zakoni trzista.

Sta sam hteo da kazem... Ne razume kako bilo ko ko je objektivan moze da kaze da je Penryn ******. Do sada smo imali najobicniji die shrink prilikom prelaska na novi proizvodni proces (AMD to radi vec godinama, sa 130nm na 90nm i sada na 65nm). Jasno je zasto AMD to radi - da bi smanjio troskove proizvodnje, ali tako dodjete u situaciju da vec x godina iz AMD-a serviraju jedan te isti procesor u x varijanti. Svakako da je pohvalno kada se pored novog proizvodnog procesa implementiraju i arhitekturalne promene koje dovode do porasta performansi, kada vec ni AMD ni Intel vise nisu u stanju da drasticno povecavaju radni takt.

delimir · 01.04.2007

drfedja je napisao(la):
Photoshop intenzivno radi sa SSE engine-om, za to da je bandwith bound, tek sad cujem.
.

A mislis da Photoshop kada radi sa JPEG-om od 200 kb i interno radi samo sa tih 200 kb podataka? Ili mozda kada ucita RAW od par stotina megabajta to ide mimo memorije? Photoshop je jedna od najzahtevnijih aplikacija kada je memorijski i ide podsistem u pitanju, uostalom nisu dzabe u Adobe-u napisali engine koji barata sa virtualnom memorijom mimo sistemske, ako vec memorijski podsistem nije bitan za Photoshop. Putem SSE instrukcija ubrzava se intervencija na slikama, ali svaka takva slika (koja moze biti gigantskih razmera) se posle modifikacije mora negde snimiti. Povecanje propusnog opsega memorije utice na Photoshop osetno, kao sto utice i na konverziju video materijala.

delimir · 01.04.2007

okmijun je napisao(la):
Ako moze jedan rezime za laike, na ISTOM kloku conroe<>penryn koliko je penryn brzi? 20%? ili je tih 20% u stvari obicno dizanje MHz? pa je onda 3Ghz>2.4Ghz za 20%?

Otkud znamo bre

Penryn bi trebalo da radi na istim i kasnije vishim radnim taktovima nego Conroe, ali da ima veci IPC broj. Koliko je to % je malo teze pitanje.

DARK SIDE · 01.04.2007

Obichnog kupca nece zanimati Super pI,sintetichki testovi i teorisanja.Zanimace ga koliko ce taj Penryn dati ubrazanja u radu u realnim aplikacijama koje se koriste u danasnje vreme.ako ce doneti 5%(a verujem da hoce) onda ce ljudi teshko odustati od c2d.Npr.e6600 koji imam cu prodavati a mozda kupovati i novu plochu za Penryn da bi dobio 5% ubrazanja.Onda mi ne pada na pamet.E sad,ovu su pretpostavke....pitacu ljude kad ga budu kupili dali imaju neshto epohalno.

drfedja · 01.04.2007

audiofreak je napisao(la):
Nisam mislio "fabricki". Mislio sam ako sada C2D na 2.4GHz ide na 3+ bez problema na vazduhu, zasto Penryn na 3.2GHz ne bi isao na 4GHz?

To je druga prica. Mislim da ce ici o.c. bez vecih problema na 4 Ghz.

audiofreak je napisao(la):
E moj Fedja, da si nekad pogledao help od SuperPI-ja, video bi da koristi jedan od najsporijih po danasnjim standardima -- Gauss-Legendre algoritam:

Kao sto vidis, ima korenovanja i deljenja koliko hoces :d

Hehe, dobro, pobedio si!

Ne bi ti bio Afreak, da ne odgovoris. By the way, SPi lepo koristi legacy x87, pa tako ne verujem da ce biti nekog narocitog ubrzanja.
Inace, ako nekom treba procesor za SPi, i ni zasta drugo, onda je C2D i jaci, definitivno najbolji izbor. :d
Ipak, s' druge strane, ako nekom treba racunanje broja Pi, sigurno nece koristiti ovako glup algoritam.

drfedja · 01.04.2007

andjelkoyu je napisao(la):
Super Pi koristi Borwenov kvartni algoritam, ima intenzivne upotrebe kvadratnog korena.

Hvala za info, za to koji algoritam koristi SPi, ali nisam dao akcenat na koriscenju SPi kao aplikacije za izracunavanje Pi broja, vec na generalno upotrebi procesora u cilju izracunavanja doticne konstante.
Pored toga SPi rad sa x87, osim SSE2 optimizovane verzije, koja to radi opet skoro istom brzinom. Povrh toga, brzina izracunavanja kvadratnog korena i uopste pi broja ne mora da predstavlja limitaciju, koliko bi mogle da predstavljaju load/store operacije, u kojima C2D pokazuje pravu snagu. Sumnjam da ce Penryn i u ovakvoj trivijalnoj primeni biti mnogo brzi.

By the way, jel spi koristi Borgweinov algoritam ili Gauss-Legendre-ov ? :d

Tamo u helpu nije explicitno napisano po kom je algoritmu pisan spi.

andjelkoyu · 02.04.2007

Windows verzija ipak koristi GL, na wikipediji greše as usual. Help fajl - prva stavka - istorijat - samo navodi benchmark rezultate oba algoritma (dakle dva programa pisana za Hitachi) uz razliku od 10 poslednjih decimala na 4.2 milionitoj poziciji gde se vidi prednost 4th order Borwenove verzije naspram 2nd order GL; dalje se u stavci 3 kod portovane Win verzije eksplicitno pominje GL gde se kaže da je za 1M potrebno 19 kompletnih iteracija (log2

), a toliko program i koristi jer bi za Borwenov trebalo dvostruko manje (log4

). Borwenov algoritam je korišćen čisto za proveru, pretpostavljam da je ubačen u Help fajl čisto zbog reference.

drfedja · 03.04.2007

Thnx na iscrpnom odgovoru, bas sam skoro citao o kompleksnosti algoritama i asimptotskoj analizi.

audiofreak · 04.04.2007

delimir je napisao(la):
Prescott je, usled veceg pajplajna i neproporcionalnog povecanja broja tranzistora usled toga, i pored 90nm proizvodnog procesa disipirao vishe toplote.

To nije tacno. Pronadji sliku Prescott jezgra i videces da priblizno dve trecine zauzima L2 cache kao u ostalom i kod svih drugih procesora pre i posle njega. Pipeline je tu zanemarljiv faktor kada 65% tranzistora ima leakage usled nesavrsenog procesa i cinjenice da su non-stop ukljuceni.

delimir je napisao(la):
Sada situacija nije takva. Povecanje broja tranzistora posledica je prevashodno povecanja L2 kesh memorije, a to nece uticati na povecanje potrosnje.

Tacno je da sada to vise ne utice od kad se koriste razni "trikovi" da L2 ne "vuce" stalno struju.

drfedja je napisao(la):
Hehe, dobro, pobedio si! Ne bi ti bio Afreak, da ne odgovoris.

Ja se ne takmicim, samo se trudim da budem objektivan i da iznesem tacne cinjenice. Uzgred, zbog nacina funkcionisanja wikipedia nije 100% tacan izvor informacija pa sve sto tamo pise treba uzimati sa rezervom.

drfedja je napisao(la):
By the way, SPi lepo koristi legacy x87, pa tako ne verujem da ce biti nekog narocitog ubrzanja.

(Jedan) Procesor ima samo jedan divider koji se koristi i za korenovanje prema tome sve instrukcije koriste isti unit ukljucujuci i x87.

drfedja · 04.04.2007

audiofreak je napisao(la):
(Jedan) Procesor ima samo jedan divider koji se koristi i za korenovanje prema tome sve instrukcije koriste isti unit ukljucujuci i x87.

Mislim da taj Radix 16 divider nema bas mnogo veze sa sadasnjom IEEE754 specifikacijom, uvodjenje radiksa 10 je planirano za IEEE754R specifikaciju. Arhitekture poput Power6 i Cell-a imaju implementaciju fast SRT Radix16.
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?tp=&arnumber=757380
Brzi square root jeste rezultat veceg troughput-a ali pitanje je koliko je veci na sadasnjoj hw implementaciji.
x87 tesko da ce da se uklapa u takvu specifikaciju, ali nisam rekao da izvrsna jedinica koje radi FMISC na x87 to isto ne rade i sa SSE.
Drugim recima, ako si mislio da ce x87 raditi sa radixom 16, mislim da se varas.

delimir je napisao(la):
A mislis da Photoshop kada radi sa JPEG-om od 200 kb i interno radi samo sa tih 200 kb podataka? Ili mozda kada ucita RAW od par stotina megabajta to ide mimo memorije? Photoshop je jedna od najzahtevnijih aplikacija kada je memorijski i ide podsistem u pitanju, uostalom nisu dzabe u Adobe-u napisali engine koji barata sa virtualnom memorijom mimo sistemske, ako vec memorijski podsistem nije bitan za Photoshop. Putem SSE instrukcija ubrzava se intervencija na slikama, ali svaka takva slika (koja moze biti gigantskih razmera) se posle modifikacije mora negde snimiti. Povecanje propusnog opsega memorije utice na Photoshop osetno, kao sto utice i na konverziju video materijala.

Ok, ti to istestiraj u praxi, na istoj masini sa sporom i brzom memorijom, pa nam javi. :d
Photoshop dinamicki realocira memoriju za sliku koju obradjujes i to poprilicne segmente, sto ne znaci da te operacije nisu skupe. Ipak, zavisnost od rada sa memorijom najvise zavisi od filtera koji koristis i od algoritma kojim je napisan, pa tako ne mozes da kazes da je Photoshop bandwith bound, kada se on sastoji od gomile filtera i evetualno instaliranih plug-inova. Neki od njih vecinu vremena trose na racunske operacije, a manji deo na load/store.
Pored toga, stoji da je Pshop mnogo vise bandwidth bound, nego latency, iz prostog razloga sto radi sa predvidljivim, matricnim podacima. S' druge strane, pitanje je da li danasnji procesori uspevaju da "sazvacu" 6-8 GB podataka u sekundi koliko je propusna moc memorije.
Rad sa virtuelnom memorijom je posledica realokacije, sto ne znaci da sa celim sadrzajem radi "odjednom"

Dodao bih jos i to da rad sa virtuelnom memorijom najmanje zavisi od bandwidth-a ram-a, a najvise o hard diska. :d Prema tome, ako radis sa slikama do nekoliko stotina mb, klok procesor najvise utice na brzinu kalkulacija koje se vrse nad slikama.

genuine · 04.04.2007

sto se tice protoka, taj protok od 6-8GB/s je verovatno dobijen block prefetch tehnikom sto znaci cisti load/store ... cinjenica je da svi filteri (barem vecina) koriste matrice i da se filtriranje vrsi uglavnom konvolucijom filtera i slike to govori samo da je photoshop zavisan ne toliko od bandwidth-a i latency-a memorije nego kesa jer se sve desava nad blokovima koji su u kesu a dok se sa njima radi u nove linije se paralelno dovlace sledeci + vreme da se obavi racunica ( recimo konvolucija preko sse)... barem sam tako shvatio..

a rad sa virtuelnom memorijom je isplativ samo ako to sto se swap-uje nece skoro da se koristi... ako ti ucitas 5-10 slika i nemas dovoljno rama za sve pa on svapuje pri prelazu sa slike na sliku to je katastrofa, ali ako pokrenes i photoshop i recimo 3dmax pa prelazis sa jednog na drugi na par minuta onda je ok(ako ima dovoljno rama za svaki pojedinacno)...

delimir · 04.04.2007

drfedja je napisao(la):
Mislim da taj Radix 16 divider nema bas mnogo veze sa sadasnjom IEEE754 specifikacijom, uvodjenje radiksa 10 je planirano za IEEE754R specifikaciju. Arhitekture poput Power6 i Cell-a imaju implementaciju fast SRT Radix16.
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?tp=&arnumber=757380
Brzi square root jeste rezultat veceg troughput-a ali pitanje je koliko je veci na sadasnjoj hw implementaciji.
x87 tesko da ce da se uklapa u takvu specifikaciju, ali nisam rekao da izvrsna jedinica koje radi FMISC na x87 to isto ne rade i sa SSE.
Drugim recima, ako si mislio da ce x87 raditi sa radixom 16, mislim da se varas.
Ok, ti to istestiraj u praxi, na istoj masini sa sporom i brzom memorijom, pa nam javi. :d
Photoshop dinamicki realocira memoriju za sliku koju obradjujes i to poprilicne segmente, sto ne znaci da te operacije nisu skupe. Ipak, zavisnost od rada sa memorijom najvise zavisi od filtera koji koristis i od algoritma kojim je napisan, pa tako ne mozes da kazes da je Photoshop bandwith bound, kada se on sastoji od gomile filtera i evetualno instaliranih plug-inova. Neki od njih vecinu vremena trose na racunske operacije, a manji deo na load/store.
Pored toga, stoji da je Pshop mnogo vise bandwidth bound, nego latency, iz prostog razloga sto radi sa predvidljivim, matricnim podacima. S' druge strane, pitanje je da li danasnji procesori uspevaju da "sazvacu" 6-8 GB podataka u sekundi koliko je propusna moc memorije.
Rad sa virtuelnom memorijom je posledica realokacije, sto ne znaci da sa celim sadrzajem radi "odjednom"
Dodao bih jos i to da rad sa virtuelnom memorijom najmanje zavisi od bandwidth-a ram-a, a najvise o hard diska. :d Prema tome, ako radis sa slikama do nekoliko stotina mb, klok procesor najvise utice na brzinu kalkulacija koje se vrse nad slikama.

Zapravo jesam vise puta... Pre pola godine mi se pokvario memorijski modul na Mac-u. Kada u Photshop ucitam 100-tinak slika koje treba pustiti kroz filtere itekako se oseti koliko se ceo Photoshop oslanja na memoriju.

Uostalom imas detaljno objasnjeno sta i kako na linku koji je dao Audiofreak, pa procitaj - ne znam cemu pametovanje oko stvari koje su nesto kao axiom.

audiofreak · 05.04.2007

drfedja je napisao(la):
Drugim recima, ako si mislio da ce x87 raditi sa radixom 16, mislim da se varas.

Hajde sad lepo se vrati na post #40 pa pogledaj drugu sliku (onu na kojoj pise Fast Radix-16 Divider). Tacnije, procitaj sta pise ispod grafikona. Znaci, ne samo da ce FPU raditi sa Radix-16 nego ce i integer divider raditi sa njim (jer je koliko znam uvek i radio preko FP_DIV). Ako jos uvek sumnjas, SP/DP/EP skracenice ispod grafikona znace Single Precision, Double Precision i Extended Precision. Kao sto znas SSE ne podrzava nista osim SP i DP, dakle radi se o x87. Posto je i SSE implementiran preko FP_DIV unita, to znaci da ce sve operacije deljenja i korenovanja gde god se izvrsavale biti 2x brze.

drfedja je napisao(la):
Prema tome, ako radis sa slikama do nekoliko stotina mb, klok procesor najvise utice na brzinu kalkulacija koje se vrse nad slikama.

Photoshop je izuzetno dobro optimizovana aplikacija. Upotrebom proste logike na osnovu toga se moze zakljuciti da ljudi koji ga pisu znaju terminologiju, znaju sta i kako rade, kao i koje su glavne prepreke da Photoshop bude jos bolji i brzi. Prema tome, ako jedan od autora Photoshopa tvrdi u svom blogu da je Photoshop bandwidth bound, pre sam sklon da verujem njemu nego bilo kome drugom.

Na kraju moze se zakljuciti da jos uvek nisi naucio da citas pazljivo, posto su ti promakli i detalji o Radix-16 u postu #40 i Scott Byer sa detaljima o optimizaciji Photoshopa u postu #45. Vrati se u diskusiju kad naucis da citas.

INTEL 45-nanometarska evolucija

Banned

Slavan

Čuven

Slavan

Slavan

Super ridža

Banned

Čuven

Čuven

Banned

Slavan

Čuven

Slavan

Čuven

Banned

Čuven

Slavan

delimir

Guest

delimir

Guest

delimir

Guest

Banned

Čuven

Čuven

Čuven

Čuven

Banned

Čuven

Slavan

delimir

Guest

Banned