Mislim da taj Radix 16 divider nema bas mnogo veze sa sadasnjom IEEE754 specifikacijom, uvodjenje radiksa 10 je planirano za IEEE754R specifikaciju. Arhitekture poput Power6 i Cell-a imaju implementaciju fast SRT Radix16.
http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?tp=&arnumber=757380
Brzi square root jeste rezultat veceg troughput-a ali pitanje je koliko je veci na sadasnjoj hw implementaciji.
x87 tesko da ce da se uklapa u takvu specifikaciju, ali nisam rekao da izvrsna jedinica koje radi FMISC na x87 to isto ne rade i sa SSE.
Drugim recima, ako si mislio da ce x87 raditi sa radixom 16, mislim da se varas.
Ok, ti to istestiraj u praxi, na istoj masini sa sporom i brzom memorijom, pa nam javi. :d
Photoshop dinamicki realocira memoriju za sliku koju obradjujes i to poprilicne segmente, sto ne znaci da te operacije nisu skupe. Ipak, zavisnost od rada sa memorijom najvise zavisi od filtera koji koristis i od algoritma kojim je napisan, pa tako ne mozes da kazes da je Photoshop bandwith bound, kada se on sastoji od gomile filtera i evetualno instaliranih plug-inova. Neki od njih vecinu vremena trose na racunske operacije, a manji deo na load/store.
Pored toga, stoji da je Pshop mnogo vise bandwidth bound, nego latency, iz prostog razloga sto radi sa predvidljivim, matricnim podacima. S' druge strane, pitanje je da li danasnji procesori uspevaju da "sazvacu" 6-8 GB podataka u sekundi koliko je propusna moc memorije.
Rad sa virtuelnom memorijom je posledica realokacije, sto ne znaci da sa celim sadrzajem radi "odjednom"

Dodao bih jos i to da rad sa virtuelnom memorijom najmanje zavisi od bandwidth-a ram-a, a najvise o hard diska. :d Prema tome, ako radis sa slikama do nekoliko stotina mb, klok procesor najvise utice na brzinu kalkulacija koje se vrse nad slikama.