Šta je novo?

AMD Demos 45nm Native Quad-Core Processors for Server, Desktop!

ivanbo2003

Slavan
Učlanjen(a)
18.07.2005
Poruke
2,295
Poena
380
AMD.com je napisao(la):
AMD Demos Quad-Core 45nm Processors

AMD announced initial 45nm “Shanghai” and “Deneb” Quad-Core processors are running server and client operating systems, respectively, in development systems at AMD. The milestone was noted as momentum builds toward delivery of first AMD 45nm products to customers later this year.

AMD's 45nm process generation is engineered to enable greater performance -per-watt capabilities in AMD processors and platforms. At the heart of the process are a combination of leading edge technologies, such as immersion lithography and AMD’s 4th generation of strained-silicon.

The first AMD 45nm Quad-Core processors were manufactured in Fab 36 on 300mm wafers in Dresden, Germany.

Media can direct inquiries to: Gary Silcott, AMD Corporate Communications, [email protected] or (512) 602-1480.

Yahoo bizz news je napisao(la):
HANNOVER, Germany--(BUSINESS WIRE)--AMD (NYSE: AMD) demonstrated at the CeBIT electronics exhibition its first 45nm quad-core chips running multiple operating systems and a range of processing intensive applications. The processors were produced in Dresden, Germany, in AMD’s Fab 36 300mm manufacturing facility, using an advanced 45nm process co-developed with IBM.

AMD 45nm transistors are engineered to enable greater performance-per-watt capabilities in AMD processors and platforms. AMD combines new processes and materials with leading edge technologies, such as immersion lithography and AMD’s fourth-generation strained silicon, for a highly-manufacturable, highly-efficient production process.

This important milestone is the first of many as AMD moves toward delivery of 45nm products later this year. The first 45nm chips demonstrated by AMD include the “Shanghai” product for server and “Deneb” for desktop platforms.

For additional information on AMD’s 45nm process technology, please visit http://www.amd.com/45nm/presskit.

44697A_Dies_1_large_lowRes.jpg

http://www.amd.com/us-en/0,,3715_15503,00.html?redir=45nm01
http://ca.news.finance.yahoo.com/s/...-45nm-native-quad-core-processors-server.html

Slicice:
Single 45nm Quad Core Die:
44695A_Die_single_047207_120x90.jpg

Low res
High res

Multiple 45nm Quad Core Die:
44697A_Dies_1_large_120x90.jpg

Low res
High res


45nm Quad Core Wafer:
44701A_Wafer_2_120x90.jpg

Low res
High res

Press presentation
Q&A on 45nm -PDF
EUV Lithography Press Release

Iz PDF-a najzanimljivije:
Q1: When will AMD introduce 45nm processors?
A1: AMD is on track to meet key production milestones, which support OEM and channel
product delivery plans. AMD is ramping production of its first 45nm products in the first
half of 2008 and expects 45nm products to be available in the second half of 2008.
Q3: What process improvements will AMD introduce at the 45nm node?
A3: At 45nm, AMD plans on introducing new leading-edge submicron technologies along with
significant improvements to existing ones. These enhancements are aimed primarily at
improving AMD’s transistor designs and interconnect circuitry to enable sustained linear
increases in processor and platform performance-per-watt, while also overcoming
inherent challenges introduced from continued reduction of transistor size.
Key innovations within AMD’s 45nm process are scheduled to include the following:
• Immersion Lithography. Through the IBM partnership, AMD has developed a
stable, highly-productive, immersion lithography process which achieves a 40 percent
gain in resolution over conventional lithography while maintaining yields consistent
with conventional lithography. Immersion tools are online and running wafers using
AMD’s 45nm technology. AMD’s analysis shows that immersion lithography is a more
efficient, cost-effective approach than the double-mask, double-etch lithography
method used by our competition.
• Fourth-generation Strained Silicon. AMD’s first 45nm product features transistors
using AMD’s fourth generation of strained silicon technology, utilizing Silicon
Germanium, Dual-Stress Liner and advanced Strain Memorization techniques for
increased switching speed and power-efficiency.
• Ultra-low-k Dielectrics. In some later 45nm products, AMD plans on using ultralow-
k dielectrics to reduce wire delays by as much as 15 percent and enable greater
overall processor performance.
• High-k/metal Gates. As part of AMD’s Continuous Transistor Improvement (CTI)
approach, AMD has the option to introduce high-k/metal gates into 45nm production
to further enhance transistor performance. The “gate first” approach, developed with
IBM, is designed to provide a simpler, less time consuming way to migrate to high-k
metal gate technology and secure benefits that include improved performance and
reduced power consumption.
 
Poslednja izmena:
Nešto nisam upućen i ne pratim dešavanja - jel ovo "iz neba pa u rebra" ?
 
Nije,ovo je vec najavljivano duze vreme.Sumnjalo se na Cebit ili datum oko Cebit-a za prvi demo.Procesori su jos od 2006. najavljeni za Q3 2008. god.(mada se prvo pricalo da ce biti Jun mesec,sada se H2 ili Q3 da budemo precizniji,mada ako procesori vrte intenzivne testove po laboratorijama ostaje samo pitanje yield-a pri imersionoj litografiji:)d) )
 
Poslednja izmena:
. . . ..ovo su stvarno lepe vesti, moglo bi se reci da AMD polako dolazi u poziciju da na pravi nachin sprovede u delo svoje vidjenje chetvorojezgarnih procesora.. . vest dolazi kao ne preveliko iznenadjenje, s'obzirom na najave o ovladavanju 22nm litografije... iskreno se nadam da je ovo jedna lepa najava konkurentnog proizvoda iz tabora "Zelenih"..
. . .uz to, eto meni i lepog novog wallpapera :)
 
Po ovoj slici reklo bi se da AMD planira da patetično mali L3 cache od 2MB na aktuelnim K10 procesorima uveća na solidnih 6MB (cirka). To već zvuči bolje a moralo da se oseti i na perfomansama.
 
Po ovoj slici reklo bi se da AMD planira da patetično mali L3 cache od 2MB na aktuelnim K10 procesorima uveća na solidnih 6MB (cirka). To već zvuči bolje a moralo da se oseti i na perfomansama.

To je poznato jos od Juna prosle godine :).

"Shanghai"
Quad Core
-512K L2/per core
-6MB L3
-RD DDR2
-3x HyperTransport1
-AMD-V
-IPC Enhancements

Ovo gore je iz Server roadmap-a pa otud HT1.0 i RDDR2 stavke.Desktop verzije Deneb FX,Deneb i Propus imace DDR2/3 podrsku i HT3.0.
6MB L3 i IPC poboljsanja su odvojeno navedena pa moze se pretpostaviti da poslednja stavka sama po sebi znaci da su nesto jos menjali u jezgru(manje latencije kod nekih int instrukcija ili direct path instrukcije,fp store BW poboljsanje u odnosu na 65nm K10 itd.).Takodje moguc je i visi takt celog northbridge bloka.
 
Poslednja izmena:
To je poznato jos od Juna prosle godine :).

"Shanghai"
Quad Core
-512K L2/per core
-6MB L3
-RD DDR2
-3x HyperTransport1
-AMD-V
-IPC Enhancements

Ovo gore je iz Server roadmap-a pa otud HT1.0 i RDDR2 stavke.Desktop verzije Deneb FX,Deneb i Propus imace DDR2/3 podrsku i HT3.0.
6MB L3 i IPC poboljsanja su odvojeno navedena pa moze se pretpostaviti da poslednja stavka sama po sebi znaci da su nesto jos menjali u jezgru(manje latencije kod nekih int instrukcija ili direct path instrukcije,fp store BW poboljsanje u odnosu na 65nm K10 itd.).Takodje moguc je i visi takt celog northbridge bloka.

Testirajuci Phenom zakljucio sam da su uska grla niza frekvencija northbridge-a i verovatno brzina i komunikacija sa L3 keshom, kao i iz nepoznatih razloga nesto sporije izvrsavanje legacy x87 operacija. Paradoksalno, ali x87 nesto sporije radi na K10 nego na K8. To se lako moze primetiti u Cinebench testovima i jos gomili benchmark softvera koji nije najbolje prilagodjen SIMD setu instrukcija. Interesantno je i to da Core 2 iako na papiru nema nista jacu FPU jedinicu od K10, daleko se bolje snalazi u takvim situacijama.
ivanbo2003 je napisao(la):
IPC poboljsanja su odvojeno navedena pa moze se pretpostaviti da poslednja stavka sama po sebi znaci da su nesto jos menjali u jezgru(manje latencije kod nekih int instrukcija ili direct path instrukcije,fp store BW poboljsanje u odnosu na 65nm K10 itd.).Takodje moguc je i visi takt celog northbridge bloka.
Sto se tice int instrukcija, gledajuci u njihovu tabelu, nema tu mnogo mesta za poboljsanja, ali bi recimo za pocetak mogli da povecaju asocijativnost L1 kesa, sto bi sigurno ubrzalo stvari. Direct path instrukcije su vec "hardwired", samo mogu da neke "vectorpath" prebace u directpath. Sto se tice integer instrukcija, one su sve "directpath", a i vecina SSE2/3 su "directpath" i eventualno "directpath-double". FP store bw mislim da ne bi doneo narocito ubrzanje, odnos ulaza i izlaza je otprilike 1:2, tako da to i nije neko usko grlo. Mislim da AMD ima da poradi dosta na L1 keš arhitekturi da bi stigao ili prestigao Core 2. Vecom asocijativnoscu i vecim brojem tlb-ova bi se poboljsala efikasnost L1 keša i smanjio penal zbog malog L2.
Verovatno da i na samom jezgru može da se poradi, npr. faza dekodiranja i pakovanja u ROB-ove verovatno da može da se dodatno optimizuje u cilju većeg iskorišćenja izvršnih resursa.
Analizirajuci sliku samog jezgra, u poredjenju sa 45nm revizijom nema prakticno nikakvih posebnih razlika, koje su uocljive na prvi pogled. Dakle, 45nm K10.5 je vrlo verovatno bug-free, ispeglana verzija i ono sto je trebalo u startu da bude K10. Ono sto se primecuje je broj tagova u kesu stp govori da je L3 kes 48 way associative, a L1 i L2 su i dalje 2-way i 16-way.

Svakako, to da AMD ima gotov 45nm CPU u test fazi je jako dobra vest i ja se nadam da će uskoro da "osvanu" i neki rezultati.
 
Poslednja izmena:
Ne bi bilo "pošteno" da samo tako klonu. Od početka ATI akvizicije ih je pratila zla sreća, prvo sa ATIjevim R600 pa onda sa vlastitom Barcelonom/Phenomom. Sada već stvari izgledaju mnogo bolje na svim poljima: HD3000 serija grafike i najava nove arhitekture za Q2/Q3, mobilna PUMA platforma, ispeglani bugovi na K10 arhitekturi te 45nm u fazi testiranja. Kud će bolje?
 
Testirajuci Phenom zakljucio sam da su uska grla niza frekvencija northbridge-a i verovatno brzina i komunikacija sa L3 keshom, kao i iz nepoznatih razloga nesto sporije izvrsavanje legacy x87 operacija. Paradoksalno, ali x87 nesto sporije radi na K10 nego na K8. To se lako moze primetiti u Cinebench testovima i jos gomili benchmark softvera koji nije najbolje prilagodjen SIMD setu instrukcija. Interesantno je i to da Core 2 iako na papiru nema nista jacu FPU jedinicu od K10, daleko se bolje snalazi u takvim situacijama.
Johan DeGelas ima veoma dobru analizu FPU performansi K10 i konkurenskog mu Intel procesora:

http://it.anandtech.com/IT/showdoc.aspx?i=3162&p=6
definitivno postoje situacije (heavy optimizovani x87 kod) u kojima K10 moze biti i sporiji od K8... nazalost 98% reviewera se hvata za taj nesretni Cinebench i iz njega generalizuje sliku od rendering performansama K10-ke, sto definitivno ne odlsikava realnost.

Najbolji primer je 3DSMax 2008 i najnoviji V-Ray:

Q6600:
01iu6.jpg


Phenom 9700:
phenom2400mhz64bitqw2.jpg
 
Johan DeGelas ima veoma dobru analizu FPU performansi K10 i konkurenskog mu Intel procesora:

http://it.anandtech.com/IT/showdoc.aspx?i=3162&p=6
definitivno postoje situacije (heavy optimizovani x87 kod) u kojima K10 moze biti i sporiji od K8... nazalost 98% reviewera se hvata za taj nesretni Cinebench i iz njega generalizuje sliku od rendering performansama K10-ke, sto definitivno ne odlsikava realnost.
Znam ja to, zato i ne volim Cinebench jer ne testira prakticno nista pametno. X87 je sve, samo nije optimizovan! :d
Inace, CB je relevantan bench skoro koliko i SuperPI. Ista situacija je i sa jos nesrecnijim PovRAY-om. :d Opet, s' druge strane to govori da je K10 "zavrnut" za legacy egzekuciju, sto moze biti, a i ne mora da bude problem. Zavisi za sta ti treba CPU. Meni se licno dopada kako K10 radi iako se zli jezici mozda nece sloziti sa mnom.

Sto se tice analize FPU performansi, i sam DeGelas kaze da testiranje FLOPS.c benchmarkom govori da su x87 performanse AMD-ovih FPU jedinica otprilike iste ili bolje od Core 2. AMD se bolje snalazi sa FP deljenjem, sto je Intel donekle sredio sa Penryn-om i njegovim "fast radix16" ubrzanim deliocem. Pri SSE optimizaciji Core 2 je brzi kada sabira, oduzima i mnozi, ali je losiji opet pri deljenju. Medjutim, pitanje je koliko se zaista u kodu pojavljuje potreba za deljenjem, narocito intenzivnim.

Nedjo je napisao(la):
Najbolji primer je 3DSMax 2008 i najnoviji V-Ray
Nije samo 3DSmax. Sa onim tvojim 9900 i DFI plocom je Divx kompresija radila brutalno. ;)
To je takodje SSE optimizovano.
 
Poslednja izmena:
Verovatno Bulldozer-a i fuzije.
 
Pa kad ovi slikaju u pogresnim momentima :).Bilo je opterecenja,video sam negde slicicu u Movie Maker-u,oko85% je task manager pokazivao.
 
Dobre vesti iz AMD-a, jos samo ako mogu da isporuce kolicinu, i ako su performanse i cene na nivou Penryn-a eto nama opet zanimljivih diskusija ovde.

@drfedja:
Penryn ima nesto sto ne znam da li AMD moze -- moze da promesa 16 bajtova (PSHUFB) u jednom taktu prema redosledu koji mu zadas (zgodno za konverzije Little Endian<->Big Endian i jos kojesta). Zapravno gomila instrukcija traje 1 takt. Nemam tabelu latencija za K10.5, bilo bi zanimljivo uporediti to. Sto se tice FPU, nazalost sav 32-bitni kod (cak i onaj optimizovan za SSE/SSE2) ga implicitno koristi za prenos parametara izmedju funkcija.
 
@drfedja:
Penryn ima nesto sto ne znam da li AMD moze -- moze da promesa 16 bajtova (PSHUFB) u jednom taktu prema redosledu koji mu zadas (zgodno za konverzije Little Endian<->Big Endian i jos kojesta). Zapravno gomila instrukcija traje 1 takt. Nemam tabelu latencija za K10.5, bilo bi zanimljivo uporediti to. Sto se tice FPU, nazalost sav 32-bitni kod (cak i onaj optimizovan za SSE/SSE2) ga implicitno koristi za prenos parametara izmedju funkcija.

Latencija tesko da je 1 takt, moze biti troughput.
Zar se parametri funkcija ne prenose preko steka, oduvek ?
 
Ovo su sve divne vesti, AMD se vraca u igru.
Lepo je videti da nisu "pali" pored jake konkurencije, sve u svemu ovo leto moze biti zaista vruce.
Naravno ako AMD isposhtuje rokove.
 
Latencija tesko da je 1 takt, moze biti troughput.

Za PSHUFB je i jedno i drugo 1 -- pa jel 128-bit super shuffle engine ili nije? :D

Zar se parametri funkcija ne prenose preko steka, oduvek ?

Prenose se preko stack-a oduvek osim FP vrednosti koje se prenose preko FPU stack-a. Otkad je SIMD-a, to nije optimalno resenje za prenos FP vrednosti.

Na primer, funkcija float somefunc(float val) koja interno koristi SIMD registre da izracuna nesto poziva se tako sto caller uradi FLD a funkcija uradi FSTP [mem] pa MOVSS reg, [mem] da prebaci u SSE registar pa onda racuna sta treba, pa MOVSS [mem], reg pa onda FLD [mem] da bi vratila vrednost u st(0). Znaci ona i dalje implicitno koristi FPU cak iako je sam kod funkcije ceo uradjen u SSE. 64-bitni ABI i calling convention malo popravljaju to, ali je i dalje daleko od optimalnog.

Iako ovo deluje mozda kao off-topic, hteo sam da pojasnim zasto FPU jos uvek ima uticaja cak i na aplikacije koje koriste SIMD u 32-bitnom modu.
 
Nedjo, to si okacio moj render???A dozvola?? :D
Btw, to nije najnoviji vray, prevarantu nijedan :p
 
Poslednja izmena:
Ma zezam se :)
Vray 15017 je najnoviji (rendao si izgleda svoju sliku sa njim, doduse nisi upotrebio "aspirin" kako treba :D ) i obicno su razlike u brzini izmedju skorasnjih v-ray verzija tu oko 1-2 sekunde.
Inace po meni najmerodavniji test za real-life performanse procesora.
 
Na primer, funkcija float somefunc(float val) koja interno koristi SIMD registre da izracuna nesto poziva se tako sto caller uradi FLD a funkcija uradi FSTP [mem] pa MOVSS reg, [mem] da prebaci u SSE registar pa onda racuna sta treba, pa MOVSS [mem], reg pa onda FLD [mem] da bi vratila vrednost u st(0). Znaci ona i dalje implicitno koristi FPU cak iako je sam kod funkcije ceo uradjen u SSE. 64-bitni ABI i calling convention malo popravljaju to, ali je i dalje daleko od optimalnog.
Hoces da kazes da float funkcija stavlja sa steka u memoriju (na FP stek) varijablu, da bi zatim sa te memorijske lokacije ubacila varijablu u SIMD registar, vratila je nazad u memoriju (nazad na FP stek) odakle bi funkcija vratila vrednost na programski stek ?
 
Hoces da kazes da float funkcija stavlja sa steka u memoriju (na FP stek) varijablu, da bi zatim sa te memorijske lokacije ubacila varijablu u SIMD registar, vratila je nazad u memoriju (nazad na FP stek) odakle bi funkcija vratila vrednost na programski stek ?

/offtopic on

Znaci ovako:

1. Kod koji poziva funkciju (caller) ucita float ili double vrednost u FPU registar ST(0) i zatim poziva funkciju.

2. Pozvana funkcija (callee) radi sledece stvari:

- Pravi mesto na CPU stacku za implicitnu lokalnu varijablu i tu smesta ("prosipa" od engl. spill) vrednost iz ST(0).
- Odatle ucitava vrednost u SIMD registar (na primer XMM0).
- Racuna sta treba koristeci SIMD
- Smesta rezultat na CPU stack (u istu tu implicitnu lokalnu varijablu)
- Odatle ucitava vrednost u ST(0) i tok programa se nastavlja od mesta gde je funkcija pozvana

3. Kod koji poziva funkciju sada ima dve varijante:

- Ako koristi FPU samo ce nastaviti da racuna jer mu je vrednost vec u ST(0)
- Ako koristi SIMD onda ce prosuti ST(0) u memoriju pa ucitati vrednost u SIMD registar

Mislim da je skroz ocigledno koliko je ovo bezveze ali to je realnost u 32-bitnom kodu i ostace tako dok isti ne prestane da se koristi.

/offtopic off
 
Nazad
Vrh Dno