詳解HD6000改進(jìn)性能
出處:中關(guān)村在線 發(fā)布于:2011-06-25 14:13:51
HD 6000系列顯卡是AMD(ATI)歷史上首先采用數(shù)字式PWM供電設(shè)計(jì)的圖形產(chǎn)品,其控制器由CHiL公司提供,為CHL系列。AMD Radeon HD 6800系列顯卡的發(fā)布, 揭開了AMD新一代顯卡Radeon HD6000系列問世的序幕。在AMD的推動(dòng)下,GPU顯示技術(shù)又將躍升至一個(gè)更高的層次。
● HD6000架構(gòu)效率摸底
AMD推出的支持DirectX11的HD5000系列顯卡,RV800架構(gòu)下的HD5000系列產(chǎn)品給用戶帶來了以前從未有過的新API體驗(yàn),也給圖形業(yè)界留下了一些思考。
首先是從HD2000以來堅(jiān)持至今的VLIW組織形式SIMD結(jié)構(gòu)流處理器還能沿用多久,其次是Tessellation功能的實(shí)現(xiàn)是否僅需要一個(gè)特殊功能單元,當(dāng)然用戶對(duì)這種架構(gòu)的執(zhí)行效率和提升空間也有不同觀點(diǎn)。

AMD再次用較小的架構(gòu)改動(dòng)再次撬動(dòng)了GPU關(guān)鍵性能的提升,HD6000發(fā)布之后我們看到了一顆面積更小的芯片融聚了更高的浮點(diǎn)運(yùn)算能力,我們看到通過改善線程控制能力流處理器和特殊功能運(yùn)作效率進(jìn)一步提升,當(dāng)然這一切的背后,還有AMD利用TSMC改進(jìn)后的40nm CMP堿洗工藝提升整體頻率帶來的線性性能提升。
HD6000架構(gòu)和工藝有何改進(jìn),這種改進(jìn)下的效率真的能有提升嗎?今天的分析和測(cè)試將為我們的用戶提供一些線索和數(shù)據(jù),讓我們共同體會(huì)AMD在HD6000系列顯卡設(shè)計(jì)中的過人之處和性能短板。
● 用代價(jià)占領(lǐng)甜蜜點(diǎn)市場(chǎng)
為了更好的體現(xiàn)AMD收購(gòu)ATI后靈活多變的產(chǎn)品優(yōu)勢(shì)和圖形架構(gòu)簡(jiǎn)單易行的特性,AMD從HD2000開始不斷完善款統(tǒng)一渲染架構(gòu)GPU——Xenos處理器,這款GPU的特色是采用了統(tǒng)一著色器單元架構(gòu),頂點(diǎn)、像素著色器程序都在同樣的單元上執(zhí)行,由線程調(diào)度器作動(dòng)態(tài)的資源分配,還引入了頂點(diǎn)紋理拾?。╒TF單元)等ATI同期R5XX產(chǎn)品所不具備的特性。
AMD在R600時(shí)期首先放大規(guī)模,然后讓這款GPU支持了當(dāng)時(shí)主流的DirectX 10,在RV670時(shí)期主要攻占對(duì)手忽略的甜蜜點(diǎn)(100到200美元)價(jià)位段;在RV770時(shí)代則依靠工藝?yán)⒘魈幚砥鞣糯蟮?00個(gè);到了RV870時(shí)代在運(yùn)算單元外圍加入DirectX 11所需的特殊功能支持,并全面兼容Open CL作為通用計(jì)算平臺(tái)。

HD6800系列是甜蜜點(diǎn)戰(zhàn)略

HD6800系列所使用的Barts定位
本次發(fā)布的HD6800系列顯卡作為第二代DirectX 11架構(gòu)設(shè)計(jì),并沒有像我們之前所預(yù)期的對(duì)RV870架構(gòu)進(jìn)行傷筋動(dòng)骨的改進(jìn),而是通過提高固定單元頻率和改進(jìn)線程分配能力達(dá)到了更高的流處理器資源利用率。重要的是HD6800并非端單卡,它不代表HD6000系列的性能,但是它在1200-1800元人民幣之間的市場(chǎng)定位使之成為甜蜜點(diǎn)戰(zhàn)略的。

用于Radeon HD 6870的Barts

面積255mm2
Barts面積公布為255mm2,我們使用電子游標(biāo)卡尺粗略測(cè)的為18.25mm*14.83mm,約等于255mm2。通過實(shí)物圖不難發(fā)現(xiàn),Barts并非正方形設(shè)計(jì),而是長(zhǎng)方形設(shè)計(jì),這讓筆者想起了其直接競(jìng)爭(zhēng)對(duì)手GF104。
Barts的設(shè)計(jì)目標(biāo)主要有以下幾點(diǎn):
1、在較低功耗和價(jià)格上對(duì)AMD Radeon HD 5800系列進(jìn)行性能優(yōu)化
2、提供當(dāng)前性能/性能/平方毫米
3、功耗低于150瓦顯卡市場(chǎng)當(dāng)中性能產(chǎn)品
為達(dá)成以上目標(biāo),AMD在設(shè)計(jì)Barts時(shí)選擇了以下幾種方式:
1、設(shè)計(jì)一顆集成度不高于19億的,和對(duì)手的GF104相仿
2、改進(jìn)HD5000的線程分配能力和固定單元幾何處理能力
3、必須嚴(yán)格控制功耗,依靠半導(dǎo)體工藝來提升性耗比
曾經(jīng)有人用“滿腦子充滿肌肉”來形容R600-R800以來的架構(gòu)設(shè)計(jì),這句話的含義是芯片擁有強(qiáng)大的浮點(diǎn)吞吐能力而缺乏線程仲裁與管理能力。而反觀對(duì)手NVIDIA雖然動(dòng)用耗費(fèi)了大量晶體管的GTX480才打贏了HD5870,但是為什么NVIDIA要花費(fèi)如此龐大的晶體管固執(zhí)地堅(jiān)持TLP(線程并行度)設(shè)計(jì)思路?為什么NVIDIA要不斷添加周邊資源以提升線程仲裁能力甚至不惜放棄純浮點(diǎn)吞吐?
缺乏線程仲裁與管理能力,這正是AMD所面臨的架構(gòu)設(shè)計(jì)困局,而這種困局在DirectX11時(shí)代由于新技術(shù)的加入被明顯放大。所以AMD開始在HD6000時(shí)代尋求一些變化和突破,盡管它們看起來很不起眼,但是卻成為未來AMD優(yōu)化圖形芯片架構(gòu)的重要方向。

AMD圖像處理器構(gòu)成簡(jiǎn)圖
從R600到R800時(shí)代,每個(gè)流處理單元都包含5路超標(biāo)量體系結(jié)構(gòu)著色處理器,單時(shí)鐘周期可以多處理5個(gè)標(biāo)量乘加指令,其中一路著色處理器負(fù)責(zé)處理超越指令(比如Sin、Cos、Log、Exp等等)。圖中5個(gè)黃色的長(zhǎng)方形就是5路著色處理器,其中較大的一個(gè)就是可以處理超越指令的著色處理器。流處理單元可以達(dá)成32-bit浮點(diǎn),支持整數(shù)和逐位操作,圖中紫色的長(zhǎng)方形“分支執(zhí)行單元”則負(fù)責(zé)進(jìn)行流控制和條件運(yùn)算。
而控制這些流處理器的,則是AMD在R520時(shí)代ATI開始引入U(xiǎn)ltra Threaded Dispatch Processor單元,UTDP為不同的shader類型提供了專門的命令隊(duì)列窗口,這些窗口內(nèi)塞滿了等待執(zhí)行的線程,每個(gè)線程都是若干條對(duì)輸入數(shù)據(jù)處理的指令。UTDP屬于GPU前端邏輯。Ultra-Threaded Dispatch Processor,也被譯為超級(jí)線程分配器,如字面意思,負(fù)責(zé)GPU全局線程分配,既然是“全局”,就應(yīng)該一個(gè)GPU只有一個(gè),但HD6000系列有兩個(gè),每個(gè)都只負(fù)責(zé)各自7組SIMD Core的線程分配。

RV870與HD6000前端設(shè)計(jì)
本次Barts在架構(gòu)上的變化主要有三點(diǎn):
1、Tessellator數(shù)量仍為1組,但是為增強(qiáng)型的Tessllator Gen7。
2、線程控制器由Cypress的一組變?yōu)锽arts現(xiàn)在的兩組。
3、UVD引擎升級(jí)至第三代,提供了更多功能及格式的圖形計(jì)算模式。
● 40nm堿洗工藝換取固定單元頻率
本次HD6800系列Barts的另一個(gè)重要特點(diǎn)就是額定運(yùn)行頻率較高,其900MHz頻率在以前的GPU中從未出現(xiàn)過。AMD之所以能夠在這顆中采取高頻策略的重要原因,主要原因是使用了TSMC提供的40nm CMP堿洗工藝。。

CMP是Chemical Mechanical Polishing (化學(xué)機(jī)械研磨)的英文縮寫,是IBM在上世紀(jì)八十年代發(fā)明的一項(xiàng)技術(shù)。當(dāng)今電子元器件的集成度越來越高,要使這些晶體管能夠正常工作,就需要對(duì)每一個(gè)晶體管加一定的電壓或電流,這就需要引線來將如此多的晶體管連接起來,但是將這幺多的晶體管連接起來,平面布線是不可能的,只能夠立體布線或者多層布線。在制造這些連線的過程中,層與層之間會(huì)變得不平以至不能多層迭加。用CMP來實(shí)現(xiàn)平坦化,使多層布線成為了可能。

不同酸堿度PH值溶劑清洗半導(dǎo)
上圖就是不同酸堿度PH值溶劑清洗半導(dǎo)體時(shí)產(chǎn)生的效果,淺色區(qū)域就是銅導(dǎo)線,上面的斑痕就是殘留的二氧化硅。DW代表原始未清洗,表面直接附著了一層二氧化硅。不完全洗掉電磁環(huán)境就很亂,洗不好就導(dǎo)致半導(dǎo)體芯片不能運(yùn)行在高頻。但是如果洗的太徹底,二氧化硅基體被洗穿就會(huì)造成直接短路。

過度殘留與過度腐蝕
第二張圖片是TSMC提供的某個(gè)實(shí)驗(yàn)電路,左圖表示CMP酸洗工藝,中我們可以看到放大的導(dǎo)線表面殘留二氧化硅的SEM,而右圖中的堿洗工藝下很明顯二氧化硅基底被過度腐蝕,導(dǎo)線發(fā)生短路。
目前TSMC現(xiàn)在正在調(diào)整PH值,試圖通過控制酸堿度,爭(zhēng)取犧牲一部分二氧化硅殘留率來?yè)Q取良率,只要降低PH值基體就會(huì)趨近穩(wěn)定。但是這樣做的代價(jià)就是表面二氧化硅殘留率,不的來折算,代價(jià)就是極限頻率,所以提高良率,會(huì)導(dǎo)致芯片極限頻率會(huì)降低。而過分重視高頻,則芯片會(huì)出現(xiàn)大面積良率降低。

HD6870相對(duì)與HD5850的性能提升
如果不考慮運(yùn)行頻率,HD5850和HD6870的區(qū)別只在于SIMD Core組數(shù),也就是流處理器數(shù)量,兩款芯片的固定單元數(shù)量是基本相等的(HD6800紋理單元有減少,UTDP單元翻倍)。但是當(dāng)HD6870披上高頻外衣之后,其線程分配能力、幾何吞吐能力、光柵化與Z軸處理能力都獲得了線性提升。
所以AMD本次首先精簡(jiǎn)流處理器數(shù)量,盡力縮小芯片集成度和面積,在此基礎(chǔ)上加之TSMC 40nm CMP堿洗工藝做支撐,將HD6800系列運(yùn)行頻率提升到前所未有的高度,使線程分配能力和幾何處理能力依靠高頻的固定單元獲得重要提升,進(jìn)一步減弱了RV870架構(gòu)的設(shè)計(jì)短板。
● 測(cè)試系統(tǒng)硬件環(huán)境
| 測(cè) 試 平 臺(tái) 硬 件 | |
| 中央處理器 | Intel Core i7-870 OC3.5GHz |
| 散熱器 | Thermalright Ultra-120 eXtreme |
| 內(nèi)存模組 | Apacer 獵豹二代雙通道套裝/PC3-12800 |
| (SPD:1757 9-9-9-24-1T) | |
| 主板 | ASUS P7P55D |
| (Intel P55 + ICH10R Chipset) | |
| 顯示卡 | |
| AMD 產(chǎn) 品 | |
| Radeon HD 6870 | |
| (Barts / 1024MB / :900MHz / Shader:900Mhz / 顯存:4200 Mhz) | |
| Radeon HD 5850 | |
| (Cypress / 1024MB / :725MHz / Shader:725Mhz / 顯存:4000 Mhz) | |
| NVIDIA 產(chǎn) 品 | |
| GeForce GTX 460 1024MB | |
| (GF104 / 768MB / :675MHz / Shader:1350Mhz / 顯存:3600 Mhz) | |
| 硬盤 | Hitachi 1T |
| (1TB / 7200RPM / 16M | |
| 電源供應(yīng)器 | AcBel R8 ATX-700CA-AB8FB |
| (ATX12V 2.0 / 700W) | |
| 顯示器 | DELL UltraSharp U2410 |
| (24英寸LCD / 1920*1200分辨率) | |




● 測(cè)試系統(tǒng)的軟件環(huán)境
| 操 作 系 統(tǒng) 及 驅(qū) 動(dòng) | |
| 操作系統(tǒng) | |
| Microsoft Windows 7 Ultimate RTM | |
| (中文版 / 版本號(hào)7600) | |
| 主板芯片組 驅(qū)動(dòng) |
Intel Chipset Device Software for Win7 |
| (WHQL / 版本號(hào) 9.1.1.1125) | |
| 顯卡驅(qū)動(dòng) | |
| AMD Catalyst for Win7 | |
| (WHQL / 版本號(hào) 10.10) | |
| NVIDIA Forceware for Win7 | |
| (WHQL / 版本號(hào) 258.96) | |
|
|
2560*1600_32bit 60Hz |
| 測(cè) 試 平 臺(tái) 軟 件 | |
| 3D合成 測(cè)試軟件 | |
| 3Dmark Vantage | |
| Futuremark / 版本號(hào)1.2 | |
| DirectX 11 理論測(cè)試項(xiàng)目 |
DirectX 11 SDK Nbody Gravity |
| Microsoft / 版本號(hào) Demo | |
| HDRToneMapping CS11 | |
| Microsoft / 版本號(hào) Demo | |
| DX11 SDK Test:Sub D11 | |
| Microsoft / 版本號(hào) Demo | |
| 輔助測(cè)試軟件 | Fraps |
| beepa / 版本號(hào) 3.2.3 | |
各類合成測(cè)試軟件和直接測(cè)速軟件都用得分來衡量性能,數(shù)值越高越好,以時(shí)間計(jì)算的幾款測(cè)試軟件則是用時(shí)越少越好。
3DmarkVantage是Futuremark推出的一款顯卡3D性能測(cè)試,該款軟件僅支持DirectX 10系統(tǒng)及DirectX 10顯卡。測(cè)試成績(jī)主要由兩個(gè)顯卡測(cè)試和兩個(gè)CPU測(cè)試構(gòu)成,整個(gè)測(cè)試軟件各家偏重整機(jī)性能。







SubD11曲面細(xì)分性能衰減
● SubD11曲面細(xì)分性能衰減
Direct X11 SDK Test:Sub D11是集成在微軟的DirectX SDK開發(fā)包中的測(cè)試組件之一,它主要測(cè)試GPU的Tessellation性能。這個(gè)測(cè)試一共包含31個(gè)層級(jí),從級(jí)的輕度曲面細(xì)分到31級(jí)重度曲目細(xì)分,對(duì)顯卡的幾何處理能力考驗(yàn)不斷升級(jí)。





● DirectX 11 SDK Nbody Gravity
DirectX 11 SDK Nbody Gravity項(xiàng)目源于Nbody仿真,它在數(shù)值上近似地表示一個(gè)多體系統(tǒng)的演化過程,該系統(tǒng)中的一個(gè)體(Body)都持續(xù)地與所有其他的體相互作用。一個(gè)相似的例子是天體物理學(xué)仿真,在該仿真中,每個(gè)體代表一個(gè)星系或者一個(gè)獨(dú)立運(yùn)行的星系,各個(gè)體之間通過萬(wàn)有引力相互吸引,如圖所示。


● HDRToneMapping CS11
HDRToneMapping CS11測(cè)試項(xiàng)目同樣是針對(duì)Computer Shader能力進(jìn)行測(cè)試,該項(xiàng)目展示了如何設(shè)置和運(yùn)行計(jì)算著色器(Computer Shader),這是令人興奮的Direct3D 11的新功能之一。雖然該測(cè)試只是檢驗(yàn)了這項(xiàng)技術(shù)在HDR(High-Dynamic Range)高動(dòng)態(tài)光照渲染中的加速能力,但是這個(gè)概念應(yīng)該很容易擴(kuò)展到其他后處理算法,以及更一般的計(jì)算。

這項(xiàng)測(cè)試我們選擇了DirectX 11所推薦的Computer Shader渲染模式,在測(cè)試中NVIDIA顯卡出現(xiàn)了負(fù)載不飽和狀態(tài),所以整體得分不理想。聯(lián)系到NVIDIA在Fermi架構(gòu)中對(duì)并行計(jì)算的支持和多級(jí)多分配多線程能力,這個(gè)得分還是比較讓人失望的,我們只能希望NVIDIA通過新驅(qū)動(dòng)開發(fā)繼續(xù)優(yōu)化帶有緩存的Fermi架構(gòu)。

測(cè)試總結(jié):
作為AMD延續(xù)并改進(jìn)HD5000架構(gòu)的中高端產(chǎn)品,HD6800系列顯卡憑借細(xì)微的架構(gòu)改動(dòng)。在AMD提出的自適應(yīng)曲面細(xì)分新思路下,Tessellation性能表現(xiàn)發(fā)生了一些變化。但是Computer Shader性能則依然依靠流處理器規(guī)模和線程控制器改進(jìn)來實(shí)現(xiàn),這部分性能毫無(wú)疑問提升緩慢。
從HD5000和Fermi架構(gòu)開始,可看到NVIDIA、AMD對(duì)DX11的不同理解產(chǎn)生了兩種接近極端的做法。AMD幾乎不用添加大量晶體管即可完成微軟的DirectX 11要求,固定功能單元如Tessellator(曲面細(xì)分單元)的添加都是在執(zhí)行單元外圍;而NVIDIA則把問題考慮的太過于復(fù)雜,它顯然看到了Computer Shader技術(shù)的巨大前景,同時(shí)每一個(gè)DX11特性都要達(dá)到才善罷甘休,因此對(duì)晶體管開銷有一定程度依賴。
現(xiàn)在來看通過降低并行度提升線程管理能力來縮小芯片面積,同時(shí)依賴近的半導(dǎo)體工藝制程來提高固定單元頻率,對(duì)AMD而言的確是一條為便捷的道路。不過我們還是希望在未來看到AMD的更多改變,畢竟一味放大流處理器規(guī)??赡軙?huì)讓芯片前后端成為性能瓶頸,同時(shí)越來越多的圖形應(yīng)用正在結(jié)合Computer Shader技術(shù)向普通用戶蔓延,解決好架構(gòu)效率問題將成為GPU廠商永恒思考的問題。
版權(quán)與免責(zé)聲明
凡本網(wǎng)注明“出處:維庫(kù)電子市場(chǎng)網(wǎng)”的所有作品,版權(quán)均屬于維庫(kù)電子市場(chǎng)網(wǎng),轉(zhuǎn)載請(qǐng)必須注明維庫(kù)電子市場(chǎng)網(wǎng),http://www.hbjingang.com,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- ARM技術(shù)架構(gòu)與應(yīng)用開發(fā)實(shí)踐指南2026/1/6 10:40:19
- 嵌入式實(shí)時(shí)操作系統(tǒng)(RTOS)選型與移植技術(shù)指南2025/12/31 10:42:31
- 工業(yè)嵌入式系統(tǒng):通信接口技術(shù)選型與抗干擾設(shè)計(jì)實(shí)踐2025/12/15 14:36:53
- 深入解析嵌入式 OPENAMP 框架:開啟異核通信新時(shí)代2025/7/22 16:27:29
- 一文快速了解OPENWRT基礎(chǔ)知識(shí)2025/7/14 16:59:04
- 高速PCB信號(hào)完整性(SI)設(shè)計(jì)核心實(shí)操規(guī)范
- 鎖相環(huán)(PLL)中的環(huán)路濾波器:參數(shù)計(jì)算與穩(wěn)定性分析
- MOSFET反向恢復(fù)特性對(duì)系統(tǒng)的影響
- 電源IC在惡劣環(huán)境中的防護(hù)設(shè)計(jì)
- 連接器耐腐蝕性能測(cè)試方法
- PCB電磁兼容(EMC)設(shè)計(jì)與干擾抑制核心實(shí)操規(guī)范
- 用于相位噪聲測(cè)量的低通濾波器設(shè)計(jì)與本振凈化技術(shù)
- MOSFET在高頻開關(guān)中的EMI問題
- 電源IC在便攜式設(shè)備中的設(shè)計(jì)要點(diǎn)
- 連接器結(jié)構(gòu)設(shè)計(jì)常見問題分析









