amd和nvidia顯卡對比
IT之家 11 月 15 日消息,AMD 更新了幾張 PPT,將其 Radeon RX 7900 與英偉達競品 GeForce RTX 4080 進行了對比(新卡尚未解禁,僅參數對比,不涉及性能)。毫...
2025.07.03COPYRIGHT ? 2023
粵ICP備2021108052號
郵箱:611661226@qq.com
留言給我NVIDIA GeForce RTX 4070終于發布了!對于廣大玩家來說,RTX 40系終于開始發布中端產品,它代表著本代顯卡的體積、價格,都開始下降,并逐漸進入絕大部分用戶的視野。當然,隨之而來的是性能也逐步下放,而它的性能究竟能不能滿足大家的期待,今天就用實測來說話。
70級顯卡是每一代大眾3A游戲玩家最期待的產品,它兼顧了一定的性能,中等的體積,以及相對便宜的售價。
這次的RTX 4070,NVIDIA官方給出的定位是,在開啟光追和DLSS的情況下,3A游戲達到2K百幀及以上的水準。
而根據官方的消息來看,本次的RTX 4070價格在4700元左右,已經降到了5000元以下。與RTX 3070 Ti的發售價格相同,并且此次在國內也將有少量公版售賣,喜歡的玩家不妨收藏搶購。
另外本次MSRP RTX 4070在4月12日晚21:00解禁,而各OC版顯卡則在4月13日晚21:00解禁,也請大家留意后續的評測。
首先還是來看下外觀,本次RTX 40系顯卡的外包裝全部采用了黑色掀蓋的禮盒式包裝,外包裝依舊采用了啞光黑色硬紙盒,而且可以清楚地看到“GeForce RTX 4070”字體的變化,GeForce RTX的英文字樣更圓滑,而數字則更“厚實”。
打開后顯卡周圍的裝飾紋路自帶“震驚”效果。另外由于性能回歸大眾,RTX 4070顯卡在上手時就會發現相比已經發布的高端型號都要小很多,體積與RTX 3060類似,喜歡小機箱和小卡的玩家有福了。
本次RTX 4070包裝內附贈的是一根16pin轉8pin*2的轉接線,整卡功耗200W,推薦電源650W。對于老電腦升級非常友好,實際使用不到200W的功耗,幾乎任何電源都可支持。
但由于RTX 40系顯卡全部采用了16pin外接供電,仍然需要轉接,當然有條件的玩家還是建議使用最新標準的ATX 3.0電源。
NVIDIA GeForce RTX 4080 FE顯卡的整體尺寸約為240×97×40mm(不含擋板),占用2槽空間,重量約為1kg。
而此前發布的RTX 4080為304×137×61mm,占用3槽空間。
相比RTX 4070 Ti以及更高的型號來說,由于功耗大幅降低,內部散熱器也進行了簡化,這張新發布的中端顯卡完全可以用小巧來形容。
這張RTX 4070整體設計依舊沿用了RTX 30系顯卡的外觀,可以看到風扇尺寸相比RTX 30系增大,基本已經達到了顯卡整體框架的直徑,而在散熱風扇增大的基礎上,最大氣流動態增加20%,同噪音等級的氣流動態增加15%。
在內部散熱上,RTX 4070采用了8層PCB,內部供電共有8相,其中6相為核心供電,2相為顯存供電,整體散熱器內嵌4熱管。
視頻輸出接口上,依舊采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。
另外由于公版采用的雙軸流散熱系統,所以在視頻輸出接口部位能夠看到大量的散熱鰭片,這一點與上一代相同。
本次RTX 4070的整卡功耗為200W,采用單16pin的輔助供電。相比此前最夸張的8pin*4轉接16pin來說,這次只有雙8pin,通過端子的功率大幅減小。
需要注意的是,目前適用于RTX 30系列的12pin接口和電源轉接器與RTX 40系列顯卡不兼容。
另外在RTX 40系顯卡中,即便是首發的旗艦GeForce RTX 4090也不支持NVLink,所以想要重現往日的四路泰坦是不可能了。
本次發布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,采用TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中為280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的著色器數據吞吐量。
本次發布的RTX 4070共有5888個CUDA核心,提供了29-TFLOPS算力;46個第三代Ada RT Core擁有67 RT-TFLOPS;184個第四代Tensor Core可提供466 Tensor-TFLOPS。
其實如果只對比傳統的光柵性能,RTX 4070的進步并沒有很大,但在AI逐漸發展的今天,需要大量邏輯推理運算,所以可以看到相比30系的Tensor算力,幾乎達到2.7倍的提升。
完整的AD102核心
RTX 4070 Ti使用的AD104核心
RTX 4070使用的AD104核心
本次RTX 4070使用了AD104芯片,采用了4組GPC,其中1組少了1組TPC,并且NVENC單元變為2個。
另外可以看到本次RTX 40系顯卡的L2緩存都占比較大,其實也是有意為之。
這張RTX 4070的L2緩存為36MB,而上一代RTX 3070 Ti為4MB,達到了9倍的差距。增加L2緩存的大小可以提高性能,降低延遲,并提高續航時長,數據訪問在GPU上即可完成(否則GPU就要頻繁從顯存讀取數據,過分依賴顯存帶寬)。所以,這也是為什么在RTX 40系顯卡中,位寬帶寬普遍偏小的原因。
其實根據完整的架構圖就能看出,此次Ada架構整體結構性的改動并不大,這一點從SM單元便能清晰印證,同樣的FP32 CUDA核心,同樣的FP32/INT32混合CUDA核心,同樣的L1級緩存等等。當然,每個SM單元內部的Tensor Core升級為第四代。
不過變化最為顯著的,則是第三代光追核心,我們結合兩代架構來看。在第二代光追核心中,包含負責邊界交叉測試的Box Intersection Engine引擎,和負責三角形交叉測試的Triangle Intersection Engine引擎。
而在第三代光追核心中,還增加了兩個新的引擎:Opacity Micro-Map Engines(OMM)和Displaced Micro-Mesh Engines(DMM),這兩個新的硬件單元可以極大地提升光追性能(具體原理后文詳細介紹)。
至此,每2個SM單元組成一個TPC單元,每6組TPC單元組成一個完整的GPC頂層單元(在部分核心中,會出現5組TPC組成一個GPC單元的情況)。
而每個GPC單元又搭載一個獨立的光柵引擎、兩組ROP分區(每組包含8個ROP單元)。
由于整體架構分析篇幅較長,關于NVIDIA Ada架構的其他新特性就不在這里介紹了,將在文章末尾以附錄的形式展開說明,有興趣的用戶可翻至最后。
首先介紹一下測試平臺,為了保障RTX 4070的性能發揮,我們的平臺也進行了全面更新。
目前GPU-Z版本尚未更新,無法準確識別硬件信息,就不放出誤導大家了。
NVIDIA GeForce RTX 4070采用AD104核心,擁有5888個CUDA,而此前測試的RTX 4070 Ti為7680個CUDA,在同系列顯卡中,CUDA數量其實比較能反應性能強弱,所以簡單算一下RTX 4070的性能大概相當于RTX 4070 Ti的77%,后面我們也來驗證一下這個數據。
RTX 4070的Boost頻率為2475MHz,RTX 3070 Ti則為1770MHz,提升非常大。
采用12GB GDDR6X顯存,位寬為192bit,顯存帶寬達到了504 GB/s,光柵單元和紋理單元為64和184。
本次測試平臺的處理器采用了Intel最新的13代i9-13900K,性能絕對強悍,并且電源和顯示器上進行了著重升級。
雖然RTX 4070的建議電源僅為650W,但考慮到后續升級,也可以為下一代產品早做準備,畢竟電源相比機箱內其他配件,都要使用的更久。航嘉MVP K850這款PCIe 5.0電源,不僅有850W的額定功率,還通過80PLUS金牌認證,12VHPWR接口更能保障顯卡無需轉接,穩定供電。
高性能CPU+高性能顯卡,機箱散熱也要跟上。這款航嘉MVP Apollo Max 阿波羅·麥克斯機箱,支持ATX主板和360mm水冷散熱器,寬體設計+雙腔的內部結構,散熱效果更加優秀,正面+側面鋼化玻璃打造“海景房”,不僅有科技感十足的賞心悅目,更能實時監測硬件的運行情況,
下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:
在針對顯卡DX11性能的3DMARKFS套裝測試中,RTX 4070主要對比上一代RTX 3070 Ti,其中FS提升了24%;FSE提升了20%;FSU提升了9%,綜合來看相比RTX 3070 Ti的性能提升約為18%。
而對比剛剛發布的RTX 4070 Ti,綜合成績相差20%左右。
而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,RTX 4070相較RTX 3070 Ti的提升分別為:TS提升24%;TSE提升18%,綜合下來約為21%。
PortRoyal是3DMARK中專門針對光追性能的測試項,RTX 4070相較RTX 3070 Ti的提升約為29%。
綜合來看,RTX 4070的理論性能相較RTX 3070 Ti的提升約為23%。
Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 并包含 6GB 及以上顯存。
這項測試結合了實時光線追蹤和傳統渲染技術來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網格著色器、體積照明、粒子和后處理效果。并且有意思的是,Speed Way測試支持自由探索場景,可查看光照及攝像機設置的改變如何影響視覺效果。
對比RTX 3070 Ti顯卡,從1080p分辨率到4K提升依次為:28%/22%/28%。
另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。并且由于RTX 3070 Ti無法開啟,故不參與測試,僅對比RTX 4070 Ti。
由于本次RTX 40系加入了DLSS 3新技術,所以后面會進行單獨測試,這里依然選擇主流的幾款3A大作進行游戲性能對比。
在《極限競速:地平線5》中,加入了DLSS 3,我們在后面會進行相關測試,這里僅看常規對比。
性能方面,RTX 4070相比RTX 3070 Ti的提升分別為:1080p提升23%;2K提升27%;4K提升29%,綜合提升26%。
在《刺客信條:英靈殿》中,RTX 4070相比RTX 3070 Ti的提升分別為:1080p提升15%;2K提升14%;4K提升19%,綜合提升16%。
在《無主之地3》中,RTX 4070相比RTX 3070 Ti的提升分別為:1080p提升26%;2K提升21%;4K提升14%,綜合提升20%。
《光明記憶:無限》的光追測試軟件是獨立于游戲的測試工具,比游戲中用到的光線追蹤技術更多,測試條件為“RTX最高/DLSS質量”。所以測試幀數相對較低,但實際游戲配置相當親民。
性能方面,RTX 4070相比RTX 3070 Ti的提升分別為:1080p提升29%;2K提升24%;4K提升15%,綜合提升23%。
在另外一款國產游戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS質量”下進行。
在《邊境》中,RTX 4070相比GeForce RTX 3070 Ti的提升分別為:1080p提升39%;2K提升39%;4K提升28%,綜合提升35%。
在《賽博朋克2077》中,游戲分為超級和光追超級兩種最高畫質。
在超級畫質中,RTX 4070相比RTX 3070 Ti的提升分別為,1080p提升28%;2K提升29%;4K提升30%,綜合提升29%。
在光追超級畫質中,提升分別為,1080p提升37%;2K提升35%;4K提升35%,綜合提升36%。
截止目前,已有超過280款游戲和應用支持DLSS,其中超過30款游戲已經支持最新的DLSS 3。
包括《逆水寒》、《微軟模擬飛行》、《毀滅全人類2:重新探測》、《瘟疫傳說:安魂曲》、《光明記憶:無限》、《暗影火炬城》、《F1 22》、《生死輪回》、《漫威蜘蛛俠:重制版》、《超級人類》、《極限競速:地平線5》、《賽博朋克2077》、《紅霞島》、《暗黑破壞神4》、《侏羅紀世界:進化2》等等。
下面就讓我們來實際測試,擁有全新的DLSS 3的游戲,能達到何種幀率。
本次DLSS 3的測試圖表比較繁瑣,并且增加了1% Low FPS和延遲的測試,普通的FPS好理解,那么這個1% Low FPS是什么意思。
首先,游戲benchmark通常測試的FPS即為,一段時間內的游戲平均幀。而1% Low FPS則是將一段時間內的幀數從大到小排列,取最小的1%出來,再對這1%的數求平均值。
其實簡單來說,這兩個數值都不能代表我們在游玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的里面求平均,更謹慎一些。
看懂了1% Low FPS,我們再來看這張圖表,在坐標軸左側的為延遲(越低越好),坐標軸右側的均為幀數(越高越好),并且由于牽扯到正負坐標,所以兩側的值有可能會不同。
在《侏羅紀世界:進化2》中,DLSS 3的表現非常亮眼,由于此類模擬經營游戲的特點就是同屏單位多,更加占用CPU資源,而DLSS 3能夠進行幀生成,來突破CPU瓶頸限制。
不過幀生成并不是毫無弊端,這也是為什么此次測試加入了延遲。并且在開啟DLSS 3后,NVIDIA Reflex是捆綁開啟的。但相對于絕大部分的非競技游戲來說,26毫秒的延遲在實際體驗中的感受并不強。
在《賽博朋克2077》中的數據反映比較真實,可以看到在DLSS關的光線追蹤最高的情況下,即便RTX 4070顯卡也只有39幀,并且延遲達到了107.1毫秒。
而在開啟DLSS 3后,幀數為104,提升了167%。雖然相比DLSS 2的延遲高了13毫秒左右,但依然維持在較低的水平。
《極限競速:地平線5》是最新加入DLSS 3的游戲,可以看到,即便在開啟DLSS 2的情況下,幀數收到CPU瓶頸限制,幾乎與DLSS關閉幀數相同。而在開啟DLSS 3后,一下躍至161幀,提升26%。
《暗影火炬城》在開啟光追后對于性能要求明顯提高。其中DLSS 3相比DLSS關的幀數提升了83%,DLSS 2的提升則達到了61%。
不過此次《暗影火炬城》,相比剛剛發布時,1% Low幀數有明顯下降,在實際游玩中也能明顯感受到已于常理的突然卡頓……大概是游戲隨著版本更新,優化還沒有跟上。
在UE5提供的測試游戲中,方便的給出了DLSS的快捷測試,這里分為DLSS關(超分辨率關+幀生成關+Reflex關);DLSS 2(超分辨率性能+幀生成關+Reflex開);DLSS 3(超分辨率性能+幀生成開+Reflex開)三檔測試。
另外,由于Lyra幀數均為靜態所得,1% Low的分數相比其他游戲更高一些。
除了游戲之外,AI也是目前大火的領域,尤其以Stable Diffusion為最,現在很多AI生成的圖片完全能夠以假亂真,下面我們也來測試一下RTX 4070在這方面的表現。
Stable Diffusion可以說幾乎沒有門檻,但本地部署的繁瑣程度勸退了很多用戶。上圖為操作界面用戶可根據自己想要生成的圖片細節豐富關鍵詞。
按照NVIDIA提供的關鍵詞,我們生成了10批,共20張圖片,上面挑選了兩幅細節比較合理的進行了展示。
RTX 4070運算時間 2m24.79s 約合 7.2秒一張圖
RTX 3070 Ti運算時間2m54.34s 約合 8.7秒一張圖
Stable Diffusion對于顯卡的要求比較高,這就需要顯卡擁有較強的Tensor算力。
另外它對于顯存的要求非常高,如果有條件的話盡量選擇大容量顯存的顯卡。
我們對比了RTX 4070和RTX 3070 Ti在相同設置下的運算時間,兩款顯卡在生成20張圖片的時間差距為30秒,差距還是比較大的。
另外我們也測試了使用CPU,在相同設置下生成圖片,但如圖片所示,保守估計需要3小時30分左右。
并且在使用CPU渲染時經常會提示內存不足,不過我們的測試平臺為最旗艦的i9-13900K,內存為D5 7200MHz 32G(16G*2),可見一款趁手的顯卡對于追趕潮流也是很重要的。
PS:目前AMD顯卡無法使用Stable Diffusion生成圖片,只能期待后續優化。
本次AV1編碼測試選擇了剪映專業版,作為有一定剪輯基礎的人來說可能不屑一顧,但整體測試下來的感覺還是非常好用的。
我日常剪輯會使用到PR、AE等Adobe全家桶軟件,剪映最大的感受就是更智能化,且預設更符合大眾使用,更有智能識別字幕等便捷工具。
如果要比喻的話,剪映和PR就好像美圖和PS,Adobe的優勢就是可操作空間更大。但我們日常使用的話,剪映這類軟件完全沒有問題,更易上手。
剪映專業版目前自帶AV1編碼輸出,在實際測試中,我們導出一段2分鐘左右的視頻。可以看到兩個文件容量相差124MB。
由于AV1編碼特性,生成文件的比特率更低,但視頻清晰度則完全相同。所以如果生成同比特率,同容量的文件,AV1將會更清晰。
我們通過NVIDIA ICAT來進行兩段視頻的畫面對比,圖中左側為AV1編碼,右側為H264編碼。反正通過200%的細節放大,幾乎看不出任何區別。
目前RTX VSR(RTX Video Super Resolution)已經在部分瀏覽器中進行測試,首先玩家需要更新到NVIDIA最新驅動,在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超分辨率。
RTX VSR是 AI 圖像處理的突破,它超越了傳統的邊緣檢測和特征銳化技術,極大地提升直播視頻內容的質量。
開啟RTX VSR不僅需要最新版驅動,還需要使用RTX 40或30系列GPU,并且幾乎適用于Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容(瀏覽器也需要更新到最新版本)。
開啟后,目前已知的打開YouTube或者B站,都可以享受到RTX VSR效果的加成。
如果不確定,在全屏播放視頻時,可以打開任務管理器,看到GPU負載增加,即為開啟成功。
(點擊放大查看原圖)
我們打開YouTube隨意觀看視頻,在打開RTX VSR后,可以清晰明顯的看到水下珊瑚的質量明顯提高,邊緣更為清晰,并且極大減少了失真現象。
功耗測試中,我們選擇FurMark軟件進行拷機測試,并采用GPU-Z檢測溫度,功耗僅計算顯卡自身。
可以看到RTX 4070這張顯卡對于溫度的控制同樣令人驚嘆,雖然散熱器有所縮減,但通過半小時左右的拷機測試,溫度一直控制在67℃左右,熱點溫度在80℃左右。
令人在意的是,通常顯卡的顯存溫度也會比較高,而RTX 4070的顯存溫度僅有64℃。
游戲動態功耗測試
值得一提的是,本次我們在拷機測試中最大板載功耗為200W左右,TDP達到了100%。但在實際游戲測試中,大部分3A游戲能夠在170-180W左右,一些非常耗費性能的3A游戲才能夠到達190W左右,遠低于額定功耗。
所以在實際的使用過程中,由于不同游戲負載不同,GPU的實際功耗是動態變化的,類似于FPS隨時間的變化,RTX 40系列很難觸及功耗墻。
RTX 4070 3A游戲平均功耗
RTX 3070 Ti 3A游戲平均功耗
在實際的游戲功耗測試中,我們選擇《賽博朋克2077》自帶benchmark,畫面設置為光追超級、4K分辨率,來強行拉滿兩張顯卡的性能極限,檢測我們實際應用場景的功耗。
可以看到兩款顯卡雖然均為70級別,但剛剛發布的RTX 4070平均功耗為184W,而RTX 3070 Ti則是288W,低了100W,這的確是一個驚人的成績,100W已經基本等同于i5-13600KF的功耗了。
本次RTX 4070的發布,將RTX 40系顯卡售價首次拉至5000元以內,對于憋了幾年想要攢機的單機游戲玩家來說,絕對是利好消息。
性能上,RTX 4070可以在3A游戲中,2K分辨率下達到百幀的成績,而且我們所測試的游戲畫面均為中上等。至于4K,目前大部分獨立游戲或者網游也都沒有問題。不過我們的測試畢竟不是為了探尋幀率極限,只挑選一些有代表性的游戲。
我認為在RTX 4070,或者說RTX 40系顯卡中,最有意義的升級在于功耗的下降。同級別產品功耗下降100W,綜合性能提升20%左右,這才是GPU升級的意義所在。如果只是一味地堆疊功耗來換取性能提升,毫無意義。
另外RTX 40系顯卡在設計之初也更注重多領域用途,不止局限于游戲。在這個誰都是自媒體的時代,編解碼、AI運算等等都是至關重要的。
視頻剪輯由于軟件的普及,幾乎人手都會,容量更小更清晰的AV1編碼正在逐漸流行起來。所以即便RTX 4070定位游戲人群,在生產力工具上,它依然有一席之地。
最后相信大家都會將RTX 4070與不久前發布的RTX 4070 Ti來進行對比,誰更有性價比?
本次發布的RTX 4070在光追游戲的性能上,能夠達到2K百幀的成績,這對于絕大部分玩家來說都是足夠的。
另外兩款產品在性能差距在23%左右,RTX 4070 Ti的官方售價為6499元,RTX 4070為4799元,1700元的差價換取23%左右的性能也依然是劃算的。
最終決定購買什么檔位的產品,只是用戶的各取所需罷了,不過如果你想在萬元以內裝機,暢玩光追3A游戲,還想享受DLSS最新的技術成果,那么這張RTX 4070再合適不過了。
Shader Execution Reordering (SER)著色器執行重排序
SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。
簡單地說,GPU在執行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數百萬條光線照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。所以這樣就為著色器創建了大量的、發散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門別類,動態重組為更高效的工作負載。根據NVIDIA的說法,SER可將著色器性能最多提升2倍,并將游戲幀率最高提升25%。
舉個簡單的例子,當光線第一次從發射端到碰撞端是非常有規律的射線,而碰撞到物體后的二次光追,則會出現大量發散的、無規律的反射,這對于光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發揮出著色器的最大性能。
不過好在這么實用的功能并不是RTX 40系的專利,它是一個易于集成的SDK,目前需要游戲開發商集成在游戲中。另外由于它是一個通用的邏輯,后續也有可能直接集成在Windows的API中,這樣游戲開發者就無需特意引用,直接調用系統API即可。
可以說SER對于手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。
第三代 RT Cores
RT Core的作用在于更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率游戲有點吃力,那么RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說明,這張4090并非Ada Lovelace架構的最終形態。
Opacity Micro-Map Engines
在第三代RT Cores中引入了兩個重要的硬件單元,首先是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優化光線追蹤渲染,可大幅減輕著色器的工作負擔。
比如樹葉之類的復雜物體,不同的光線都會影響它的表現狀態,以及樹葉之間的光線反彈,所以對于光線追蹤的計算量是巨大的。
不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解為微網格置換引擎,它構建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的復雜圖形做簡化,創造出簡單的模型,但整體的光線追蹤效果不變。
通過一些模型數據我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經過簡化后,只有15萬左右的微網格,BVH的構建速度提升了8.5倍,小了6.5倍。
而這還不是最夸張的,越復雜的模型往往優化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡化20倍的模型。
第四代 Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎,在旗艦型號RTX 4090顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這里的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。
而在中端的RTX 4070上也達到了驚人的466 Tensor-TFLOPS,相比上一代RTX 3070 Ti,擁有2.7倍左右的提升。
DLSS 3
本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。
全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。
DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。
在GPU受限的游戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。
本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全“猜想”1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。
不過“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。
這也不負NVIDIA給它起了個“神經網絡渲染新時代”的名號。縱觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上“巨人的肩膀”。當然,連年的創新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續幀內的光流場,能夠捕捉游戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。并分別計算運動矢量和光流來獲得精準的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區域,計算幀之間的差值。
如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫面。
另外由于DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的游戲,AI同樣能夠提升幀率。這也是為什么在此次發布會中說到,DLSS 3能夠突破CPU的限制來提升幀數。
AV1編碼器
本次升級的第八代NVENC編碼器可以說是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。
相比傳統的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質將更好。目前大部分直播的分辨率和清晰度,均受限于平臺規定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,采用AV1編碼的清晰度明顯比H.264更高。
說起直播,OBS相信大家都不陌生,在10月份即將發布的補丁中,OBS就加入了對NVENC的AV1編碼支持
當然,直播只是我們更容易見到的AV1優勢,在視頻工作的所有環節,AV1編碼都可以帶來極大提升。
所以,如圖所見。NVIDIA已經為廣大用戶鋪好了一條完整的生態鏈,從編碼API、軟件、平臺到播放器,將全面支持AV1編碼。
另外再說一下NVIDIA一直強調的在RTX 4070 Ti及以上型號配置的雙AV1編碼。顧名思義,即部分顯卡內搭載了兩個編碼器,它所帶來的效果也是顯而易見的。
首先,根據官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。
除了導出速度,8K 60幀的視頻錄制在以前簡直難以想象,而雙編碼器的好處就是可以將圖像一分為二,兩個編碼器分別處理7680×2160的圖像信息,最后拼合完整。
關于編碼部分,可能大部分用戶的感受不深,但當有一天,你想錄屏的時候,卻發現顯卡不支持,才會發覺它的重要性……
隨著圖像逐漸進入到超清時代,硬件編碼和渲染幾乎已經成為不可或缺的幫手。雖然論質量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫質,也要承受時間的無窮長。甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬件編碼中,質量和時間也在不斷地被挑戰和刷新。
13附錄2-Ada Lovelace是誰?
Ada Lovelace(1815-1852)是英國數學家、計算機程序創始人,建立了循環和子程序概念,被稱為世界上第一位程序員。
Ada從小對數學有極高天賦,其父稱她為“平行四邊形公主”,后來的合作伙伴Charles Babbage稱她為“數字女巫”。在19歲時Ada嫁給了自己曾經的科學家庭教師,婚后的她對數學熱情不減。
1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數求解的詳細說明。由此,Ada被廣泛認為是世界上第一個程序員。
而以她名字命名的語言——ada語言,已經成為了美國軍方開發戰斗機等尖端武器的語言。
從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經歷了短暫的37個春秋,但卻足以被后人銘記。
這也是為什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan。
IT之家 11 月 15 日消息,AMD 更新了幾張 PPT,將其 Radeon RX 7900 與英偉達競品 GeForce RTX 4080 進行了對比(新卡尚未解禁,僅參數對比,不涉及性能)。毫...
2025.07.03IT之家 8 月 8 日消息,據 TechPowerUP 消息,有跡象表明,英偉達合作伙伴正在大力促銷其高端 GeForce RTX 30 系列“Ampere”顯卡的庫存,以便為下一代讓路。EVGA ...
2025.07.03IT之家 5 月 24 日消息,英偉達今日發布 GeForce Game Ready 532.03 WHQL 驅動,支持 RTX 4060 Ti 8G 顯卡,為《魔戒:咕嚕》優化。IT之家整理 RTX...
2025.07.03上周,英偉達發布了GeForce Game Ready 531.18 WHQL驅動程序,最主要的更新就是增加了對RTX Video Super Resolution(VSR)技術的支持,使用GeFor...
2025.07.03IT之家 11 月 24 日消息,據 computerbase 消息,英偉達近日為 GTX 600/700 “Kepler”架構顯卡推出了新的驅動,修復了兩個漏洞。GTX 690IT之家了解到,英偉達...
2025.07.03