郵箱：611661226@qq.com

nvidia顯卡

發布時間: 2023-07-18 15:56 閱讀：文章來源：轉載

NVIDIA GeForce RTX 4070終于發布了！對于廣大玩家來說，RTX 40系終于開始發布中端產品，它代表著本代顯卡的體積、價格，都開始下降，并逐漸進入絕大部分用戶的視野。當然，隨之而來的是性能也逐步下放，而它的性能究竟能不能滿足大家的期待，今天就用實測來說話。

70級顯卡是每一代大眾3A游戲玩家最期待的產品，它兼顧了一定的性能，中等的體積，以及相對便宜的售價。

這次的RTX 4070，NVIDIA官方給出的定位是，在開啟光追和DLSS的情況下，3A游戲達到2K百幀及以上的水準。

而根據官方的消息來看，本次的RTX 4070價格在4700元左右，已經降到了5000元以下。與RTX 3070 Ti的發售價格相同，并且此次在國內也將有少量公版售賣，喜歡的玩家不妨收藏搶購。

另外本次MSRP RTX 4070在4月12日晚21:00解禁，而各OC版顯卡則在4月13日晚21:00解禁，也請大家留意后續的評測。

1、NVIDIA GeForce RTX 4070概覽

首先還是來看下外觀，本次RTX 40系顯卡的外包裝全部采用了黑色掀蓋的禮盒式包裝，外包裝依舊采用了啞光黑色硬紙盒，而且可以清楚地看到“GeForce RTX 4070”字體的變化，GeForce RTX的英文字樣更圓滑，而數字則更“厚實”。

打開后顯卡周圍的裝飾紋路自帶“震驚”效果。另外由于性能回歸大眾，RTX 4070顯卡在上手時就會發現相比已經發布的高端型號都要小很多，體積與RTX 3060類似，喜歡小機箱和小卡的玩家有福了。

本次RTX 4070包裝內附贈的是一根16pin轉8pin*2的轉接線，整卡功耗200W，推薦電源650W。對于老電腦升級非常友好，實際使用不到200W的功耗，幾乎任何電源都可支持。

但由于RTX 40系顯卡全部采用了16pin外接供電，仍然需要轉接，當然有條件的玩家還是建議使用最新標準的ATX 3.0電源。

NVIDIA GeForce RTX 4080 FE顯卡的整體尺寸約為240×97×40mm（不含擋板），占用2槽空間，重量約為1kg。

而此前發布的RTX 4080為304×137×61mm，占用3槽空間。

相比RTX 4070 Ti以及更高的型號來說，由于功耗大幅降低，內部散熱器也進行了簡化，這張新發布的中端顯卡完全可以用小巧來形容。

這張RTX 4070整體設計依舊沿用了RTX 30系顯卡的外觀，可以看到風扇尺寸相比RTX 30系增大，基本已經達到了顯卡整體框架的直徑，而在散熱風扇增大的基礎上，最大氣流動態增加20%，同噪音等級的氣流動態增加15%。

在內部散熱上，RTX 4070采用了8層PCB，內部供電共有8相，其中6相為核心供電，2相為顯存供電，整體散熱器內嵌4熱管。

視頻輸出接口上，依舊采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。

另外由于公版采用的雙軸流散熱系統，所以在視頻輸出接口部位能夠看到大量的散熱鰭片，這一點與上一代相同。

本次RTX 4070的整卡功耗為200W，采用單16pin的輔助供電。相比此前最夸張的8pin*4轉接16pin來說，這次只有雙8pin，通過端子的功率大幅減小。

需要注意的是，目前適用于RTX 30系列的12pin接口和電源轉接器與RTX 40系列顯卡不兼容。

另外在RTX 40系顯卡中，即便是首發的旗艦GeForce RTX 4090也不支持NVLink，所以想要重現往日的四路泰坦是不可能了。

2、NVIDIA GeForce RTX 4070 架構淺析

本次發布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造，采用TSMC 4N NVIDIA定制工藝，旗艦核心AD102達到了恐怖的760億個晶體管，而在RTX 30系顯卡中為280億個。

與上一代NVIDIA Ampere相比，NVIDIA Ada Lovelace在相同功率下，具有2倍以上的性能提升，最高可達到90-TFLOPS的著色器數據吞吐量。

本次發布的RTX 4070共有5888個CUDA核心，提供了29-TFLOPS算力；46個第三代Ada RT Core擁有67 RT-TFLOPS；184個第四代Tensor Core可提供466 Tensor-TFLOPS。

其實如果只對比傳統的光柵性能，RTX 4070的進步并沒有很大，但在AI逐漸發展的今天，需要大量邏輯推理運算，所以可以看到相比30系的Tensor算力，幾乎達到2.7倍的提升。

完整的AD102核心

RTX 4070 Ti使用的AD104核心

RTX 4070使用的AD104核心

本次RTX 4070使用了AD104芯片，采用了4組GPC，其中1組少了1組TPC，并且NVENC單元變為2個。

另外可以看到本次RTX 40系顯卡的L2緩存都占比較大，其實也是有意為之。

這張RTX 4070的L2緩存為36MB，而上一代RTX 3070 Ti為4MB，達到了9倍的差距。增加L2緩存的大小可以提高性能，降低延遲，并提高續航時長，數據訪問在GPU上即可完成（否則GPU就要頻繁從顯存讀取數據，過分依賴顯存帶寬）。所以，這也是為什么在RTX 40系顯卡中，位寬帶寬普遍偏小的原因。

其實根據完整的架構圖就能看出，此次Ada架構整體結構性的改動并不大，這一點從SM單元便能清晰印證，同樣的FP32 CUDA核心，同樣的FP32/INT32混合CUDA核心，同樣的L1級緩存等等。當然，每個SM單元內部的Tensor Core升級為第四代。

不過變化最為顯著的，則是第三代光追核心，我們結合兩代架構來看。在第二代光追核心中，包含負責邊界交叉測試的Box Intersection Engine引擎，和負責三角形交叉測試的Triangle Intersection Engine引擎。

而在第三代光追核心中，還增加了兩個新的引擎：Opacity Micro-Map Engines（OMM）和Displaced Micro-Mesh Engines（DMM），這兩個新的硬件單元可以極大地提升光追性能（具體原理后文詳細介紹）。

至此，每2個SM單元組成一個TPC單元，每6組TPC單元組成一個完整的GPC頂層單元（在部分核心中，會出現5組TPC組成一個GPC單元的情況）。

而每個GPC單元又搭載一個獨立的光柵引擎、兩組ROP分區（每組包含8個ROP單元）。

由于整體架構分析篇幅較長，關于NVIDIA Ada架構的其他新特性就不在這里介紹了，將在文章末尾以附錄的形式展開說明，有興趣的用戶可翻至最后。

3、測試平臺簡介

首先介紹一下測試平臺，為了保障RTX 4070的性能發揮，我們的平臺也進行了全面更新。

目前GPU-Z版本尚未更新，無法準確識別硬件信息，就不放出誤導大家了。

NVIDIA GeForce RTX 4070采用AD104核心，擁有5888個CUDA，而此前測試的RTX 4070 Ti為7680個CUDA，在同系列顯卡中，CUDA數量其實比較能反應性能強弱，所以簡單算一下RTX 4070的性能大概相當于RTX 4070 Ti的77%，后面我們也來驗證一下這個數據。

RTX 4070的Boost頻率為2475MHz，RTX 3070 Ti則為1770MHz，提升非常大。

采用12GB GDDR6X顯存，位寬為192bit，顯存帶寬達到了504 GB/s，光柵單元和紋理單元為64和184。

本次測試平臺的處理器采用了Intel最新的13代i9-13900K，性能絕對強悍，并且電源和顯示器上進行了著重升級。

雖然RTX 4070的建議電源僅為650W，但考慮到后續升級，也可以為下一代產品早做準備，畢竟電源相比機箱內其他配件，都要使用的更久。航嘉MVP K850這款PCIe 5.0電源，不僅有850W的額定功率，還通過80PLUS金牌認證，12VHPWR接口更能保障顯卡無需轉接，穩定供電。

高性能CPU+高性能顯卡，機箱散熱也要跟上。這款航嘉MVP Apollo Max 阿波羅·麥克斯機箱，支持ATX主板和360mm水冷散熱器，寬體設計+雙腔的內部結構，散熱效果更加優秀，正面+側面鋼化玻璃打造“海景房”，不僅有科技感十足的賞心悅目，更能實時監測硬件的運行情況，

4、理論性能測試

下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝：FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能，取顯卡分數實際測試結果如下：

在針對顯卡DX11性能的3DMARKFS套裝測試中，RTX 4070主要對比上一代RTX 3070 Ti，其中FS提升了24%；FSE提升了20%；FSU提升了9%，綜合來看相比RTX 3070 Ti的性能提升約為18%。

而對比剛剛發布的RTX 4070 Ti，綜合成績相差20%左右。

而在針對DX12環境下的Time Spy和Time Spy Extreme測試中，RTX 4070相較RTX 3070 Ti的提升分別為：TS提升24%；TSE提升18%，綜合下來約為21%。

PortRoyal是3DMARK中專門針對光追性能的測試項，RTX 4070相較RTX 3070 Ti的提升約為29%。

綜合來看，RTX 4070的理論性能相較RTX 3070 Ti的提升約為23%。

Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試，顯卡必須支持 DirectX 12 Ultimate 并包含 6GB 及以上顯存。

這項測試結合了實時光線追蹤和傳統渲染技術來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網格著色器、體積照明、粒子和后處理效果。并且有意思的是，Speed Way測試支持自由探索場景，可查看光照及攝像機設置的改變如何影響視覺效果。

對比RTX 3070 Ti顯卡，從1080p分辨率到4K提升依次為：28%/22%/28%。

另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。并且由于RTX 3070 Ti無法開啟，故不參與測試，僅對比RTX 4070 Ti。

5、常規游戲性能測試

由于本次RTX 40系加入了DLSS 3新技術，所以后面會進行單獨測試，這里依然選擇主流的幾款3A大作進行游戲性能對比。

在《極限競速：地平線5》中，加入了DLSS 3，我們在后面會進行相關測試，這里僅看常規對比。

性能方面，RTX 4070相比RTX 3070 Ti的提升分別為：1080p提升23%；2K提升27%；4K提升29%，綜合提升26%。

在《刺客信條：英靈殿》中，RTX 4070相比RTX 3070 Ti的提升分別為：1080p提升15%；2K提升14%；4K提升19%，綜合提升16%。

在《無主之地3》中，RTX 4070相比RTX 3070 Ti的提升分別為：1080p提升26%；2K提升21%；4K提升14%，綜合提升20%。

《光明記憶：無限》的光追測試軟件是獨立于游戲的測試工具，比游戲中用到的光線追蹤技術更多，測試條件為“RTX最高/DLSS質量”。所以測試幀數相對較低，但實際游戲配置相當親民。

性能方面，RTX 4070相比RTX 3070 Ti的提升分別為：1080p提升29%；2K提升24%；4K提升15%，綜合提升23%。

在另外一款國產游戲《邊境》的跑分軟件中，情況基本與《光明記憶：無限》相同，測試條件均在“RTX最高/DLSS質量”下進行。

在《邊境》中，RTX 4070相比GeForce RTX 3070 Ti的提升分別為：1080p提升39%；2K提升39%；4K提升28%，綜合提升35%。

在《賽博朋克2077》中，游戲分為超級和光追超級兩種最高畫質。

在超級畫質中，RTX 4070相比RTX 3070 Ti的提升分別為，1080p提升28%；2K提升29%；4K提升30%，綜合提升29%。

在光追超級畫質中，提升分別為，1080p提升37%；2K提升35%；4K提升35%，綜合提升36%。

6、DLSS 3性能測試

截止目前，已有超過280款游戲和應用支持DLSS，其中超過30款游戲已經支持最新的DLSS 3。

包括《逆水寒》、《微軟模擬飛行》、《毀滅全人類2：重新探測》、《瘟疫傳說：安魂曲》、《光明記憶：無限》、《暗影火炬城》、《F1 22》、《生死輪回》、《漫威蜘蛛俠：重制版》、《超級人類》、《極限競速：地平線5》、《賽博朋克2077》、《紅霞島》、《暗黑破壞神4》、《侏羅紀世界：進化2》等等。

下面就讓我們來實際測試，擁有全新的DLSS 3的游戲，能達到何種幀率。

本次DLSS 3的測試圖表比較繁瑣，并且增加了1% Low FPS和延遲的測試，普通的FPS好理解，那么這個1% Low FPS是什么意思。

首先，游戲benchmark通常測試的FPS即為，一段時間內的游戲平均幀。而1% Low FPS則是將一段時間內的幀數從大到小排列，取最小的1%出來，再對這1%的數求平均值。

其實簡單來說，這兩個數值都不能代表我們在游玩時，具體哪一刻的感受，但FPS更注重整體，而1% Low FPS則是從最差的里面求平均，更謹慎一些。

看懂了1% Low FPS，我們再來看這張圖表，在坐標軸左側的為延遲（越低越好），坐標軸右側的均為幀數（越高越好），并且由于牽扯到正負坐標，所以兩側的值有可能會不同。

在《侏羅紀世界：進化2》中，DLSS 3的表現非常亮眼，由于此類模擬經營游戲的特點就是同屏單位多，更加占用CPU資源，而DLSS 3能夠進行幀生成，來突破CPU瓶頸限制。

不過幀生成并不是毫無弊端，這也是為什么此次測試加入了延遲。并且在開啟DLSS 3后，NVIDIA Reflex是捆綁開啟的。但相對于絕大部分的非競技游戲來說，26毫秒的延遲在實際體驗中的感受并不強。

在《賽博朋克2077》中的數據反映比較真實，可以看到在DLSS關的光線追蹤最高的情況下，即便RTX 4070顯卡也只有39幀，并且延遲達到了107.1毫秒。

而在開啟DLSS 3后，幀數為104，提升了167%。雖然相比DLSS 2的延遲高了13毫秒左右，但依然維持在較低的水平。

《極限競速：地平線5》是最新加入DLSS 3的游戲，可以看到，即便在開啟DLSS 2的情況下，幀數收到CPU瓶頸限制，幾乎與DLSS關閉幀數相同。而在開啟DLSS 3后，一下躍至161幀，提升26%。

《暗影火炬城》在開啟光追后對于性能要求明顯提高。其中DLSS 3相比DLSS關的幀數提升了83%，DLSS 2的提升則達到了61%。

不過此次《暗影火炬城》，相比剛剛發布時，1% Low幀數有明顯下降，在實際游玩中也能明顯感受到已于常理的突然卡頓……大概是游戲隨著版本更新，優化還沒有跟上。

在UE5提供的測試游戲中，方便的給出了DLSS的快捷測試，這里分為DLSS關（超分辨率關+幀生成關+Reflex關）；DLSS 2（超分辨率性能+幀生成關+Reflex開）；DLSS 3（超分辨率性能+幀生成開+Reflex開）三檔測試。

另外，由于Lyra幀數均為靜態所得，1% Low的分數相比其他游戲更高一些。

7、Stable Diffusion AI繪畫測試

除了游戲之外，AI也是目前大火的領域，尤其以Stable Diffusion為最，現在很多AI生成的圖片完全能夠以假亂真，下面我們也來測試一下RTX 4070在這方面的表現。

Stable Diffusion可以說幾乎沒有門檻，但本地部署的繁瑣程度勸退了很多用戶。上圖為操作界面用戶可根據自己想要生成的圖片細節豐富關鍵詞。

按照NVIDIA提供的關鍵詞，我們生成了10批，共20張圖片，上面挑選了兩幅細節比較合理的進行了展示。

RTX 4070運算時間 2m24.79s 約合 7.2秒一張圖

RTX 3070 Ti運算時間2m54.34s 約合 8.7秒一張圖

Stable Diffusion對于顯卡的要求比較高，這就需要顯卡擁有較強的Tensor算力。

另外它對于顯存的要求非常高，如果有條件的話盡量選擇大容量顯存的顯卡。

我們對比了RTX 4070和RTX 3070 Ti在相同設置下的運算時間，兩款顯卡在生成20張圖片的時間差距為30秒，差距還是比較大的。

另外我們也測試了使用CPU，在相同設置下生成圖片，但如圖片所示，保守估計需要3小時30分左右。

并且在使用CPU渲染時經常會提示內存不足，不過我們的測試平臺為最旗艦的i9-13900K，內存為D5 7200MHz 32G（16G*2），可見一款趁手的顯卡對于追趕潮流也是很重要的。

PS：目前AMD顯卡無法使用Stable Diffusion生成圖片，只能期待后續優化。

8、AV1編碼測試

本次AV1編碼測試選擇了剪映專業版，作為有一定剪輯基礎的人來說可能不屑一顧，但整體測試下來的感覺還是非常好用的。

我日常剪輯會使用到PR、AE等Adobe全家桶軟件，剪映最大的感受就是更智能化，且預設更符合大眾使用，更有智能識別字幕等便捷工具。

如果要比喻的話，剪映和PR就好像美圖和PS，Adobe的優勢就是可操作空間更大。但我們日常使用的話，剪映這類軟件完全沒有問題，更易上手。

剪映專業版目前自帶AV1編碼輸出，在實際測試中，我們導出一段2分鐘左右的視頻。可以看到兩個文件容量相差124MB。

由于AV1編碼特性，生成文件的比特率更低，但視頻清晰度則完全相同。所以如果生成同比特率，同容量的文件，AV1將會更清晰。

我們通過NVIDIA ICAT來進行兩段視頻的畫面對比，圖中左側為AV1編碼，右側為H264編碼。反正通過200%的細節放大，幾乎看不出任何區別。

9、RTX VSR（RTX Video Super Resolution）測試

目前RTX VSR（RTX Video Super Resolution）已經在部分瀏覽器中進行測試，首先玩家需要更新到NVIDIA最新驅動，在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超分辨率。

RTX VSR是 AI 圖像處理的突破，它超越了傳統的邊緣檢測和特征銳化技術，極大地提升直播視頻內容的質量。

開啟RTX VSR不僅需要最新版驅動，還需要使用RTX 40或30系列GPU，并且幾乎適用于Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容（瀏覽器也需要更新到最新版本）。

開啟后，目前已知的打開YouTube或者B站，都可以享受到RTX VSR效果的加成。

如果不確定，在全屏播放視頻時，可以打開任務管理器，看到GPU負載增加，即為開啟成功。

（點擊放大查看原圖）

我們打開YouTube隨意觀看視頻，在打開RTX VSR后，可以清晰明顯的看到水下珊瑚的質量明顯提高，邊緣更為清晰，并且極大減少了失真現象。

10、溫度及功耗測試

功耗測試中，我們選擇FurMark軟件進行拷機測試，并采用GPU-Z檢測溫度，功耗僅計算顯卡自身。

可以看到RTX 4070這張顯卡對于溫度的控制同樣令人驚嘆，雖然散熱器有所縮減，但通過半小時左右的拷機測試，溫度一直控制在67℃左右，熱點溫度在80℃左右。

令人在意的是，通常顯卡的顯存溫度也會比較高，而RTX 4070的顯存溫度僅有64℃。

游戲動態功耗測試

值得一提的是，本次我們在拷機測試中最大板載功耗為200W左右，TDP達到了100%。但在實際游戲測試中，大部分3A游戲能夠在170-180W左右，一些非常耗費性能的3A游戲才能夠到達190W左右，遠低于額定功耗。

所以在實際的使用過程中，由于不同游戲負載不同，GPU的實際功耗是動態變化的，類似于FPS隨時間的變化，RTX 40系列很難觸及功耗墻。

RTX 4070 3A游戲平均功耗

RTX 3070 Ti 3A游戲平均功耗

在實際的游戲功耗測試中，我們選擇《賽博朋克2077》自帶benchmark，畫面設置為光追超級、4K分辨率，來強行拉滿兩張顯卡的性能極限，檢測我們實際應用場景的功耗。

可以看到兩款顯卡雖然均為70級別，但剛剛發布的RTX 4070平均功耗為184W，而RTX 3070 Ti則是288W，低了100W，這的確是一個驚人的成績，100W已經基本等同于i5-13600KF的功耗了。

11、年輕人的第一張 RTX 40系顯卡

本次RTX 4070的發布，將RTX 40系顯卡售價首次拉至5000元以內，對于憋了幾年想要攢機的單機游戲玩家來說，絕對是利好消息。

性能上，RTX 4070可以在3A游戲中，2K分辨率下達到百幀的成績，而且我們所測試的游戲畫面均為中上等。至于4K，目前大部分獨立游戲或者網游也都沒有問題。不過我們的測試畢竟不是為了探尋幀率極限，只挑選一些有代表性的游戲。

我認為在RTX 4070，或者說RTX 40系顯卡中，最有意義的升級在于功耗的下降。同級別產品功耗下降100W，綜合性能提升20%左右，這才是GPU升級的意義所在。如果只是一味地堆疊功耗來換取性能提升，毫無意義。

另外RTX 40系顯卡在設計之初也更注重多領域用途，不止局限于游戲。在這個誰都是自媒體的時代，編解碼、AI運算等等都是至關重要的。

視頻剪輯由于軟件的普及，幾乎人手都會，容量更小更清晰的AV1編碼正在逐漸流行起來。所以即便RTX 4070定位游戲人群，在生產力工具上，它依然有一席之地。

最后相信大家都會將RTX 4070與不久前發布的RTX 4070 Ti來進行對比，誰更有性價比？

本次發布的RTX 4070在光追游戲的性能上，能夠達到2K百幀的成績，這對于絕大部分玩家來說都是足夠的。

另外兩款產品在性能差距在23%左右，RTX 4070 Ti的官方售價為6499元，RTX 4070為4799元，1700元的差價換取23%左右的性能也依然是劃算的。

最終決定購買什么檔位的產品，只是用戶的各取所需罷了，不過如果你想在萬元以內裝機，暢玩光追3A游戲，還想享受DLSS最新的技術成果，那么這張RTX 4070再合適不過了。

12、附錄1-NVIDIA Ada Lovelace架構解析

Shader Execution Reordering （SER）著色器執行重排序

SER主要的作用是提升著色器性能，它可以將效率低下的工作負載，動態重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。

簡單地說，GPU在執行類似工作的時候效率最高。但隨著光追效果越來越強大，每個場景可能有數百萬條光線照射在不同材質上，而我們知道不同材質的反射率，以及反射效果也是不同的。所以這樣就為著色器創建了大量的、發散的，效率低下的工作負載。

SER則可以將這些雜亂的指令重新分門別類，動態重組為更高效的工作負載。根據NVIDIA的說法，SER可將著色器性能最多提升2倍，并將游戲幀率最高提升25%。

舉個簡單的例子，當光線第一次從發射端到碰撞端是非常有規律的射線，而碰撞到物體后的二次光追，則會出現大量發散的、無規律的反射，這對于光追負載是非常高的。而從圖中便能看到，SER可以將這些指令進行二次排序，以發揮出著色器的最大性能。

不過好在這么實用的功能并不是RTX 40系的專利，它是一個易于集成的SDK，目前需要游戲開發商集成在游戲中。另外由于它是一個通用的邏輯，后續也有可能直接集成在Windows的API中，這樣游戲開發者就無需特意引用，直接調用系統API即可。

可以說SER對于手持RTX 20系及以上（能夠開啟光線追蹤）的N卡用戶來說，是極大地福音。畢竟免費提升的光追性能，誰不喜歡呢。

第三代 RT Cores

RT Core的作用在于更快的光線追蹤計算能力，如果說在RTX 30系顯卡中，想要暢享4K高幀率游戲有點吃力，那么RTX 40系顯卡中，將顯得輕而易舉。

在GeForce RTX 4090這張顯卡上，達到了191 RT-TFLOPs的處理能力，而RTX 30系顯卡最快處理能力為78 RT-TFLOPs，足足為2.4倍。并且根據NVIDIA的官方說法，第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說明，這張4090并非Ada Lovelace架構的最終形態。

Opacity Micro-Map Engines

在第三代RT Cores中引入了兩個重要的硬件單元，首先是Opacity Micro-Map Engines，可以理解為微映射透明度引擎，它主要的作用是優化光線追蹤渲染，可大幅減輕著色器的工作負擔。

比如樹葉之類的復雜物體，不同的光線都會影響它的表現狀態，以及樹葉之間的光線反彈，所以對于光線追蹤的計算量是巨大的。

不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中，所以那些不規則形狀和半透明的對象，也就能夠更快更精準的渲染出來，從而極大減輕著色器的工作負擔。

Displaced Micro-Mesh Engines（DMM）

Displaced Micro-Mesh Engines可理解為微網格置換引擎，它構建光線追蹤的BVH（Bounding volume hierarchy）的速度提高了10倍！所使用的的顯存減少了20倍！

DMM由第三代RT core本地處理，與前幾代相比，它只使用基本三角形渲染復雜幾何圖形，極大減少了存儲和處理需求。

具體的工作原理從圖中一目了然，新的DMM可以將面數非常多的復雜圖形做簡化，創造出簡單的模型，但整體的光線追蹤效果不變。

通過一些模型數據我們可以具體看到，新的DMM將模型簡化了多少。原本1100萬三角面的模型，經過簡化后，只有15萬左右的微網格，BVH的構建速度提升了8.5倍，小了6.5倍。

而這還不是最夸張的，越復雜的模型往往優化的效果越好，在官方展示的這幾組對比示例中，最快可提升大于15倍的速度，容量簡化20倍的模型。

第四代 Tensor Cores

除了光追單元的升級外，第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎，在旗艦型號RTX 4090顯卡上，吞吐量達到了1.32 Tensor petaFLOPs，提高了5倍。

注意這里的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算，而petaFLOPs則為千萬億次浮點運算。

而在中端的RTX 4070上也達到了驚人的466 Tensor-TFLOPS，相比上一代RTX 3070 Ti，擁有2.7倍左右的提升。

DLSS 3

本次推出的DLSS 3也是RTX 40系一大賣點，從DLSS 2.3直接邁入了DLSS 3版本，也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。

全新的DLSS 3在原有的DLSS超分辨率的基礎上，添加了光學多幀生成技術，以生成全新的幀，而不像原來只能生成像素。

DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術，能夠重建八分之七的像素，極大提高性能。

在GPU受限的游戲中，比如2K分辨率及以上的更高分辨率，DLSS 2能夠將幀率提高2倍，DLSS 3則能夠提升4倍。

本次DLSS 3跨越了一個大版本，從想法和原理上也再度升級，完全“猜想”1幀的技術，我們解釋起來簡單，但實施起來需要大量的推理與演算，以及絕對超前的想法。

不過“憑空”生成的1幀，在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中，捆綁了NVIDIA Reflex，可以有效幫助減小延遲。

這也不負NVIDIA給它起了個“神經網絡渲染新時代”的名號。縱觀目前市面上的XeSS、FSR技術，DLSS絕對稱得上“巨人的肩膀”。當然，連年的創新，苦的是手持上一代顯卡的玩家，想體驗DLSS 3的幀生成，目前唯一的辦法就是購入一張RTX 40系顯卡。

New Optical Flow Accelerator

New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的，這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。

光流加速器在原本DLSS 2的基礎上，還可以計算兩個連續幀內的光流場，能夠捕捉游戲畫面從第1幀到第2幀的方向和速度，從中捕捉粒子、反射和光照等像素信息。并分別計算運動矢量和光流來獲得精準的陰影重建效果。

以《賽博朋克2077》為例，在第一幀，光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區域，計算幀之間的差值。

如果說原來DLSS 2能夠“猜”出一張圖剩下的像素，那么DLSS 3除了這些，還能夠“猜”出下一幀的畫面。

另外由于DLSS 3的幀生成是在GPU中處理和運行的，所以即使遇到CPU瓶頸的游戲，AI同樣能夠提升幀率。這也是為什么在此次發布會中說到，DLSS 3能夠突破CPU的限制來提升幀數。

AV1編碼器

本次升級的第八代NVENC編碼器可以說是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持，最顯而易見的效果就是直播。

相比傳統的H.264編碼，AV1編碼的效率平均提升了40%，在同碼率下AV1編碼的畫質將更好。目前大部分直播的分辨率和清晰度，均受限于平臺規定的最大比特率。以Twitch限制的8Mbps為例，可以看到在同等帶寬下，同為2K 60幀的畫面，采用AV1編碼的清晰度明顯比H.264更高。

說起直播，OBS相信大家都不陌生，在10月份即將發布的補丁中，OBS就加入了對NVENC的AV1編碼支持

當然，直播只是我們更容易見到的AV1優勢，在視頻工作的所有環節，AV1編碼都可以帶來極大提升。

所以，如圖所見。NVIDIA已經為廣大用戶鋪好了一條完整的生態鏈，從編碼API、軟件、平臺到播放器，將全面支持AV1編碼。

另外再說一下NVIDIA一直強調的在RTX 4070 Ti及以上型號配置的雙AV1編碼。顧名思義，即部分顯卡內搭載了兩個編碼器，它所帶來的效果也是顯而易見的。

首先，根據官方宣傳的，在4K H.265的導出速度上，RTX 4090是RTX 3090 Ti的2.2倍；在8K H.265的導出速度上更是達到了2.5倍。這部分的提升，大家常用的剪映同樣適用，感興趣的用戶不妨親自體驗一下。

除了導出速度，8K 60幀的視頻錄制在以前簡直難以想象，而雙編碼器的好處就是可以將圖像一分為二，兩個編碼器分別處理7680×2160的圖像信息，最后拼合完整。

關于編碼部分，可能大部分用戶的感受不深，但當有一天，你想錄屏的時候，卻發現顯卡不支持，才會發覺它的重要性……

隨著圖像逐漸進入到超清時代，硬件編碼和渲染幾乎已經成為不可或缺的幫手。雖然論質量，硬件編碼仍不及CPU軟編，但軟編做到了極限畫質，也要承受時間的無窮長。甚至在一張8K渲染圖中，兩種編碼方式的時間差距就已經達到了幾個小時，遑論一段10秒的CG動畫。在不斷進步的硬件編碼中，質量和時間也在不斷地被挑戰和刷新。

13附錄2-Ada Lovelace是誰？

Ada Lovelace（1815-1852）是英國數學家、計算機程序創始人，建立了循環和子程序概念，被稱為世界上第一位程序員。

Ada從小對數學有極高天賦，其父稱她為“平行四邊形公主”，后來的合作伙伴Charles Babbage稱她為“數字女巫”。在19歲時Ada嫁給了自己曾經的科學家庭教師，婚后的她對數學熱情不減。

1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄，寫了很多注記，其中給出了用計算機進行Bernoulli數求解的詳細說明。由此，Ada被廣泛認為是世界上第一個程序員。

而以她名字命名的語言——ada語言，已經成為了美國軍方開發戰斗機等尖端武器的語言。

從幾行簡短的生平簡介中，不難看出Ada的生命雖然只經歷了短暫的37個春秋，但卻足以被后人銘記。

這也是為什么此次NVIDIA RTX 40的先行宣傳中，用到了“以未來敬傳奇”的slogan。

???展開全文

熱門文檔

亚洲一级簧片_性毛片_国产乱子视频_久久影城_强伦女教师视频_成人精品久久

nvidia顯卡

1、NVIDIA GeForce RTX 4070概覽

2、NVIDIA GeForce RTX 4070 架構淺析

3、測試平臺簡介

4、理論性能測試

5、常規游戲性能測試

6、DLSS 3性能測試

7、Stable Diffusion AI繪畫測試

8、AV1編碼測試

9、RTX VSR（RTX Video Super Resolution）測試

10、溫度及功耗測試

11、年輕人的第一張 RTX 40系顯卡

12、附錄1-NVIDIA Ada Lovelace架構解析

amd和nvidia顯卡對比

evga顯卡

顯卡驅動nvidia

nvidia顯卡驅動更新

nvidia顯卡驅動

顯卡風扇不轉

怎么更新顯卡驅動

顯卡測試軟件

顯卡驅動安裝失敗

3060顯卡最佳頻率

電腦顯卡驅動怎么安裝

電腦顯卡自動設置方法

gta吃顯卡還是cpu

亚洲一级簧片_性 毛片_国产乱子视频_久久影城_强伦女教师视频_成人精品久久

nvidia顯卡

1、NVIDIA GeForce RTX 4070概覽

2、NVIDIA GeForce RTX 4070 架構淺析

3、測試平臺簡介

4、理論性能測試

5、常規游戲 性能測試

6、DLSS 3性能測試

7、Stable Diffusion AI繪畫測試

8、AV1編碼測試

9、RTX VSR（RTX Video Super Resolution）測試

10、溫度及功耗測試

11、年輕人的第一張 RTX 40系顯卡

12、附錄1-NVIDIA Ada Lovelace架構解析

amd和nvidia顯卡對比

evga顯卡

顯卡驅動nvidia

nvidia顯卡驅動更新

nvidia顯卡驅動

顯卡風扇不轉

怎么更新顯卡驅動

顯卡測試軟件

顯卡驅動安裝失敗

3060顯卡最佳頻率

電腦顯卡驅動怎么安裝

電腦顯卡自動設置方法

gta吃顯卡還是cpu

亚洲一级簧片_性毛片_国产乱子视频_久久影城_强伦女教师视频_成人精品久久

5、常規游戲性能測試