☰

除了帕斯卡 NVIDIA還要在自動駕駛和VR上發力

（原標題：除了帕斯卡 NVIDIA還要在自動駕駛和VR上發力）

NVIDIA GTC2016如期進行，也該是NVIDIA秀實力的時候了，毫無懸念的是老黃在GTC大會上發佈了首款基於帕斯卡核心的Tesla P100。但這不是GTC2016的全部，他們已經將科技樹點擴展到VR和自動駕駛領域，針對VR優化的Quadro M5500M顯卡、Drive PX 2自動駕駛平臺以及深度學習也同時登場，除了純粹的視覺計算之外，NVIDIA拿出了不一樣的玩法。

黃仁勳一上臺自然先說基於Pascal的Tesla P100。Tesla P100基於16nm FinFET工藝打造，面積610平方毫米，晶體管達到了150億個，單精度性能提升到10.6TFlops，雙精度性能5.3TFlops，要知道上一代Maxwell的GM200的單精度也只擁有7TFlops，雙精度0.2TFlops，提升幅度幾乎讓人無法直視。

最頂級的GP100核心將同時擁有3840 CUDA核心，240個紋理單元，最高支持32GB HBM2顯存、位寬4096bit。不過Tesla P100則處於能耗考慮，提供16GB HBM2顯存，3584個CUDA核心，224個紋理單元，今年第四季度量產，但要等到明年第一季度纔會上市。

玩家們可能要抱着GTX 980Ti再玩一會了，老黃髮布的Tesla P100與遊戲沒什麼關係，Tesla P100屬於服務器級產品，事實上NVIDIA正在與IBM合作，通過NVIDIA GPU與OpenPOWER結合加速Watson的技術升級，NVLink GPU互聯技術將同時支持IBM Power架構和NVIDIA Pascal架構兩個部分，它能夠一次性鏈接8個Tesla P100 GPU，而IBM POWER8上已經有所採用。

按照黃仁勳的說法，NVIDIA對Pascal GPU架構進行了重新設計，相對於Maxwell解決方案，Tesla P100要在神經網絡訓練上將性能提升12倍。同時半精度指令甚至還提供了超過21TFlops的峰值性能。由於Pascal架構將處理器和數據封裝到一起，包含HBM2顯存在內的CoWoS設計方式，也正因爲如此，它的顯存帶寬也達到了720GB/s，相當於Maxwell架構的3倍。

Tesla P100目的在於爲AMBER 分子動力學程序代碼等一系列HPC和深度學習應用程序提供更快的速度，NVIDIA用48個雙路CPU服務器節點作爲對比，無疑Tesla P100速度完勝，而在AlexNet深度神經網絡中，需要250個雙路CPU服務器節點才能比得上8個Tesla P100。而針對新平臺，NVIDIA SDK也將進行一系列更新，包括CUDA 8和cuDNN version 5深度神經網絡基元庫，方便工程師能夠在調配CPU和GPU之間運算的時候，提升CUDA運行效率。

在宣佈Tesla P100之後，黃仁勳緊接着推出了NVIDIA DGX-1深度學習系統，這套系統由8個Tesla P100組合而成，也就意味着8個16GB HBM2的顯存組合加起來將達到128GB，這也難怪NVIDIA並沒有急着讓Tesla P100的GP100一步到位支持32GB HBM2。

這裡老黃自信的表示NVIDIA DGX-1將匹敵250臺CPU服務器及其相應的網絡、線纜和機架，並且NVIDIA DGX-1擁有更大的易用性，性能提升幅度更大。在現場的PPT中NVIDIA也放出了一大波小夥伴作爲NVIDIA深度學習陣營的支持者，包括Facebook、百度、微軟。

與NVIDIA DGX-1隨之附送的還包括一套深度學習軟件、系統以及多個深度學習框架，包括Caffe、Theano以及Torch。

VR概念並分只能運用於遊戲，NVIDIA早已對工作站級的VR摩拳擦掌，像鋼鐵俠一樣的工作說不定過不了多久就能實現，而Quadro M5500M則成爲一款敲門磚產品。它擁有完整的GM204核心，同時也針對VR進行優化，並且能夠搭配VR Ready移動工作站。

微星MSI WT720在現場馬上表明瞭自己的態度，這款搭載了Quadro M5500M的VR Ready移動工作站與擁有桌面級顯卡GTX 980的GT72S相當類似，內置的Quadro M5500M擁有2048個CUDA，主頻1050MHz、8GB GDDR5顯存、256bit位寬，熱設計功耗達到恐怖的150W，甚至要比GT72S更勝一籌。

Quadro M5500M並沒有像Quadro M5000M那樣屏蔽掉四分之一個GM204核心，它是一塊完整的GM204，主要目的還是用來針對VR設計、開發以及工業設計。MSI WT720由於對VR進行了大量優化，它能完整的支持HTC VIVE和Oculus Rift設備，而所謂的VR Ready移動工作站就是爲此而生，相比自己花費心思組件移動平臺，這裡NVIDIA直接給出了一套完整的解決方案。

老黃演講的末端也不忘帶着NVIDIA Drive PX 2再出場秀一遍，當時爲了保密需要NVIDIA並沒有給出詳細參數，但這次他們變得十分大方，在Drive PX 2將搭載2個Pascal獨立顯卡，4GB GDDR5顯存，帶寬達到80GB/s，位寬128Bit，主頻1.25GHz。此外CPU部分則擁有8個A57外加4個Denver核心，CPU核心數量達到12個，同時還搭配8GB LPDDR4內存，功耗在250W左右，因此NVIDIA也爲其進行了水冷設計。

NVIDIA將Drive PX 2比喻成車載電腦中的小型超算，事實上車載電腦中不可能還有比整套更快的系統了，它的單精度性能達到8TFlops，並且已經開始交付使用，系統售價達到15000美元，也就是說沒有10萬軟妹幣，別想給車輛裝上Drive PX 2。

與前幾個產品一樣，Drive PX 2更注重於工業使用，在GTC2016現場，NVIDIA還發布了自己的Formula E無人駕駛賽車，看起來與現在的Formula E長相出入很大，但主要還是爲了證明無人駕駛在當下可實現程度的可能性。

在競爭對手回擊乏力的當下，NVIDIA選擇了在專業領域繼續乏力，更注重能耗比的專業領域對價格的敏感程度要遠比消費領域弱很多，這也意味着NVIDIA能夠藉助豐厚的利潤讓性能再提升一步。顯然這場GTC與玩家們的關係不大，手中抱着GTX 980Ti擔心貶值的玩家們現在大可放心，真正的旗艦級遊戲顯卡更新很可能要明年纔會來。同時那些想着GTX 980Ti降價的玩家們也只能等到明年，配合着新的CPU更新換臺新電腦纔是最好的選擇。

除了帕斯卡 NVIDIA還要在自動駕駛和VR上發力

相關資訊