除了帕斯卡 NVIDIA還要在自動駕駛和VR上發力
(原標題:除了帕斯卡 NVIDIA還要在自動駕駛和VR上發力)
NVIDIA GTC2016如期進行,也該是NVIDIA秀實力的時候了,毫無懸念的是老黃在GTC大會上發佈了首款基於帕斯卡核心的Tesla P100。但這不是GTC2016的全部,他們已經將科技樹點擴展到VR和自動駕駛領域,針對VR優化的Quadro M5500M顯卡、Drive PX 2自動駕駛平臺以及深度學習也同時登場,除了純粹的視覺計算之外,NVIDIA拿出了不一樣的玩法。
黃仁勳一上臺自然先說基於Pascal的Tesla P100。Tesla P100基於16nm FinFET工藝打造,面積610平方毫米,晶體管達到了150億個,單精度性能提升到10.6TFlops,雙精度性能5.3TFlops,要知道上一代Maxwell的GM200的單精度也只擁有7TFlops,雙精度0.2TFlops,提升幅度幾乎讓人無法直視。
最頂級的GP100核心將同時擁有3840 CUDA核心,240個紋理單元,最高支持32GB HBM2顯存、位寬4096bit。不過Tesla P100則處於能耗考慮,提供16GB HBM2顯存,3584個CUDA核心,224個紋理單元,今年第四季度量產,但要等到明年第一季度纔會上市。
玩家們可能要抱着GTX 980Ti再玩一會了,老黃髮布的Tesla P100與遊戲沒什麼關係,Tesla P100屬於服務器級產品,事實上NVIDIA正在與IBM合作,通過NVIDIA GPU與OpenPOWER結合加速Watson的技術升級,NVLink GPU互聯技術將同時支持IBM Power架構和NVIDIA Pascal架構兩個部分,它能夠一次性鏈接8個Tesla P100 GPU,而IBM POWER8上已經有所採用。
按照黃仁勳的說法,NVIDIA對Pascal GPU架構進行了重新設計,相對於Maxwell解決方案,Tesla P100要在神經網絡訓練上將性能提升12倍。同時半精度指令甚至還提供了超過21TFlops的峰值性能。由於Pascal架構將處理器和數據封裝到一起,包含HBM2顯存在內的CoWoS設計方式,也正因爲如此,它的顯存帶寬也達到了720GB/s,相當於Maxwell架構的3倍。
Tesla P100目的在於爲AMBER 分子動力學程序代碼等一系列HPC和深度學習應用程序提供更快的速度,NVIDIA用48個雙路CPU服務器節點作爲對比,無疑Tesla P100速度完勝,而在AlexNet深度神經網絡中,需要250個雙路CPU服務器節點才能比得上8個Tesla P100。而針對新平臺,NVIDIA SDK也將進行一系列更新,包括CUDA 8和cuDNN version 5深度神經網絡基元庫,方便工程師能夠在調配CPU和GPU之間運算的時候,提升CUDA運行效率。
在宣佈Tesla P100之後,黃仁勳緊接着推出了NVIDIA DGX-1深度學習系統,這套系統由8個Tesla P100組合而成,也就意味着8個16GB HBM2的顯存組合加起來將達到128GB,這也難怪NVIDIA並沒有急着讓Tesla P100的GP100一步到位支持32GB HBM2。
這裡老黃自信的表示NVIDIA DGX-1將匹敵250臺CPU服務器及其相應的網絡、線纜和機架,並且NVIDIA DGX-1擁有更大的易用性,性能提升幅度更大。在現場的PPT中NVIDIA也放出了一大波小夥伴作爲NVIDIA深度學習陣營的支持者,包括Facebook、百度、微軟。
與NVIDIA DGX-1隨之附送的還包括一套深度學習軟件、系統以及多個深度學習框架,包括Caffe、Theano以及Torch。
VR概念並分只能運用於遊戲,NVIDIA早已對工作站級的VR摩拳擦掌,像鋼鐵俠一樣的工作說不定過不了多久就能實現,而Quadro M5500M則成爲一款敲門磚產品。它擁有完整的GM204核心,同時也針對VR進行優化,並且能夠搭配VR Ready移動工作站。
微星MSI WT720在現場馬上表明瞭自己的態度,這款搭載了Quadro M5500M的VR Ready移動工作站與擁有桌面級顯卡GTX 980的GT72S相當類似,內置的Quadro M5500M擁有2048個CUDA,主頻1050MHz、8GB GDDR5顯存、256bit位寬,熱設計功耗達到恐怖的150W,甚至要比GT72S更勝一籌。
Quadro M5500M並沒有像Quadro M5000M那樣屏蔽掉四分之一個GM204核心,它是一塊完整的GM204,主要目的還是用來針對VR設計、開發以及工業設計。MSI WT720由於對VR進行了大量優化,它能完整的支持HTC VIVE和Oculus Rift設備,而所謂的VR Ready移動工作站就是爲此而生,相比自己花費心思組件移動平臺,這裡NVIDIA直接給出了一套完整的解決方案。
老黃演講的末端也不忘帶着NVIDIA Drive PX 2再出場秀一遍,當時爲了保密需要NVIDIA並沒有給出詳細參數,但這次他們變得十分大方,在Drive PX 2將搭載2個Pascal獨立顯卡,4GB GDDR5顯存,帶寬達到80GB/s,位寬128Bit,主頻1.25GHz。此外CPU部分則擁有8個A57外加4個Denver核心,CPU核心數量達到12個,同時還搭配8GB LPDDR4內存,功耗在250W左右,因此NVIDIA也爲其進行了水冷設計。
NVIDIA將Drive PX 2比喻成車載電腦中的小型超算,事實上車載電腦中不可能還有比整套更快的系統了,它的單精度性能達到8TFlops,並且已經開始交付使用,系統售價達到15000美元,也就是說沒有10萬軟妹幣,別想給車輛裝上Drive PX 2。
與前幾個產品一樣,Drive PX 2更注重於工業使用,在GTC2016現場,NVIDIA還發布了自己的Formula E無人駕駛賽車,看起來與現在的Formula E長相出入很大,但主要還是爲了證明無人駕駛在當下可實現程度的可能性。
在競爭對手回擊乏力的當下,NVIDIA選擇了在專業領域繼續乏力,更注重能耗比的專業領域對價格的敏感程度要遠比消費領域弱很多,這也意味着NVIDIA能夠藉助豐厚的利潤讓性能再提升一步。顯然這場GTC與玩家們的關係不大,手中抱着GTX 980Ti擔心貶值的玩家們現在大可放心,真正的旗艦級遊戲顯卡更新很可能要明年纔會來。同時那些想着GTX 980Ti降價的玩家們也只能等到明年,配合着新的CPU更新換臺新電腦纔是最好的選擇。