设计之家 > 設計資訊 > 設計新聞 >

性能矚目:Tensor RT-LLM,使大語言模型在搭載 RTX 的Windows平台上運行速度提高4倍

作者:佚名 來源:設計之家 時間:2023-10-18

+++

生成式 AI(GenerativeAI)是個人計算史上最重要的趨勢之一,推動遊戲、創作、視頻編輯、日常工作、開發等的發展。

GeForceRTX 和 NVIDIARTXGPU配備名為TensorCores的專用AI處理器,將生成式 AI (GenerativeAI)的強大功能原生引入超過1億台WindowsPC和工作站。

如今,TensorRT-LLM for Windows 使PC生成式AI(GenerativeAI)速度提高4倍,Tensor RT-LLM for Windows是一個開源庫,可加速最新AI大語言模型(如Llama2和CodeLlama)的推理性能。此前,TensorRT-LLM for Datacenter 已在上個月發布。

NVIDIA還發布幫助開發者加速LLM 的工具,包括使用TensorRT-LLM優化自定義模型的腳本、TensorRT優化的開源模型,以及一個展示LLM響應速度和質量的開發者參考項目。

TensorRT 加速現已應用於 Automatic 1111 發布的熱門應用 Stable Diffusion WebUI。它將生成式 AI(GenerativeAI)擴散模型的速度提升2倍,比此前最快的速度還快。

此外,作為今天發布的 GameReady 驅動的一部分,RTX VSR 視頻超分辨率(VideoSuperResolution)v1.5版現已發布,11月初發布的 NVIDIAStudio驅動 也將支持該技術。

Tensor RT為LLM增效

LLM正在提高生產力——聊天、總結文檔和網頁內容、起草電子郵件和博客,並且是由AI和其他軟件所組成的全新工作流的核心,可以自動分析數據並生成大量內容。

Tensor RT-LLM 是 NVIDIA 用於加速LLM推理的庫,使開發者和最終用戶可以享受運行 LLM 的更多優勢。現在,LLM 在搭載 RTX 的 WindowsPC 上的運行速度可提高4倍。

在更大的批量大小下,這種加速可顯著改善更複雜的LLM使用體驗,如寫作和編碼助手,可同時輸出多個唯一的自動完成結果,從而加速性能並改進質量,讓用戶可以有最好的選擇。

TensorRT-LLM 加速還有利於將LLM功能與其他技術相結合,例如在檢索增強生成(RAG)中,LLM與向量庫或向量數據庫組合。RAG使LLM能根據特定的數據集(如用戶的電子郵件或網站文章)提供更有針對性的答案。

在實際應用中,當我們向LLaMa2基礎模型提出"《心靈殺手2》(AlanWake2) 集成了 NVIDIA 的哪些技術?"這一問題時,它給出"遊戲尚未公布"這一毫無幫助的回答。

相反,使用RAG 將GeForce 新聞添加到向量庫中,並連接到相同的Llama2模型,不僅得到正確答案——NVIDIADLSS3.5、NVIDIAReflex和全景光線追蹤,而且在TensorRT-LLM加速的助力下響應速度更快。這種速度與能力的結合為用戶提供更智能的解決方案。

Tensor RT-LLM 即將能從 NVIDIA開發者網站下載。

Tensor RT優化的開源模型和以GeForce 新聞為示例項目的RAGDemo 可從ngc.nvidia.com和GitHub.com/NVIDIA下載。

自動加速

Diffusion模型(如 StableDiffusion)用於想象和創造令人驚歎的新穎藝術作品。圖像生成是一個迭代過程,可能需要數百次循環才能獲得完美輸出。如果在性能不足的 PC 上進行,這種循環可能會增加數小時的等待時間。

TensorRT旨在通過神經網絡層融合、精度校準、內核自動選擇和其他功能加速AI模型,從而顯著提高推理效率和速度。這使它成為實時應用和資源密集型任務不可或缺的工具。

現在,TensorRT使 StableDiffusion 生成速度翻倍。

兼容最熱門的 Automatic1111WebUI,借助 TensorRT 加速的 StableDiffusion 可以幫助用戶加快迭代速度,減少PC等待時間,更快生成最終圖像。在GeForceRTX4090上,它的運行速度是使用蘋果M2Ultra的Mac頂配版的7倍。該擴展即日起可供下載。

基於 StableDiffusion 流程的TensorRTDemo 為開發者提供了如何為Tensor RT加速準備擴散模型並部署加速的參考實現。這是一個起點,它可以為對此感興趣的開發者加速 Diffusion 流程,並為應用帶來快如閃電的推理能力。

超級視頻體驗

AI 正在改善所有用戶的諸多日常PC體驗。流媒體視頻是PC上最受歡迎的活動之一,其來源幾乎無所不包,如YouTube、Twitch、PrimeVideo、Disney+等。得益於 AI 和RTX,它的圖像質量又有全新提升。

RTXVSR視頻超分辨率在 AI 像素處理方麵的重大突破,通過減少或消除壓縮視頻造成的失真,提高直播視頻內容的質量。此外,它還能銳化邊緣和細節。

現在,RTXVSR 視頻超分辨率v1.5版通過更新模型進一步提升視頻畫麵質量,消除以原始分辨率播放內容的偽影,並增加對采用 NVIDIA Turing 架構的RTX 20 係列GPU的支持,包括:專業圖形卡和GeForceRTX20係列GPU。

重新訓練VSRAI模型有助於它學會準確識別微妙細節和壓縮失真之間的區別。因此,經過AI增強的圖像在放大過程中能更準確地保留細節。細節更加清晰可見,整體圖像看起來更加銳利清晰。v1.5版的全新功能是消除以屏幕原始分辨率播放視頻時的失真。最初的版本僅在視頻分辨率被提升時增強視頻效果。現在,例如在1080p分辨率顯示器上串流1080p視頻會更流暢,因為嚴重的失真會顯著改善。

RTXVSR現在能消除以原始分辨率播放視頻時的失真

即日起,所有RTX用戶可在最新的GameReady 驅動中獲取 RTXVSR 視頻超分辨率v1.5 版使用,下月初發布的NVIDIAStudio驅動也將支持該技術。

RTXVSR 視頻超分辨率是NVIDIA軟件、工具、庫和SDK(如上文提到的軟件、工具、庫和SDK,以及DLSS、Omniverse、AIWorkbench等軟件)的一部分,這些軟件、工具、庫和SDK為消費者帶來超過400款AI加速的應用和遊戲。

AI時代即將到來。RTX正為其發展的每一步增加動力。

關於NVIDIA
自1993年成立以來,NVIDIA (NASDAQ: NVDA) 一直是加速計算領域的先驅。NVIDIA 1999年發明的 GPU 驅動了 PC 遊戲市場的增長,並重新定義了現代計算機圖形,開啟了現代AI時代,正在推動跨市場的工業數字化。NVIDIA 現在是一家全棧計算公司,其數據中心規模的解決方案正在重塑整個行業。更多信息,請訪問https://nvidianews.nvidia.com/。

# # #

媒體谘詢:

Jade Li

NVIDIA GeForce, Studio PR

郵箱:jadli@nvidia.com

标签:Tensor

推薦設計

最新文章