设计之家 > 設計資訊 > 設計新聞 >

解鎖超凡生成式 AI 能力:TensorRT 加速 RTX PC 和工作站上的 AI

作者:佚名 來源:設計之家 時間:2024-03-28

 

+++

編者注:本文屬於《解碼 AI》係列欄目,該係列的目的是讓技術更加簡單易懂,從而解密 AI,同時向 RTX PC 用戶展示全新硬件、軟件、工具和加速特性。

隨著生成式 AI 技術不斷進步並在各行各業中得到廣泛應用,在本地 PC 和工作站上運行生成式 AI 應用的重要性越來越高。本地推理可讓用戶享受更低的延遲,不再依賴網絡,並能夠更好地保護和管理自己的本地數據。

NVIDIA GeForce 和 NVIDIA RTX GPU 配備專用的 AI 硬件加速器 Tensor Core,可為在本地運行生成式 AI 提供強大動力。

NVIDIA TensorRT 軟件開發者套件現已針對 Stable Video Diffusion 進行優化,該套件可在超過 1 億台由 RTX GPU 提供支持的 Windows PC 和工作站上解鎖超高性能生成式 AI。優化的 Stable Video Diffusion 1.1 Image-to-Video 模型可以在 Hugging Face 上下載。

適用於 Automatic1111 開發的熱門 Stable Diffusion WebUI 的 TensorRT 擴展程序現已添加對 ControlNet 的支持。ControlNet 是一種工具,可以讓用戶添加其他圖像作為指導,以便更好地把控並優化生成式內容的輸出。

全新的 UL Procyon AI 圖像生成基準測試現已支持 TensorRT 加速,內部測試表明該基準測試可以準確複現實際性能表現。與最快的非 TensorRT 加速狀態相比,TensorRT 加速可在 GeForce RTX 4080 SUPER GPU 上帶來 50% 的速度提升,比實力最接近的競品快 1 倍以上。

更高效、更精準的 AI

TensorRT 使開發者能夠得到完全優化的 AI 硬件體驗。與在其他框架上運行應用相比,AI 性能通常會翻倍。

TensorRT 還能加速非常熱門的生成式 AI 模型,例如 Stable Diffusion 和 SDXL。Stable Video Diffusion 是 Stability AI 的 Image-to-Video 生成式 AI 模型,在 TensorRT 的助力下,其速度可提升 40%。

此外,適用於 Stable Diffusion WebUI 的 TensorRT 擴展程序至高可將性能提升至原來的 2 倍,從而大幅加速 Stable Diffusion 工作流。

此擴展程序的最新更新使 TensorRT 的優化可擴展至 ControlNet。ControlNet 是一組 AI 模型,可借助額外控製來引導擴散模型的輸出。在 TensorRT 的助力下,ControlNet 的速度可提高 40%。

 

 

用戶可以引導輸出的各個方麵,使其與輸入圖像匹配,這使他們能夠加強對最終圖像的把控。他們還可以同時使用多個 ControlNet 來更好地把控輸出。ControlNet 可以使用深度圖、邊緣圖、法線圖或關鍵點檢測模型等。

立即在 GitHub 上下載適用於 Stable Diffusion WebUI 的 TensorRT 擴展程序。

由 TensorRT 加速的其他熱門應用

Blackmagic Design 在 DaVinci Resolve 的 18.6 更新中采用了 NVIDIA TensorRT 加速。與 Mac 相比,DaVinci Resolve 的神奇遮罩、光流 (Speed Warp) 和 Super Scale 等 AI 工具在 RTX GPU 上的運行速度提高了 50% 以上,最高可達在 Mac 上的 2.3 倍。

此外,借助 TensorRT 集成,Topaz Labs 的 Photo AI 和 Video AI 應用(例如照片降噪、銳化、照片超分辨率、視頻慢動作、視頻超分辨率、視頻防抖等)在 RTX 上運行時,性能至高可提升 60%。

將 Tensor Core 與 TensorRT 軟件結合後,本地 PC 和工作站可獲得卓越的生成式 AI 性能。此外,本地運行擁有以下優勢:

● 性能增強:用戶將體驗到更低的延遲,因為當整個模型在本地運行時,延遲不受網絡質量影響。這對於遊戲或視頻會議等實時用例非常重要。NVIDIA RTX 提供超快的 AI 加速器,可將 AI 運算速度擴展至超過 1300 萬億次運算/秒 (TOPS)。

● 成本降低:用戶無需承擔與大型語言模型推理相關的雲服務、雲托管 API 或基礎設施的成本。

● 隨時訪問:用戶可以隨時隨地訪問 LLM 功能,無需依賴高帶寬網絡連接。

● 數據隱私無虞:私人和專有數據可始終保留在用戶的設備上。

針對 LLM 優化

了解 TensorRT 為深度學習帶來了哪些優勢,以及 NVIDIA TensorRT-LLM 為最新的 LLM 帶來了哪些優勢。

TensorRT-LLM 是一個可加速和優化 LLM 推理的開源庫,包含對熱門社區模型(Phi-2、Llama2、Gemma、Mistral 和 Code Llama 等)的開箱即用支持。無論是開發者和創作者,還是企業員工和普通用戶,任何人都可以在 NVIDIA AI 遊樂園中試用經 TensorRT-LLM 優化的模型。此外,通過使用 NVIDIA ChatRTX 技術演示軟件,用戶可以了解在 Windows PC 上本地運行的各種模型的性能。ChatRTX 基於 TensorRT-LLM 構建,可優化 RTX GPU 上模型的性能。

借助新的封裝器,適用於 Windows 的 TensorRT-LLM 可與 OpenAI 的熱門聊天 API 兼容,您可以選擇在雲端或是在本地 RTX 係統上運行 LLM 應用,並在二者之間輕鬆切換。

NVIDIA 正在與開源社區合作,開發適用於熱門應用框架(包括 LlamaIndex 和 LangChain)的原生 TensorRT-LLM 連接器。

這些創新使開發者能夠輕鬆將 TensorRT-LLM 與其應用結合使用,並通過 RTX 體驗卓越 LLM 性能。

請訂閱《解碼 AI》時事通訊,我們每周都會將新鮮資訊直接投遞到您的收件箱。

###

 

标签:生成式AI

推薦設計

最新文章