本文介紹了(le)面向 AI 推理(lǐ)的(de)英特爾® 精選解決方案以及其如何解決 AI 推理(lǐ)部署的(de)痛點,包括其中采用(yòng)的(de)軟件、硬件和(hé)技術。該系列解決方案有基礎和(hé)增強配置,提供靈活的(de)可(kě)定制性,以滿足不同需求。您可(kě)通(tōng)過閱讀本文具體了(le)解如何在符合行業标準的(de)硬件上部署優化(huà)的(de)高(gāo)速人(rén)工智能推理(lǐ),驅動更高(gāo)商業價值。
越來(lái)越多(duō)的(de)企業希望借助人(rén)工智能 (AI) 以增加收入、提高(gāo)效率并推動産品創新。尤其需要指出的(de)是,基于深度學習(xí) (DL) 技術的(de)人(rén)工智能用(yòng)例能夠帶來(lái)有效且實用(yòng)的(de)洞察;其中一些用(yòng)例可(kě)在衆多(duō)行業推動進步,例如:
這(zhè)些用(yòng)例僅僅隻是開始。随著(zhe)企業将人(rén)工智能融入業務運營,他(tā)們将發現應用(yòng)人(rén)工智能的(de)新方法。然而,所有人(rén)工智能用(yòng)例的(de)商業價值都取決于由深度神經網絡訓練的(de)模型的(de)推理(lǐ)速度。在深度學習(xí)模型上支持推理(lǐ)所需的(de)資源規模可(kě)能非常龐大(dà),通(tōng)常需要企業更新硬件以獲得(de)其所需的(de)性能和(hé)速度。但是,許多(duō)客戶希望擴展其現有的(de)基礎設施,而不是重新購(gòu)買單一用(yòng)途的(de)新硬件。您的(de) IT 部門已經非常熟悉英特爾® 硬件架構,其靈活性能使您的(de) IT 投資更高(gāo)效。面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案是“一站式”平台,提供經過預配置、優化(huà)和(hé)驗證的(de)解決方案,無需另外配置加速卡,即可(kě)在 CPU 上實現低時(shí)延、高(gāo)吞吐量的(de)推理(lǐ)。
面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案
面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案能幫助您快(kuài)速入門,利用(yòng)基于經驗證的(de)英特爾® 架構的(de)解決方案,部署高(gāo)效的(de)人(rén)工智能推理(lǐ)算(suàn)法,從而加速創新和(hé)産品上市。爲了(le)加快(kuài)人(rén)工智能應用(yòng)的(de)推理(lǐ)和(hé)上市,面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案結合了(le)多(duō)種英特爾及第三方的(de)軟硬件技術。
軟件選擇
面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案使用(yòng)的(de)軟件包括開發人(rén)員(yuán)工具和(hé)管理(lǐ)工具,以輔助生産環境中的(de)人(rén)工智能推理(lǐ)。
英特爾® 分(fēn)發版 OpenVINO™ 工具包
英特爾® 分(fēn)發版開放視覺推理(lǐ)和(hé)神經網絡優化(huà)工具包(即英特爾® 分(fēn)發版 OpenVINO™ 工具包)是一套開發人(rén)員(yuán)套件,可(kě)加速高(gāo)性能人(rén)工智能和(hé)深度學習(xí)推理(lǐ)的(de)部署。該工具套件可(kě)針對(duì)多(duō)種英特爾® 硬件選項,對(duì)各種不同框架訓練的(de)模型進行優化(huà),以提供出色性能部署。工具套件中的(de)深度學習(xí)工作台 (DL Workbench) 可(kě)将模型量化(huà)到較低精度。在此過程中,工具套件把使用(yòng)較大(dà)的(de)高(gāo)精度 32 位浮點數(通(tōng)常用(yòng)于訓練,會占用(yòng)較多(duō)内存)的(de)模型轉換爲 8 位整數,以優化(huà)内存使用(yòng)和(hé)性能。将浮點數轉換爲整數能夠在保持幾乎相同精度的(de)同時(shí),顯著提高(gāo)人(rén)工智能推理(lǐ)速度1。該工具套件可(kě)以轉換和(hé)執行在多(duō)種框架中構建的(de)模型,包括 TensorFlow、MXNet、PyTorch、Kaldi 和(hé)開放神經網絡交換 (Open Neural Network Exchange, ONNX) 生态系統所支持的(de)任何框架。此外,用(yòng)戶還(hái)可(kě)獲得(de)經過預訓練的(de)公開模型,無需再自行搜尋或訓練模型,從而加速基于英特爾® 處理(lǐ)器的(de)開發和(hé)圖像處理(lǐ)管道優化(huà)。
深度學習(xí)參考堆棧
面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案配備深度學習(xí)參考堆棧 (DLRS)。這(zhè)是一個(gè)集成的(de)高(gāo)性能開源軟件堆棧,已針對(duì)英特爾® 至強® 可(kě)擴展處理(lǐ)器進行優化(huà),并封裝在一個(gè)便捷的(de) Docker 容器中。DLRS 經過預先驗證,并且配置完善,已包含所需的(de)庫和(hé)軟件組件,因此有助于降低人(rén)工智能在生産環境中與多(duō)個(gè)軟件組件集成所帶來(lái)的(de)複雜(zá)性。該堆棧還(hái)包括針對(duì)主流深度學習(xí)框架 TensorFlow 和(hé) PyTorch 高(gāo)度調優的(de)容器,以及英特爾® 分(fēn)發版 OpenVINO™ 工具包。該開源社區(qū)版本也(yě)有利于确保人(rén)工智能開發人(rén)員(yuán)可(kě)輕松獲得(de)英特爾® 平台的(de)所有特性和(hé)功能。
Kubeflow 和(hé) Seldon Core
随著(zhe)企業和(hé)機構不斷積累在生産環境中部署推理(lǐ)模型的(de)經驗,業界逐步形成了(le)一系列最佳實踐的(de)共識,即 “MLOps”,類似于 “DevOps” 軟件開發實踐。爲了(le)幫助團隊應用(yòng) MLOps,面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案使用(yòng) Kubeflow。借助 Kubeflow,團隊可(kě)在“零停機”的(de)情況下(xià)順利推出模型的(de)新版本。Kubeflow 使用(yòng)受到支持的(de)模型服務後端(例如 TensorFlow Serving)将經過訓練的(de)模型導出到 Kubernetes。模型部署則可(kě)使用(yòng)金絲雀測試或影(yǐng)子部署來(lái)實現新舊(jiù)版本的(de)并行驗證。如果發現問題,除了(le)進行跟蹤,團隊還(hái)可(kě)以使用(yòng)模型和(hé)數據版本控制來(lái)簡化(huà)根本原因分(fēn)析。
爲了(le)在需求增加時(shí)保持快(kuài)捷響應的(de)服務,面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案提供負載平衡功能,能夠跨節點将推理(lǐ)自動分(fēn)片到可(kě)服務對(duì)象的(de)可(kě)用(yòng)實例中。多(duō)租戶支持提供不同的(de)模型,從而提高(gāo)硬件利用(yòng)率。最後,爲了(le)在運行人(rén)工智能推理(lǐ)的(de)服務器和(hé)需要人(rén)工智能洞察的(de)端點之間加速處理(lǐ)推理(lǐ)請求,面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案可(kě)以使用(yòng) Seldon Core 來(lái)幫助管理(lǐ)推理(lǐ)管道。Kubeflow 還(hái)與 Seldon Core 集成,從而在 Kubernetes 上部署深度學習(xí)模型,并使用(yòng) Kubernetes API 來(lái)管理(lǐ)部署在推理(lǐ)管道中的(de)容器。
硬件選擇
面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案結合了(le)第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器、英特爾® 傲騰™ 固态盤 (SSD)、英特爾® 3D NAND 固态盤和(hé)英特爾® 以太網 700 系列,因此您的(de)企業可(kě)以在性能經過優化(huà)的(de)平台上快(kuài)速部署生産級人(rén)工智能基礎設施,爲要求嚴苛的(de)應用(yòng)和(hé)工作負載提供大(dà)内存容量。
第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器
面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案具有第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器的(de)性能和(hé)功能。對(duì)于“基礎”配置,英特爾® 至強® 金牌 6248 處理(lǐ)器在價格、性能和(hé)集成技術之間實現了(le)出色的(de)平衡,能夠增強人(rén)工智能模型上的(de)推理(lǐ)性能與效率。“增強”配置則采用(yòng)專爲實現更快(kuài)人(rén)工智能推理(lǐ)而設計的(de)英特爾® 至強® 鉑金 8268 處理(lǐ)器。此外,在任一配置中也(yě)可(kě)選用(yòng)更高(gāo)型号的(de)處理(lǐ)器。第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器包含英特爾® 深度學習(xí)加速技術。這(zhè)是一系列加速功能,可(kě)通(tōng)過專門的(de)矢量神經網絡指令 (VNNI) 集來(lái)提高(gāo)人(rén)工智能推理(lǐ)性能。該指令集使用(yòng)一條單獨指令即可(kě)完成之前需要三條單獨指令才能進行的(de)深度學習(xí)計算(suàn)。
英特爾® 傲騰™ 技術
英特爾® 傲騰™ 技術填補了(le)存儲和(hé)内存層之間的(de)重要空白,讓數據中心能夠更快(kuài)地獲取數據。這(zhè)項技術颠覆了(le)内存和(hé)存儲層,能夠在各種不同産品和(hé)解決方案中提供持久内存、大(dà)型内存池、高(gāo)速緩存和(hé)存儲。
圖 1. 英特爾® 傲騰™ 技術填補了(le)數據中心内存和(hé)存儲之間的(de)性能空白
英特爾® 傲騰™ 固态盤和(hé)英特爾® 3D NAND 固态盤
當緩存層運行在具備低時(shí)延和(hé)高(gāo)耐用(yòng)性的(de)高(gāo)速固态盤上時(shí),人(rén)工智能推理(lǐ)更能充分(fēn)發揮其性能。如緩存層采用(yòng)高(gāo)性能固态盤而非主流串行 ATA (SATA) 固态盤,則要求高(gāo)性能的(de)工作負載将受益匪淺。在英特爾® 精選解決方案中,緩存層采用(yòng)英特爾® 傲騰™ 固态盤。英特爾® 傲騰™ 固态盤單位成本可(kě)提供較高(gāo)的(de)每秒讀寫次數 (IOPS),且具備低時(shí)延和(hé)高(gāo)耐用(yòng)性,再加上高(gāo)達 30 次的(de)每日整盤寫入次數 (DWPD),是寫入密集型緩存功能的(de)理(lǐ)想選擇2。容量層則采用(yòng)英特爾® 3D NAND 固态盤,可(kě)提供出色的(de)讀取性能,并兼具數據完整性、性能一緻性和(hé)驅動可(kě)靠性。
25 Gb 以太網
25 Gb 英特爾® 以太網 700 系列網絡适配器能夠提升面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案的(de)性能。與使用(yòng) 1 Gb 以太網 (GbE) 适配器和(hé)英特爾® 固态盤 DC S4500 相比,使用(yòng) 25 Gb 以太網适配器配合第二代英特爾® 至強® 鉑金處理(lǐ)器和(hé)英特爾® 固态盤 DC P4600 可(kě)提供高(gāo)達前者 2.5 倍的(de)性能34。英特爾® 以太網 700 系列提供經過驗證的(de)性能;其廣泛的(de)互操作性可(kě)在數據彈性和(hé)服務可(kě)靠性方面滿足高(gāo)質量阈值5。所有英特爾® 以太網産品均提供全球售前和(hé)售後支持,并在産品周期内提供有限質保。
經過基準測試驗證的(de)性能
所有英特爾® 精選解決方案均通(tōng)過基準測試驗證,已滿足預先指定的(de)工作負載優化(huà)性能的(de)最低功能級别。在數據中心、網絡邊緣和(hé)雲中的(de)各類工作負載中,人(rén)工智能推理(lǐ)正逐漸成爲其重要組成部分(fēn),因此英特爾選擇使用(yòng)标準的(de)深度學習(xí)基準測試方法,并模拟真實場(chǎng)景進行測量和(hé)基準測試。
在标準基準測試中,每秒可(kě)處理(lǐ)的(de)圖像數量(即吞吐量)是在一個(gè)經過預先訓練的(de)深度殘差神經網絡 (ResNet 50 v1) 上測量的(de)。該神經網絡與使用(yòng)合成數據的(de) TensorFlow、PyTorch 和(hé) OpenVINO™ 工具套件上廣泛使用(yòng)的(de)深度學習(xí)用(yòng)例(如圖像分(fēn)類、定位和(hé)檢測)密切相關。
爲了(le)模拟真實場(chǎng)景,測試啓動了(le)多(duō)個(gè)客戶端,以模拟多(duō)個(gè)請求流。這(zhè)些客戶端将圖像從外部客戶端系統發送到服務器以進行推理(lǐ)。在服務器端,入站請求由 Istio 進行負載平衡。然後,請求将發送到一個(gè)可(kě)服務對(duì)象的(de)多(duō)個(gè)實例,該對(duì)象包含通(tōng)過 Seldon Core 運行的(de)一條預處理(lǐ)、預測和(hé)後處理(lǐ)步驟管道。預測使用(yòng) OpenVINO™ 工具包中 Model Server 經過優化(huà)的(de) DLRS 容器映像完成。在請求通(tōng)過管道後,推理(lǐ)結果将返回給提出請求的(de)客戶端。在此過程中測量出的(de)吞吐量和(hé)時(shí)延可(kě)幫助确保此測試配置足以支持生産環境中的(de)推理(lǐ)規模。
基礎配置和(hé)增強配置
我們以兩種參考配置(“基礎配置”和(hé)“增強配置”)向您展示面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案。兩者均已經過驗證,可(kě)提供出色性能。這(zhè)兩種配置經過專門的(de)設計和(hé)預測試,可(kě)提供出衆的(de)價值、性能、安全性和(hé)用(yòng)戶體驗。最終客戶也(yě)可(kě)與系統構建商、系統集成商,或是解決方案和(hé)服務提供商合作,根據企業和(hé)機構的(de)需求與預算(suàn)來(lái)定制這(zhè)些配置。
“基礎配置”具有出色的(de)性價比,且已針對(duì)人(rén)工智能推理(lǐ)工作負載進行優化(huà)。“增強配置”使用(yòng)高(gāo)于“基礎配置”的(de)英特爾® 至強® 可(kě)擴展處理(lǐ)器型号,并增加一倍内存。表 1 列出了(le)這(zhè)兩種配置的(de)詳細信息。
圖 2. 在面向人(rén)工智能推理(lǐ)的(de)英特爾® 精選解決方案上進行的(de)真實場(chǎng)景基準測試架構圖