HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))
當“人工智能步入落地之年” AI 不再是概念,而是全面進(jìn)入到企業(yè)的戰略規劃之中。算力作為人工智能應用的平臺和基礎,它的發(fā)展推動(dòng)了整個(gè)人工智能系統的發(fā)展和快速演進(jìn),成為人工智能的最核心要素。
隨著(zhù)科技的不斷發(fā)展,獲取算力的方式和途徑越來(lái)越豐富,就目前而言,公有云和數據中心(私有云)已經(jīng)成為兩大主流的算力獲取方式。不過(guò),在實(shí)際的部署和應用中,它們對于中小型AI開(kāi)發(fā)團隊來(lái)說(shuō)都存在著(zhù)很多問(wèn)題。比如,中小型 AI 開(kāi)發(fā)團隊的 AI 模型訓練往往是階段性的,而階段性訪(fǎng)問(wèn)公有云需要按次收取算力費用,如此累積算下來(lái)將是一筆不菲的投入,相比之下,一次性購買(mǎi)一臺 GPU 工作站會(huì )更加劃算。而建立私有的數據中心,不僅需要批量購置 GPU 服務(wù)器,還需要搭建標準機房、高帶寬網(wǎng)絡(luò )部署,與此同時(shí)更需要增加專(zhuān)業(yè)IT維護人員的工作負荷,這對于中小型AI開(kāi)發(fā)團隊來(lái)說(shuō)相當奢侈。
從中小型AI開(kāi)發(fā)團隊的使用場(chǎng)景和使用需求中不難發(fā)現,降本增效是他們衡量一款解決方案是否合適的重要因素之一。這意味著(zhù)算力設備需要在保障團隊算力需求,可以共享使用的同時(shí),還要做到簡(jiǎn)單部署易操作,省時(shí)省力省空間。也因此,數據科學(xué)工作站的出現,可以很好地滿(mǎn)足這些切實(shí)需求。
數據科學(xué)工作站是 PC 形態(tài)的桌面超級計算機,相較于 PC ,它支持雙路 Intel? 至強?鉑金/金牌等系列的處理器和主板芯片海量?jì)却?、大容?SATA 硬盤(pán)以及多塊 NVIDIA ?高端 RTX? 專(zhuān)業(yè)級顯卡等,可以滿(mǎn)足算法訓練等 AI 工作流程中所需要的強大算力需求以及圖形應用中的海量浮點(diǎn)運算和 3D 渲染工作等對硬件的苛刻要求。
數據科學(xué)工作站與公有云或數據中心相比,不僅性?xún)r(jià)比高,更容易部署,而且噪音低,可以讓中小型AI開(kāi)發(fā)團隊直接在辦公區內進(jìn)行協(xié)同開(kāi)發(fā)。
惠普最近升級的 HP Z8 G4 數據科學(xué)工作站以其強大的性能表現,穩定可靠的安全性,以及全方位的系統和軟件支持,在專(zhuān)業(yè)領(lǐng)域工作環(huán)境下,為使用者提供了絕佳的高性能計算解決方案。
同時(shí),惠普最新還推出了一款基于 Docker Kubernetes 的人工智能容器云平臺HP AI開(kāi)發(fā)平臺。該平臺能夠實(shí)現異構資源的高效管理、調度和監控,提供了從模型開(kāi)發(fā)、訓練到部署的完整流程和工具,廣泛適用于教育、科研、金融、醫療、能源各個(gè)行業(yè),能極大降低人工智能進(jìn)入門(mén)檻,提高人工智能創(chuàng )新和研發(fā)的效率。
為了讓中小型AI開(kāi)發(fā)團隊更切實(shí)更全面地認識 HP Z8 G4 數據科學(xué)工作站以及 HP AI 開(kāi)發(fā)平臺在團隊協(xié)作開(kāi)發(fā)中的價(jià)值,智東西公開(kāi)課AI教研團隊聯(lián)合兩位 Kaggle Grandmaster 模擬現實(shí)開(kāi)發(fā),對 HP AI 開(kāi)發(fā)平臺的功能應用,及其在 HP Z8 G4 數據科學(xué)工作站上的使用體驗兩個(gè)方面進(jìn)行了深入評測和項目實(shí)驗。
智東西公開(kāi)課AI教研團隊主要承擔在 HP Z8 G4 數據科學(xué)工作站中安裝 HP AI 開(kāi)發(fā)平臺,并且作為管理員進(jìn)行資源管理。兩位 Kaggle Grandmaster 將基于我們分配的資源,協(xié)同完成基于數據集 CASIA-SURF 的人臉活體檢測,以及基于數據集 STS-B 的自然語(yǔ)言文本分類(lèi)這兩項實(shí)驗。
兩位 Kaggle GrandMaster 分別是關(guān)注自然語(yǔ)言處理領(lǐng)域的算法工程師吳遠皓和從事醫療AI算法研發(fā)工作的算法工程師沈濤。吳遠皓已參加超過(guò)20場(chǎng)Kaggle競賽,獲得8枚金牌,并于2019年成為 Kaggle Competitions Grandmaster ,全球最高排名第36位。沈濤在機器學(xué)習競賽平臺 Kaggle 上共得到11塊金牌,獲得了 Kaggle Grandmaster 稱(chēng)號,全球最高排名第8位。
在進(jìn)入正文介紹 HP AI 開(kāi)發(fā)平臺的功能及實(shí)驗之前,我們先來(lái)了解一下本次使用的 HP Z8 G4 數據科學(xué)工作站的核心參數,如下:
圖表0.0.1
再給大家看看3塊 NVIDIA A5000 顯卡安裝好之后的實(shí)際展示。下圖中的“三條金色模塊”即為 NVIDIA A5000 顯卡。
圖表0.0.2
下圖是 HP Z8 G4 數據科學(xué)工作站實(shí)際工作的展示:
圖表0.0.3
1、HP AI 開(kāi)發(fā)平臺功能全解
本章節將為大家展示 HP AI 開(kāi)發(fā)平臺的安裝過(guò)程和架構組成,并重點(diǎn)介紹其為開(kāi)發(fā)者所提供的模型訓練、數據存儲、任務(wù)鏡像,以及向管理者所提供的用戶(hù)權限、監控中心、系統設置等特色功能。
下面進(jìn)入 HP AI 開(kāi)發(fā)平臺的安裝。HP AI 開(kāi)發(fā)平臺的安裝包是適用于 Unix 系統和類(lèi) Unix 系統的.run 格式文件,整個(gè)安裝過(guò)程分三步,十分簡(jiǎn)單:
第一步,在 Ubuntu 系統的終端中,輸入:
“sudo bash AI_HP -Evaluation-4.5.1-HP-63045-offline.run”即可進(jìn)行安裝。
第二步,成功安裝完成后,會(huì )顯示:
“Please visit htp://192.168.88.80:5678 to continue installation.”。此時(shí)瀏覽器輸入網(wǎng)址后會(huì )看到平臺的環(huán)境正在初始化。
第三步,平臺環(huán)境初始化完成后,會(huì )自動(dòng)跳轉到 HP AI 開(kāi)發(fā)平臺的登錄界面,此時(shí)輸入賬號密碼即可完成登錄。下圖為 HP AI 開(kāi)發(fā)平臺的首頁(yè)展示。
圖表 1.0.1
1、平臺架構
圖表 1.1.1
1.1、基礎設施層
基礎設施層以X86的服務(wù)器、專(zhuān)業(yè)工作站為載體,可通過(guò) GPU、CPU 等提供高性能加速計算,支持 TCP/IP,InfiniBand 高速網(wǎng)絡(luò )互聯(lián),以及 NFS 和 GlusterFS 兩種類(lèi)型的存儲格式。
1.2、資源調度層
采用容器化技術(shù)管理底層資源,并利用 Kubernetes(K8s)技術(shù)進(jìn)行容器編排調度。
1.3、應用服務(wù)層
應用服務(wù)層支持主流的 TensorFlow、Caffe、PyTorch 和 MxNet 等主流的機器學(xué)習框架,以及完整的機器學(xué)習所需的處理流程,實(shí)現資源操作自動(dòng)化。
1.4、業(yè)務(wù)領(lǐng)域層
通過(guò)支持自然語(yǔ)言處理、圖像識別和語(yǔ)音識別等任務(wù),可以滿(mǎn)足金融、教育、醫療、制造等行業(yè)場(chǎng)景的 AI 開(kāi)發(fā)需求。
2、特色功能
2.1、模型訓練
2.1.1、任務(wù)列表
任務(wù)管理界面,有“任務(wù)訓練”、“交互式開(kāi)發(fā)”、“可視化”、“模型部署”等四個(gè)功能頁(yè)。管理員用戶(hù)可以查看和管理所有用戶(hù)的訓練任務(wù),包括任務(wù)訓練任務(wù)、交互式開(kāi)發(fā)任務(wù)、可視化任務(wù)、模型部署任務(wù)。
圖表 1.2.1
查看任務(wù)
可以看到所有用戶(hù)的所有任務(wù)的簡(jiǎn)要配置信息,如任務(wù)名稱(chēng)、所屬用戶(hù)、任務(wù)的執行器、所屬分區、資源配額、創(chuàng )建時(shí)間等。點(diǎn)擊“任務(wù)訓練”、“交互式開(kāi)發(fā)”、“可視化”、“模型部署”來(lái)展示不同類(lèi)型的任務(wù)。
比如在交互式任務(wù) “interactive14871” 中,可以分別看到任務(wù)節點(diǎn)、用戶(hù)名、執行器、分區名稱(chēng)、資源配置、任務(wù)優(yōu)先級、運行狀態(tài)、創(chuàng )建時(shí)間、空閑時(shí)間等。
圖表 1.2.2
點(diǎn)擊“詳情”可以進(jìn)一步查看任務(wù)的基本信息、資源配置、應用信息和狀態(tài)等。
圖表 1.2.3
刪除任務(wù)
點(diǎn)擊“刪除”按鈕即可刪除正在運行中的任務(wù)。
需要注意的是在“任務(wù)訓練”中的任務(wù),點(diǎn)擊“刪除”按鈕,只會(huì )刪除正在運行中的訓練任務(wù),記錄無(wú)法被刪除,記錄不會(huì )占用 CPU、GPU、內存等資源,其他類(lèi)型任務(wù)刪除后不保留記錄。
查詢(xún)用戶(hù)任務(wù)
在界面右側輸入框中輸入要查找的用戶(hù)名,回車(chē)進(jìn)行查找。
2.1.2、任務(wù)統計
管理員可對 HP AI 開(kāi)發(fā)平臺中各分區任務(wù)進(jìn)行統計。查看分區中已計劃、已完成、運行中、暫停中的任務(wù)數量以及任務(wù)的資源占用信息?!叭蝿?wù)統計”可以幫助管理員了解各分區中用戶(hù)在一段時(shí)間內使用任務(wù)訓練的使用情況。
圖表1.2.4
根據日期統計任務(wù)
管理員可選擇指定日期,統計指定日期時(shí)間到當前時(shí)間的任務(wù)數量及任務(wù)資源占用情況。
圖表 1.2.5
2.1.3、任務(wù)隊列
點(diǎn)擊左側菜單“任務(wù)隊列”,進(jìn)入任務(wù)隊列界面,分別顯示優(yōu)先級為“高”、“普通”、“低”三種優(yōu)先級任務(wù)。
圖表1.2.6
2.2、數據存儲
HP AI 開(kāi)發(fā)平臺支持基于 NFS 的分布式存儲方式,滿(mǎn)足用戶(hù)對數據的安全和性能要求。豐富的數據管理、分享功能極大方便了用戶(hù)的使用。
2.2.1、數據卷
管理員可以創(chuàng )建 NFS 卷,對卷進(jìn)行管理操作,查看卷的使用情況。
圖表1.2.7
查看“NFS”卷列表
可以看到 NFS 數據卷列表及每個(gè)數據卷的服務(wù)器地址、共享目錄、掛載權限、狀態(tài)及描述狀態(tài)。
圖表 1.2.8
創(chuàng )建 NFS 卷
點(diǎn)擊“創(chuàng )建 NFS 卷”按鈕,進(jìn)入NFS卷創(chuàng )建界面。
圖表 1.2.9
NFS 名詞參數解釋
圖表 1.2.10
查看卷使用情況
管理員用戶(hù)在數據卷列表頁(yè)面點(diǎn)擊卷名稱(chēng)后,該數據卷的總使用情況和各用戶(hù)使用情況均會(huì )顯示在此頁(yè)面。
圖表 1.2.11
2.2.2、公共數據
公共數據即擁有 HP AI 開(kāi)發(fā)平臺用戶(hù)都可以訪(fǎng)問(wèn)的數據,管理員可以上傳公共數據,并對公共數據進(jìn)行管理,普通用戶(hù)只有復制到用戶(hù)私有數據和下載權限。
圖表 1.2.12
創(chuàng )建目錄
用戶(hù)可以在“公共數據”頁(yè)面點(diǎn)擊“創(chuàng )建目錄”來(lái)創(chuàng )建自己的目錄。名稱(chēng)不能包含以下字符”, ‘|’, ‘*’, ‘?’, ‘,’,’/’,’ ‘, 長(cháng)度在1~50個(gè)字符,創(chuàng )建成功會(huì )有相應提示。否則創(chuàng )建失敗。
圖表 1.2.13
上傳數據
將本地文件上傳到“公共數據”中。適合小文件的上傳。
圖表 1.2.14
刷新
若對文件進(jìn)行了增刪修改操作,點(diǎn)擊“刷新”按鈕更新文件狀態(tài)及屬性。
文件列表:文件及文件夾管理
針對文件列表里面的每一個(gè)文件及文件夾,都有相應的管理功能,如重命名、下載、復制、查看文件大小、刪除等,針對文件還有在線(xiàn)查看功能,方便管理員進(jìn)行管理操作。
圖表 1.2.15
2.3、任務(wù)鏡像
2.3.1、公共鏡像
由管理員上傳的鏡像為公共鏡像,用戶(hù)都可以看到并且可以在創(chuàng )建任務(wù)時(shí)使用。管理員在“下載鏡像”中下載的鏡像和上傳的鏡像均在此界面管理。此界面中管理員可對公共鏡像進(jìn)行設置刪除、二次更新制作鏡像及查看鏡像詳細信息等操作。
圖表 1.2.16
上傳鏡像
管理員用戶(hù)在鏡像倉庫頁(yè)面,也可以上傳公共鏡像。
2.3.2、鏡像倉庫
管理員在鏡像倉庫頁(yè)面,可以查看各用戶(hù)的私有鏡像,或上傳公共鏡像
查看鏡像倉庫
上傳鏡像
管理員用戶(hù)在鏡像倉庫頁(yè)面,也可以上傳公共鏡像。
查看鏡像倉庫
在鏡像倉庫列表中,點(diǎn)擊任意用戶(hù)名,即可進(jìn)入用戶(hù)的鏡像倉庫中查看用戶(hù)的私有鏡像。
圖表 1.2.19
2.3.3、下載鏡像
點(diǎn)擊“下載鏡像”,進(jìn)入以下界面,該界面有 “ Docker Hub ”、“ HP 機器學(xué)習鏡像”和 “NVIDIA鏡像” 三個(gè)功能頁(yè)面。用戶(hù)可根據自己需要的鏡像環(huán)境去 Docker 官方鏡像倉庫Docker Hub、HP 機器學(xué)習鏡像倉庫和 NVIDIA 鏡像倉庫下載指定鏡像。
圖表 1.2.20
HP 機器學(xué)習鏡像
此功能頁(yè)預留了官方制作好的鏡像,包括 Caffe、Cuda、OpenVINO、PyTorch、TensorFlow-gpu 等11個(gè)鏡像系統。每個(gè)鏡像版本完整,并和官方機器學(xué)習框架 Release 保持一致,用戶(hù)可直接使用。
圖表 1.2.21
NVIDIA 鏡像
允許用戶(hù)查看 NGC 鏡像列表,下載使用 NGC 上 NVIDIA 提供的鏡像。
圖表 1.2.22
2.4、用戶(hù)權限
2.4.1、用戶(hù)
點(diǎn)擊左側菜單“用戶(hù)權限-用戶(hù)”,進(jìn)入用戶(hù)管理界面。管理員用戶(hù)可以對用戶(hù)創(chuàng )建、刪除、編輯以及配置分區、存儲卷和資源配額等,對用戶(hù)的 CPU 、 GPU 、 Mem 和存儲配額進(jìn)行設定,限定用戶(hù)能使用的資源數量。用戶(hù)的數據存儲空間相互隔離,每個(gè)用戶(hù)只能訪(fǎng)問(wèn)各自空間中的數據,無(wú)法越界訪(fǎng)問(wèn)未授權的數據。
圖表 1.2.23
查看用戶(hù)
在用戶(hù)管理界面,可以查看每個(gè)用戶(hù)的手機號碼、郵箱地址、創(chuàng )建時(shí)間、創(chuàng )建人、修改時(shí)間、修改人、綁定的分區以及用戶(hù)組名。
圖表1.2.24
點(diǎn)擊“操作”按鈕 -> 查看數據卷與配額,可以查看用戶(hù)的資源配額限定情況。
圖表 1.2.25
點(diǎn)擊“查看關(guān)聯(lián)角色”。
圖表 1.2.26
點(diǎn)擊“修改用戶(hù)信息”,可對已有用戶(hù)的手機號、郵箱、用戶(hù)組、分區和配額進(jìn)行修
圖表 1.2.27
點(diǎn)擊“重置密碼”,可重置用戶(hù)密碼。管理員可以通過(guò)兩種方式重置用戶(hù)密碼。一種是系統自動(dòng)生成密碼。如使用這種方式重置密碼,管理員只需點(diǎn)擊“重置密碼”按鈕即可在界面上看到新密碼;另一種重置密碼方式為管理員手動(dòng)修改密碼,只需輸入兩遍新密碼,并點(diǎn)擊“提交”按鈕,即可修改此用戶(hù)的密碼。
表 1.2.28
點(diǎn)擊“刪除”,可刪除用戶(hù)。
2.4.2、用戶(hù)組
修改默認配額
管理員用戶(hù)可以點(diǎn)擊用戶(hù)列表頁(yè)面上的“修改默認配額”按鈕,來(lái)修改創(chuàng )建用戶(hù)時(shí)默認的可使用資源配額。如 CPU 、 GPU 、內存、存儲和任務(wù)數量的默認配額。
圖表 1.2.30
創(chuàng )建用戶(hù)
點(diǎn)擊“創(chuàng )建用戶(hù)”按鈕,進(jìn)入“創(chuàng )建用戶(hù)”界面后,需要填寫(xiě)用戶(hù)的基本信息和配置用戶(hù)組、數據卷、分區等參數。CPU 、GPU 、內存、存儲等參數默認使用默認配額中的配置。
圖表 1.2.38
2.4.2、用戶(hù)組
管理員用戶(hù)在用戶(hù)組頁(yè)面,可以查看、創(chuàng )建和刪除用戶(hù)組。
圖表 1.2.32
查看用戶(hù)組
點(diǎn)擊“查看關(guān)聯(lián)角色”,顯示該用戶(hù)組的所有角色。
圖表 1.2.33
點(diǎn)擊“查看該組用戶(hù)”,顯示該用戶(hù)組的所有用戶(hù)。
圖表 1.2.34
創(chuàng )建用戶(hù)組
管理員在用戶(hù)組列表頁(yè)面,點(diǎn)擊“創(chuàng )建用戶(hù)組”按鈕進(jìn)入創(chuàng )建用戶(hù)組界面,輸入用戶(hù)組名(用戶(hù)組名長(cháng)度1-20個(gè)字符,不能包含字符”, ‘|’, ‘*’, ‘?’, ‘,’,’/’。),選擇不同模塊的權限,最后點(diǎn)擊“提交”按鈕創(chuàng )建新的用戶(hù)組。點(diǎn)擊“取消”按鈕取消創(chuàng )建用戶(hù)組,回到用戶(hù)組列表頁(yè)面。
圖表 1.2.35
各個(gè)功能模塊不同角色的權限參照下表:
圖表 1.2.36
2.5、監控中心
2.5.1、儀表盤(pán)
儀表盤(pán)提供了多維度和多層次的監控信息,使系統使用透明、可追蹤。管理員用戶(hù)在左側菜單欄中選擇儀表盤(pán),即可查看節點(diǎn)和分區的資源使用情況。
節點(diǎn)查看
點(diǎn)擊節點(diǎn)頁(yè)面的“查看”,可以針對某個(gè)節點(diǎn)監控信息進(jìn)行查看。
圖表 1.2.38
分區查看
點(diǎn)擊分區頁(yè)面的“查看”,可以針對某個(gè)分區監控信息進(jìn)行查看。
1、資源創(chuàng )建與分配
2.5.2、監控報表
在當前界面可以選擇 HP AI 開(kāi)發(fā)平臺的節點(diǎn)、分區等選項來(lái)監控資源利用情況呈現可視化圖表。
圖表 1.2.40
2.5.3、實(shí)時(shí)信息
在當前界面可以選擇 HP AI 開(kāi)發(fā)平臺 GPU 用途分布、GPU 使用概況、GPU 使用分布等可視化圖表。
圖表 1.2.41
管理員可以查看 GPU 的用途分布統計(任務(wù)訓練、交互式使用、可視化、空閑使用)。
管理員可以查看 GPU 的分區使用統計(總共使用,每個(gè)分區使用)。
管理員可以查看 GPU 的用戶(hù)使用統計(總共使用,每個(gè)用戶(hù)使用)。
管理員可以查看節點(diǎn) GPU 使用概況(總數、空閑、已占用),以及每一塊 GPU 卡的使用率和顯存使用率。
2.5.4、歷史統計
在當前界面可以查看 HP AI 開(kāi)發(fā)平臺用戶(hù)資源使用統計圖表。
圖表 1.2.42
2.6、系統設置
GPU 配置
在當前界面可以選擇 HP AI 開(kāi)發(fā)平臺 GPU 類(lèi)型、切片數量。
圖表 1.2.43
輸入切片數量,點(diǎn)擊“確認”后,即可為 GPU 切片。
圖表 1.2.44
2、實(shí)驗:人臉活體檢測和自然語(yǔ)言文本分類(lèi)
在本章節,智東西公開(kāi)課AI教研團隊將作為管理員,分配不同的賬戶(hù)資源給到兩位 Kaggle Grandmaster 進(jìn)行模型開(kāi)發(fā)實(shí)驗,并在平臺后端監測相應的資源使用情況和反饋。
1、資源創(chuàng )建與分配
1.1、創(chuàng )建分區 kaggle
圖表 2.1.1
圖表 2.1.2
1.2、創(chuàng )建用戶(hù)組 viewers
圖表 2.1.3
圖表 2.1.4
1.3、創(chuàng )建用戶(hù) master1、master2
圖表 2.1.5
圖表 2.1.6
2、實(shí)驗一:基于數據集 CASIA-SURF 的人臉活體檢測
2.1、實(shí)驗說(shuō)明
該部分實(shí)驗由 Kaggle Grandmaster 沈濤完成。
人臉活體檢測是人臉識別過(guò)程中的一個(gè)重要環(huán)節。它對人臉識別過(guò)程存在照片、視頻、面具、頭套、頭模等欺騙手段進(jìn)行檢測,對于身份驗證的安全性尤為重要。從技術(shù)發(fā)展上,人臉活體檢測可以簡(jiǎn)單地分為兩大類(lèi):傳統的人工特征模式識別方法和近年來(lái)興起的深度學(xué)習方法。目前,深度學(xué)習方法在識別準確性上已有較大優(yōu)勢。
很多人臉識別系統利用可見(jiàn)光人臉圖像進(jìn)行活體檢測,識別性能易受到光照條件的影響。
同時(shí),基于可見(jiàn)光光譜的識別方式也很難應對常見(jiàn)的偽造攻擊。使用多模態(tài)數據進(jìn)行活體檢測建模,能有效緩解這些問(wèn)題。融合多種成像設備的圖像信息,比如可見(jiàn)光,近紅外和深度圖像等,既能提升模型的識別性能,也能減少光照條件對性能的干擾。
本次實(shí)驗,我們使用 HP AI 開(kāi)發(fā)平臺,搭建并訓練深度學(xué)習模型,用于人臉活體檢測。數據集采用了 CASIA-SURF 集合。該數據集含有人臉可見(jiàn)光圖,近紅外和深度圖三種模態(tài)信息,包含了1000個(gè)個(gè)體樣本的21000段視頻。采集設備是英特爾的 RealSense 立體相機。
模型結構方面,我們會(huì )實(shí)驗多種不同架構,包括 CNN 類(lèi)型的架構 FaceBagNet 模型, MLP 類(lèi)的架構,(如 VisionPermutator,MLPMixer 等),還有近期非常熱門(mén)的Vision Transformer(ViT)模型。并且比對這些模型在該任務(wù)上的性能。
圖表 2.2.1
2.2、實(shí)驗流程
2.2.1、環(huán)境配置
(1)進(jìn)入實(shí)驗平臺,新建交互任務(wù) Terminal,選擇合適的鏡像,需要包含實(shí)驗所需的軟件庫( PyTorch ,OpenCV 等)。實(shí)驗平臺首頁(yè),展示了目前的資源狀態(tài):正在執行的任務(wù)數量,可分配的資源等。
圖表2.2.2
(2)左側欄選擇“模型開(kāi)發(fā)”-“交互式開(kāi)發(fā)”,并且點(diǎn)擊紅色框指定的新建按鈕。
圖表2.2.3
(3)進(jìn)一步選擇 Terminal,設置密碼(用于后續 ssh 登陸),選擇內存大小,CPU,GPU數量。根據實(shí)驗需要設置。我們選取內存 32G ,16核 CPU,和一顆 A5000 型號的 GPU 用于本次實(shí)驗。
圖表2.2.4
(4)最下方可以選擇本地實(shí)驗使用的鏡像環(huán)境,該平臺提供了公用的基礎鏡像,我們也可以配置自己的私有鏡像環(huán)境。
圖表2.2.5
(5)創(chuàng )建成功后,會(huì )顯示正在運行的應用。此時(shí)可以用過(guò)命令“ssh -p 25875 root@192.168.88.80”遠程連接進(jìn)行創(chuàng )建好的環(huán)境。
圖表2.2.6
2.2.2、實(shí)驗運行
如圖所示,模型已經(jīng)開(kāi)始訓練,單卡 A5000下,訓練效率很高,一個(gè) epoch 只需要不到一分鐘的時(shí)間。同時(shí) GPU 的占用率一直業(yè)保持在80-90%。模型的 log 文件和最終的模型文件都會(huì )存儲在對應的 Models 路徑下。在訓練開(kāi)始時(shí),終端開(kāi)始打印 log ,訓練過(guò)程中 GPU 的占用率在80-90%。
2.3、實(shí)驗結果
為了有效對比多個(gè)模型的性能,我們使用該平臺訓練了多個(gè)不同結構,不同參數的模型。我們在驗證集合上測試了模型性能,使用了 ACER(Average ClassificationError Rate )指標。指標越低,說(shuō)明模型性能越好。
下表展示了單一模態(tài)下,各個(gè)模型的性能比較。整體上看,使用深度圖數據的模型,會(huì )顯著(zhù)優(yōu)于其他兩種單一模態(tài)模型。FaceBagNet ,ConvMixer 和 MLPMixer 都有比較好的性能。
同時(shí)我們測試了三種 patch size 下,兩種多模態(tài)建模模型的性能, FaceBagNetFusion 的效果在各個(gè)參數下都顯著(zhù)優(yōu)于ViT模型。相比于表表2.2.7中的數據,多模態(tài)建模的結果均優(yōu)于單一模態(tài)的建模結果。
圖表2.2.8
2.4、實(shí)驗感受
Q1:你在本次實(shí)驗中訓練了多個(gè)不同結構和不同參數的模型,管理員分配給你的2/3分區資源是否滿(mǎn)足了訓練要求?
沈濤:我的實(shí)驗主要是依賴(lài) GPU 算力,對 CPU 和內存的需求相對較少。NVIDIA A5000 GPU 的單卡訓練效率已經(jīng)足夠高,如果使用混合精度訓練等技術(shù),效率會(huì )進(jìn)一步提升。
Q2:你在本次實(shí)驗中進(jìn)行了私有鏡像的上傳,是否順暢?鏡像使用中有沒(méi)有遇到兼容性或不穩定等問(wèn)題?
沈濤:我以公共鏡像為基礎制作了私有鏡像。具體來(lái)說(shuō),我先申請了基于基礎鏡像的命令行的交互任務(wù),并在任務(wù)中安裝了我所需的工作環(huán)境,并將環(huán)境保存為新的私有鏡像,后續可以直接使用。整個(gè)使用過(guò)程比較順暢,沒(méi)有出現問(wèn)題。
Q3:HP AI 開(kāi)發(fā)平臺提供的是 Web 端 GUI 交互界面,基于你的使用感受,你認為是否能夠降低普通開(kāi)發(fā)者的使用門(mén)檻和難度?
沈濤:上述Q2中的私有鏡像保存操作就是在 GUI 交互界面完成的,這一點(diǎn)就比較方便,對于普通開(kāi)發(fā)者,省去了 Docker 命令行操作,降低了使用門(mén)檻。同時(shí),整個(gè)計算資源利用率的實(shí)時(shí)展示,任務(wù)的申請,都可以通過(guò)比較簡(jiǎn)單地交互可以完成,整體上便捷一些。
Q4:對比公有云、數據中心和本地 PC ,你覺(jué)得通過(guò)工作站進(jìn)行模型訓練的優(yōu)勢有哪些?
沈濤:相比于公有云,數據中心,使用工作站進(jìn)行模型訓練會(huì )在使用上更加便捷,數據模型都在工作站本地,減少了來(lái)回傳輸的過(guò)程,使用上也會(huì )更加穩定。相比于本地 PC ,工作站的計算性能會(huì )更強,散熱會(huì )更好,能支持長(cháng)時(shí)間的高負荷工作。
Q5:對于中小型 AI 開(kāi)發(fā)團隊來(lái)說(shuō),工作站 HP AI 開(kāi)發(fā)平臺的算力提供和管理方式是否是一個(gè)不錯的選擇?
沈濤:對于非大規模 AI 模型(需要大規模分布式訓練)的開(kāi)發(fā),該方式已經(jīng)能夠滿(mǎn)足正常開(kāi)發(fā)需求。
3、實(shí)驗二:基于基于數據集 STS-B 的自然語(yǔ)言文本分類(lèi)
3.1、實(shí)驗說(shuō)明
該部分實(shí)驗由 Kaggle Grandmaster 吳遠皓完成。
本次實(shí)驗通過(guò)經(jīng)典的自然語(yǔ)言文本分類(lèi)數據集 STS-B 來(lái)體驗 HP AI 開(kāi)發(fā)平臺。
STS-B 數據集包含8628個(gè)英語(yǔ)句子對,其中訓練集5749條,驗證集1500條,測試集1379條,數據集文本來(lái)源于報紙、論壇和圖片題注。該數據集也是 The General Language Understanding Evaluation (GLUE)benchmark 的一個(gè)子任務(wù)。
圖表 2.3.1
實(shí)驗目的是模型需要給出兩個(gè)句子的相似性度量,任務(wù)的評價(jià)指標是 Pearson 相關(guān)系數。
3.2 、實(shí)驗流程
3.2.1、環(huán)境配置
登錄 HP AI 開(kāi)發(fā)平臺,在“模型訓練”-“交互式開(kāi)發(fā)”中,創(chuàng )建 Terminal 類(lèi)型的開(kāi)發(fā)環(huán)境,同時(shí)可以直接在“公共鏡像”中選擇我們需要的環(huán)境。其實(shí)際使用體驗相當于一臺遠程服務(wù)器或本地 Docker。
圖表 2.3.2
創(chuàng )建成功后,會(huì )顯示正在運行的應用。此時(shí)可以用過(guò)命令“ ssh -p 25457 root@192.168.88.80 ”遠程連接進(jìn)行創(chuàng )建好的環(huán)境。
圖表 2.3.3
此時(shí)可以用過(guò)命令“ ssh -p 25457 root@192.168.88.80 ”遠程連接進(jìn)行創(chuàng )建好的環(huán)境。
圖表 2.3.4
3.2.2、實(shí)驗運行
3.3 、實(shí)驗結果
本次實(shí)驗選用常用預訓練模型工具包 Transformers ,選擇的模型為谷歌開(kāi)發(fā)的小型 BERT 模型 google/bert_uncased_L-2_H-128_A-2 。該模型隱層維度128,注意力頭數量為2,Transformer 層數也為2,模型大小只有不到17Mb ,是個(gè)精簡(jiǎn)的小模型。單從實(shí)驗結果可以看出,模型在 STS-B 數據集上也取得了不錯的結果(目前榜單第一名是體積大好幾倍的 ERNIE ,其結果為0.93)。
圖表 2.3.5
3.4 、實(shí)驗感受
Q1:基于本次實(shí)驗中的分區資源,你在很短的時(shí)間內就完成了基于數據集STS-B的自然語(yǔ)言文本分類(lèi)模型的訓練,對此你怎么看?
吳遠皓:HP AI 開(kāi)發(fā)平臺的各環(huán)境間互不影響,任務(wù)展示清晰透明,在多人共享資源的場(chǎng)景下能夠既保證開(kāi)發(fā)效率,又顯著(zhù)提高資源的利用效率。
Q2:HP AI開(kāi)發(fā)平臺提供的是 Web 端 GUI 交互界面,請談?wù)勀愕氖褂酶惺堋?/span>
吳遠皓:GUI 界面非常人性化,能夠有效完成資源的組織、管理與隔離。
Q3:在完成此次實(shí)驗后,你如何評價(jià) HP AI 開(kāi)發(fā)平臺?
吳遠皓:通過(guò)體驗我們發(fā)現,HP AI 開(kāi)發(fā)平臺對使用者非常友好,是計算資源管理的有力工具。
Q4:對比公有云、數據中心和本地 PC,您覺(jué)得通過(guò)工作站進(jìn)行模型訓練的優(yōu)勢有哪些?
吳遠皓:這幾個(gè)不太能比較。對于中小團隊來(lái)說(shuō)公有云有傳輸數據的成本,數據中心的搭建和運營(yíng)成本太高,而本次 PC 的性能可能達不到要求,所以為團隊配備一個(gè)共用的工作站是一種既靈活又高效的方案。
Q5:對于中小型 AI 開(kāi)發(fā)團隊來(lái)說(shuō),工作站 HP AI 開(kāi)發(fā)平臺的算力提供和管理方式是否是一個(gè)不錯的選擇?
吳遠皓:是的,可以發(fā)揮硬件的最大效能,提高利用率。
4、管理員后臺展示
前端用戶(hù)在通過(guò) HP AI 開(kāi)發(fā)平臺進(jìn)行模型訓練過(guò)程中,管理員可以在后臺直觀(guān)的看到資源的使用反饋。比如在前面兩個(gè)實(shí)驗過(guò)程中,管理員可以在后臺看到以下內容。
4.1、任務(wù)列表
在 “任務(wù)列表” 里面,我們可以看到 master1 和 master2 創(chuàng )建的任務(wù)。
圖表 2.4.1
4.2、任務(wù)鏡像
在“任務(wù)鏡像”里面,管理員可以看到 master1 和 master2 所使用的鏡像系統。
圖表 2.4.2
圖表 2.4.3
4.3、監控中心
儀表盤(pán)
管理員可以看到在實(shí)驗期間,節點(diǎn)和分區的 CPU、GPU、內存、網(wǎng)絡(luò )等參數的整體使用情況:
節點(diǎn)使用情況:
圖表 2.4.5
分區使用情況:
圖表 2.4.6
監控報表
資源使用情況:
在這里默認會(huì )選擇一周內的資源監控數據進(jìn)行展示,同時(shí)也可以選擇動(dòng)態(tài)展示數據變化
節點(diǎn)使用情況:
分區使用情況:
實(shí)時(shí)信息
圖表 2.4.7
歷史統計
圖表 2.4.8
5、多用戶(hù)使用
在 “ GPU設置” 里面,GPU 可以切片的數量選項為1、2、4、8。也就是說(shuō)每塊 NVIDIA RTX A5000 的 GPU 算力可以平均分為1、2、4、8份,HP Z8 G4 數據科學(xué)工作站共有3塊 GPU,最多可將算力平均分為24份,可同時(shí)給24個(gè)開(kāi)發(fā)者提供算力支持。
3、總結
通過(guò)本次專(zhuān)業(yè)性測試,我們可以看到,配備了3塊 NVIDIA A5000 GPU 的 HP Z8 G4 數據科學(xué)工作站在 HP AI 開(kāi)發(fā)平臺的配合下,不僅便于管理員對工作站的 GPU 資源進(jìn)行管理,更能滿(mǎn)足兩位 Kaggle Grandmaster 的算力需求,保障模型協(xié)同訓練的順暢進(jìn)行。
HP AI 開(kāi)發(fā)平臺是一款封裝了人工智能所需系統和底層操作的容器云平臺,在數據中心或公有云中同樣可以進(jìn)行單獨的部署。不過(guò),工作站產(chǎn)品特有的靜音,易部署和高性?xún)r(jià)比,讓 HP Z8 G4 數據科學(xué)工作站 HP AI 開(kāi)發(fā)平臺的整體解決方案在中小企業(yè)辦公場(chǎng)景中的應用優(yōu)勢非常顯著(zhù)。
對于有同等需求的中小型 AI 開(kāi)發(fā)團隊來(lái)說(shuō),搭載2-4塊 GPU 的 HP Z8 G4 數據科學(xué)工作站,配合 HP AI 開(kāi)發(fā)平臺的資源管理,就可以很輕松的構建出一個(gè)性?xún)r(jià)比極高的高性能計算解決和管理方案。因此,工作站 HP AI 開(kāi)發(fā)平臺解決方案可以在幫助中小企業(yè)團隊節省成本的同時(shí),可以發(fā)揮出硬件的最大效能,提高資源利用率,成為多用戶(hù)協(xié)同開(kāi)發(fā)和資源管理的有利工具。
總體來(lái)說(shuō),HP AI 開(kāi)發(fā)平臺在資源管理和鏡像訂制兩方面都有著(zhù)獨到的優(yōu)勢。
其中,在資源管理方面有三大核心優(yōu)勢:
(1)按需分配、自動(dòng)釋放:在任務(wù)提交后,HP AI 開(kāi)發(fā)平臺可以按照實(shí)際需求動(dòng)態(tài)分配資源,限制任務(wù)無(wú)法超額使用資源,保證資源分配的公平性;與此同時(shí),它還可以支持任務(wù)排隊機制,在任務(wù)運行完畢后自動(dòng)釋放資源,讓隊列中任務(wù)自動(dòng)運行;
(2)優(yōu)先搶占:針對不同的優(yōu)先級需求,系統可以按照從高到低順序進(jìn)行任務(wù)調度,同時(shí)支持對隊列中任務(wù)的優(yōu)先級調整和插隊,滿(mǎn)足緊急任務(wù)的使用需求;
(3)GPU 細粒度切分:系統可以根據 GPU 卡的算力,支持對 GPU 卡進(jìn)行細粒度的切分;同時(shí)支持多個(gè)任務(wù)共享同一張 GPU 卡,充分提高 GPU 卡使用效率,提高任務(wù)密度和吞吐量。
另外,在鏡像訂制方面 HP AI 開(kāi)發(fā)平臺有四大關(guān)鍵點(diǎn):
(1)機器學(xué)習鏡像庫:可提供豐富的 TensorFlow 、PyTorch 、MxNet 和 Caffe 鏡像,且版本完整,并和官方機器學(xué)習框架 release 保持一致,用戶(hù)可以下載并導入使用;
(2)NGC 鏡像:允許用戶(hù)查看 NGC 鏡像列表,下載使用 NGC 上 NVIDIA ?提供的鏡像;
(3)自由訂制:針對用戶(hù)對鏡像的內容需求豐富且不統一,訂制化要求高等情況,系統可允許用戶(hù)通過(guò) Docker Exec 連接并配置鏡像環(huán)境;該方式適用于所有鏡像,無(wú)需鏡像中配置 ssh 服務(wù)
(4)鏡像分享:允許管理員提升私有鏡像為公有鏡像、支持用戶(hù)私有鏡像的分享,提高鏡像獲取的效率、減少存儲空間要求。
版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。