亚洲熟妇av一区二区三区,久久久久久精品观看sss,免费观看四虎精品国产永久,国产成人精品一区二三区熟女,天堂网在线最新版www资源网

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

當“人工智能步入落地之年” AI 不再是概念,而是全面進(jìn)入到企業(yè)的戰略規劃之中。算力作為人工智能應用的平臺和基礎,它的發(fā)展推動(dòng)了整個(gè)人工智能系統的發(fā)展和快速演進(jìn),成為人工智能的最核心要素。

隨著(zhù)科技的不斷發(fā)展,獲取算力的方式和途徑越來(lái)越豐富,就目前而言,公有云和數據中心(私有云)已經(jīng)成為兩大主流的算力獲取方式。不過(guò),在實(shí)際的部署和應用中,它們對于中小型AI開(kāi)發(fā)團隊來(lái)說(shuō)都存在著(zhù)很多問(wèn)題。比如,中小型 AI 開(kāi)發(fā)團隊的 AI 模型訓練往往是階段性的,而階段性訪(fǎng)問(wèn)公有云需要按次收取算力費用,如此累積算下來(lái)將是一筆不菲的投入,相比之下,一次性購買(mǎi)一臺 GPU 工作站會(huì )更加劃算。而建立私有的數據中心,不僅需要批量購置 GPU 服務(wù)器,還需要搭建標準機房、高帶寬網(wǎng)絡(luò )部署,與此同時(shí)更需要增加專(zhuān)業(yè)IT維護人員的工作負荷,這對于中小型AI開(kāi)發(fā)團隊來(lái)說(shuō)相當奢侈。

從中小型AI開(kāi)發(fā)團隊的使用場(chǎng)景和使用需求中不難發(fā)現,降本增效是他們衡量一款解決方案是否合適的重要因素之一。這意味著(zhù)算力設備需要在保障團隊算力需求,可以共享使用的同時(shí),還要做到簡(jiǎn)單部署易操作,省時(shí)省力省空間。也因此,數據科學(xué)工作站的出現,可以很好地滿(mǎn)足這些切實(shí)需求。

數據科學(xué)工作站是 PC 形態(tài)的桌面超級計算機,相較于 PC ,它支持雙路 Intel? 至強?鉑金/金牌等系列的處理器和主板芯片海量?jì)却?、大容?SATA 硬盤(pán)以及多塊 NVIDIA ?高端 RTX? 專(zhuān)業(yè)級顯卡等,可以滿(mǎn)足算法訓練等 AI 工作流程中所需要的強大算力需求以及圖形應用中的海量浮點(diǎn)運算和 3D 渲染工作等對硬件的苛刻要求。

數據科學(xué)工作站與公有云或數據中心相比,不僅性?xún)r(jià)比高,更容易部署,而且噪音低,可以讓中小型AI開(kāi)發(fā)團隊直接在辦公區內進(jìn)行協(xié)同開(kāi)發(fā)。

惠普最近升級的 HP Z8 G4 數據科學(xué)工作站以其強大的性能表現,穩定可靠的安全性,以及全方位的系統和軟件支持,在專(zhuān)業(yè)領(lǐng)域工作環(huán)境下,為使用者提供了絕佳的高性能計算解決方案。

同時(shí),惠普最新還推出了一款基于 Docker Kubernetes 的人工智能容器云平臺HP AI開(kāi)發(fā)平臺。該平臺能夠實(shí)現異構資源的高效管理、調度和監控,提供了從模型開(kāi)發(fā)、訓練到部署的完整流程和工具,廣泛適用于教育、科研、金融、醫療、能源各個(gè)行業(yè),能極大降低人工智能進(jìn)入門(mén)檻,提高人工智能創(chuàng )新和研發(fā)的效率。

為了讓中小型AI開(kāi)發(fā)團隊更切實(shí)更全面地認識 HP Z8 G4 數據科學(xué)工作站以及 HP AI 開(kāi)發(fā)平臺在團隊協(xié)作開(kāi)發(fā)中的價(jià)值,智東西公開(kāi)課AI教研團隊聯(lián)合兩位 Kaggle Grandmaster 模擬現實(shí)開(kāi)發(fā),對 HP AI 開(kāi)發(fā)平臺的功能應用,及其在 HP Z8 G4 數據科學(xué)工作站上的使用體驗兩個(gè)方面進(jìn)行了深入評測和項目實(shí)驗。

智東西公開(kāi)課AI教研團隊主要承擔在 HP Z8 G4 數據科學(xué)工作站中安裝 HP AI 開(kāi)發(fā)平臺,并且作為管理員進(jìn)行資源管理。兩位 Kaggle Grandmaster 將基于我們分配的資源,協(xié)同完成基于數據集 CASIA-SURF 的人臉活體檢測,以及基于數據集 STS-B 的自然語(yǔ)言文本分類(lèi)這兩項實(shí)驗。

兩位 Kaggle GrandMaster 分別是關(guān)注自然語(yǔ)言處理領(lǐng)域的算法工程師吳遠皓和從事醫療AI算法研發(fā)工作的算法工程師沈濤。吳遠皓已參加超過(guò)20場(chǎng)Kaggle競賽,獲得8枚金牌,并于2019年成為 Kaggle Competitions Grandmaster ,全球最高排名第36位。沈濤在機器學(xué)習競賽平臺 Kaggle 上共得到11塊金牌,獲得了 Kaggle Grandmaster 稱(chēng)號,全球最高排名第8位。

在進(jìn)入正文介紹 HP AI 開(kāi)發(fā)平臺的功能及實(shí)驗之前,我們先來(lái)了解一下本次使用的 HP Z8 G4 數據科學(xué)工作站的核心參數,如下:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表0.0.1

再給大家看看3塊 NVIDIA A5000 顯卡安裝好之后的實(shí)際展示。下圖中的“三條金色模塊”即為 NVIDIA A5000 顯卡。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表0.0.2

下圖是 HP Z8 G4 數據科學(xué)工作站實(shí)際工作的展示:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表0.0.3

1、HP AI 開(kāi)發(fā)平臺功能全解

本章節將為大家展示 HP AI 開(kāi)發(fā)平臺的安裝過(guò)程和架構組成,并重點(diǎn)介紹其為開(kāi)發(fā)者所提供的模型訓練、數據存儲、任務(wù)鏡像,以及向管理者所提供的用戶(hù)權限、監控中心、系統設置等特色功能。

下面進(jìn)入 HP AI 開(kāi)發(fā)平臺的安裝。HP AI 開(kāi)發(fā)平臺的安裝包是適用于 Unix 系統和類(lèi) Unix 系統的.run 格式文件,整個(gè)安裝過(guò)程分三步,十分簡(jiǎn)單:

第一步,在 Ubuntu 系統的終端中,輸入:
“sudo bash AI_HP -Evaluation-4.5.1-HP-63045-offline.run”即可進(jìn)行安裝。

第二步,成功安裝完成后,會(huì )顯示:
“Please visit htp://192.168.88.80:5678 to continue installation.”。此時(shí)瀏覽器輸入網(wǎng)址后會(huì )看到平臺的環(huán)境正在初始化。

第三步,平臺環(huán)境初始化完成后,會(huì )自動(dòng)跳轉到 HP AI 開(kāi)發(fā)平臺的登錄界面,此時(shí)輸入賬號密碼即可完成登錄。下圖為 HP AI 開(kāi)發(fā)平臺的首頁(yè)展示。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.0.1

1、平臺架構

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.1.1

1.1、基礎設施層

基礎設施層以X86的服務(wù)器、專(zhuān)業(yè)工作站為載體,可通過(guò) GPU、CPU 等提供高性能加速計算,支持 TCP/IP,InfiniBand 高速網(wǎng)絡(luò )互聯(lián),以及 NFS 和 GlusterFS 兩種類(lèi)型的存儲格式。

1.2、資源調度層

采用容器化技術(shù)管理底層資源,并利用 Kubernetes(K8s)技術(shù)進(jìn)行容器編排調度。

1.3、應用服務(wù)層

應用服務(wù)層支持主流的 TensorFlow、Caffe、PyTorch 和 MxNet 等主流的機器學(xué)習框架,以及完整的機器學(xué)習所需的處理流程,實(shí)現資源操作自動(dòng)化。

1.4、業(yè)務(wù)領(lǐng)域層

通過(guò)支持自然語(yǔ)言處理、圖像識別和語(yǔ)音識別等任務(wù),可以滿(mǎn)足金融、教育、醫療、制造等行業(yè)場(chǎng)景的 AI 開(kāi)發(fā)需求。

2、特色功能

2.1、模型訓練

2.1.1、任務(wù)列表

任務(wù)管理界面,有“任務(wù)訓練”、“交互式開(kāi)發(fā)”、“可視化”、“模型部署”等四個(gè)功能頁(yè)。管理員用戶(hù)可以查看和管理所有用戶(hù)的訓練任務(wù),包括任務(wù)訓練任務(wù)、交互式開(kāi)發(fā)任務(wù)、可視化任務(wù)、模型部署任務(wù)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.1

查看任務(wù)

可以看到所有用戶(hù)的所有任務(wù)的簡(jiǎn)要配置信息,如任務(wù)名稱(chēng)、所屬用戶(hù)、任務(wù)的執行器、所屬分區、資源配額、創(chuàng )建時(shí)間等。點(diǎn)擊“任務(wù)訓練”、“交互式開(kāi)發(fā)”、“可視化”、“模型部署”來(lái)展示不同類(lèi)型的任務(wù)。

比如在交互式任務(wù) “interactive14871” 中,可以分別看到任務(wù)節點(diǎn)、用戶(hù)名、執行器、分區名稱(chēng)、資源配置、任務(wù)優(yōu)先級、運行狀態(tài)、創(chuàng )建時(shí)間、空閑時(shí)間等。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.2

點(diǎn)擊“詳情”可以進(jìn)一步查看任務(wù)的基本信息、資源配置、應用信息和狀態(tài)等。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.3

刪除任務(wù)

點(diǎn)擊“刪除”按鈕即可刪除正在運行中的任務(wù)。

需要注意的是在“任務(wù)訓練”中的任務(wù),點(diǎn)擊“刪除”按鈕,只會(huì )刪除正在運行中的訓練任務(wù),記錄無(wú)法被刪除,記錄不會(huì )占用 CPU、GPU、內存等資源,其他類(lèi)型任務(wù)刪除后不保留記錄。

查詢(xún)用戶(hù)任務(wù)

在界面右側輸入框中輸入要查找的用戶(hù)名,回車(chē)進(jìn)行查找。

2.1.2、任務(wù)統計

管理員可對 HP AI 開(kāi)發(fā)平臺中各分區任務(wù)進(jìn)行統計。查看分區中已計劃、已完成、運行中、暫停中的任務(wù)數量以及任務(wù)的資源占用信息?!叭蝿?wù)統計”可以幫助管理員了解各分區中用戶(hù)在一段時(shí)間內使用任務(wù)訓練的使用情況。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表1.2.4

根據日期統計任務(wù)

管理員可選擇指定日期,統計指定日期時(shí)間到當前時(shí)間的任務(wù)數量及任務(wù)資源占用情況。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.5

2.1.3、任務(wù)隊列

點(diǎn)擊左側菜單“任務(wù)隊列”,進(jìn)入任務(wù)隊列界面,分別顯示優(yōu)先級為“高”、“普通”、“低”三種優(yōu)先級任務(wù)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表1.2.6

2.2、數據存儲

HP AI 開(kāi)發(fā)平臺支持基于 NFS 的分布式存儲方式,滿(mǎn)足用戶(hù)對數據的安全和性能要求。豐富的數據管理、分享功能極大方便了用戶(hù)的使用。

2.2.1、數據卷

管理員可以創(chuàng )建 NFS 卷,對卷進(jìn)行管理操作,查看卷的使用情況。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表1.2.7

查看“NFS”卷列表

可以看到 NFS 數據卷列表及每個(gè)數據卷的服務(wù)器地址、共享目錄、掛載權限、狀態(tài)及描述狀態(tài)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.8

創(chuàng )建 NFS 卷

點(diǎn)擊“創(chuàng )建 NFS 卷”按鈕,進(jìn)入NFS卷創(chuàng )建界面。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.9

NFS 名詞參數解釋

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.10

查看卷使用情況

管理員用戶(hù)在數據卷列表頁(yè)面點(diǎn)擊卷名稱(chēng)后,該數據卷的總使用情況和各用戶(hù)使用情況均會(huì )顯示在此頁(yè)面。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.11

2.2.2、公共數據

公共數據即擁有 HP AI 開(kāi)發(fā)平臺用戶(hù)都可以訪(fǎng)問(wèn)的數據,管理員可以上傳公共數據,并對公共數據進(jìn)行管理,普通用戶(hù)只有復制到用戶(hù)私有數據和下載權限。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.12

創(chuàng )建目錄

用戶(hù)可以在“公共數據”頁(yè)面點(diǎn)擊“創(chuàng )建目錄”來(lái)創(chuàng )建自己的目錄。名稱(chēng)不能包含以下字符”, ‘|’, ‘*’, ‘?’, ‘,’,’/’,’ ‘, 長(cháng)度在1~50個(gè)字符,創(chuàng )建成功會(huì )有相應提示。否則創(chuàng )建失敗。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.13

上傳數據

將本地文件上傳到“公共數據”中。適合小文件的上傳。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.14

刷新

若對文件進(jìn)行了增刪修改操作,點(diǎn)擊“刷新”按鈕更新文件狀態(tài)及屬性。

文件列表:文件及文件夾管理

針對文件列表里面的每一個(gè)文件及文件夾,都有相應的管理功能,如重命名、下載、復制、查看文件大小、刪除等,針對文件還有在線(xiàn)查看功能,方便管理員進(jìn)行管理操作。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.15

2.3、任務(wù)鏡像

2.3.1、公共鏡像

由管理員上傳的鏡像為公共鏡像,用戶(hù)都可以看到并且可以在創(chuàng )建任務(wù)時(shí)使用。管理員在“下載鏡像”中下載的鏡像和上傳的鏡像均在此界面管理。此界面中管理員可對公共鏡像進(jìn)行設置刪除、二次更新制作鏡像及查看鏡像詳細信息等操作。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.16

上傳鏡像

管理員用戶(hù)在鏡像倉庫頁(yè)面,也可以上傳公共鏡像。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

2.3.2、鏡像倉庫

管理員在鏡像倉庫頁(yè)面,可以查看各用戶(hù)的私有鏡像,或上傳公共鏡像

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

查看鏡像倉庫

上傳鏡像

管理員用戶(hù)在鏡像倉庫頁(yè)面,也可以上傳公共鏡像。

查看鏡像倉庫

在鏡像倉庫列表中,點(diǎn)擊任意用戶(hù)名,即可進(jìn)入用戶(hù)的鏡像倉庫中查看用戶(hù)的私有鏡像。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.19

2.3.3、下載鏡像

點(diǎn)擊“下載鏡像”,進(jìn)入以下界面,該界面有 “ Docker Hub ”、“ HP 機器學(xué)習鏡像”和 “NVIDIA鏡像” 三個(gè)功能頁(yè)面。用戶(hù)可根據自己需要的鏡像環(huán)境去 Docker 官方鏡像倉庫Docker Hub、HP 機器學(xué)習鏡像倉庫和 NVIDIA 鏡像倉庫下載指定鏡像。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.20

HP 機器學(xué)習鏡像

此功能頁(yè)預留了官方制作好的鏡像,包括 Caffe、Cuda、OpenVINO、PyTorch、TensorFlow-gpu 等11個(gè)鏡像系統。每個(gè)鏡像版本完整,并和官方機器學(xué)習框架 Release 保持一致,用戶(hù)可直接使用。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.21

NVIDIA 鏡像

允許用戶(hù)查看 NGC 鏡像列表,下載使用 NGC 上 NVIDIA 提供的鏡像。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.22

2.4、用戶(hù)權限

2.4.1、用戶(hù)

點(diǎn)擊左側菜單“用戶(hù)權限-用戶(hù)”,進(jìn)入用戶(hù)管理界面。管理員用戶(hù)可以對用戶(hù)創(chuàng )建、刪除、編輯以及配置分區、存儲卷和資源配額等,對用戶(hù)的 CPU 、 GPU 、 Mem 和存儲配額進(jìn)行設定,限定用戶(hù)能使用的資源數量。用戶(hù)的數據存儲空間相互隔離,每個(gè)用戶(hù)只能訪(fǎng)問(wèn)各自空間中的數據,無(wú)法越界訪(fǎng)問(wèn)未授權的數據。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.23

查看用戶(hù)

在用戶(hù)管理界面,可以查看每個(gè)用戶(hù)的手機號碼、郵箱地址、創(chuàng )建時(shí)間、創(chuàng )建人、修改時(shí)間、修改人、綁定的分區以及用戶(hù)組名。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表1.2.24

點(diǎn)擊“操作”按鈕 -> 查看數據卷與配額,可以查看用戶(hù)的資源配額限定情況。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.25

點(diǎn)擊“查看關(guān)聯(lián)角色”。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.26

點(diǎn)擊“修改用戶(hù)信息”,可對已有用戶(hù)的手機號、郵箱、用戶(hù)組、分區和配額進(jìn)行修

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.27

點(diǎn)擊“重置密碼”,可重置用戶(hù)密碼。管理員可以通過(guò)兩種方式重置用戶(hù)密碼。一種是系統自動(dòng)生成密碼。如使用這種方式重置密碼,管理員只需點(diǎn)擊“重置密碼”按鈕即可在界面上看到新密碼;另一種重置密碼方式為管理員手動(dòng)修改密碼,只需輸入兩遍新密碼,并點(diǎn)擊“提交”按鈕,即可修改此用戶(hù)的密碼。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


表 1.2.28

點(diǎn)擊“刪除”,可刪除用戶(hù)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

2.4.2、用戶(hù)組

修改默認配額

管理員用戶(hù)可以點(diǎn)擊用戶(hù)列表頁(yè)面上的“修改默認配額”按鈕,來(lái)修改創(chuàng )建用戶(hù)時(shí)默認的可使用資源配額。如 CPU 、 GPU 、內存、存儲和任務(wù)數量的默認配額。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.30

創(chuàng )建用戶(hù)

點(diǎn)擊“創(chuàng )建用戶(hù)”按鈕,進(jìn)入“創(chuàng )建用戶(hù)”界面后,需要填寫(xiě)用戶(hù)的基本信息和配置用戶(hù)組、數據卷、分區等參數。CPU 、GPU 、內存、存儲等參數默認使用默認配額中的配置。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.38

2.4.2、用戶(hù)組

管理員用戶(hù)在用戶(hù)組頁(yè)面,可以查看、創(chuàng )建和刪除用戶(hù)組。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.32

查看用戶(hù)組

點(diǎn)擊“查看關(guān)聯(lián)角色”,顯示該用戶(hù)組的所有角色。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.33

點(diǎn)擊“查看該組用戶(hù)”,顯示該用戶(hù)組的所有用戶(hù)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.34

創(chuàng )建用戶(hù)組

管理員在用戶(hù)組列表頁(yè)面,點(diǎn)擊“創(chuàng )建用戶(hù)組”按鈕進(jìn)入創(chuàng )建用戶(hù)組界面,輸入用戶(hù)組名(用戶(hù)組名長(cháng)度1-20個(gè)字符,不能包含字符”, ‘|’, ‘*’, ‘?’, ‘,’,’/’。),選擇不同模塊的權限,最后點(diǎn)擊“提交”按鈕創(chuàng )建新的用戶(hù)組。點(diǎn)擊“取消”按鈕取消創(chuàng )建用戶(hù)組,回到用戶(hù)組列表頁(yè)面。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.35

各個(gè)功能模塊不同角色的權限參照下表:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.36

2.5、監控中心

2.5.1、儀表盤(pán)

儀表盤(pán)提供了多維度和多層次的監控信息,使系統使用透明、可追蹤。管理員用戶(hù)在左側菜單欄中選擇儀表盤(pán),即可查看節點(diǎn)和分區的資源使用情況。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

節點(diǎn)查看

點(diǎn)擊節點(diǎn)頁(yè)面的“查看”,可以針對某個(gè)節點(diǎn)監控信息進(jìn)行查看。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.38

分區查看

點(diǎn)擊分區頁(yè)面的“查看”,可以針對某個(gè)分區監控信息進(jìn)行查看。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

1、資源創(chuàng )建與分配

2.5.2、監控報表

在當前界面可以選擇 HP AI 開(kāi)發(fā)平臺的節點(diǎn)、分區等選項來(lái)監控資源利用情況呈現可視化圖表。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.40

2.5.3、實(shí)時(shí)信息

在當前界面可以選擇 HP AI 開(kāi)發(fā)平臺 GPU 用途分布、GPU 使用概況、GPU 使用分布等可視化圖表。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.41

管理員可以查看 GPU 的用途分布統計(任務(wù)訓練、交互式使用、可視化、空閑使用)。

管理員可以查看 GPU 的分區使用統計(總共使用,每個(gè)分區使用)。

管理員可以查看 GPU 的用戶(hù)使用統計(總共使用,每個(gè)用戶(hù)使用)。

管理員可以查看節點(diǎn) GPU 使用概況(總數、空閑、已占用),以及每一塊 GPU 卡的使用率和顯存使用率。

2.5.4、歷史統計

在當前界面可以查看 HP AI 開(kāi)發(fā)平臺用戶(hù)資源使用統計圖表。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.42

2.6、系統設置

GPU 配置

在當前界面可以選擇 HP AI 開(kāi)發(fā)平臺 GPU 類(lèi)型、切片數量。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.43

輸入切片數量,點(diǎn)擊“確認”后,即可為 GPU 切片。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 1.2.44

2、實(shí)驗:人臉活體檢測和自然語(yǔ)言文本分類(lèi)

在本章節,智東西公開(kāi)課AI教研團隊將作為管理員,分配不同的賬戶(hù)資源給到兩位 Kaggle Grandmaster 進(jìn)行模型開(kāi)發(fā)實(shí)驗,并在平臺后端監測相應的資源使用情況和反饋。

1、資源創(chuàng )建與分配

1.1、創(chuàng )建分區 kaggle

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

圖表 2.1.1

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.1.2

1.2、創(chuàng )建用戶(hù)組 viewers

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

圖表 2.1.3

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.1.4

1.3、創(chuàng )建用戶(hù) master1、master2

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.1.5

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.1.6

2、實(shí)驗一:基于數據集 CASIA-SURF 的人臉活體檢測

2.1、實(shí)驗說(shuō)明

該部分實(shí)驗由 Kaggle Grandmaster 沈濤完成。

人臉活體檢測是人臉識別過(guò)程中的一個(gè)重要環(huán)節。它對人臉識別過(guò)程存在照片、視頻、面具、頭套、頭模等欺騙手段進(jìn)行檢測,對于身份驗證的安全性尤為重要。從技術(shù)發(fā)展上,人臉活體檢測可以簡(jiǎn)單地分為兩大類(lèi):傳統的人工特征模式識別方法和近年來(lái)興起的深度學(xué)習方法。目前,深度學(xué)習方法在識別準確性上已有較大優(yōu)勢。

很多人臉識別系統利用可見(jiàn)光人臉圖像進(jìn)行活體檢測,識別性能易受到光照條件的影響。

同時(shí),基于可見(jiàn)光光譜的識別方式也很難應對常見(jiàn)的偽造攻擊。使用多模態(tài)數據進(jìn)行活體檢測建模,能有效緩解這些問(wèn)題。融合多種成像設備的圖像信息,比如可見(jiàn)光,近紅外和深度圖像等,既能提升模型的識別性能,也能減少光照條件對性能的干擾。

本次實(shí)驗,我們使用 HP AI 開(kāi)發(fā)平臺,搭建并訓練深度學(xué)習模型,用于人臉活體檢測。數據集采用了 CASIA-SURF 集合。該數據集含有人臉可見(jiàn)光圖,近紅外和深度圖三種模態(tài)信息,包含了1000個(gè)個(gè)體樣本的21000段視頻。采集設備是英特爾的 RealSense 立體相機。

模型結構方面,我們會(huì )實(shí)驗多種不同架構,包括 CNN 類(lèi)型的架構 FaceBagNet 模型, MLP 類(lèi)的架構,(如 VisionPermutator,MLPMixer 等),還有近期非常熱門(mén)的Vision Transformer(ViT)模型。并且比對這些模型在該任務(wù)上的性能。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.2.1

2.2、實(shí)驗流程

2.2.1、環(huán)境配置

(1)進(jìn)入實(shí)驗平臺,新建交互任務(wù) Terminal,選擇合適的鏡像,需要包含實(shí)驗所需的軟件庫( PyTorch ,OpenCV 等)。實(shí)驗平臺首頁(yè),展示了目前的資源狀態(tài):正在執行的任務(wù)數量,可分配的資源等。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表2.2.2

(2)左側欄選擇“模型開(kāi)發(fā)”-“交互式開(kāi)發(fā)”,并且點(diǎn)擊紅色框指定的新建按鈕。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表2.2.3

(3)進(jìn)一步選擇 Terminal,設置密碼(用于后續 ssh 登陸),選擇內存大小,CPU,GPU數量。根據實(shí)驗需要設置。我們選取內存 32G ,16核 CPU,和一顆 A5000 型號的 GPU 用于本次實(shí)驗。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表2.2.4

(4)最下方可以選擇本地實(shí)驗使用的鏡像環(huán)境,該平臺提供了公用的基礎鏡像,我們也可以配置自己的私有鏡像環(huán)境。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表2.2.5

(5)創(chuàng )建成功后,會(huì )顯示正在運行的應用。此時(shí)可以用過(guò)命令“ssh -p 25875 root@192.168.88.80”遠程連接進(jìn)行創(chuàng )建好的環(huán)境。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表2.2.6

2.2.2、實(shí)驗運行

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

如圖所示,模型已經(jīng)開(kāi)始訓練,單卡 A5000下,訓練效率很高,一個(gè) epoch 只需要不到一分鐘的時(shí)間。同時(shí) GPU 的占用率一直業(yè)保持在80-90%。模型的 log 文件和最終的模型文件都會(huì )存儲在對應的 Models 路徑下。在訓練開(kāi)始時(shí),終端開(kāi)始打印 log ,訓練過(guò)程中 GPU 的占用率在80-90%。

2.3、實(shí)驗結果

為了有效對比多個(gè)模型的性能,我們使用該平臺訓練了多個(gè)不同結構,不同參數的模型。我們在驗證集合上測試了模型性能,使用了 ACER(Average ClassificationError Rate )指標。指標越低,說(shuō)明模型性能越好。

下表展示了單一模態(tài)下,各個(gè)模型的性能比較。整體上看,使用深度圖數據的模型,會(huì )顯著(zhù)優(yōu)于其他兩種單一模態(tài)模型。FaceBagNet ,ConvMixer 和 MLPMixer 都有比較好的性能。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

同時(shí)我們測試了三種 patch size 下,兩種多模態(tài)建模模型的性能, FaceBagNetFusion 的效果在各個(gè)參數下都顯著(zhù)優(yōu)于ViT模型。相比于表表2.2.7中的數據,多模態(tài)建模的結果均優(yōu)于單一模態(tài)的建模結果。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

圖表2.2.8

2.4、實(shí)驗感受

Q1:你在本次實(shí)驗中訓練了多個(gè)不同結構和不同參數的模型,管理員分配給你的2/3分區資源是否滿(mǎn)足了訓練要求?

沈濤:我的實(shí)驗主要是依賴(lài) GPU 算力,對 CPU 和內存的需求相對較少。NVIDIA A5000 GPU 的單卡訓練效率已經(jīng)足夠高,如果使用混合精度訓練等技術(shù),效率會(huì )進(jìn)一步提升。

Q2:你在本次實(shí)驗中進(jìn)行了私有鏡像的上傳,是否順暢?鏡像使用中有沒(méi)有遇到兼容性或不穩定等問(wèn)題?

沈濤:我以公共鏡像為基礎制作了私有鏡像。具體來(lái)說(shuō),我先申請了基于基礎鏡像的命令行的交互任務(wù),并在任務(wù)中安裝了我所需的工作環(huán)境,并將環(huán)境保存為新的私有鏡像,后續可以直接使用。整個(gè)使用過(guò)程比較順暢,沒(méi)有出現問(wèn)題。

Q3:HP AI 開(kāi)發(fā)平臺提供的是 Web 端 GUI 交互界面,基于你的使用感受,你認為是否能夠降低普通開(kāi)發(fā)者的使用門(mén)檻和難度?

沈濤:上述Q2中的私有鏡像保存操作就是在 GUI 交互界面完成的,這一點(diǎn)就比較方便,對于普通開(kāi)發(fā)者,省去了 Docker 命令行操作,降低了使用門(mén)檻。同時(shí),整個(gè)計算資源利用率的實(shí)時(shí)展示,任務(wù)的申請,都可以通過(guò)比較簡(jiǎn)單地交互可以完成,整體上便捷一些。

Q4:對比公有云、數據中心和本地 PC ,你覺(jué)得通過(guò)工作站進(jìn)行模型訓練的優(yōu)勢有哪些?

沈濤:相比于公有云,數據中心,使用工作站進(jìn)行模型訓練會(huì )在使用上更加便捷,數據模型都在工作站本地,減少了來(lái)回傳輸的過(guò)程,使用上也會(huì )更加穩定。相比于本地 PC ,工作站的計算性能會(huì )更強,散熱會(huì )更好,能支持長(cháng)時(shí)間的高負荷工作。

Q5:對于中小型 AI 開(kāi)發(fā)團隊來(lái)說(shuō),工作站 HP AI 開(kāi)發(fā)平臺的算力提供和管理方式是否是一個(gè)不錯的選擇?

沈濤:對于非大規模 AI 模型(需要大規模分布式訓練)的開(kāi)發(fā),該方式已經(jīng)能夠滿(mǎn)足正常開(kāi)發(fā)需求。

3、實(shí)驗二:基于基于數據集 STS-B 的自然語(yǔ)言文本分類(lèi)

3.1、實(shí)驗說(shuō)明

該部分實(shí)驗由 Kaggle Grandmaster 吳遠皓完成。

本次實(shí)驗通過(guò)經(jīng)典的自然語(yǔ)言文本分類(lèi)數據集 STS-B 來(lái)體驗 HP AI 開(kāi)發(fā)平臺。

STS-B 數據集包含8628個(gè)英語(yǔ)句子對,其中訓練集5749條,驗證集1500條,測試集1379條,數據集文本來(lái)源于報紙、論壇和圖片題注。該數據集也是 The General Language Understanding Evaluation (GLUE)benchmark 的一個(gè)子任務(wù)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.3.1

實(shí)驗目的是模型需要給出兩個(gè)句子的相似性度量,任務(wù)的評價(jià)指標是 Pearson 相關(guān)系數。

3.2 、實(shí)驗流程

3.2.1、環(huán)境配置

登錄 HP AI 開(kāi)發(fā)平臺,在“模型訓練”-“交互式開(kāi)發(fā)”中,創(chuàng )建 Terminal 類(lèi)型的開(kāi)發(fā)環(huán)境,同時(shí)可以直接在“公共鏡像”中選擇我們需要的環(huán)境。其實(shí)際使用體驗相當于一臺遠程服務(wù)器或本地 Docker。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.3.2

創(chuàng )建成功后,會(huì )顯示正在運行的應用。此時(shí)可以用過(guò)命令“ ssh -p 25457 root@192.168.88.80 ”遠程連接進(jìn)行創(chuàng )建好的環(huán)境。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.3.3

此時(shí)可以用過(guò)命令“ ssh -p 25457 root@192.168.88.80 ”遠程連接進(jìn)行創(chuàng )建好的環(huán)境。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.3.4

3.2.2、實(shí)驗運行

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

3.3 、實(shí)驗結果

本次實(shí)驗選用常用預訓練模型工具包 Transformers ,選擇的模型為谷歌開(kāi)發(fā)的小型 BERT 模型 google/bert_uncased_L-2_H-128_A-2 。該模型隱層維度128,注意力頭數量為2,Transformer 層數也為2,模型大小只有不到17Mb ,是個(gè)精簡(jiǎn)的小模型。單從實(shí)驗結果可以看出,模型在 STS-B 數據集上也取得了不錯的結果(目前榜單第一名是體積大好幾倍的 ERNIE ,其結果為0.93)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.3.5

3.4 、實(shí)驗感受

Q1:基于本次實(shí)驗中的分區資源,你在很短的時(shí)間內就完成了基于數據集STS-B的自然語(yǔ)言文本分類(lèi)模型的訓練,對此你怎么看?

吳遠皓:HP AI 開(kāi)發(fā)平臺的各環(huán)境間互不影響,任務(wù)展示清晰透明,在多人共享資源的場(chǎng)景下能夠既保證開(kāi)發(fā)效率,又顯著(zhù)提高資源的利用效率。

Q2:HP AI開(kāi)發(fā)平臺提供的是 Web 端 GUI 交互界面,請談?wù)勀愕氖褂酶惺堋?/span>

吳遠皓:GUI 界面非常人性化,能夠有效完成資源的組織、管理與隔離。

Q3:在完成此次實(shí)驗后,你如何評價(jià) HP AI 開(kāi)發(fā)平臺?

吳遠皓:通過(guò)體驗我們發(fā)現,HP AI 開(kāi)發(fā)平臺對使用者非常友好,是計算資源管理的有力工具。

Q4:對比公有云、數據中心和本地 PC,您覺(jué)得通過(guò)工作站進(jìn)行模型訓練的優(yōu)勢有哪些?

吳遠皓:這幾個(gè)不太能比較。對于中小團隊來(lái)說(shuō)公有云有傳輸數據的成本,數據中心的搭建和運營(yíng)成本太高,而本次 PC 的性能可能達不到要求,所以為團隊配備一個(gè)共用的工作站是一種既靈活又高效的方案。

Q5:對于中小型 AI 開(kāi)發(fā)團隊來(lái)說(shuō),工作站 HP AI 開(kāi)發(fā)平臺的算力提供和管理方式是否是一個(gè)不錯的選擇?

吳遠皓:是的,可以發(fā)揮硬件的最大效能,提高利用率。

4、管理員后臺展示

前端用戶(hù)在通過(guò) HP AI 開(kāi)發(fā)平臺進(jìn)行模型訓練過(guò)程中,管理員可以在后臺直觀(guān)的看到資源的使用反饋。比如在前面兩個(gè)實(shí)驗過(guò)程中,管理員可以在后臺看到以下內容。

4.1、任務(wù)列表

在 “任務(wù)列表” 里面,我們可以看到 master1 和 master2 創(chuàng )建的任務(wù)。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.4.1

4.2、任務(wù)鏡像

在“任務(wù)鏡像”里面,管理員可以看到 master1 和 master2 所使用的鏡像系統。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.4.2

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.4.3

4.3、監控中心

儀表盤(pán)

管理員可以看到在實(shí)驗期間,節點(diǎn)和分區的 CPU、GPU、內存、網(wǎng)絡(luò )等參數的整體使用情況:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

節點(diǎn)使用情況:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.4.5

分區使用情況:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.4.6

監控報表

資源使用情況:

在這里默認會(huì )選擇一周內的資源監控數據進(jìn)行展示,同時(shí)也可以選擇動(dòng)態(tài)展示數據變化

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

節點(diǎn)使用情況:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

分區使用情況:

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

實(shí)時(shí)信息

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.4.7

歷史統計

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))


圖表 2.4.8

5、多用戶(hù)使用

在 “ GPU設置” 里面,GPU 可以切片的數量選項為1、2、4、8。也就是說(shuō)每塊 NVIDIA RTX A5000 的 GPU 算力可以平均分為1、2、4、8份,HP Z8 G4 數據科學(xué)工作站共有3塊 GPU,最多可將算力平均分為24份,可同時(shí)給24個(gè)開(kāi)發(fā)者提供算力支持。

HP AI開(kāi)發(fā)平臺測評:多用戶(hù)協(xié)同開(kāi)發(fā)模型和算力資源管理有力工具(hph開(kāi)發(fā))

3、總結

通過(guò)本次專(zhuān)業(yè)性測試,我們可以看到,配備了3塊 NVIDIA A5000 GPU 的 HP Z8 G4 數據科學(xué)工作站在 HP AI 開(kāi)發(fā)平臺的配合下,不僅便于管理員對工作站的 GPU 資源進(jìn)行管理,更能滿(mǎn)足兩位 Kaggle Grandmaster 的算力需求,保障模型協(xié)同訓練的順暢進(jìn)行。

HP AI 開(kāi)發(fā)平臺是一款封裝了人工智能所需系統和底層操作的容器云平臺,在數據中心或公有云中同樣可以進(jìn)行單獨的部署。不過(guò),工作站產(chǎn)品特有的靜音,易部署和高性?xún)r(jià)比,讓 HP Z8 G4 數據科學(xué)工作站 HP AI 開(kāi)發(fā)平臺的整體解決方案在中小企業(yè)辦公場(chǎng)景中的應用優(yōu)勢非常顯著(zhù)。

對于有同等需求的中小型 AI 開(kāi)發(fā)團隊來(lái)說(shuō),搭載2-4塊 GPU 的 HP Z8 G4 數據科學(xué)工作站,配合 HP AI 開(kāi)發(fā)平臺的資源管理,就可以很輕松的構建出一個(gè)性?xún)r(jià)比極高的高性能計算解決和管理方案。因此,工作站 HP AI 開(kāi)發(fā)平臺解決方案可以在幫助中小企業(yè)團隊節省成本的同時(shí),可以發(fā)揮出硬件的最大效能,提高資源利用率,成為多用戶(hù)協(xié)同開(kāi)發(fā)和資源管理的有利工具。

總體來(lái)說(shuō),HP AI 開(kāi)發(fā)平臺在資源管理和鏡像訂制兩方面都有著(zhù)獨到的優(yōu)勢。

其中,在資源管理方面有三大核心優(yōu)勢:

(1)按需分配、自動(dòng)釋放:在任務(wù)提交后,HP AI 開(kāi)發(fā)平臺可以按照實(shí)際需求動(dòng)態(tài)分配資源,限制任務(wù)無(wú)法超額使用資源,保證資源分配的公平性;與此同時(shí),它還可以支持任務(wù)排隊機制,在任務(wù)運行完畢后自動(dòng)釋放資源,讓隊列中任務(wù)自動(dòng)運行;

(2)優(yōu)先搶占:針對不同的優(yōu)先級需求,系統可以按照從高到低順序進(jìn)行任務(wù)調度,同時(shí)支持對隊列中任務(wù)的優(yōu)先級調整和插隊,滿(mǎn)足緊急任務(wù)的使用需求;

(3)GPU 細粒度切分:系統可以根據 GPU 卡的算力,支持對 GPU 卡進(jìn)行細粒度的切分;同時(shí)支持多個(gè)任務(wù)共享同一張 GPU 卡,充分提高 GPU 卡使用效率,提高任務(wù)密度和吞吐量。

另外,在鏡像訂制方面 HP AI 開(kāi)發(fā)平臺有四大關(guān)鍵點(diǎn):

(1)機器學(xué)習鏡像庫:可提供豐富的 TensorFlow 、PyTorch 、MxNet 和 Caffe 鏡像,且版本完整,并和官方機器學(xué)習框架 release 保持一致,用戶(hù)可以下載并導入使用;

(2)NGC 鏡像:允許用戶(hù)查看 NGC 鏡像列表,下載使用 NGC 上 NVIDIA ?提供的鏡像;

(3)自由訂制:針對用戶(hù)對鏡像的內容需求豐富且不統一,訂制化要求高等情況,系統可允許用戶(hù)通過(guò) Docker Exec 連接并配置鏡像環(huán)境;該方式適用于所有鏡像,無(wú)需鏡像中配置 ssh 服務(wù)

(4)鏡像分享:允許管理員提升私有鏡像為公有鏡像、支持用戶(hù)私有鏡像的分享,提高鏡像獲取的效率、減少存儲空間要求。

版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。