對(duì)廣大半導(dǎo)體設(shè)計(jì)公司而言,算力資源規(guī)劃和現(xiàn)金流之間的平衡,嘖嘖,是一門藝術(shù)。
多一分是浪費(fèi),少一分則崩潰。我們?cè)?jīng)在初創(chuàng)型IC企業(yè)必備白皮書和成長(zhǎng)型IC企業(yè)必備白皮書里分別畫過以下兩張圖:

左圖名字叫做:守護(hù)現(xiàn)金流
這年頭現(xiàn)金流的重要性,不必多說。
右圖名字叫做:人生就是一場(chǎng)豪賭
不管是初創(chuàng)IC設(shè)計(jì)公司還是成熟公司,新開始一個(gè)項(xiàng)目,總是面臨著前路未知的情況:
1. 周期性存在突發(fā)算力高峰需求,涉及到先進(jìn)制程問題更加顯著;
2. 每次調(diào)整制程,都面臨新的資源預(yù)估,永遠(yuǎn)估不準(zhǔn);
3. 可能需要某些內(nèi)部不可用的內(nèi)存和計(jì)算資源。
我們今天認(rèn)真盤一盤,怎么把這門藝術(shù)拉下神壇。

先給大家一個(gè)直觀感受。
下圖是我們某客戶全生命周期月度算力實(shí)際用量曲線:整個(gè)芯片項(xiàng)目全流程為18個(gè)月,涉及前端、驗(yàn)證、后端三大團(tuán)隊(duì)。

1. ?前4個(gè)月,只涉及到前端布局與架構(gòu),對(duì)于算力需求不高,因此月度算力需求較少;
2. ?從5月開始,前端、驗(yàn)證、后端均開始工作,算力開始逐步提升,第11個(gè)月達(dá)算力小高峰,在第16個(gè)月達(dá)算力最高峰,月度調(diào)度峰值達(dá)到百萬級(jí)核時(shí)以上;
3. ?算力波峰和波谷的核數(shù)差距在20倍以上;
4. ?算力在第16個(gè)月達(dá)到最高峰后,迅速下降。
下面我們手把手教你怎么把算力規(guī)劃拉下神壇:
Part 1 小白版算法
Part 2 老司機(jī)版算法
Part 3 全年現(xiàn)實(shí)算力需求折算
Part 4 一個(gè)并不艱難的選擇
Part 1 小白版算法
針對(duì)的是:項(xiàng)目全新,團(tuán)隊(duì)人員也比較新,需要從零計(jì)算
Part 2 老司機(jī)版算法
針對(duì)的是:項(xiàng)目全新,但有類似經(jīng)驗(yàn)的老人在團(tuán)隊(duì),可以憑經(jīng)驗(yàn)值估算
PS:Part 1和Part 2 二選一閱讀即可
為了簡(jiǎn)化計(jì)算,我們根據(jù)現(xiàn)實(shí)情況作以下假設(shè):
1. 研發(fā)團(tuán)隊(duì)總?cè)藬?shù)為100;
2. 團(tuán)隊(duì)分為前端、驗(yàn)證和后端3部分,人數(shù)比值2:1:1;
3. 芯片的全周期分為3個(gè)階段,每階段4個(gè)月 (僅適用小白版算法);4. 三個(gè)團(tuán)隊(duì)主要使用資源類型:前端團(tuán)隊(duì)使用計(jì)算型機(jī)器;驗(yàn)證團(tuán)隊(duì)前期使用計(jì)算型機(jī)器,之后使用內(nèi)存型機(jī)器;后端團(tuán)隊(duì)使用內(nèi)存型機(jī)器 。
Part1 :小白版算法
這套小白版算法是我們根據(jù)N家客戶的實(shí)際情況,得出的經(jīng)驗(yàn)參考值:包括不同階段,不同團(tuán)隊(duì)的人員配比與人力占用比例,每人job數(shù),每人每job峰值核數(shù)。
因?qū)嶋H團(tuán)隊(duì)并非全程在此項(xiàng)目中,部分階段人力需折算,即人力占用比例。
在我們的參考值基礎(chǔ)上略做調(diào)整,大家就能大致得出自己公司的相應(yīng)數(shù)值啦。
這套算法通過估算不同階段內(nèi)、各個(gè)團(tuán)隊(duì)所需的算力峰值之和,得出每階段的算力峰值。各團(tuán)隊(duì)的峰值計(jì)算公式為每人每job峰值核數(shù)(多臺(tái)機(jī)器則為每臺(tái)核數(shù)*機(jī)器數(shù))*團(tuán)隊(duì)人數(shù)*每人job數(shù)(每個(gè)階段計(jì)算方式一致)。
Stage 1:前期階段(第1-4個(gè)月)
① 階段工作詳情:前端從事設(shè)計(jì)相關(guān)工作,驗(yàn)證團(tuán)隊(duì)同步參與,工作狀態(tài)都較為穩(wěn)定,此階段每月峰值核數(shù)趨于一致;
② 涉及團(tuán)隊(duì):前端、驗(yàn)證團(tuán)隊(duì);
③ 資源并發(fā)需求:前端團(tuán)隊(duì)每人1臺(tái)10核、驗(yàn)證團(tuán)隊(duì)每人1臺(tái)20核。
該階段峰值核時(shí)計(jì)算(計(jì)量單位:核小時(shí)):
1月:10核*50人*1job=500
2-4月:前端團(tuán)隊(duì)峰值核數(shù)=10*50*1=500 ;
驗(yàn)證團(tuán)隊(duì)峰值核數(shù)=20*25*1=500;
峰值核數(shù)總計(jì)為500+500=1000;
則該階段的峰值核數(shù)在2-4月,為1000
(下同,不再詳述這一計(jì)算過程)

Stage 2:中期階段(5-8月)
① 階段工作詳情:涉及到前端仿真、驗(yàn)證和部分模塊的版圖工作。6月在前仿最后階段做一次大仿真,是算力小波峰,隨后算力下降;
② 涉及團(tuán)隊(duì):前端、驗(yàn)證和后端團(tuán)隊(duì);
③ 資源并發(fā)需求峰值:
5月:前端團(tuán)隊(duì)每人1臺(tái)18核節(jié)點(diǎn),每人1個(gè)job;驗(yàn)證團(tuán)隊(duì)每人4個(gè)job,每個(gè)job約18核(人力占用比例:75%);后端團(tuán)隊(duì)每人1臺(tái)18核節(jié)點(diǎn);
6月:前端團(tuán)隊(duì)每人1臺(tái)24核節(jié)點(diǎn),每人1個(gè)job;驗(yàn)證團(tuán)隊(duì)每人6個(gè)job,每個(gè)job約24核(人力占用比例:75%);后端團(tuán)隊(duì)每人1臺(tái)18核節(jié)點(diǎn);
7月:前端團(tuán)隊(duì)每人1臺(tái)18核節(jié)點(diǎn),每人1個(gè)job(人力占用比例:40%);驗(yàn)證團(tuán)隊(duì)每人3個(gè)job,每個(gè)job約18核;后端團(tuán)隊(duì)每人1個(gè)job,每job約4臺(tái)18核節(jié)點(diǎn);
8月:前端團(tuán)隊(duì)每人1個(gè)job,每個(gè)job18核(人力占用比例:40%);驗(yàn)證團(tuán)隊(duì)每人2個(gè)job,每個(gè)job18核;后端團(tuán)隊(duì)每人1個(gè)job,每個(gè)job約4臺(tái)24核節(jié)點(diǎn)。
計(jì)算結(jié)果如下

Stage 3:后期階段(9-12月)
① 階段工作詳情:主要涉及后端仿真相關(guān)工作;
② 涉及團(tuán)隊(duì):驗(yàn)證和后端團(tuán)隊(duì);
③ 資源并發(fā)需求:
9月:驗(yàn)證團(tuán)隊(duì),每人4個(gè)job,每個(gè)job約18核;后端團(tuán)隊(duì)每人1-2個(gè)job,每個(gè)job約4臺(tái)24核節(jié)點(diǎn)(后端人均完成1.6個(gè)job,取值1.6);
10月:驗(yàn)證團(tuán)隊(duì)每人6個(gè)job,每個(gè)job約24核;后端團(tuán)隊(duì)每人1-2個(gè)job,每job約6臺(tái)24核工作節(jié)點(diǎn)(后端人力占用比例:80%,每人2個(gè)job);
11月:驗(yàn)證團(tuán)隊(duì)每人6個(gè)job,每個(gè)job約24核;后端團(tuán)隊(duì)每人1個(gè)job,每job約4臺(tái)24核工作節(jié)點(diǎn);
12月:驗(yàn)證團(tuán)隊(duì)每人6個(gè)job,每個(gè)job約18核;后端團(tuán)隊(duì)每人1個(gè)job,每job約3臺(tái)24核工作節(jié)點(diǎn)。
計(jì)算結(jié)果如下

最終全生命周期算力需求圖如下(計(jì)量單位:核小時(shí)):

可以看出:
1. 和文章開頭的實(shí)際用戶算力曲線趨勢(shì)一致;
2. 不同月份間的峰值算力差異很大,能達(dá)到20倍左右;
3. 不同團(tuán)隊(duì)在不同月份的峰值算力需求差異明顯。
Part2 :老司機(jī)版算法
如果對(duì)于未來芯片項(xiàng)目,你們有過來人能預(yù)估出不同團(tuán)隊(duì)不同階段的算力需求,這套老司機(jī)版算法將完全適配你。
這套算法是我們根據(jù)有項(xiàng)目經(jīng)驗(yàn)的芯片研發(fā)團(tuán)隊(duì)的實(shí)際情況,通過填入各月每job峰值核數(shù)、每月最大并行job數(shù),計(jì)算出各團(tuán)隊(duì)每月所需的算力峰值。
下面為大家奉上這份《XXX芯片項(xiàng)目-資源需求調(diào)研模板》:

左邊項(xiàng)目為不同的項(xiàng)目團(tuán)隊(duì)。項(xiàng)目團(tuán)隊(duì)內(nèi)部可分為:前端、驗(yàn)證和后端組。
Step 1:將不同組、每個(gè)job所需核數(shù)或內(nèi)存的峰值需求,依次填入中間的“每job峰值核數(shù)”和“每job峰值內(nèi)存”欄目下,負(fù)責(zé)人填入“團(tuán)隊(duì)負(fù)責(zé)人”欄目下
例如:每個(gè)job需要的峰值核數(shù)為10,每個(gè)job需要峰值內(nèi)存為20(據(jù)經(jīng)驗(yàn)值統(tǒng)計(jì)),前端負(fù)責(zé)人為Andy。

Step 2:在每月欄目下,填入各團(tuán)隊(duì)預(yù)期的每月并行最大job數(shù)(簡(jiǎn)稱:job數(shù))
Job數(shù)可根據(jù)研發(fā)內(nèi)部統(tǒng)計(jì),也可根據(jù)job數(shù)=每人最大并行job數(shù)*人數(shù)進(jìn)行計(jì)算,如團(tuán)隊(duì)并非全程在此項(xiàng)目中,人力還需折算統(tǒng)計(jì)。
例如:2022年2-5月,前端團(tuán)隊(duì)每人最大并行job數(shù)為1,團(tuán)隊(duì)有50人,均100%投入在此項(xiàng)目中,則填入下表的job數(shù)均為:50*1*100%=50。

Step 3:計(jì)算各團(tuán)隊(duì)當(dāng)月峰值算力并相加,得出峰值算力總計(jì)(計(jì)量單位:核小時(shí))
各團(tuán)隊(duì)的峰值計(jì)算公式:每job峰值核數(shù)*job數(shù)(每個(gè)階段計(jì)算方式一致)。
例如:2022年2-5月,前端團(tuán)隊(duì)的每job峰值核數(shù)為10,job數(shù)為50;2月驗(yàn)證團(tuán)隊(duì)還未開始任務(wù),3-5月,驗(yàn)證團(tuán)隊(duì)的每job峰值核數(shù)為20,job數(shù)為25;2-5月,后端團(tuán)隊(duì)還未開始任務(wù)。
計(jì)算過程如下
前端團(tuán)隊(duì):2-5月:10*50=500
驗(yàn)證團(tuán)隊(duì):3-5月:20*25=500
將各團(tuán)隊(duì)每月算力峰值相加,得到每月項(xiàng)目的算力峰值,計(jì)算得出項(xiàng)目各月算力峰值表

《XXX芯片項(xiàng)目-資源需求調(diào)研模板》Server一欄的Middle /High 型是用戶自己設(shè)定的不同機(jī)器配置,后期計(jì)算不同機(jī)型費(fèi)用時(shí)會(huì)用到,跟算力需求計(jì)算無關(guān)。
Part3 :全年現(xiàn)實(shí)算力需求折算
不管是小白版算法還是老司機(jī)版算法,都是一個(gè)月每天全部按峰值需求跑任務(wù)的前提下進(jìn)行計(jì)算的。但實(shí)際情況下,肯定不需要一直按峰值頂格跑。
我們折算一下:
全月全資源峰值用量:峰值核數(shù)*30天*24小時(shí)
全月實(shí)際用量可能是:峰值核數(shù)*22天*8小時(shí)
用小白版算法的數(shù)據(jù)來調(diào)整:
6月算力小波峰:后端按30天*18小時(shí)估算,驗(yàn)證按30天*16小時(shí)估算;
10月算力大波峰:后端按30天*24小時(shí)估算,驗(yàn)證按照30天*16小時(shí)估算。
得出下表,并繪制成相應(yīng)曲線圖:


灰色曲線為按峰值計(jì)算的算力需求
橙色曲線為折算后實(shí)際需要的算力
Part4 :一個(gè)并不艱難的選擇
好了,全生命周期算力需求算完了。到了算賬的環(huán)節(jié)了。

灰色代表當(dāng)月按峰值頂格算的用量,橙色代表月度實(shí)際用量。
綠色代表本地資源,必須按這一階段需求峰值準(zhǔn)備,也就是按灰色來準(zhǔn)備。買不到峰值,肯定會(huì)影響到芯片項(xiàng)目進(jìn)度。
如果是純本地,就是按綠色這根線買。現(xiàn)金流是必須要?jiǎng)佑靡淮蠊P的了,采購周期也是必須要考慮的。
按照本文開頭我們某客戶全生命周期月度算力實(shí)際用量曲線,波峰、波谷間差距可高達(dá)20倍,月調(diào)度核時(shí)峰值能達(dá)到百萬級(jí)以上。頂格買……

如果是全云端,就是按橙色這根線花錢。想用就用,不想用就關(guān)掉,用了才花錢。現(xiàn)金流逐步平緩支出。
綠色線和橙色線中間的差距(圖中陰影部分),各人可能有各人的體會(huì)。
算力資源規(guī)劃VS現(xiàn)金流
芯片項(xiàng)目周期VS市場(chǎng)競(jìng)爭(zhēng)格局
具體怎么權(quán)衡和取舍,還是要看企業(yè)自己。
一顆芯片設(shè)計(jì)完整生命周期下,不同階段,不同應(yīng)用場(chǎng)景,對(duì)算力更精細(xì)的需求差異,我們相應(yīng)的推薦和建議,以后再聊。
- END -
我們有個(gè)為應(yīng)用定義的EDA云平臺(tái)
集成多種EDA應(yīng)用,大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對(duì)短時(shí)間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個(gè)月甚至幾年,現(xiàn)在只需幾小時(shí)
5分鐘快速上手,拖拉點(diǎn)選可視化界面,無需代碼
支持高級(jí)用戶直接在云端創(chuàng)建集群
掃碼免費(fèi)試用,送300元體驗(yàn)金,入股不虧~
現(xiàn)在!我們的IC設(shè)計(jì)研發(fā)云平臺(tái)支持免費(fèi)試用,還送200元體驗(yàn)金掃碼免費(fèi)試用~

如果你對(duì)這個(gè)一站式IC設(shè)計(jì)云平臺(tái)還有更多想問的,比如:
1、你們支持哪些EDA應(yīng)用?能覆蓋到我常用的軟件嗎?
2、EDA應(yīng)用所需的計(jì)算資源非常大,你們?nèi)绾谓鉀Q這個(gè)問題?
3、把EDA研發(fā)環(huán)境部署到云上有什么好處?
4、除了CPU,GPU/TPU/大內(nèi)存的機(jī)器都有嗎?
5、你們說的“一整套即開即用的IC研發(fā)設(shè)計(jì)環(huán)境”是什么意思?從本地到云上,操作方式會(huì)改變很大嗎?
6、云端輸出計(jì)算結(jié)果是否與本地完全一致?
7、云端這么多的機(jī)器,管理得過來嗎?
8、云上有些資源很貴,有沒有節(jié)約成本的方案?
9、任務(wù)監(jiān)控也能用來省錢,你們是怎么做到的?
10、很多PDK,就有幾十T,怎么到云上,而且需要持續(xù)更新?
11、如何云上保護(hù)我們的IP資產(chǎn)?
12、腳本每日都有變動(dòng),云上要增加工作量?工作腳本如何更新?
13、云上的EDA軟件怎么部署安裝?
14、License Server配置在本地和云端對(duì)計(jì)算性能/一致性/穩(wěn)定性是否有影響? 15、使用平臺(tái)的工作人員比較多,能否對(duì)每個(gè)人設(shè)置使用資源的上限?
16、公司有海外研發(fā)部門,用你們平臺(tái)方便嗎?
17、怎么保障數(shù)據(jù)安全?
……答案都在這里,歡迎掃碼添加小F微信(ID:iamfastone)免費(fèi)獲取~

關(guān)于為應(yīng)用定義的云平臺(tái):
續(xù)集來了:上回那個(gè)“吃雞”成功的IC人后來發(fā)生了什么?
這一屆科研計(jì)算人趕DDL紅寶書:學(xué)生篇
缺人!缺錢!趕時(shí)間!初創(chuàng)IC設(shè)計(jì)公司如何“絕地求生”?
速石科技獲元禾璞華領(lǐng)投數(shù)千萬美元B輪融資
一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
速石科技成三星Foundry國內(nèi)首家SAFE?云合作伙伴
EDA云平臺(tái)49問
國內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
