原罪少女2,好女孩完整电影版在线观看,最美情侣免费高清视频 http://www.pdsaymm.com/blog Thu, 20 Jun 2024 03:29:05 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.3 http://www.pdsaymm.com/blog/wp-content/uploads/2019/08/cropped-logo-32x32.png 實證系列 Archives - 速石科技BLOG http://www.pdsaymm.com/blog 32 32 生信實證系列Vol.15:如何用AlphaFold2,啪,一鍵預(yù)測100+蛋白質(zhì)結(jié)構(gòu) http://www.pdsaymm.com/blog/alphafold2/ http://www.pdsaymm.com/blog/alphafold2/#respond Thu, 20 Jun 2024 03:02:58 +0000 http://www.pdsaymm.com/blog/?p=6273 "結(jié)構(gòu)就是功能"——蛋白質(zhì)的工作原理和作用取決于其3D形狀。 2020年末,基于深度神經(jīng)網(wǎng)絡(luò)的AlphaFold2,一舉破解了困擾生物學(xué)界長達五十年之久的“蛋白質(zhì)折疊”難題,改變了科學(xué)研究的游戲 …

The post 生信實證系列Vol.15:如何用AlphaFold2,啪,一鍵預(yù)測100+蛋白質(zhì)結(jié)構(gòu) appeared first on 速石科技BLOG.]]>

"結(jié)構(gòu)就是功能"——蛋白質(zhì)的工作原理和作用取決于其3D形狀。

2020年末,基于深度神經(jīng)網(wǎng)絡(luò)的AlphaFold2,一舉破解了困擾生物學(xué)界長達五十年之久的“蛋白質(zhì)折疊”難題,改變了科學(xué)研究的游戲規(guī)則,可以從蛋白質(zhì)序列直接預(yù)測蛋白質(zhì)結(jié)構(gòu),實現(xiàn)了計算機蛋白質(zhì)建模極高的精確度。
自AF2問世以來,全世界數(shù)百萬研究者已經(jīng)在瘧疾疫苗、癌癥治療和酶設(shè)計等諸多領(lǐng)域取得了突破。

2024年5月初,AlphaFold3再登Nature,基于Diffusion(擴散技術(shù))架構(gòu),將技術(shù)延伸到蛋白質(zhì)折疊之外,能以原子級精度準確預(yù)測蛋白質(zhì)、DNA、RNA、配體等生命分子的結(jié)構(gòu)及相互作用。

為了避免Diffusion技術(shù)在一些無結(jié)構(gòu)區(qū)域產(chǎn)生“幻覺”,DeepMind還創(chuàng)新了一種交叉蒸餾(cross-distillation)方法,把AF2預(yù)測的結(jié)構(gòu)數(shù)據(jù)預(yù)添加到AF3的預(yù)訓(xùn)練集中,減少AF3的預(yù)測失誤。

AF2代碼已開源,AF3目測不會開源,也不能商用。
我們今天的主角——只能是AlphaFold2。

想知道怎么使用AlphaFold2最最快樂?
怎么快速完成蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)?
我們能在背后幫你默默干點什么?
來吧——

01
先復(fù)習(xí)一下
AlphaFold2計算的正確打開方式

我們通常說的AlphaFold2是指一個利用多個外部開源程序和數(shù)據(jù)庫,通過蛋白質(zhì)序列預(yù)測其3D結(jié)構(gòu)的系統(tǒng)。
整個蛋白質(zhì)結(jié)構(gòu)預(yù)測計算過程大致可以分為兩個階段:

一、數(shù)據(jù)預(yù)處理

包括多序列比對(MSA)和模板搜索(Template Search)兩個步驟,主要是利用已知的蛋白質(zhì)序列和結(jié)構(gòu)模板,獲得不同蛋白質(zhì)之間的共有進化信息來提升目標蛋白質(zhì)結(jié)構(gòu)預(yù)測的準確性。

需要比對和搜索的數(shù)據(jù)總和達到了TB量級,涉及數(shù)據(jù)庫密集I/O讀寫,因此對I/O有較高的要求。
這一階段主要使用HMMER與HH-suite軟件,以及Uniprot、MGnify、PDB等多個蛋白質(zhì)數(shù)據(jù)庫。計算耗時與蛋白序列長度正相關(guān),主要使用CPU計算資源。

AF2訓(xùn)練數(shù)據(jù)集覆蓋多個數(shù)據(jù)庫,比如UniRef90/MGnify/PDB/BFD等,目前完整版大小約為2.62TB,是世界范圍內(nèi)較為權(quán)威的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫。2022年7月28日,Google DeepMind將數(shù)據(jù)庫從近100萬個結(jié)構(gòu)擴展到超過2億個結(jié)構(gòu),涵蓋了植物、細菌、動物和其他微生物等多個類別。

二 、模型推理與優(yōu)化

基于端到端的Transformer神經(jīng)網(wǎng)絡(luò)模型,AF2輸入Templates、MSA序列和pairing信息,其中pairing和MSA信息相互迭代更新,檢測蛋白質(zhì)中氨基酸之間相互作用的模式,輸出基于它們的3D結(jié)構(gòu)。


再用OpenMM軟件對預(yù)測的3D結(jié)構(gòu)進行物理放松,解決結(jié)構(gòu)違規(guī)與沖突。

使用Recycling(將輸出重新加入到輸入再重復(fù)refinement)進行多輪迭代訓(xùn)練和測試,多輪迭代優(yōu)化有一定的必要性,較為復(fù)雜的蛋白可能在多輪之后才能折疊到正確的結(jié)構(gòu)。
這一階段計算耗時與迭代次數(shù)正相關(guān),主要使用GPU計算資源。

02
Workflow全流程自動化
隨心組合,當一個甩手掌柜

作為一個系統(tǒng),AlphaFold2借助了多個外部開源軟件和數(shù)據(jù)庫,整個計算過程也比較復(fù)雜。
如果用戶想要自行使用,不但要下載龐大的數(shù)據(jù)庫,還需要自行搭建使用環(huán)境,對IT能力的要求不可謂不高。

用戶看到的基本都是左邊這種畫面,我們能做的第一點——就是提供一個平臺,把左邊變成右邊

而第二點,我們能跨越系統(tǒng)各個軟件之間,包括對軟件內(nèi)部的不同步驟任意重新排列組合,做成自動化的Workflow
一次制作,反復(fù)使用,省時省力,還不用擔心中間出錯。

比如?

一 、多數(shù)據(jù)庫同時多序列比對(MSA)

多序列比對需要在多個蛋白質(zhì)數(shù)據(jù)庫里進行查找。
常規(guī)使用模式,用戶要手動依次在N個數(shù)據(jù)庫里進行搜索,整個過程耗時等于N次搜索的時間之和。
我們可以讓不同數(shù)據(jù)庫的搜索同時進行,并做成一個固定Workflow,自動執(zhí)行,整個過程花費時間將等于耗時最長的數(shù)據(jù)庫搜索時間。既節(jié)約時間,又省事。

二 、全計算流程與資源自由組合

不僅僅限于某一個步驟,我們能做全計算流程的自定義Workflow
上一節(jié)我們復(fù)習(xí)了,AF2第一階段適合用CPU資源,第二階段使用GPU計算效果最佳,每個階段還涉及到不同軟件包。
整個計算過程比較復(fù)雜,需要在不同階段的不同步驟使用不同軟件包調(diào)用不同底層資源進行計算,手動操作工作量不小。而且,常規(guī)使用模式,可能會從頭到尾使用一種資源計算,這樣比較簡單,但是會比較吃虧,要么第一階段GPU純純浪費,要么第二階段慢得吐血,計算時間是原來的數(shù)倍。

我們能把整個計算流程與資源自由組合,讓用戶全程可視化操作,只需要輸入不同參數(shù)即可。既能實現(xiàn)應(yīng)用與資源的最佳適配,還能自動化操作,省去大量手動時間。

當然,還有無數(shù)種其他組合的可能性。
不止是AlphaFold2,自定義Workflow也能應(yīng)用在其他場景,戳:1分鐘告訴你用MOE模擬200000個分子要花多少錢

03
掃清技術(shù)障礙
TB級數(shù)據(jù)庫與I/O瓶頸問題

AF2訓(xùn)練數(shù)據(jù)庫完整版大小約為2.62TB,數(shù)據(jù)預(yù)處理階段需要在數(shù)據(jù)庫中執(zhí)行多次隨機搜索,這會導(dǎo)致密集的I/O讀寫。如果數(shù)據(jù)的讀取或?qū)懭胨俣雀簧希蜁绊懙秸麄€計算過程的效率。

這可能會導(dǎo)致:
1. 同一任務(wù)多次計算,耗時卻不同;
2. I/O等待超時,任務(wù)異常退出;
3. 即便增加CPU資源,也無法加速計算。

為了解決這一問題,我們對整個數(shù)據(jù)庫做了梳理和拆分。其中最大的BFD數(shù)據(jù)庫接近2T,對I/O的要求非常高。
因此,我們將高頻I/O的BFD數(shù)據(jù)庫存放在本地磁盤,其他數(shù)據(jù)庫存放在網(wǎng)絡(luò)共享存儲上。

這帶來了兩大好處:
第一、磁盤空間換時間,計算速度更快
將高頻訪問的BFD數(shù)據(jù)庫放在本地磁盤上,I/O讀寫速度快,非常適合需要快速響應(yīng)的數(shù)據(jù)。因為本地磁盤是與機器綁定的,如果不止一臺機器,這會導(dǎo)致本地磁盤存儲空間增加。
而其他對I/O讀寫速度要求不高的數(shù)據(jù)庫可以放在網(wǎng)絡(luò)共享存儲上,方便所有機器共享讀取和寫入,減少數(shù)據(jù)同步問題。
整體來說,用磁盤空間換取時間,讓I/O對計算的影響降到最低,顯著提升了AF2的運算效率。

第二、為未來可能的大規(guī)模并發(fā)計算掃清技術(shù)障礙
關(guān)于這一點,我們進入下一節(jié)。

04
大規(guī)模并發(fā)!
同時預(yù)測100+蛋白質(zhì)結(jié)構(gòu)

對用戶來說,不可能一次只預(yù)測1個蛋白質(zhì)結(jié)構(gòu)。
那么,如果要同時預(yù)測100+蛋白質(zhì)結(jié)構(gòu),怎么玩?
如果是以前,你不但需要搭好運行環(huán)境,準備好計算資源,然后一個一個預(yù)測,而且每一個還得手動走一遍完整的計算流程。這個過程一聽就十分漫長,而且容易出錯。

而現(xiàn)在——
已知一:我們有Workflow全流程自動化的能力,單個蛋白質(zhì)預(yù)測已經(jīng)是一個自動化的Workflow了;
已知二:我們解決了I/O瓶頸問題,也就是說,多臺機器對I/O讀寫瓶頸問題已經(jīng)解決。
100+蛋白質(zhì)結(jié)構(gòu)預(yù)測,又有什么難的?

現(xiàn)在,我們只需要再多做一步,同時運行有100+個不同輸入?yún)?shù)的Workflow,就行了。而完成這一步需要具備兩個條件:

一 、充分的CPU/GPU資源


我們調(diào)用10萬核CPU資源,使用AutoDock Vina幫用戶進行了2800萬量級的大規(guī)模分子對接,將運算效率提高2920倍:提速2920倍!用AutoDock Vina對接2800萬個分子
我們智能自動化調(diào)度云端GPU/CPU異構(gòu)資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務(wù)的耗時從單GPU的4個月縮短到20小時:155個GPU!多云場景下的Amber自由能計算

二 、調(diào)度器能力

這么多機器和任務(wù),怎么適配,按什么策略使用最佳,怎么配置、啟動、關(guān)閉,提高整體資源利用率,最好還能自動化管理、輔助管理決策等等,甚至怎么DEBUG,這需要的可不止是一點點技術(shù)。
詳情可戳:國產(chǎn)調(diào)度器之光——Fsched到底有多能打?

到這里,這100+蛋白質(zhì)預(yù)測任務(wù),就可以一次性跑完了。

05
V100 VS A100
關(guān)于GPU的一點選型建議

那么多GPU型號,你選哪個?

市面上的GPU型號不少,性能和價格差異也很大。
我們選取了3個蛋白質(zhì),分別使用V100A100進行了一輪計算:

可以看到,對同一個蛋白質(zhì)進行結(jié)構(gòu)預(yù)測,A100用時約為V100的60-64%。
而目前的市場價,無論是小時租賃、包月預(yù)留還是裸卡買斷,A100至少是V100的2倍以上。
也就是說,A100是以2倍多的價格,去換取約三分之一的性能提升
兩相比較,除非不差錢,我們推薦使用V100

實證小結(jié)


1.AlphaFold2是一個系統(tǒng),涉及到很多數(shù)據(jù)庫和不同軟件,我們的Workflow全流程自動化,讓用戶可以隨心組合,輕松上手蛋白質(zhì)結(jié)構(gòu)預(yù)測;
2.我們用磁盤空間換時間的手段,既解決了TB級數(shù)據(jù)帶來的I/O瓶頸問題,也為大規(guī)模并發(fā)計算掃清了技術(shù)障礙;
3.fastone可支持多個AlphaFold2任務(wù)大規(guī)模自動并行;
4.GPU也需要選型,我們推薦V100。

本次生信實證系列Vol.15就到這里。

關(guān)于fastone云平臺在各種BIO應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看
VinaAmber│?MOE│?LeDock
速石科技新藥研發(fā)行業(yè)白皮書,可以戳下方查看:
新藥研發(fā)37問?頂尖藥企AIDD調(diào)研

- END?-


我們有個一站式新藥研發(fā)平臺
集成行業(yè)應(yīng)用與自編譯軟件
支持AlphaFold、RoseTTAFold等常用AI應(yīng)用
可視化Workflow隨心創(chuàng)建、便捷分享
提供Zinc、Drugbank等開源/自有分子庫
CADD專家團隊全面支持掃碼

免費試用,送200元體驗金,入股不虧~

更多BIO電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
只做Best in Class的必揚醫(yī)藥說:選擇速石,是一條捷徑
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化3.5小時完成20萬分子對接
1分鐘告訴你用MOE模擬200000個分子要花多少錢
155個GPU!多云場景下的 Amber自由能計算
提速2920倍!用AutoDock Vina對接2800萬個分子

新藥研發(fā)平臺:
今日上新——FCP
專有D區(qū)震撼上市,高性價比的稀缺大機型誰不愛?
國產(chǎn)調(diào)度器之光——Fsched到底有多能打?
創(chuàng)新藥研發(fā)九死一生,CADD/AIDD是答案嗎?
全球44家頂尖藥企AI輔助藥研行動白皮書


近期重大事件:
速石科技完成龍芯、海光、超云兼容互認證,拓寬信創(chuàng)生態(tài)版圖
速石科技入駐粵港澳大灣區(qū)算力調(diào)度平臺,參與建設(shè)數(shù)算用一體化發(fā)展新范式
速石科技成NEXT PARK產(chǎn)業(yè)合伙人,共同打造全球領(lǐng)先的新興產(chǎn)業(yè)集群
速石科技出席ICCAD2023,新一代芯片研發(fā)平臺助力半導(dǎo)體企業(yè)縮短研發(fā)周期
速石科技與芯啟源開啟戰(zhàn)略合作,聯(lián)手打造軟硬件一體芯片研發(fā)云平臺

圖片
The post 生信實證系列Vol.15:如何用AlphaFold2,啪,一鍵預(yù)測100+蛋白質(zhì)結(jié)構(gòu) appeared first on 速石科技BLOG.]]>
http://www.pdsaymm.com/blog/alphafold2/feed/ 0
CAE實證Vol.14:超大內(nèi)存機器,讓你的HFSS電磁仿真解放天性 http://www.pdsaymm.com/blog/cae-hfss/ Fri, 19 Apr 2024 08:02:33 +0000 http://www.pdsaymm.com/blog/?p=6054 HFSS(High Frequency Structure Simulator)是世界上第一款商業(yè)化的3D電磁仿真軟件。由Ansoft公司在1990年開發(fā)并發(fā)布第一個版本。 2008年,Ansys收購了Ansoft,繼續(xù)開發(fā)HFSS等電子與 …

The post CAE實證Vol.14:超大內(nèi)存機器,讓你的HFSS電磁仿真解放天性 appeared first on 速石科技BLOG.]]>

HFSS(High Frequency Structure Simulator)是世界上第一款商業(yè)化的3D電磁仿真軟件
由Ansoft公司在1990年開發(fā)并發(fā)布第一個版本。

2008年,Ansys收購了Ansoft,繼續(xù)開發(fā)HFSS等電子與電磁仿真產(chǎn)品,目標是解決整個工業(yè)體系中機械與電氣領(lǐng)域的持續(xù)融合問題。

現(xiàn)在的HFSS,已經(jīng)成為天線、射頻RF或微波組件、高速互連、濾波器、連接器、IC封裝、PCB設(shè)計者必不可少的工具。世界各地的工程師使用 Ansys HFSS 軟件來設(shè)計通信系統(tǒng)、高級駕駛輔助系統(tǒng) (ADAS)、衛(wèi)星和物聯(lián)網(wǎng) (IoT) 產(chǎn)品中的高頻高速電子設(shè)備。

HFSS作為一款麥克斯韋理論為基礎(chǔ)的數(shù)值仿真計算工具,如何摸準TA的特性,借助計算機技術(shù)有效提升仿真效率,我們今天淺聊一下。

01
擴展性低
大內(nèi)存單機是首選


我們在藍箭航天案例中提到過,不同的CAE應(yīng)用,對于底層資源的適配要求是不一樣的。

對于求解計算:
隱式算法,相對顯式算法來說,精度相對高。但可擴展性不是很好,即在多臺機器上的線性加速比并不好,適合在多核大內(nèi)存機器上運行,一般對內(nèi)存、IO要求比較高。
顯式算法,精度相比隱式算法低,但可擴展性更好,即在多臺機器上的線性加速比相對較好,適合于多節(jié)點并行計算,對機器無特殊要求,一般對內(nèi)存、IO要求相對較低。

不同CAE業(yè)務(wù)場景的擴展性排序大抵如下圖所示,從上往下逐步提高:

HFSS作為計算電磁學(xué)的典型應(yīng)用,在整個表的最上層,這代表其可擴展性低,適合高配、高IO的單機,性能越高越好。

這是由于兩方面原因造成的:
1. 網(wǎng)絡(luò)通信開銷大
2. 內(nèi)存要求高

關(guān)于通信開銷,我們在Fluent實證LS-DYNA實證中都提到過,隨著計算節(jié)點規(guī)模的增加,這兩個應(yīng)用有著很明顯的節(jié)點之間數(shù)據(jù)交換造成的通信開銷,造成信息延時。
HFSS也是這樣,對網(wǎng)絡(luò)要求極高。隨著CPU核心數(shù)量的增加,帶寬優(yōu)勢超過了核心效率。也就是說,堆機器不如堆網(wǎng)絡(luò)帶寬。
而在內(nèi)存上的要求,跟算法、精確度十分相關(guān),很大程度上取決于對需求與價格的取舍。

整體來說,HFSS對內(nèi)存需求極高。根據(jù)我們的有限觀測,不同任務(wù)實際運行的CPU核數(shù)與內(nèi)存比從1:5到1:23,差異巨大。單個任務(wù)對內(nèi)存需求動輒幾百G,這類大內(nèi)存機器放在整個行業(yè)都屬于稀缺資源。

而結(jié)合以上這兩種需求場景,網(wǎng)絡(luò)要求高,內(nèi)存需求大,單臺大內(nèi)存機器成為不二之選。

我們?nèi)峦瞥龅?strong>FCC-E專有D區(qū)配置水平如下:

四大特點:
1. 專供超大內(nèi)存裸金屬機器;
2. 全新三/四代機器,性價比極高;
3. 三個月起租,短期/長期租賃皆可;
4. 可動態(tài)拓展至通用C區(qū)。


超大內(nèi)存裸金屬機器,最大4T內(nèi)存,最高192核,完美滿足HFSS應(yīng)用需求。
單機多核心,帶寬不是問題。
內(nèi)存足夠大,無需工程師向精度與算法做妥協(xié)。
而且,資源足夠,價格感人,還不用長期持有。

詳情戳:專有D區(qū)震撼上市,高性價比的稀缺大機型誰不愛?

02
要是沒有大單機或者一臺不夠呢?
那就搞集群!

在過去,如果企業(yè)不購買成本極其高昂的大機器,工程師就不得不對規(guī)模和難度大的設(shè)計“拆分組合”處理,將幾何結(jié)構(gòu)分割成多個區(qū)域,到后期再合并結(jié)果。由于沒有考慮所有的電磁耦合,這種方法是極容易出錯的。
或者,工程師直接簡化模型降低精度,以減少計算量。

現(xiàn)在,情況不同了,HFSS在HPC高性能計算技術(shù)方面下了不少工夫。
方法一:在算法層面的持續(xù)優(yōu)化與改進,提供針對多核機器優(yōu)化的數(shù)值求解器與算法;
方法二:通過將HFSS與調(diào)度器集成,將多臺機器組成集群來求解大規(guī)模問題,不再受限于單臺機器的配置水平,滿足網(wǎng)絡(luò)帶寬要求就可以。
這兩種方法,工程師都能使用HFSS求解更大、更復(fù)雜的模型,而不會影響精度。

我們擅長的是方法二。
對研發(fā)工程師來說,使用集群有兩大好處:

一、提高了單人使用上限

我們把一臺臺獨立的單機集群化,也就是變成一個統(tǒng)一的計算資源池。在某種意義上來說,集群可以被看作是一臺大的計算機,集群中的單個計算機通常叫做節(jié)點,由這些節(jié)點合作完成用戶任務(wù)。
當用戶把一個集群當一臺大計算機使用的時候,單個用戶的資源上限由原來一臺機器的上限,變成了這個資源池的整體上限。
所以,HFSS對資源的高要求,由原來的一臺機器變成由這個資源池來整體滿足。

用戶可以將HFSS任務(wù)調(diào)度分布在多個計算節(jié)點上執(zhí)行,也能通過在集群中劃分不同的仿真流程任務(wù)隊列及分配不同的資源隊列,并行執(zhí)行多個CAE設(shè)計流程。

說人話就是,一個任務(wù)可以拆分多機跑,多個任務(wù)可以同時跑,來了大任務(wù)也不用擔心被一臺機器的上限所限制。

二、提高了團隊協(xié)作水平

單機模式下大家都是各用各的,缺乏協(xié)作,也沒有統(tǒng)一管理,無形中造成的溝通成本和損耗,其實并不小。

各種不同任務(wù)之間可能會出現(xiàn)資源爭搶,互相干擾。比如,兩個HFSS任務(wù)同時在一臺機器上跑可能出現(xiàn)內(nèi)存告警。

集群模式下:
我們根據(jù)不同業(yè)務(wù)團隊分工,為其在集群中劃分不同的獨立分區(qū),這樣既保證了不同組的研發(fā)們能在同一個集群中工作,保留各自操作習(xí)慣,同時還互不干擾。

比如浙桂半導(dǎo)體的研發(fā)分為四個組,像元組的Sentaurus是搶資源大戶,往往他們的任務(wù)一上線,其他人就沒法用了。集群模式下的獨立分區(qū)可以很好地解決此類問題,戳這篇了解:【案例】95后占半壁江山的浙桂,如何在百家爭鳴中快人一步

同時,在建立起一套統(tǒng)一的使用規(guī)范基礎(chǔ)上,我們支持項目數(shù)據(jù)、用戶數(shù)據(jù)的統(tǒng)一管理和權(quán)限控制,不同業(yè)務(wù)團隊之間可以根據(jù)不同用戶權(quán)限共享計算、存儲、軟件資源等,整體上提高了整個團隊的工作與協(xié)同效率。

當然,除了研發(fā)工程師,對公司或團隊管理者和IT工程師來說,集群的好處就更多了。


這里不再展開,可以參考:從“單打獨斗”到“同舟共集”,集群如何成為項目研發(fā)、IT和老板的最佳拍檔?

03
絕配!
自適應(yīng)網(wǎng)格剖分&Auto-Scale


一半時間畫網(wǎng)格,一半時間等仿真結(jié)果。
這恐怕是很多CAE工程師的日常。

HFSS的自適應(yīng)網(wǎng)絡(luò)剖分技術(shù),是在幾何結(jié)構(gòu)和邊界條件網(wǎng)格自動生成的基礎(chǔ)上,根據(jù)電場梯度進行自適應(yīng)網(wǎng)格細化和剖分,經(jīng)過若干次迭代,給出滿足精度要求的結(jié)果。這一技術(shù)減少了求解所需的網(wǎng)格數(shù)量,大大降低了電磁場仿真的難度。

HFSS自適應(yīng)剖分過程:自動生成初始網(wǎng)格,網(wǎng)格加密細化迭代,直到收斂。
整個過程完全自動化,無需人為干預(yù)。

這對廣大電磁場仿真工程師來說是非常大的利好,在減少工作量的同時降低了軟件的使用難度,讓工程師們可以將注意力完全放在如何得到好的仿真結(jié)果上。

接下來,讓我們換一個視角來看這個問題。

HFSS支持將整個自適應(yīng)網(wǎng)格剖分過程通過調(diào)度器進行多步驟提交,我們的調(diào)度器Fsched提供的Auto-Scale功能與這個過程簡直是絕配。

最佳效果是分為三步:
第一步:初始網(wǎng)格生成,核數(shù)與內(nèi)存需求很低;
第二步:網(wǎng)格自適應(yīng)剖分,適度的核數(shù)與大量內(nèi)存需求;
第三步:頻率掃描,核數(shù)與內(nèi)存需求高。

三個階段需要的資源量差別很大。
同時,由于這一過程是自動的,很難提前預(yù)估內(nèi)存需求。
對用戶來說,如果留的緩沖空間比較大,可能造成資源浪費,留的空間小了,任務(wù)可能運行失敗。

我們的Auto-Scale功能可以根據(jù)HFSS任務(wù)在不同步驟的實際需求動態(tài)開啟云端資源,自動使用較少的資源啟動網(wǎng)格生成,而用較大的資源進行第三步頻率掃描,并在任務(wù)完成后自動關(guān)閉。
為每個步驟分配不同的資源量,最大程度匹配任務(wù)需求,提升任務(wù)成功率,減少資源浪費。


更多應(yīng)用場景可戳:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

04
GPU
一個可能的選擇

從ANSYS HFSS 17.2開始,HFSS開始明確支持GPU加速。

一般來說,GPU可以加速可視化和后處理過程,提高工作效率。
是否選擇使用GPU對求解器進行加速,主要還是取決于算法本身是否合適。

最新的ANSYS 2024 R1用戶手冊顯示GPU加速主要在以下三種場景:
1. 頻域求解器
2. 時域求解器
3. SBR+求解器

GPU加速需要占用HPC License,ANSYS Electronics HPC高性能選項模塊同時支持CPU加速和GPU加速,1個HPC Pack可以啟用1塊GPU加速卡或8個CPU內(nèi)核。

綜合對比硬件成本與運算效率,目前業(yè)界普遍認為使用GPU跑HFSS性價比不高

實證小結(jié)


1. 網(wǎng)絡(luò)通信和內(nèi)存要求雙高,一般來說,用HFSS跑3D電磁仿真首選大內(nèi)存單機
2. 沒有大內(nèi)存單機或者一臺不夠的情況下,通過把HFSS與調(diào)度器集成,將多臺機器組成集群來求解大規(guī)模問題,能幫助用戶求解更大、更復(fù)雜的模型;
3. 自適應(yīng)網(wǎng)格剖分技術(shù)結(jié)合fastone研發(fā)平臺的Auto-Scale功能可提升任務(wù)成功率,減少資源浪費。

本次CAE實證系列Vol.14就到這里了。
下一期,我們聊Abaqus。

關(guān)于fastone云平臺在各種CAE應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看:

Bladed │ Fluent │ LS-DYNA │ COMSOL

速石科技工業(yè)仿真行業(yè)白皮書,可以戳下方查看:
仿真宇宙|評測篇(上)|評測篇(下)

- END -


我們有個一站式工業(yè)研發(fā)平臺
CAE/CFD仿真設(shè)計全流程覆蓋
Auto-Scale自動按需開關(guān)所需資源
任務(wù)一鍵提交,仿真結(jié)果可視化
自研DM工具,高效傳輸仿真數(shù)據(jù)
仿真成本自動統(tǒng)計、分析、優(yōu)化

掃碼免費試用,送200元體驗金,入股不虧~

更多CAE電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
從“地獄級開局”到全球首款液氧甲烷火箭,我們?nèi)绾沃λ{箭沖破云霄
光電兼修的Alpha Cen,如何應(yīng)對上升期的甜蜜煩惱?
這樣跑COMSOL,是不是就可以發(fā)Nature了
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?

一站式工業(yè)仿真研發(fā)平臺:
專有D區(qū)震撼上市,高性價比的稀缺大機型誰不愛?
從“單打獨斗”到“同舟共集”,集群如何成為項目研發(fā)、IT和老板的最佳拍檔?
國產(chǎn)調(diào)度器之光——Fsched到底有多能打?
研發(fā)/IT工程師雙視角測評8大仿真平臺,結(jié)果……
八大類主流工業(yè)仿真平臺【心累指數(shù)】終極評測(上)
2023仿真宇宙漫游指南——工業(yè)仿真從業(yè)者必讀


近期重大事件:
速石科技入駐粵港澳大灣區(qū)算力調(diào)度平臺,參與建設(shè)數(shù)算用一體化發(fā)展新范式
速石科技亮相第五屆中國仿真技術(shù)應(yīng)用大會,領(lǐng)航工業(yè)研發(fā)云平臺發(fā)展
速石科技出席ICCAD2023,新一代芯片研發(fā)平臺助力半導(dǎo)體企業(yè)縮短研發(fā)周期
速石科技作為特邀服務(wù)商入駐IC PARK,合力打造集成電路產(chǎn)業(yè)新生態(tài)
速石科技聯(lián)合電信、移動、聯(lián)通三大運營商,為國家數(shù)字經(jīng)濟轉(zhuǎn)型注入新動力


The post CAE實證Vol.14:超大內(nèi)存機器,讓你的HFSS電磁仿真解放天性 appeared first on 速石科技BLOG.]]>
EDA云實證Vol.13:暴力堆機器之王——Calibre http://www.pdsaymm.com/blog/eda-calibre/ http://www.pdsaymm.com/blog/eda-calibre/#respond Wed, 28 Jun 2023 02:16:47 +0000 http://www.pdsaymm.com/blog/?p=5126 Siemens的Calibre是業(yè)內(nèi)權(quán)威的版圖驗證軟件,被各大Foundry廠廣泛認可。用戶可以直接在Virtuoso界面集成Calibre接口,調(diào)用版圖驗證結(jié)果數(shù)據(jù),使用起來極為方便。今天,我們就來聊聊這 …

The post EDA云實證Vol.13:暴力堆機器之王——Calibre appeared first on 速石科技BLOG.]]>

Siemens的Calibre是業(yè)內(nèi)權(quán)威的版圖驗證軟件,被各大Foundry廠廣泛認可。用戶可以直接在Virtuoso界面集成Calibre接口,調(diào)用版圖驗證結(jié)果數(shù)據(jù),使用起來極為方便。
今天,我們就來聊聊這款軟件。

版圖驗證是芯片設(shè)計中非常重要的一環(huán),一共包括三個環(huán)節(jié)。
DRC(Design Rule Check):檢查版圖是否符合Foundry廠的制造工藝規(guī)則,確保芯片能被正確生產(chǎn)出來;
LVS(Layout Versus Schematic):版圖工程師需要將畫好的版圖與原理圖對比,確保兩者所有連接保持一致;
寄生參數(shù)提?。≒arasitic Extraction):將版圖中的寄生參數(shù)提取出來,在Virtuoso中反饋結(jié)果,前端工程師會進行后仿驗證,重新評估電路特性并進行修改,保證流片正確。

這三個環(huán)節(jié)分別由Calibre的DRC、LVS、PEX三種工具來完成。

Calibre任務(wù)典型特性
重內(nèi)存,可拆分,適合暴力堆機器

Calibre任務(wù)有兩大特性:

1、重內(nèi)存需求,2T或4T的超大型內(nèi)存機器都有可能登場

版圖文件很大,需要處理的數(shù)據(jù)量非常大,但本身的邏輯判斷并不復(fù)雜,所以通常不剛需高主頻機型,但要求多核、大內(nèi)存的機器。CPU與內(nèi)存的比例通常能達到1:4或1:8,極端情況下這個比例會更高,2T或4T的超大型內(nèi)存機器都有可能登場。

我們在下面兩篇文章里仔細盤過模擬&數(shù)字芯片設(shè)計全流程的業(yè)務(wù)場景、常用EDA工具、資源類型、算力需求、典型場景

芯片設(shè)計五部曲之一 | 聲光魔法師——模擬IC
芯片設(shè)計五部曲之二 | 圖靈藝術(shù)家——數(shù)字IC

2、可拆分,無關(guān)聯(lián),適合暴力堆機器

我們在模擬這篇文里寫過版圖驗證就像是一個“大家來找茬“的游戲。
在運行任務(wù)的時候,Calibre會把版圖切分成相互沒有邏輯關(guān)系的塊狀分區(qū),這些分區(qū)之間彼此沒有相關(guān)性,互不干擾,所以可以同時進行。
切得越細,同時檢查的人更多,效率就越高。

三體里的切法大家還記得吧,一字橫切。
而芯片只能豎著切,可以十字切法。橫切會影響到芯片層與層之間的連接關(guān)系。

暴力堆機器也是有技術(shù)含量的

1、 首先,要有光,你得有大內(nèi)存的機器

我們的全球資源池可以根據(jù)用戶需求在全球范圍內(nèi)調(diào)度海量云端異構(gòu)資源。GPU、TPU、FPGA,要啥都有。

其中,FCC-B產(chǎn)品提供準動態(tài)資源池,擁有行業(yè)特需的大內(nèi)存機型,具有較低的整體擁有成本。而且,可以擴展到FCC-E使用彈性資源。
總之,大內(nèi)存的機器,沒有問題。

那么,萬一不是一直不夠,是偶爾不夠怎么辦呢?
我們有一個小技巧,專門應(yīng)用于這種內(nèi)存峰值場景。

Swap,交換分區(qū),就是在內(nèi)存不夠的情況下,操作系統(tǒng)先把內(nèi)存中暫時不用的數(shù)據(jù),存到硬盤的交換空間,騰出內(nèi)存來讓別的程序運行。
比如跑一組Calibre任務(wù)需要10小時,其中9個小時的內(nèi)存使用量都在200G左右,只有1個小時達到了260G。

如果選擇256G內(nèi)存的機型配置,任務(wù)必崩無疑。
但要是為了這1小時不到10G的內(nèi)存溢出而全程使用512G的配置,成本翻倍,未免有點太不劃算了。
使用Swap交換分區(qū)就可以無縫填補這一空缺,非常匹配這種內(nèi)存峰值場景。

Swap的具體使用案例,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

注意:此方法不適合長期使用,磁盤的速度和內(nèi)存相比慢了好幾個數(shù)量級,如果不停讀寫 Swap,對系統(tǒng)整體性能有影響。

2、 怎么把這些機器組隊管理起來?

有了機器,下一步當然是要把它們利用起來。
Calibre默認支持單機多核并行跑任務(wù),這意味著只要機器足夠大,就可以同時處理很多任務(wù)。
但是,當你的大機器不夠多,或者根本拿不到大機器的時候,就很苦惱了。

我們的方法是:將所有機器組成一個集群——多機多核的方式同時跑多個任務(wù)。

關(guān)于單機、單核、單任務(wù)、多任務(wù)、集群化、并行化進一步的定義與區(qū)別,可以看這篇:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事

集群自動化管理,少量大機器需要,大量小機器就更需要了。
為啥?

理由一,能方便地自動化運維整個集群
比如軟件安裝配置、資源監(jiān)控、集群管理等工作,是需要IT一臺臺機器去逐一手動操作,還是鼠標點幾下就可以完成?

理由二,能快速方便地分配業(yè)務(wù),提高資源利用率
比如,臨時需要將一批機器從團隊A劃撥給團隊B使用,有沒有什么辦法可以讓IT快速方便地進行配置?比如,因為資源使用的不透明和缺乏有序管理,會出現(xiàn)不同人對同一資源的爭搶,任務(wù)排隊等現(xiàn)象。同時,你會發(fā)現(xiàn)資源利用率還是不高。

3、怎么讓機器自動化干活,不用人操心?

自動化干活可太有必要了。
否則,那么多任務(wù),那么多機器,需要多少雙手和眼睛才能忙得過來?

來,我們給你“手”和“眼睛”。

首先是我們的“手”——Auto-Scale功能。
來看一下本地手動跑任務(wù)Auto-Scale自動化跑任務(wù)的區(qū)別:

基于我們自主研發(fā)的調(diào)度器——Fsched,Auto-Scale自動伸縮功能自動化創(chuàng)建集群,自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源需求,動態(tài)按需地開啟與關(guān)閉所需算力資源,做到分鐘級彈性伸縮,在提升效率的同時有效降低成本。

更多療效,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

有了“手”干活,還得有“眼睛”盯著防止出錯。
我們能多維度監(jiān)控任務(wù)狀態(tài),提供基于EDA任務(wù)層的監(jiān)控、告警、數(shù)據(jù)統(tǒng)計分析功能與服務(wù)。

如果沒有這雙“眼睛”,可能出現(xiàn)哪些問題?戳這篇:【案例】95后占半壁江山的浙桂,如何在百家爭鳴中快人一步
未來我們還會有一篇文章專門討論EDA領(lǐng)域基于業(yè)務(wù)的監(jiān)控功能,敬請期待哦~

你看,不僅可以自動化跑任務(wù),還能時刻幫你盯著任務(wù)是否出錯。

來,我們小暴力一下

先說結(jié)論:

我們在單臺大機器多臺小機器組合場景下分別跑了同一組Calibre任務(wù)。

單臺大機器場景下,隨著核數(shù)的增加,任務(wù)耗時呈現(xiàn)明顯的線性下降關(guān)系,整體性能曲線非常貼近基準線(單機核數(shù)有上限,本次實證中,我們使用的最大單機為128核,并根據(jù)32核、64核、128核的耗時規(guī)律預(yù)估了256核單機的耗時數(shù)據(jù),僅供參考)。

多臺小機器組合場景下,隨著機器數(shù)量的翻倍,任務(wù)耗時同樣線性下降,但在后期倍數(shù)關(guān)系上有所損耗,多機性能曲線略低于基準線和單機性能曲線。

實證過程:
1、使用fastone云平臺調(diào)度32核、64核、128核單機分別運行一組Calibre任務(wù),耗時分別為14小時57分49秒、7小時30分28秒、3小時50分11秒;
2、按上條實證數(shù)據(jù),預(yù)估使用fastone云平臺調(diào)度256核單機運行一組Calibre任務(wù)的耗時為1小時58分6秒;
3、使用fastone云平臺調(diào)度2、4、8臺32核機器分別運行一組Calibre任務(wù),耗時分別7小時43分51秒、4小時6分14秒、2小時15分34秒。

還有大家關(guān)心的Intel第四代機器
我們也搞來跑了一下

在上一節(jié)中,我們使用的均為第三代英特爾至強可擴展處理器,而在2023年1月11日,英特爾正式推出了第四代至強可擴展處理器。
我們立馬搞來跑了一遍,為了對比參照,我們還拉上了第二代和第三代,并且把核數(shù)都按比例換算為48核。

實證過程:
1、使用fastone云平臺調(diào)度48核第二代英特爾處理器運行一組Calibre任務(wù),耗時10小時46分26秒;
2、使用fastone云平臺調(diào)度48核第三代英特爾處理器運行一組Calibre任務(wù),耗時9小時56分13秒,相比第二代提升7.77%;
3、使用fastone云平臺調(diào)度48核第四代英特爾處理器運行一組Calibre任務(wù),耗時8小時18分43秒,相比第三代提升16.35%,比第二代提升22.85%。

可以看到每一代都有提升,且型號越新,提升幅度越大,三代比二代提升了7.77%,四代比三代提升了16.35%。
而在價格上,目前四代和三代的類似機型換算一下,幾乎是相同的。

實證小結(jié)

1、Calibre DRC/LVS/PEX不剛需高主頻機型,但要求多核、大內(nèi)存的機器,任務(wù)可拆分,適合暴力堆機器;
2、fastone云平臺的全球動態(tài)資源池、集群自動化管理能力、自動化跑任務(wù)并監(jiān)控告警的功能可完美匹配Calibre的需求;
3、隨著計算資源的提升,Calibre的任務(wù)耗時呈現(xiàn)明顯的線性關(guān)系,其中單機整體性能曲線非常貼近基準線,多機效果后期會略有折損;
4、最新型號的處理器可以大幅提升Calibre的效率,可根據(jù)項目周期與實際預(yù)算綜合考量機型配置。

本次EDA云實證系列Vol.13就到這里了。
下一期,我們聊ADS,也可能是ALPS。看心情~~~

關(guān)于fastone云平臺在各種EDA應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看:
HSPICE │ OPC │ VCS │ Virtuoso
速石科技芯片設(shè)計五部曲,前三部先睹為快:
模擬IC 數(shù)字IC 算法仿真


- END -


我們有個IC設(shè)計研發(fā)云平臺
IC設(shè)計全生命周期一站式覆蓋
調(diào)度器Fsched國產(chǎn)化替代、專業(yè)IT-CAD服務(wù)
100+行業(yè)客戶落地實踐
支持海內(nèi)外多地協(xié)同研發(fā)與辦公

多層安全框架層層保障

掃碼免費試用,送200元體驗金,入股不虧~

更多EDA電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?


關(guān)于為應(yīng)用定義的云平臺:
最強省錢攻略——IC設(shè)計公司老板必讀
芯片設(shè)計五部曲之三 | 戰(zhàn)略規(guī)劃家——算法仿真
芯片設(shè)計五部曲之二 | 圖靈藝術(shù)家——數(shù)字IC
芯片設(shè)計五部曲之一 | 聲光魔法師——模擬IC
【案例】速石X騰訊云X燧原:芯片設(shè)計“存算分離”混合云實踐
ICCAD2022】首次公開亮相!國產(chǎn)調(diào)度器Fsched,半導(dǎo)體生態(tài)1.0,上百家行業(yè)用戶最佳實踐
解密一顆芯片設(shè)計的全生命周期算力需求
居家辦公=停工?nonono,移動式EDA芯片設(shè)計,帶你效率起飛
缺人!缺錢!趕時間!初創(chuàng)IC設(shè)計公司如何“絕地求生”?
續(xù)集來了:上回那個“吃雞”成功的IC人后來發(fā)生了什么?
一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
速石科技成三星Foundry國內(nèi)首家SAFE?云合作伙伴
EDA云平臺49問
億萬打工人的夢:16萬個CPU隨你用
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500

The post EDA云實證Vol.13:暴力堆機器之王——Calibre appeared first on 速石科技BLOG.]]>
http://www.pdsaymm.com/blog/eda-calibre/feed/ 0
生信云實證Vol.12:王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接 http://www.pdsaymm.com/blog/bio-ledock/ http://www.pdsaymm.com/blog/bio-ledock/#respond Fri, 09 Sep 2022 07:30:15 +0000 http://www.pdsaymm.com/blog/?p=3346 LeDock是蘇黎世大學(xué)Zhao HongTao在博士期間開發(fā)的一款分子對接軟件,專為快速準確地將小分子靈活對接到蛋白質(zhì)而設(shè)計。 LeDock優(yōu)于大部分商業(yè)軟件,在Astex多樣性集合上實現(xiàn)了大于90% …

The post 生信云實證Vol.12:王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接 appeared first on 速石科技BLOG.]]>

LeDock是蘇黎世大學(xué)Zhao HongTao在博士期間開發(fā)的一款分子對接軟件,專為快速準確地將小分子靈活對接到蛋白質(zhì)而設(shè)計。

LeDock優(yōu)于大部分商業(yè)軟件,在Astex多樣性集合上實現(xiàn)了大于90%的構(gòu)象預(yù)測準確度,對接時間最快僅需三秒。

LeDock同時支持Windows、Linux和MacOS三大操作系統(tǒng)。

Linux版支持大規(guī)模虛擬篩選,需要通過代碼操作才能實現(xiàn)目標。

Windows版的圖形界面極大簡化了藥物化學(xué)家常見多重復(fù)雜的對接過程,但每次任務(wù)只能對接一個分子,效率極低,只適用于少量對接場景。

如果考慮到不少用戶還有分子庫相關(guān)的需求,無論哪種版本,對用戶來說,都有點難搞。

今天我們就通過一個LeDock實證來聊聊,怎么幫助大家愉快地(不寫代碼)提高大規(guī)模分子對接效率(少點手動),甚至還能解決一些別的問題(一些爽點),擴大實驗的空間和范圍,放飛研發(fā)人員的想象力。

科研這件事,還是需要有點兒想象空間的。

用戶需求

某藥企藥物化合部想使用LeDock進行20萬分子對接任務(wù),但本地只有兩臺48核的工作站。

如果按Windows版的一對一串行對接模式,假設(shè)按1分鐘一個算吧,不吃不喝不睡不關(guān)機,也要對接138天。如果再加上中間出錯修改、參數(shù)配置、分子庫處理,無數(shù)次重復(fù)手動操作步驟,就,沒法算了。。。

如果用Linux版,這一時長就取決于兩個點:本地擁有的資源數(shù)量和IT能力的高低

所以,他們有以下幾個問題:

1. 基于現(xiàn)實條件,怎么快速達成用LeDock跑20萬分子對接任務(wù)這個目標?

2. 能不能使用更友好的圖形界面來進行操作?甚至把一些工作流程固定,下次直接就能用,還可以分享給同事?

3. 能不能幫忙準備分子庫?

實證目標

1、能否讓用戶擁有Windows版和Linux版的雙重優(yōu)點,不用寫代碼,也能實現(xiàn)大規(guī)模虛擬篩選?

2、LeDock任務(wù)能否在fastone云平臺大規(guī)模運行且效率顯著提升?

3、用戶很多常見復(fù)雜的手動操作,能不能自動化進行?

4、是否能為用戶提供開箱即用的分子庫?

實證參數(shù)

產(chǎn)品類型:

速石FCC-E產(chǎn)品

操作系統(tǒng)及應(yīng)用:

LeDock Linux版

適用場景:

研究配體和受體(藥物分子)相互作用的模擬方法

云端硬件配置:本任務(wù)屬于CPU密集型任務(wù),對內(nèi)存的需求不高,因此我們選擇了高性價比的云端計算優(yōu)化型實例(CPU/內(nèi)存=1:2)。


用戶完整工作流程圖


用戶打開應(yīng)用,提交蛋白質(zhì)pdb文件,選擇分子庫文件和資源后,由fastone平臺進行分子對接并打分,用戶可直接查看結(jié)果,提取目標分子,進行下一步化合物研究。

實證過程

一、開箱即用,一鍵定位&加密的分子庫


1. 開箱即用的分子庫

對接開始前,用戶除了蛋白質(zhì)pdb文件,還需要準備分子庫文件。分子庫大多來自海外,其本身的大小和數(shù)據(jù)質(zhì)量,直接影響著后續(xù)虛擬篩選階段的命中率。對用戶來說,需要將分子庫從外網(wǎng)下載到本地,有些數(shù)據(jù)量動輒幾十T,如果還涉及分子結(jié)構(gòu)從2D轉(zhuǎn)換到3D等復(fù)雜處理,運算量相當大,要么耗時間,要么耗錢。


我們已經(jīng)準備好開箱即用的分子庫供用戶使用,包括:Zinc、DrugBank、Maybridge、Enamine等。

因為LeDock僅支持mol2格式,fastone平臺會在對接前,自動將sdf格式轉(zhuǎn)換成多分子mol2格式文件,同時完成拆分,使單個分子對應(yīng)一個mol2文件。否則,直接把多分子mol2文件放進去對接,只會讀取第一個分子。


2. 一鍵定位&加密的分子庫索引系統(tǒng)

用戶篩選完分子后,還要在20萬個分子的原始庫里迅速定位并提取出來。這難度不亞于只知道書名但要在圖書館里找書,茫茫書海,大海撈針。

我們的分子庫索引系統(tǒng)就派上了大用場。


這套索引和圖書館索引系統(tǒng)類似,將原始分子名字通過加密轉(zhuǎn)換成唯一ID, ID相當于GPS定位,表示該分子在原始庫里的具體位置。

比如,某分子的唯一ID為“A-G22-18578”,即表示他位于分子庫A區(qū)G22柜的第18578個,可以輕松將分子提取出來。

這道索引系統(tǒng)相當于為原始分子庫做了一道數(shù)據(jù)加密和定位系統(tǒng),除了用戶沒人知道最終提取出來的是哪些分子,既保護了數(shù)據(jù)的安全性,又讓用戶能迅速定位到某個分子。


二、云端大規(guī)模業(yè)務(wù)驗證

200000個分子上云


用戶使用fastone平臺,在云端調(diào)度768核計算資源,成功對接200000個分子,從中篩選出了300個分子,進行下一步的化合物研究。此次任務(wù)對接共耗時3.5小時,平均對接一個分子只需45S。


這里要說明一下,這個45S不是純分子對接時間,是包括了用戶的整個工作流程所有操作在內(nèi)的。而且,不同分子之間的對接時長是不一樣的,時間會被對接得慢的分子拉長,無法直接橫向?qū)Ρ取1热缬脩粼谶M行3萬分子對接的時候,平均時長卻達到了90S。


實證過程:

1. 云端調(diào)度48核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時3262.6分鐘;

2. 云端調(diào)度96核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時1630.8分鐘;

3. 云端調(diào)度192核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時815.1分鐘;

4. 云端調(diào)度384核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時407.2分鐘;

5. 云端調(diào)度768核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時203.3分鐘。

從圖上可以看出,LeDock任務(wù)在云端的線性擴展性表現(xiàn)良好,當云端資源增加到768核之后,運算時間縮短到了3個多小時,極大地提升了運行效率。


即使當分子數(shù)量增加到2800萬這個量級,我們調(diào)用10萬核CPU資源,在AutoDock Vina這個應(yīng)用上也同樣表現(xiàn)優(yōu)秀,可參考《提速2920倍!用AutoDock Vina對接2800萬個分子》


三、自動,自動,全是自動


1. 單機模式VS并行化

我們把跑分子對接這個任務(wù)分成三種不同的IT難度等級 :

沒有難度:單機單CPU核,單任務(wù)。

中等難度:單機多CPU核,多任務(wù)。

王者難度:多機多CPU核,多任務(wù)。


想要對三種難度等級深入了解,看這里《揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事》


如果按照“沒有難度”這個等級,200000個分子串行排隊,一個任務(wù)跑1分鐘,我們開頭已經(jīng)算過了,基本沒什么現(xiàn)實可操作性。


我們直接將你帶飛到"王者難度",在n臺n核的機器上跑,效率提升n*n倍,理論上n可以無限大。這個數(shù)字用戶可以自行設(shè)定。

2.    一次設(shè)定,跑完20萬個任務(wù)

怎么把一些工作流程固定,不用一次次重新設(shè)定,下次直接一鍵使用。甚至還可以分享給其他同事,提高大家的工作效率?

到了速石傳統(tǒng)藝能項目—自定義模板出馬的時候了。


我們將用戶跑LeDock的工作流程固定成一套模板:

step 1:用戶提交蛋白質(zhì)pdb文件;

step 2:用戶選擇sdf格式分子庫文件;

step 3:fastone平臺自動將sdf格式轉(zhuǎn)換為mol2格式分子庫文件;

step 4:fastone平臺自動進行多分子拆分;

step 5:fastone平臺將蛋白質(zhì)、參數(shù)文件與mol2格式分子進行對接;

step 6:fastone平臺掃描所有已完成對接的分子,進行打分;

step 7:用戶查看打分結(jié)果;

step 8:用戶篩選并從分子庫里提取出分子,進行下一步化合物研究。


用戶在這個模板的基礎(chǔ)上,自行調(diào)整各項參數(shù),就能按這個流程一路跑下去了。

一次設(shè)定,反復(fù)使用,省時省力,還不用擔心以后不小心出錯。


這套自定義模板不但能分享,還可以跨應(yīng)用設(shè)定,可以展開看看《1分鐘告訴你用MOE模擬200000個分子要花多少錢》


3.  自動檢查文件完整性

這個自動檢查包括兩個部分:

第一,用戶上傳配置文件的同時,速石平臺內(nèi)置的檢查程序,會自動檢查文件完整性。

每個步驟需要用到的文件量很可能不一致,如果用戶運行到第五六步了,才發(fā)現(xiàn)某個上傳文件有問題,應(yīng)該會非常崩潰。

第二,對接完成后,我們會對完成打分的文件數(shù)和初始文件庫做日志校驗看數(shù)據(jù)是否有丟失。平常情況下,用戶可能很難察覺。


在這種大規(guī)模任務(wù)下,自動檢查程序能大大降低用戶任務(wù)返工率,以及協(xié)助用戶判斷運行過程中是否有問題。有些問題靠人力可能無力檢查。

4. 兩種場景下的重復(fù)提交任務(wù)功能和自動監(jiān)控告警

放著機器通宵跑任務(wù)時總會幻想:第二天一早,任務(wù)已經(jīng)跑完了,完美。

現(xiàn)實是:任務(wù)才跑了10%。

任務(wù)出錯,進度條卡住,可能會有兩種情形:

第一種:每個任務(wù)之間獨立,彼此沒有關(guān)聯(lián)。

一般任務(wù)數(shù)量越多,失敗的任務(wù)數(shù)量大概率也會變多,比如對接1萬個分子,有可能會有50個失敗任務(wù);20萬個分子,可能有1000個失敗任務(wù)。

第二種:每個任務(wù)間有明確的先后處理順序,必須從A任務(wù)按序跑到Z。

假如到F任務(wù)就失敗了,整個任務(wù)就此停滯,涼涼。


自動檢查任務(wù)狀態(tài)并對失敗任務(wù)及時重復(fù)提交的功能,就是這種場景的克星,尤其是第二種,不然等待著你的,大概就是通宵,同時睜大你的雙眼了。我們的任務(wù)監(jiān)控告警功能,還會時刻監(jiān)控任務(wù)狀態(tài),通過IM及時通知用戶,任務(wù)出現(xiàn)異?;蛞呀?jīng)完成。

我們還見到過一種特殊情況,Amber用GPU跑任務(wù)速度快,CPU較慢,但使用GPU計算時存在10%-15%的失敗概率。一旦任務(wù)失敗,需要調(diào)度CPU重新計算。

能否及時且自動地處理失敗任務(wù),將極大影響運算周期。如果想了解我們怎么應(yīng)對的,請點擊《155個GPU!多云場景下的Amber自由能計算》

實證小結(jié)

1、LeDock 大規(guī)模云端篩選毫無壓力,運行效率呈線性顯著提升;

2、fastone平臺能提供開箱即用,且能一鍵定位&加密的分子庫;

3、fastone 能為用戶定制自定義模板,一次設(shè)定,反復(fù)使用,界面友好;

4、fastone平臺提供的自動化檢查程序和重復(fù)提交任務(wù)功能,極大降低用戶的工作量;

5、用戶在20萬個分子對接任務(wù)中,篩選出了300個分子,進行下一步的化合物研究工作。


本次生信行業(yè)云實證系列Vol.12就到這里。


關(guān)于fastone云平臺在其他應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看:

HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ MOE │ LS-DYNA  Virtuoso│ COMSOL


- END -

我們有個生物/化學(xué)計算云平臺
集成多種CAE/CFD應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群


掃碼免費試用,送200元體驗金,入股不虧~

更多電子書 歡迎掃碼關(guān)注小F(ID:imfastone)獲取

 

你也許想了解具體的落地場景:

這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關(guān)于為應(yīng)用定義的云平臺:

Uni-FEP on fastone|速石科技攜手深勢科技,助力創(chuàng)新藥物研發(fā)提速

【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書

創(chuàng)新藥研發(fā)九死一生,CADD/AIDD是答案嗎?

這一屆科研計算人趕DDL紅寶書:學(xué)生篇

AI太笨了……暫時

幫助CXO解惑上云成本的迷思,看這篇就夠了

國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手

花費4小時5500美元,速石科技躋身全球超算TOP500

【大白話】帶你一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP

The post 生信云實證Vol.12:王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接 appeared first on 速石科技BLOG.]]>
http://www.pdsaymm.com/blog/bio-ledock/feed/ 0
CAE云實證Vol.11:這樣跑COMSOL,是不是就可以發(fā)Nature了 http://www.pdsaymm.com/blog/caecomsol/ Thu, 28 Oct 2021 03:17:38 +0000 http://www.pdsaymm.com/blog/?p=2477 說起多物理場仿真,必然繞不開COMSOL Multiphysics。不局限于究竟是哪種物理場,不局限于物理場之間如何實現(xiàn)耦合。COMSOL提供統(tǒng)一的數(shù)值仿真平臺,使用相同的操作界面和工作流進行不同 …

The post CAE云實證Vol.11:這樣跑COMSOL,是不是就可以發(fā)Nature了 appeared first on 速石科技BLOG.]]>
說起多物理場仿真,必然繞不開COMSOL Multiphysics
不局限于究竟是哪種物理場,不局限于物理場之間如何實現(xiàn)耦合。COMSOL提供統(tǒng)一的數(shù)值仿真平臺,使用相同的操作界面和工作流進行不同類型的數(shù)值仿真,可以說十分優(yōu)秀了。

從1998年發(fā)布首個版本至今,COMSOL一直在持續(xù)進化,如今它已經(jīng)有了30多個針對不同應(yīng)用領(lǐng)域的專業(yè)模塊,涵蓋力學(xué)、電磁場、流體、傳熱、化工、MEMS、聲學(xué)等專業(yè)學(xué)科,并可以將不同的物理問題關(guān)聯(lián)起來,方便研究不同物理過程之間的相互作用。
越來越多Nature、Science及其子刊論文都用到了COMSOL模擬。

今天我們以一個高校用戶為例,講講我們在COMSOL實際運用過程中,除了速度和效率的提升外,還幫他們解決了哪些問題?
比如:
Windows還是Linux?
這是個問題關(guān)于多機并行,有多少種不同的打開方式
一旦用了外部資源,比如超算,本地機器閑置了,就問你心不心疼?
本地環(huán)境維護,就問你操不操心?
老師的需求:既要,又要,還要,一把滿足,這真實嗎?
……
所以,現(xiàn)在可以發(fā)Nature了嗎(劃掉)

用戶需求

某高校課題組有5臺工作站,雖然機器比較老舊,但平時大家協(xié)商著劃分時間輪流跑任務(wù),甚至還有排半夜的。整體來說,資源也勉強夠用。
最近該課題組新增了幾名成員,并申請到了幾個科研項目,需要使用COMSOL做大量仿真計算,這就直接導(dǎo)致了計算資源捉襟見肘。

現(xiàn)在的問題點主要有三個:
1、人多了,難管理,資源利用率整體很低;
2、他們也用過超算,但是資源是共享的,有隨時被搶走的風險,心里沒底,而且沒法跟本地連到一起來用;
3、本地的各種維護工作,應(yīng)用升級,安裝配置等工作非常繁瑣,需要耗費大量時間手工操作。

實證目標

1、COMSOL任務(wù)能否在云端跑得更快?
2、fastone平臺的云解決方案能否同時利用好課題組的本地資源?
3、fastone平臺的資源能否提供更大的用戶權(quán)限?
4、fastone平臺能否將各種維護工作降到最低?

實證參數(shù)

平臺:fastone企業(yè)版產(chǎn)品 

應(yīng)用:COMSOL Multiphysics 

場景:電磁場分析、風力發(fā)電機噪音分析、HVAC導(dǎo)管流線分布等 

系統(tǒng):Windows/Linux 

云端配置:計算優(yōu)化型實例/網(wǎng)絡(luò)加強型實例

架構(gòu)圖:

計算云架構(gòu)圖

實證過程

一、Windows還是Linux?這是個問題

COMSOL同時支持Windows和Linux系統(tǒng)的集群計算。用戶一直使用的是較為熟悉的Windows版本。 

現(xiàn)在,讓我們默念三遍:Windows的世界,一切都要錢的。
單機跑的情況下,這不是什么大問題。但一旦涉及到多機多核運行任務(wù),問題就大了。

比如:主流云廠商對不同操作系統(tǒng)鏡像有不同的定價方式。整體來說,通過Windows系統(tǒng)使用云資源價格比Linux系統(tǒng)要貴。
因此,使用Linux替換Windows也可以有效節(jié)省成本。

六大云廠商系統(tǒng)價格

所有,都要錢。
總之,不是長久之計。 

而如何從Windows系統(tǒng)轉(zhuǎn)換到Linux系統(tǒng)呢?
這就跟習(xí)慣了用Android系統(tǒng)的人,換成iOS一樣。一旦適應(yīng),操作就如絲般順滑。
為了確保這一點,我們支持用戶在Linux系統(tǒng)中使用圖形化界面操作COMSOL任務(wù),用戶只需熟悉一下Linux的常用操作與工具(如瀏覽器、文本編輯器),即可在很短的時間內(nèi)上手,操作習(xí)慣幾乎無需改變。

而這也為今后用戶在Linux上多機集群化跑COMSOL打下了省錢的基礎(chǔ)。

二、多機并行,不同的打開方式?jīng)Q定了運算效率 根據(jù)我們的經(jīng)驗,COMSOL的情況與Fluent類似。
當核數(shù)較低時,性能提升與核數(shù)基本成正比;而當云端核數(shù)逐漸增加后,由于節(jié)點間通信開銷指數(shù)級上升,性能的提升會隨著線程數(shù)增長逐漸變緩。關(guān)于如何解決節(jié)點之間數(shù)據(jù)交換造成的通信開銷問題,可以參考Fluent和LS-DYNA這兩個應(yīng)用實證:
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

下圖可以看到我們推薦用戶使用的網(wǎng)絡(luò)加強型實例對比計算優(yōu)化型實例的效果。

網(wǎng)絡(luò)加強型實例,計算優(yōu)化型實例

基于Linux系統(tǒng)多機模式計算,在云端使用16-96核不等的計算資源運行兩組COMSOL任務(wù),可以觀察到當計算資源線性增加時,任務(wù)耗時呈線性減少。
網(wǎng)絡(luò)加強型實例可以有效解決COMSOL任務(wù)通信開銷問題。

COMSOL任務(wù)運行時間

 fastone平臺可以根據(jù)用戶需求和任務(wù)特性,為用戶推薦最適配的云端配置
甚至,我們的Auto-Scale功能可以根據(jù)不同的用戶策略,比如成本最優(yōu)還是時間優(yōu)先,自動化跨區(qū)、跨類型為用戶調(diào)度云資源,完成計算任務(wù)。

搶占云端實例

至于不同策略具體怎么落地執(zhí)行?
相比時間優(yōu)先策略,成本優(yōu)先怎么做到降低成本最多達67%-90%?
在這篇實證《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》里體現(xiàn)得十分明顯。

即便是比拼單機性能,由于云上機型更新速度快,相比課題組本地老舊的工作站單機性能也提升了超過三分之一

關(guān)于單機和多機計算背后的詳細原理和意義,可以參考VCS應(yīng)用實證《EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
云上資源的更新有多快?看這篇《國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手

三、多人并行又是個什么東西? 

多機并行有了,多人并行又是個啥?

如果在本地工作站場景,多人并行就是幾臺機器就是幾個人用唄。使用我們平臺,用戶數(shù)量和機器數(shù)量不再直接掛鉤。更不用說云端無限資源帶來的幾乎無限的人員擴容空間了。
這就不可避免地涉及到了權(quán)限和角色管理的問題。fastone平臺的權(quán)限和角色管理功能,支持管理員角色對每一個用戶進行相關(guān)權(quán)限設(shè)定,包括預(yù)算使用上限和CPU核數(shù)使用上限。 

cpu合數(shù)使用上限

多機并行+多人并行,簡單來說就是,要啥有啥。 

四、本地云端統(tǒng)一平臺,既不操心,又不心疼,還劃算,還簡單 

1、當然是大大優(yōu)化整體效率。
由于課題組在平臺上跑的應(yīng)用遠不止COMSOL一種,fastone平臺可對不同應(yīng)用、不同資源、不同成員的使用情況進行整體監(jiān)控與評估,并為課題組提供合理化建議,極大地提升了整體效率。

comsol任務(wù)合理優(yōu)化

2、本地工作站不再閑置,用滿不心疼
課題組導(dǎo)師覺得放著本地工作站不用簡直就是“浪費”。在獲取外部資源的同時,還是希望能夠?qū)⒈镜氐墓ぷ髡举Y源給充分利用起來,不然可太心疼了,畢竟當年也是花大價錢買來的。 

我們?yōu)檎n題組提供了一個混合云平臺。

混合云平臺

當用戶處理日常任務(wù)時,可以只在本地運行。
而當本地資源不足以應(yīng)付時,直接自動連接云端海量資源進行運算,操作相當方便,完全不改變用戶的操作習(xí)慣。

3、本地軟硬件資源維護,不用操心
課題組的本地環(huán)境是需要持續(xù)維護的。有老師跟我們吐槽說,一天天地忙著維護環(huán)境,整得跟運維工程師一樣了,太耽誤事兒。想找學(xué)生幫忙吧,他們很多也不懂啊~老師們的碩博后們也苦不堪言,本專業(yè)要學(xué)的東西已經(jīng)多到爆炸,又要理論還要搞實驗,還要學(xué)大量計算機專業(yè)知識……

我們的云上運行環(huán)境都是自動化配置的,不需要人工干預(yù),用戶還可以通過平臺進行統(tǒng)一管理和監(jiān)控,方便易操作。

 五、超算,是完美的解決方案嗎?

1、超算資源是無法與本地資源做成一個整體平臺,統(tǒng)一管理的。所以,既沒有整體監(jiān)控和管理,又沒有混合云,還沒有自動化維護。
當然,Auto-scale也肯定沒有。

下圖是開啟Auto-Scale功能后,用戶某項目一周之內(nèi)所調(diào)用云端計算資源的動態(tài)情況。

Auto-Scale智能調(diào)度

2、不同于超算的共享模式,我們提供的是絕對不會被搶走的獨占資源。
這點可太重要了:
1)云資源在任何情況下都不用會被搶走。而超算由于要優(yōu)先服務(wù)國家級科研項目,在某些情況下,即便已經(jīng)分配到的超算資源,也有可能會被無條件收回;
2)可根據(jù)用戶的習(xí)慣和應(yīng)用的特性自由選擇操作系統(tǒng),沒有任何限制;
3)提供完全開放的管理員權(quán)限,應(yīng)用安裝靈活,且fastone針對市面上常見企業(yè)級應(yīng)用均進行過云原生優(yōu)化,可隨時提供技術(shù)指導(dǎo);
4)用戶可隨時安裝所需的依賴組件。
5)獨占資源,安全。

關(guān)于超算與云計算在整體規(guī)模、使用體驗、計費方式、商用門檻、更新周期、合作生態(tài)、云端支持等方面的全方位對比,可以掃碼添加小F獲取完整版白皮書。

云廠商白皮書

實證小結(jié)

1、fastone平臺完美支持COMSOL的基于不同用戶策略的多機和多人并行,可大大提升任務(wù)效率;
2、fastone支持搭建本地云端統(tǒng)一的混合云平臺,完全不浪費本地資源,本地資源不足時自動溢出到云端,操作還簡單,提高整體效率;

3、fastone平臺提供獨占資源,絕不會被搶走,開放管理員權(quán)限,安全靈活;
4、fasonte平臺環(huán)境完全自動化配置,無需手動維護,省事。

本次CAE行業(yè)Cloud HPC實證系列Vol.11就到這里了。下一期的CAE云實證中,我們聊Abaqus。

高效、方便、安全、穩(wěn)定、省錢……我們對于高??蒲械奶嵘h不止于此,更多有關(guān)fastone高校科研云平臺的疑問與解答

請掃描二維碼添加小F微信(ID:imfastone)獲取《這一屆科研計算人趕DDL紅寶書:學(xué)生篇/老師篇》

科研計算人趕DDl紅寶書

關(guān)于fastone云平臺在其他應(yīng)用上的具體表現(xiàn),可以點擊以下應(yīng)用名稱查看:

HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE Virtuoso

- END -

我們有個為應(yīng)用定義的CAE云仿真平臺
集成多種CAE/CFD應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群

掃碼免費試用,送200元體驗金,入股不虧~

更多電子書
歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:

Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關(guān)于為應(yīng)用定義的云平臺:

這一屆科研計算人趕DDL紅寶書:學(xué)生篇
楊洋組織的“太空營救”中, 那2小時到底發(fā)生了什么?
速石科技獲元禾璞華領(lǐng)投數(shù)千萬美元B輪融資
一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
速石科技成三星Foundry國內(nèi)首家SAFE?云合作伙伴
Ansys最新CAE調(diào)研報告找到阻礙仿真效率提升的“元兇”
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500

為應(yīng)用定義的云平臺 fastone
The post CAE云實證Vol.11:這樣跑COMSOL,是不是就可以發(fā)Nature了 appeared first on 速石科技BLOG.]]>
EDA云實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? http://www.pdsaymm.com/blog/vol10auto-scale/ Wed, 11 Aug 2021 11:07:03 +0000 http://www.pdsaymm.com/blog/?p=2233 這是我們EDA云實證的第四期。 本期實證的主角是——Virtuoso。 半導(dǎo)體行業(yè)中使用范圍最廣的EDA應(yīng)用之一。 1991年Virtuoso技術(shù)正式發(fā)布,最初作為掩模設(shè)計師的版圖工具,是Opus平臺的一部 …

The post EDA云實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? appeared first on 速石科技BLOG.]]>
這是我們EDA云實證的第四期。

本期實證的主角是——Virtuoso。

半導(dǎo)體行業(yè)中使用范圍最廣的EDA應(yīng)用之一。

1991年Virtuoso技術(shù)正式發(fā)布,最初作為掩模設(shè)計師的版圖工具,是Opus平臺的一部分,主要功能包括電路設(shè)計與仿真、版圖設(shè)計、設(shè)計驗證,以及模擬/數(shù)字混合設(shè)計等。

近30年來,Virtuoso產(chǎn)品已和最初有很大不同,但其核心仍然是版圖編輯器。

應(yīng)用工具層面。Cadence一直致力于優(yōu)化EDA應(yīng)用算法和性能,提高自動化水平,將Virtuoso逐漸升級和擴展為集合多項新技術(shù)的系統(tǒng)設(shè)計平臺。

從應(yīng)用到云資源層,就由我們來發(fā)揮了。

我們針對EDA應(yīng)用云原生適配,為IC研發(fā)設(shè)計人員提供一整套即開即用,快速上手的IC研發(fā)設(shè)計環(huán)境,系統(tǒng)性大幅提升研發(fā)效率。

我們到底是怎么做到的?

研發(fā)效率具體提高在哪些方面?

什么是即開即用的IC研發(fā)設(shè)計環(huán)境?好用嗎?改變原來習(xí)慣嗎?

以下是今天的正文:

用戶需求

某芯片設(shè)計公司做數(shù)模混合芯片,經(jīng)常使用Virtuoso調(diào)用Spectre完成仿真任務(wù),需要趕MPW shuttle,即將面臨多項目同時進行、項目關(guān)鍵時間節(jié)點相同的困境。

公司CEO并不想單純靠增加本地機器來解決目前問題,一方面考慮到會對企業(yè)造成比較大的現(xiàn)金流壓力,另一方面公司并沒有專門的IT和CAD團隊。他對能不能用云解決現(xiàn)有問題十分重視,也直接和云廠商交流過,對我們的云上自動化和Auto-Scale功能很感興趣。

實證目標

1、fastone平臺是否支持在云端使用Virtuoso運行仿真任務(wù)?
2、通過平臺使用Virtuoso和本地差別大嗎?
3、Auto-Scale自動化伸縮具體怎么實現(xiàn)的?
4、Slurm調(diào)度器行不行?

實證參數(shù)

平臺:fastone企業(yè)版產(chǎn)品

應(yīng)用:Cadence Virtuoso

適用場景:數(shù)模混合電路設(shè)計及仿真

云端硬件配置:Spectre仿真主要需要的是計算密集型CPU,所以平臺推薦的是計算優(yōu)化型云端實例

調(diào)度器:Slurm(關(guān)于調(diào)度器,下文會詳細講解)

技術(shù)架構(gòu)圖:

auto-scale

一整套即開即用的IC研發(fā)設(shè)計環(huán)境
操作像吃了德芙般順滑

用戶對于在本地單機使用Virtuoso運行仿真任務(wù),已經(jīng)非常熟悉。而對于在云上跑,用戶依然有以下疑問:

什么叫一整套?從哪一步到哪一步?

云上使用Virtuoso,操作方式會改變嗎?會不會很麻煩?

我們?yōu)橛脩籼峁┑漠a(chǎn)品,從登錄桌面、打開應(yīng)用、配置仿真、提交任務(wù)、自動上云開機運行任務(wù)并自動關(guān)機、查看結(jié)果進行調(diào)試……用戶所需要的操作與本地幾乎完全一致,每一步只需在平臺上使用鼠標簡單點選即可完成。

virtueso

我們說的“一整套”,就是這個意思。

至于操作方式會不會改變?

拿訪問集群舉例。用戶訪問集群,既可以通過命令行,也可以通過WebVNC圖形界面方式直接訪問。


手動模式訪問集群,一共有五步,往往還需要請IT先配置環(huán)境 

1、在云端開一臺機器;
2、在云端安裝VNC服務(wù)并進行配置,有幾個用戶使用就需要配置幾個賬號;
3、在本地安裝VNC服務(wù)并進行配置;
4、在云端開啟VNC服務(wù);5、用戶使用各自賬號登錄客戶端VNC訪問云端。


我們?yōu)樗杏脩?strong>免費提供WebVNC功能,自動化創(chuàng)建到訪問集群:
1、通過Web瀏覽器登錄fastone平臺;
2、在Web界面新建集群、配置資源;
3、在已創(chuàng)建的集群點擊WebVNC遠程桌面圖標(同時提供WebSSH遠程命令行功能);
4、跳轉(zhuǎn)到虛擬桌面,可在該桌面中操作Virtuoso。

虛擬桌面,virtuoso

我們還提供了統(tǒng)一的用戶認證,不同用戶可以直接訪問VNC,無需重新配置。

這種操作方式給用戶提供了熟悉的操作環(huán)境,使其能夠快速地遠程自動化訪問集群,避免了大量的手動部署,使用體驗更好。 

在數(shù)據(jù)傳輸上,我們同樣為用戶提供了不改變操作習(xí)慣的DM工具,用戶無需在多套認證系統(tǒng)之間切換,使用統(tǒng)一的身份認證即可傳輸數(shù)據(jù),并自動關(guān)聯(lián)云端集群進行計算,具體看這里《CAE云實證Vol.8:LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置

當然,好處遠遠不止這些。

Auto-Scale自動伸縮就像仙女棒 變大變小變漂亮

fastone通過Auto-Scale功能實現(xiàn)自動化創(chuàng)建集群的過程,可以實現(xiàn)自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地開啟所需算力資源,在提升效率的同時有效降低成本。 

怎么讓仙女棒發(fā)揮作用? 

先來設(shè)置一下:

auto-scale

下圖就是開啟Auto-Scale功能后,用戶某項目一周之內(nèi)所調(diào)用云端計算資源的動態(tài)情況。

其中橙色曲線為OD實例的使用狀況,紅色曲線為SPOT的使用狀況。

OD:On-Demand,按需實例。針對短期彈性需求,按小時計費,但價格比較高。

SPOT:可被搶占實例,又稱競價實例。價格最低可達到按需實例價格的10%,相當于秒殺,手快有手慢無,隨時可能被搶占中斷,需要有一定的技術(shù)實力才能使用。

spot,云端資源計算

兩個重點:
第一、從圖中可以看到整個階段算力波峰為約3500核,而波谷只有650核左右。用戶使用資源是存在明顯的波峰波谷周期的。Auto-Scale功能可以根據(jù)任務(wù)運算情況動態(tài)開啟云端資源,并在波峰過去后自動關(guān)閉,讓資源的使用隨著用戶的需求自動擴張及縮小,最大程度匹配任務(wù)需求。
當然,用戶也可以選擇自己對最大最小值進行設(shè)置,加以限制。


這一方面節(jié)約了用戶成本,不需要時刻保持最高峰使用資源;

另一方面也最大限度保證了任務(wù)最大效率運行。
比如跑100個corner的仿真,以前只能同時跑10個,要花10天,現(xiàn)在可以同時跑100個,只要1天就可以完成。這兩種方式成本相同,為用戶節(jié)約出了顯著的時間差大大縮短了任務(wù)運行周期,提升了研發(fā)效率。

第二、我們的Auto-Scale功能支持對不同計費模式(OD、SPOT)實例進行自動伸縮,OD按需實例價格通常為SPOT實例的3-10倍。

Auto-Scale功能可以根據(jù)不同的用戶策略,比如成本最優(yōu)還是時間優(yōu)先,自動化跨區(qū)、跨類型為用戶調(diào)度云資源,完成計算任務(wù)。

至于不同策略具體怎么落地執(zhí)行?相比時間優(yōu)先策略,成本優(yōu)先怎么做到降低成本最多達67%-90%?在這篇實證《生信云實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子》里體現(xiàn)得十分明顯。

autodock vina

不僅限于運行任務(wù)期間,其實早在創(chuàng)建集群的時候,自動化Auto-Scale過程就已經(jīng)開始了。在這篇Bladed實證里,fastone平臺在任務(wù)的不同階段采取不同的策略應(yīng)對,除任務(wù)運行時間內(nèi)全部云資源滿負荷運作以外,在數(shù)據(jù)處理和結(jié)果數(shù)據(jù)上傳階段均只開啟了1-2臺機器,而其他準備過程不需要開啟機器。

數(shù)據(jù)上傳,數(shù)據(jù)處理,

習(xí)慣了LSF/SGESlurm調(diào)度器到底行不行?

為什么選擇Slurm調(diào)度器?


Virtuoso應(yīng)用原生支持的調(diào)度器有LSF和SGE。LSF作為商業(yè)軟件,由IBM提供商業(yè)支持,是半導(dǎo)體行業(yè)最常用的調(diào)度器軟件。曾經(jīng)衍生出的開源版Openlava在2016后IBM發(fā)起的版權(quán)訴訟之后,2018年正式被禁用。

SGE商業(yè)版在去年已經(jīng)隨Univa被Altair收購。類似的,免費開源版已經(jīng)長期無維護和更新,也存在版權(quán)風險。
LSF和SGE均按核時收費,價格不菲,如果在云端大規(guī)模使用,價格驚人,而且都需要購買單獨的Resource Connector或Navops Launch產(chǎn)品才能支持在云上使用。
Slurm作為調(diào)度器四大流派里唯一的純開源派,就不受規(guī)模和費用的限制了。而且Slurm擁有容錯率高、支持異構(gòu)資源、高度可擴展等優(yōu)點,每秒可提交超過1000個任務(wù),且由于是開放框架,高度可配置,擁有超過100種插件,因此適用性相當強。所以我們優(yōu)先選擇Slurm。


關(guān)于這四家主流調(diào)度器:LSF/SGE/Slurm/PBS以及它們的9個演化版本,可以看這篇文章《億萬打工人的夢:16萬個CPU隨你用》,我們進行了整體梳理和盤點,尤其是對云的支持方面劃了重點。

我們是怎么實現(xiàn)的?
答案是:SGE Wrapper。

Wrapper是什么呢?可以看看下圖,可以看到同樣的命令在不同的調(diào)度器之間有不同的實現(xiàn)方式:

調(diào)度器,slurm

而Wrapper就像不同調(diào)度器命令語言中的翻譯器,我們相當于通過這個翻譯器,把Slurm語言翻譯成了Virtuoso聽得懂的SGE語言,于是應(yīng)用就能正常運行啦。

Virtuoso

關(guān)于不同調(diào)度器的使用效果。我們曾經(jīng)在Proteus?OPC實證場景四中分別使用SGE和Slurm在云端和本地分別調(diào)度2000核/5000核運行相同OPC任務(wù)。

調(diào)度器,sge

結(jié)論是:對于計算結(jié)果無影響。 

關(guān)于調(diào)度器如何在多機器多任務(wù)的情況下提升資源利用率,并進行自動化管理,可以看這篇《EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事》 

任務(wù)監(jiān)控還能搞出省錢大招?

根據(jù)我們對整個任務(wù)消耗資源狀態(tài)的監(jiān)控,發(fā)現(xiàn)運算該組任務(wù)所使用的內(nèi)存大部分時間在5G以下,但會有極短的一段時間(不超過半小時)達到17.5G。

任務(wù)監(jiān)控,任務(wù)運算

從上圖中可以看到,Swap剩余量在短時間內(nèi)從8.6G跌到了7.1G,隨后很快回升到了8.38G,也就是說如果沒有Swap,運行內(nèi)存的瞬時缺口約為1.5G,勢必造成任務(wù)失敗。

Swap,交換分區(qū),就是在內(nèi)存不夠的情況下,操作系統(tǒng)先把內(nèi)存中暫時不用的數(shù)據(jù),存到硬盤的交換空間,騰出內(nèi)存來讓別的程序運行。

如果配置16G的內(nèi)存,任務(wù)最后會因此失敗。
但如果選擇配置32G內(nèi)存,著實有點浪費,畢竟也就超了一點點。
而同等CPU資源下,配備32G內(nèi)存的價格普遍要比16G貴1.4-1.9倍。

cpu資源

正是由于完備的監(jiān)控和任務(wù)性能評估機制,我們建議用戶在云端運算時配備16G內(nèi)存,同時使用Swap功能渡過這段內(nèi)存波峰,以達到最高的性價比。

實證小結(jié)

1、fastone平臺支持在云端使用Virtuoso調(diào)用Spectre運行仿真任務(wù);

2、用戶使用這套研發(fā)設(shè)計環(huán)境能閉環(huán)完成Virtuoso運行任務(wù),且基本不改變用戶習(xí)慣;

3、fastone平臺的云上自動化模式和Auto-Scale功能能有效幫用戶縮短研發(fā)周期,同時降低使用成本;

4、Slurm調(diào)度器不會影響計算結(jié)果,是更具性價比及擴展性的選擇;

5、fastone平臺擁有完備的監(jiān)控及任務(wù)性能評估機制。

本次EDA實證系列Vol.10就到這里了。下一期我們聊HFSS。

關(guān)于fastone云平臺在不同應(yīng)用上的具體表現(xiàn),可以點擊以下應(yīng)用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE


- END -


我們有個為應(yīng)用定義的EDA云平臺
集成多種EDA應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用跑任務(wù)快,
原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,
無需代碼支持高級用戶直接在云端創(chuàng)建集群

掃碼免費試用,送200元體驗金,入股不虧~

更多電子書歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:

1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關(guān)于為應(yīng)用定義的云平臺:

AI太笨了……暫時
速石科技成三星Foundry國內(nèi)首家SAFE?云合作伙伴
Ansys最新CAE調(diào)研報告找到阻礙仿真效率提升的“元兇”,竟然是Ta……
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書
EDA云平臺49問
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500

為應(yīng)用定義的云平臺 fastone
The post EDA云實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? appeared first on 速石科技BLOG.]]>
生信云實證Vol.9:1分鐘告訴你用MOE模擬200000個分子要花多少錢 http://www.pdsaymm.com/blog/bio-moe/ Tue, 13 Jul 2021 09:07:24 +0000 http://www.pdsaymm.com/blog/?p=2082 MOE(Molecular Operating Environment)是加拿大化學(xué)計算集團公司Chemical Computing Group Inc.開發(fā)的一套計算機輔助藥物分子設(shè)計的平臺。 做化學(xué)/生物這一類計算,場景很多,應(yīng)用選 …

The post 生信云實證Vol.9:1分鐘告訴你用MOE模擬200000個分子要花多少錢 appeared first on 速石科技BLOG.]]>
MOE(Molecular Operating Environment)是加拿大化學(xué)計算集團公司Chemical Computing Group Inc.開發(fā)的一套計算機輔助藥物分子設(shè)計的平臺。

做化學(xué)/生物這一類計算,場景很多,應(yīng)用選擇范圍也相當大,甚至同一場景可能用到很多不同的應(yīng)用。就拿分子對接舉例,相關(guān)軟件就有開源的和商業(yè)的不下數(shù)十種。

熟悉并習(xí)慣一種應(yīng)用,已經(jīng)需要不低的學(xué)習(xí)成本,何況這些應(yīng)用往往還留了一些API接口給用戶,需要寫一些腳本才能運行。

而且很多時候,現(xiàn)成的應(yīng)用是無法滿足用戶的研究需求的,需要用戶自己來編程。

另一個角度:

如果計算量突增,就會涉及到大規(guī)模計算資源的調(diào)用,可能涉及本地服務(wù)器、集群,甚至超算和公有云。

或者計算量還好,但是不想再重復(fù)勞動,能不能一次操作完成所有需要手動一次次做的事,一百次就忍了,一千次,一萬次呢?

或者不需要團隊每個人重復(fù)一遍同樣的學(xué)習(xí)過程,做個模板它不香嗎?

工具的最大價值,是把人從機械性的重復(fù)勞動中解放出來,騰出時間來思考更重要的事。

今天我們就通過一個MOE實證來聊聊,我們怎么幫你降低工作量(偷懶),節(jié)約時間,甚至預(yù)測未來。

用戶需求

某高校課題組使用MOE對數(shù)據(jù)庫中的約200000個分子進行模擬,希望在2天內(nèi)完成計算。根據(jù)以往經(jīng)驗,單核CPU模擬一個分子所需的時間約為4分鐘,該課題組當前可使用的機房CPU資源最多為64核,需要一周以上才能完成任務(wù)。

課題組老師希望借助云端獲取更多計算資源,而且由于課題組團隊有多名學(xué)生,所以需要一個既能快速啟用滿足需求,同時又操作簡單便于管理的解決方案。

實證目標

1、MOE任務(wù)是否能在云端有效運行?

2、fastone平臺能否將大規(guī)模MOE任務(wù)的運算時間縮短到2天以內(nèi)?

3、fastone平臺能否快速啟用,同時方便老師對整個團隊進行管理?

4、由于不是所有的學(xué)生的計算機基礎(chǔ)都非常強,fastone能否為其提供相對簡單可行的操作方式?

實證參數(shù)

平臺: fastone 企業(yè)版產(chǎn)品 

應(yīng)用: MOE 

操作系統(tǒng):Linux CentOS 7.5 

適用場景:3D分子可視化、基于結(jié)構(gòu)/片段的藥物設(shè)計、蛋白質(zhì)/DNA/RNA建模、虛擬篩選、分子模擬、化學(xué)信息學(xué) 

云端硬件配置:計算優(yōu)化型實例本任務(wù)屬于CPU密集型任務(wù),對內(nèi)存的需求不高,因此我們選擇了高性價比的云端計算優(yōu)化型實例(CPU/內(nèi)存=1:2)。

 技術(shù)架構(gòu)圖:

LS-DYNA仿真計算CAE仿真上云技術(shù)架構(gòu)圖/cloud vpc

第一步:我們先做一波應(yīng)用優(yōu)化

應(yīng)用優(yōu)化分成兩部分,自定義工作流和并行化改造。

 1、自定義工作流模板一次制作,反復(fù)使用 

正如我們開頭說的,很多時候,現(xiàn)成的應(yīng)用往往無法滿足用戶的需求,需要根據(jù)自己的模型和研究目標,自定義設(shè)置一套獨有的工作流程。

在生命科學(xué)領(lǐng)域,可以說幾乎沒有一模一樣的工作流。 

而用戶在進行了一次或多次復(fù)雜的設(shè)定之后,如果能把這些設(shè)定保存成固定模板,就不用重復(fù)手動去一步步重新設(shè)置。十次百次還能忍,一千次呢?一次制作,反復(fù)使用,省時省力,還不用擔心中間出錯。

自定義工作流模板/moe

我們fastone平臺已經(jīng)實現(xiàn)包括MOE在內(nèi)多款應(yīng)用的自定義工作流,可以根據(jù)用戶的實際使用場景自定義模板。

而且,這套自定義的設(shè)置是可以跨應(yīng)用存在的,不一定局限在一個應(yīng)用范圍內(nèi)。自己重復(fù)用,共享給團隊的其他人用,都可以。


我們這套自動化的原則,不僅存在于應(yīng)用層面,同時也能在資源的調(diào)度和部署層面實現(xiàn)。比如不用再一臺臺機器手動安裝配置,不用時刻盯著任務(wù)進程。


自動化部署相比手動模式究竟有哪些優(yōu)勢?看這里《EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?

2、應(yīng)用并行化改造 

應(yīng)用并行化改造,通俗地講,就是你在云端弄到了1000核資源,怎么把任務(wù)扔到云端,讓其能夠在1000核資源上高效地跑起來,這就是應(yīng)用并行化改造需要解決的問題。
像MOE這樣的應(yīng)用,由于單分子計算時間短,分子計算獨立,子任務(wù)之間沒有通信開銷,輸入輸出數(shù)據(jù)量小,特別適合并行化運行。改造完成后,MOE任務(wù)可在云端分為若干子任務(wù)獨立計算,節(jié)省大量時間。
如何從零開始進行應(yīng)用并行化改造,可以看這篇《EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事

VCS仿真計算任務(wù),大規(guī)模集群需要調(diào)度器

這一波應(yīng)用優(yōu)化做完后,用戶可以省時省力地利用云端資源,輕松提升應(yīng)用運行效率。

第二步我們開始大規(guī)模MOE任務(wù)上云

云端擴展性驗證

本地/云端計算優(yōu)化型實例

3000個分子

結(jié)論:

1、同等核數(shù)下,云端計算優(yōu)化型實例的表現(xiàn)與本地計算資源相差無幾;

2、對應(yīng)用進行并行化改造后,隨著云端核數(shù)的增加,運算時間呈線性下降。當CPU核數(shù)從64核增加到384核(6倍)之后,運算時間從188.9分鐘縮短為32.2分鐘(5.9倍)。

實證過程:

1、本地使用64核計算資源運算一組MOE任務(wù)(模擬約3000個分子),耗時190.4分鐘;

2、云端調(diào)度64核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時188.9分鐘;

3、云端調(diào)度128核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時94.7分鐘;

4、云端調(diào)度256核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時47.4分鐘;

5、云端調(diào)度384核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時32.2分鐘。

cpu參數(shù)

云端大規(guī)模業(yè)務(wù)驗證 200000個分子


結(jié)論:云端調(diào)度384核計算資源,將一組MOE任務(wù)(模擬約200000個分子)的計算周期從本地預(yù)估的8.7天縮短為1.5天,符合“2天內(nèi)完成”的任務(wù)目標。

實證過程:

1、云端調(diào)度64核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時12576分鐘(與本地機房64核的預(yù)估時間相仿);

2、云端調(diào)度128核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時6290分鐘;

3、云端調(diào)度256核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時3146分鐘;

4、云端調(diào)度384核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時2138分鐘。

 在本實證中,無論是模擬3000個分子還是200000個分子,MOE的線性擴展都相對良好,當云端資源增加到384核之后,運算時間已經(jīng)成功縮短到了2天以內(nèi)。 

即便模擬的分子數(shù)量增加到百萬甚至千萬級別,經(jīng)過應(yīng)用并行化處理的MOE依舊可以很好地應(yīng)對,同時fastone平臺還支持使用對象存儲自動優(yōu)化存儲效率和費用,以最大化地降本增效。

有些應(yīng)用特性不一樣,如LS-DYNA和Fluent這兩個應(yīng)用,隨著計算節(jié)點規(guī)模的增加,節(jié)點間通信開銷會指數(shù)級上升,性能的提升便隨之變緩。這種情況,我們也有經(jīng)驗:

怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?》

LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置

第三步:智能預(yù)測成本,提前心里有底


在期限內(nèi)成功完成了200000個分子的模擬之后,課題組開始計劃下一步任務(wù)。 出于對課題總體預(yù)算的把控,老師希望能對幾個大規(guī)模MOE運算任務(wù)的花費進行預(yù)估,做到心中有數(shù),以便及時調(diào)整計劃。 

這時候,就輪到fastone平臺的智能預(yù)測功能發(fā)揮了。
用戶在fastone平臺的圖形化操作界面運算MOE任務(wù),完成以下步驟:

1、用戶上傳數(shù)據(jù)文件(平臺自動解析文件,判斷其中包含的分子數(shù)量)

2、用戶輸入期望的運算時間(平臺推薦用戶適配機型或用戶自行選擇機型)

3、系統(tǒng)得出預(yù)測成本

云平臺系統(tǒng)智能預(yù)算成本

根據(jù)不同用戶的需求,fastone平臺還可以為用戶分別提供成本優(yōu)先和時間優(yōu)先的智能調(diào)度策略《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》 

老師可以根據(jù)預(yù)測成本提前權(quán)衡,并在此基礎(chǔ)上進行預(yù)算管控。
而對于企業(yè)用戶,涉及到預(yù)算審批流程,這塊就顯得更為重要,項目負責人能夠非常方便地使用該功能預(yù)估項目費用,完成項目規(guī)劃和申請。

第四步:權(quán)限和角色管理,團隊必備


對于團隊來說,fastone平臺的權(quán)限和角色管理功能,支持管理員角色對每一個用戶進行相關(guān)權(quán)限設(shè)定,包括預(yù)算使用上限和CPU核數(shù)使用上限。 

這是很多團隊在上云時都可能面臨的問題——團隊成員共用一個賬戶,共享一個資源池和總預(yù)算額度。團隊管理者——通常是課題組老師——對于項目整體消耗的總資源和總預(yù)算有一個清晰的概念,但往往很難對具體的操作人員進行計算資源和預(yù)算上限管控。

cpu/預(yù)算

云計算的靈活性和擴展性使得這種管理的重要性大大提升,這里就有一個反面教材《2小時,賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析》


fastone平臺的權(quán)限控制功能方便管理員從全局角度管控項目的資源消耗。該功能與智能預(yù)測配合使用,能夠從多個層面對預(yù)算和資源進行全方位規(guī)劃。

實證小結(jié)

1、MOE任務(wù)能夠在云端有效運行;

2、fastone平臺成功將大規(guī)模MOE任務(wù)的運算時間縮短到了2天以內(nèi);

3、fastone平臺自定義工作流模板功能讓用戶一次制作,反復(fù)使用,既適配生命科學(xué)領(lǐng)域應(yīng)用特性,又大幅提升用戶和團隊工作效率; 

4、fastone平臺的智能預(yù)測、權(quán)限和角色管理功能讓課題組老師能夠更輕松進行團隊管理和項目規(guī)劃。 

本次生命科學(xué)行業(yè)云實證系列Vol.9就到這里了。下一期的生信云實證,我們聊Schr?dinger。 請保持關(guān)注哦!  
關(guān)于fastone云平臺在其他應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA

- END -


我們有個生物/化學(xué)計算云平臺
集成多種生命科學(xué)領(lǐng)域應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時5分鐘
快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群 


掃碼免費試用,送200元體驗金,入股不虧~

云計算免費試用

更多電子書歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關(guān)于為應(yīng)用定義的云平臺:
2小時,賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書

EDA云平臺49問
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500

為應(yīng)用定義的云平臺 fastone
The post 生信云實證Vol.9:1分鐘告訴你用MOE模擬200000個分子要花多少錢 appeared first on 速石科技BLOG.]]>
CAE云實證Vol.8:LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置 http://www.pdsaymm.com/blog/ls-dyna-cae-20210428/ Wed, 28 Apr 2021 10:24:54 +0000 http://www.pdsaymm.com/blog/?p=1829 LS-DYNA是一個以顯式求解為主,隱式求解為輔的通用非線性動力有限元分析程序,核心是求解器。 用戶主要是高校/科研機構(gòu)和航空航天、汽車、電子/高科技、船舶、土木工程、制造和生物工 …

The post CAE云實證Vol.8:LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置 appeared first on 速石科技BLOG.]]>
LS-DYNA是一個以顯式求解為主,隱式求解為輔的通用非線性動力有限元分析程序,核心是求解器。

用戶主要是高校/科研機構(gòu)和航空航天、汽車、電子/高科技、船舶、土木工程、制造和生物工程等行業(yè),包括汽車碰撞、爆炸反應(yīng),甚至主動脈人工心臟瓣膜在血液泵送通過時的復(fù)雜啟閉行為。

1976年,LS-DYNA由美國Lawrence Livermore國家實驗室的J.O.Hallquist博士主持開發(fā)。
1988年,LSTC(Livermore Software Technology Corp.)公司成立,LS-DYNA開始商業(yè)化。
1996年,LSTC與ANSYS合作推出ANSYS/LS-DYNA,結(jié)合了ANSYS的前、后處理工具和LS-DYNA求解器。
2019年,Ansys收購LSTC。

  • 如何提高求解器的計算效率?
  • 本地和云上仿真并行計算是一回事嗎?
  • 什么類型的云端資源更適合跑LS-DYNA?
  • LS-DYNA大規(guī)模并行計算效率優(yōu)化明顯嗎?
  • 在云上運行會改變用戶本地的使用習(xí)慣嗎?

今天我們通過一個實證來解答用戶在使用LS-DYNA上云過程中的這些關(guān)鍵問題。

用戶需求

某車企CAE部門建設(shè)有本地機房,日常工作使用單機計算,不僅算得慢,且由于資源未得到統(tǒng)一管理,經(jīng)常出現(xiàn)高性能機器排隊、低配機器空閑的情況,嚴重拖慢生產(chǎn)設(shè)計進度
隨著公司業(yè)務(wù)的發(fā)展,CAE部門將在不久的將來面臨更大的業(yè)務(wù)壓力,部門負責人有意將部分LS-DYNA任務(wù)擴展到云端,但由于沒有接觸過云,有很多疑問。 

實證目標

1、LS-DYNA任務(wù)能否在云端有效運行?計算效率能否優(yōu)化?
2、LS-DYNA應(yīng)用最適合的云端資源是哪種類型?
3、LS-DYNA大規(guī)模并行場景是否依然能保持線性?
4、fastone能否進行資源統(tǒng)一管理,同時保持用戶本地的使用習(xí)慣?

實證參數(shù)

平臺:
fastone企業(yè)版產(chǎn)品 

應(yīng)用:
LS-DYNA MPP版本 

操作系統(tǒng):
Linux CentOS 7.4

調(diào)度器:
SLURM

適用場景:
仿真材料在承受短時高強度載荷時的響應(yīng),如碰撞、跌落以及金屬成型過程中發(fā)生的情況 

云端硬件配置:
計算優(yōu)化型實例
通用型實例
內(nèi)存優(yōu)化型實例
網(wǎng)絡(luò)加強型實例 

技術(shù)架構(gòu)圖:

LS-DYNA仿真計算CAE仿真上云技術(shù)架構(gòu)圖

LS-DYNA支持基于Linux、Windows和UNIX的大規(guī)模集群的并行仿真計算,分為MPP(Massively Parallel Processing)版本和SMP(Symmetric Multi-Processing)版本。

SMP版本是多個CPU之間共享相同的內(nèi)存總線等資源,一般只能在單機上運行,受單機CPU性能及CPU核數(shù)限制。MPP版本是每個CPU有獨享的內(nèi)存總線等資源,CPU之間通過網(wǎng)絡(luò)通信交換信息,可以在計算機集群上進行計算,大幅提升計算速度。

單機和多機計算背后的詳細原理和意義EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事里解釋得非常清楚。
雖然應(yīng)用不同,原理是一樣的。

和Fluent一樣,隨著計算節(jié)點規(guī)模地增加,LS-DYNA有很明顯的節(jié)點之間數(shù)據(jù)交換造成的通信開銷,造成信息延時。可以回顧一下《CAE云實證Vol.5:怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?》

下圖這張PingPong測試(顧名思義就是找一個數(shù)據(jù)包不斷地在兩個節(jié)點之間丟來丟去,像打乒乓球一樣。)能看出從16 cores到240 cores,隨著核數(shù)增加,信息延時顯著高出一個數(shù)量級。而隨著通信數(shù)據(jù)增加到一定程度,信息延時會出現(xiàn)爆發(fā)性增長。

LS-DYNA仿真-核數(shù)增加與信息延時成正比

 為了充分解答用戶的疑惑,我們選擇了不同類型,不同代際與不同規(guī)模的云資源,分別做了以下場景的驗證。

實證場景一:不同類型配置

本地 VS 云端計算優(yōu)化型實例 VS 云端通用型實例 VS 云端內(nèi)存優(yōu)化型實例

結(jié)論:
1、同等核數(shù)下,云端計算優(yōu)化型實例的表現(xiàn)優(yōu)于通用型實例、內(nèi)存優(yōu)化型實例和本地計算資源;
2、隨著核數(shù)的上升,由于節(jié)點間通信開銷指數(shù)級上升,性能的提升隨著線程數(shù)增長逐漸變緩。當核數(shù)增加到128核后,云端計算優(yōu)化型實例與本地資源運行相同LS-DYNA所需的時間相差無幾。

實證過程:
1、本地使用64核計算資源運算一組LS-DYNA任務(wù),耗時439分鐘;
2、云端調(diào)度64核計算優(yōu)化型實例運算一組LS-DYNA任務(wù),耗時375分鐘;
3、云端調(diào)度64核通用型實例運算一組LS-DYNA任務(wù),耗時506分鐘;
4、云端調(diào)度64核內(nèi)存優(yōu)化型實例運算一組LS-DYNA任務(wù),耗時533分鐘;

用LS-DYNA軟件仿真,不同計算資源類型的計算任務(wù)耗時

5、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務(wù),耗時分別為1404、821、566、439、321、255分鐘;
6、云端分別調(diào)度16、32、48、64、96、128核計算優(yōu)化型實例運算同一組LS-DYNA任務(wù),耗時分別為1269、662、458、375、299、252分鐘。

LS-DYNA仿真計算任務(wù),不同核數(shù)的計算耗時

可以看到當核數(shù)較少時,計算優(yōu)化型實例的耗時要明顯少于本地資源,但隨著核數(shù)的增加,兩者的耗時逐漸接近,尤其是在128核時,計算優(yōu)化型實例幾乎已經(jīng)喪失了所有的優(yōu)勢。

實證場景二:不同代際,同樣類型配置

本地 VS 云端計算優(yōu)化型實例 VS 新一代云端計算優(yōu)化型實例

結(jié)論:
新款計算優(yōu)化型實例運算效率相比舊款提升約15%,且價格更便宜,但同樣存在線性不足的問題。

實證過程:
1、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務(wù),耗時分別為1404、821、566、439、321、255分鐘;
2、云端分別調(diào)度16、32、48、64、96、128核計算優(yōu)化型實例運算同一組LS-DYNA任務(wù),耗時分別為1269、662、458、375、299、252分鐘;
3、云端分別調(diào)度16、32、48、64、96、128核新款計算優(yōu)化型實例運算同一組LS-DYNA任務(wù),耗時分別為1088、569、391、320、255、216分鐘。

LS-DYNA仿真計算任務(wù),不同核數(shù)的計算耗時-2


新款計算優(yōu)化型實例無論是在低核數(shù)還是高核數(shù)下相比老款均有約15%的性能提升。

那么價格又如何呢?
我們來感受一下不同云廠商多款計算優(yōu)化型實例的價格差異:

不同云廠商多款計算優(yōu)化型實例的云計算服務(wù)價格差異

在同等規(guī)格下,新款的價格普遍要比舊款便宜,最低甚至接近六折。

當然,并不是所有的云端新款實例都比舊款又快又便宜。
比如我們之前在運算Amber任務(wù)時,NVIDIA Tesla K80(2014年上市)的耗時是V100(2017年上市)的約5-6倍,價格卻只有后者的三分之一。

NVIDIA Tesla K80和NVIDIA Tesla V100計算集群的任務(wù)耗時差異巨大

這種時候,我們必須在時間和金錢之間做出一些取舍。詳細可以看這里生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算》

我們有一份六大公有云廠商云服務(wù)器資源價格全方位對比報告,幫助你對主流廠商的資源價格了如指掌:《六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云》

同為計算優(yōu)化型實例,不管新款舊款,都沒有解決LS-DYNA任務(wù)大規(guī)模并行計算不線性問題。
這個問題的解決方案在哪里?
我們看下一個場景:

實證場景三:不同規(guī)模云端擴展性驗證

本地 VS 云端計算優(yōu)化型實例 VS 云端網(wǎng)絡(luò)加強型實例

結(jié)論:
1、在云端使用網(wǎng)絡(luò)加強型實例,調(diào)度128核計算資源,最多可將運算一組LS-DYNA任務(wù)的耗時縮短到135分鐘,只有本地資源和云端計算優(yōu)化型實例耗時的約二分之一;
2、網(wǎng)絡(luò)加強型實例有效解決了LS-DYNA任務(wù)并行計算節(jié)點間通信問題,在云上展現(xiàn)了良好的線性擴展性。

實證過程:
1、本地分別使用16、32、48、64、96、128核計算資源運算同一組LS-DYNA任務(wù),耗時分別為1404、821、566、439、321、255分鐘;
2、云端分別調(diào)度16、32、48、64、96、128核計算優(yōu)化型實例運算同一組LS-DYNA任務(wù),耗時分別為1269、662、458、375、299、252分鐘;
3、云端分別調(diào)度16、32、48、64、96、128核新款計算優(yōu)化型實例運算同一組LS-DYNA任務(wù),耗時分別為1088、569、391、320、255、216分鐘;
4、云端分別調(diào)度16、32、48、64、96、128核網(wǎng)絡(luò)加強型實例運算同一組LS-DYNA任務(wù),耗時分別為1202、603、404、307、209、163分鐘。

LS-DYNA仿真計算任務(wù),不同核數(shù)的網(wǎng)絡(luò)加強型計算實例的運算耗時

從上表中可以明顯地觀察到,網(wǎng)絡(luò)加強型實例雖然在低核數(shù)下的表現(xiàn)并不起眼,但隨著核數(shù)的增加,性能提升幅度相當大,在128核的環(huán)境下相比本地資源的性能提升將近一倍,線性表現(xiàn)堪稱完美。

在之前的Fluent實證中,我們也驗證了這一點。

用戶的原有使用習(xí)慣需不需要改變呢?

在Fluent實證里,我們的切入角度是任務(wù)提交方法:
通過journal標準流程化 VS Fluent應(yīng)用圖形界面兩種模式,適配不同基礎(chǔ)的用戶類型。

fastone在線計算云平臺運行ansys fluent的界面截圖

這次我們換一個角度——數(shù)據(jù)傳輸方法和習(xí)慣。

用戶在本地:
不論是單機模式還是使用服務(wù)器集群,用戶只需要把數(shù)據(jù)傳到本地機器或服務(wù)器上,便可以直接跑任務(wù),當然后面可能有IT部門會完成服務(wù)器端數(shù)據(jù)管理工作。

用戶自己使用云:
用戶將數(shù)據(jù)傳到本地機器或服務(wù)器之后,還需要在云端開啟資源、搭建環(huán)境,手動進行數(shù)據(jù)的上傳和下載。

用戶使用我們平臺:
和本地一樣,用戶只需要把數(shù)據(jù)上傳到我們的DM(Data Manager)工具上,就可以直接使用數(shù)據(jù)來跑任務(wù)了。

fastone Data Manager平臺架構(gòu),彈性計算

手動模式和自動模式的巨大差異,可以見這篇《EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?

手動模式和自動模式的巨大差異

對于用戶而言,使用我們的DM工具至少有三大優(yōu)勢:

1、自動關(guān)聯(lián)集群,不改變操作習(xí)慣
用戶無需在多套認證系統(tǒng)之間切換,使用統(tǒng)一的身份認證即可傳輸數(shù)據(jù),并自動關(guān)聯(lián)云端集群進行計算,不改變其原有的使用習(xí)慣。

2、一次上傳,多次使用
數(shù)據(jù)只需上傳一次即可多次使用,其他用戶在經(jīng)過統(tǒng)一認證后也可隨時共享,極大提升團隊協(xié)同能力。

3、大幅提升傳輸效率
關(guān)于這點,我們在這篇CAE云實證Vol.2:從4天到1.75小時,如何讓Bladed仿真效率提升55倍?》里有提到,用戶在跑Bladed任務(wù)之前需要上傳多達數(shù)百GiB的風文件。
而且,隨著任務(wù)的調(diào)整,有大量小文件需要增量上傳。在這個實證中,用戶需要上傳9600個任務(wù)文件,每個幾十MiB不等。 

我們的DM工具能很好地滿足用戶需求,支持全自動化數(shù)據(jù)上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數(shù)據(jù)。

同時,利用fastone自主研發(fā)的分段上傳、高并發(fā)、斷點續(xù)傳等數(shù)據(jù)傳輸技術(shù),優(yōu)化海量數(shù)據(jù)的傳輸效率。

實證小結(jié)

1、LS-DYNA任務(wù)能夠在云端有效運行,大幅提升求解效率;
2、匹配合適類型云資源,LS-DYNA應(yīng)用的高效率并行性在云端同樣適用;
3、fastone的DM工具為用戶提供了簡單有效的云端數(shù)據(jù)傳輸方案,同時無需改變用戶本地使用習(xí)慣; 
4、fastone能有效進行資源的統(tǒng)一管理和監(jiān)控。

本次CAE行業(yè)云實證系列Vol.8就到這里了。
下一期的CAE云實證,我們聊COMSOL。 
請保持關(guān)注哦!   

- END -

我們有個為應(yīng)用定義的計算云平臺
集成多種應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群

掃碼免費試用,送200元體驗金,入股不虧~

fastone在線計算云平臺,掃碼加微信imfastone免費試用

更多電子書
歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:

揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關(guān)于為應(yīng)用定義的云平臺:

2小時,賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書

EDA云平臺49問
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500

為應(yīng)用定義的云-行業(yè)軟件上云-云原生的概念
The post CAE云實證Vol.8:LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置 appeared first on 速石科技BLOG.]]>
EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事 http://www.pdsaymm.com/blog/eda-synopsys-vcs/ Fri, 26 Mar 2021 08:52:58 +0000 http://www.pdsaymm.com/blog/?p=1623 新思科技(Synopsys)家的VCS,在半導(dǎo)體行業(yè)使用率極高,背景我們就不多說了。 對經(jīng)常跑EDA或其他算力密集型任務(wù)的用戶來說,在深度掌握本行業(yè)業(yè)務(wù)知識及熟練運用常見EDA工具以外,通 …

The post EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事 appeared first on 速石科技BLOG.]]>
新思科技(Synopsys)家的VCS,在半導(dǎo)體行業(yè)使用率極高,背景我們就不多說了。

對經(jīng)常跑EDA或其他算力密集型任務(wù)的用戶來說,在深度掌握本行業(yè)業(yè)務(wù)知識及熟練運用常見EDA工具以外通常還需要在技能樹上點上一門技能——IT,就是怎么(順利)使用機器把手里的任務(wù)給(高效)跑完

他們的IT技能升級打怪之旅一般分為三個階段:

第一階段:單機單CPU核,單任務(wù)
第二階段:單機多CPU核,多任務(wù)
第三階段:多機多CPU核,多任務(wù)

據(jù)我們觀察,很多用戶都已經(jīng)處在第二階段。
但是,依然有部分用戶尚處在第一階段,比如我們今天的實證主角。

我們之前的六篇實證都直接一步到位——上云后。

HSPICE │ Bladed │Vina │OPC │Fluent │Amber

今天我們看看上云前的幕后系列,又名:搬桌子的故事。

用戶需求

某IC設(shè)計公司運行EDA仿真前端設(shè)計和后端設(shè)計的分析任務(wù),進行機電一體芯片技術(shù)的開發(fā)?,F(xiàn)有機房設(shè)備較為老舊,共有8臺單機,需要同時服務(wù)數(shù)字和模擬兩個研發(fā)部門。
隨著公司業(yè)務(wù)的發(fā)展,相關(guān)部門負責人幾乎同時反饋業(yè)務(wù)峰值時計算資源嚴重不足,排隊現(xiàn)象嚴重。

實證目標

1、fastone平臺是否能有效提升VCS任務(wù)運行效率?
2、fastone平臺是否能有效提升本地機器資源利用率?
3、fastone平臺是否支持大規(guī)模VCS任務(wù)自動化穩(wěn)定運行?

實證參數(shù)

平臺:fastone企業(yè)版產(chǎn)品
應(yīng)用:Synopsys VCS
適用場景:數(shù)模混合電路仿真
系統(tǒng):Red Hat Enterprise release 5.7(Tikanga)

實證結(jié)果

我們先來看看用戶自己跑20000個任務(wù)和我們來跑的效果:

大規(guī)模任務(wù)驗證 20000個任務(wù)

我們將本地機房的8臺單機構(gòu)建為一個統(tǒng)一管理的集群,運行20000個VCS任務(wù)的時間是用戶自己所需時間的約1/50。

本地機房8臺服務(wù)器構(gòu)建為一個計算集群,運行20000個VCS任務(wù)

實證過程:

1、用戶使用一臺單機C1運行20000個VCS任務(wù),耗時40485分鐘;
2、將本地機房的所有8臺單機構(gòu)建為集群A,使用集群A運行20000個VCS任務(wù),耗時809分鐘。

VCS仿真計算任務(wù),1臺服務(wù)器單機單核運算和集群并行計算的運算效率對比

用戶按常理推斷,本地機房共有8臺單機,將所有機器一起來運行大規(guī)模VCS任務(wù)的時間大概應(yīng)該是使用一臺機器機耗時的6-7倍(理想值為8倍,但由于存在長尾任務(wù),存在一定差異)。

但實證中50倍的提升大大超出了他們的預(yù)期。
中間發(fā)生了什么? 

回到我們開頭說的三個階段——

第一階段:單機單CPU核,單任務(wù)

單任務(wù)狀態(tài)下的單機單核,就是一個任務(wù)只在一臺機器上的一個CPU上跑。不管這臺機器其實有幾個CPU,反正就只用一個。資源利用率極其低下,可以說是暴殄天物。

再細一點,這里其實還有個1.5階段:單機多CPU核,單任務(wù)。效果類似。

假設(shè)給你幾個人(CPU核),完成一個叫做“搬桌子”的任務(wù)。
單任務(wù)的處理方式分為單進程和多進程: 

單進程的處理方式是:不管你有幾個人,同一時間永遠只有1個人在搬整張桌子,其他人在圍觀。

VCS仿真計算任務(wù),1臺服務(wù)器單機單核運算

多進程的處理方式是:
先拆桌子。比如把一張桌子拆成4個零部件,分給4個人來同時搬,有的搬桌子腿,有的搬桌面等等,搬得最慢的人決定任務(wù)的完成速度。
但是,哪怕你有8個人,一次也只有4個人在搬。
搬完一張桌子再搬下一張,依次往復(fù)。

VCS仿真計算任務(wù),1臺服務(wù)器運算,任務(wù)拆解

補充一個背景信息:2009年4月,新思科技就發(fā)布了VCS的多核技術(shù),通過將耗時的計算處理動態(tài)地分配至多個CPU內(nèi)核來突破芯片驗證的瓶頸,從而提高驗證的速度。
也就是說,應(yīng)用十多年前就支持單任務(wù)多進程了,現(xiàn)在這個技術(shù)的名字叫Fine-Grained Parallelism,F(xiàn)GP。

VCS多核技術(shù),Fine-Grained Parallelism,FGP

第二階段:單機多CPU核,多任務(wù)

多任務(wù)狀態(tài)下的單機多核,就是多個任務(wù)能同時在一臺機器上的數(shù)個CPU上跑,受制于單臺機器的最大核數(shù),目前最多也就96個核了。 

我們繼續(xù)講“搬桌子”。

上一階段的多進程處理方式,存在一個明顯的問題。哪怕你有8個人,一次也只有4個人在搬。搬完一張桌子再搬下一張。
這就很不合理了。 

于是我們在此基礎(chǔ)上改進了一下。
在你有8個人的情況下,一張桌子4個人搬,我們可以同時搬兩張桌子啦。這樣可以明顯加快任務(wù)的完成速度。
但是,單臺機器的總CPU核數(shù)就是上限了。

VCS仿真計算任務(wù),1臺服務(wù)器單機計算

當然這一階段還是會存在一些問題,會出現(xiàn)有人突然跳出來跟你搶人或者你也搞不清楚哪些人現(xiàn)在有空來幫你。

因為資源使用的不透明和缺乏有序管理,會出現(xiàn)不同人對同一資源的爭搶,任務(wù)排隊等現(xiàn)象。同時,你會發(fā)現(xiàn)資源利用率還是不高。
不少用戶已經(jīng)處在這一階段。 

我們看看從第一階段到第二階段的實際VCS驗證效果:

應(yīng)用并行化驗證 400個任務(wù)

對VCS進行多任務(wù)并行化處理后,一臺單機運行相同VCS任務(wù)的時間縮短為原先的15%-16%,極大提升了運行效率。

實證過程:
1、使用一臺單機C1(8核)運行400個VCS任務(wù),耗時806分鐘;
2、使用一臺單機C2(8核)運行400個VCS任務(wù),耗時793分鐘;
3、對VCS應(yīng)用進行多任務(wù)并行化處理后,使用一臺單機C1(8核)運行400個VCS任務(wù),耗時130分鐘;
4、對VCS應(yīng)用進行多任務(wù)并行化處理后,使用一臺單機C2(8核)運行400個VCS任務(wù),耗時122分鐘。

Synopsys VCS任務(wù)運行,2臺8核服務(wù)器運算效率對比-多任務(wù)并行化處理

第三階段:多機多CPU核,多任務(wù)

多任務(wù)狀態(tài)下的多機多核,就是多個任務(wù)能同時在數(shù)臺機器的數(shù)個CPU上跑,這個我們稱之為集群化管理,一般都需要有調(diào)度器的參與。

關(guān)于調(diào)度器的相關(guān)知識,看這里:億萬打工人的夢:16萬個CPU隨你用

前面講到我們已經(jīng)可以同時安排搬兩張桌子啦。但其實,如果你的機器足夠多,人(CPU核)足夠多,你完全可以同時搬更多的桌子。

VCS仿真計算,多任務(wù)并行計算,大規(guī)模集群計算需要調(diào)度器

這個時候,必然要面臨一個如何調(diào)兵遣將的問題。

這么多機器,這么多任務(wù),怎么順利一一配置、啟動、關(guān)閉,提高整體資源利用率,最好還能自動化管理等等。這就需要一點技術(shù)了。

至于云上資源的大規(guī)模動態(tài)化調(diào)度和管理,要更加高階一點。

在《生信云實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子》中,我們最多調(diào)用了10萬核CPU資源對整個VS數(shù)據(jù)庫進行虛擬篩選。

Synopsys VCS計算任務(wù),云端大規(guī)模計算集群調(diào)度與管理

當集群達到如此規(guī)模之后,手動管理是不可想象的。
而且云上資源跟本地不同,往往是個動態(tài)使用的過程,有時候甚至要搶。
更不用說還要考慮不同用戶在不同階段的策略和需求。

我們看看從第二階段到第三階段的實際VCS驗證效果:

集群化驗證 400個任務(wù)

由2臺單機構(gòu)建的集群運行相同VCS任務(wù)的時間為單機的約60%,并實現(xiàn)了自動化資源管理。

實證過程:
1、使用一臺單機C1(8核)運行400個VCS任務(wù),耗時130分鐘;
2、使用一臺單機C2(8核)運行400個VCS任務(wù),耗時122分鐘;
3、將C1和C2構(gòu)建為集群B,使用集群B運行400個VCS任務(wù),耗時75分鐘。

Synopsys VCS任務(wù)運行,2臺8核服務(wù)器集群

 最后,我們回顧一下,我們到底做了哪些事: 

應(yīng)用并行化:從單任務(wù)到多任務(wù)
fastone幫助用戶實現(xiàn)了應(yīng)用并行化,可以充分使用一臺單機上的全部CPU資源,確保了最大的計算效率。 

資源集群化:從單機到集群
fastone幫助用戶實現(xiàn)了集群化管理,讓多臺機器能夠并行化運行VCS任務(wù),實現(xiàn)了數(shù)據(jù)、應(yīng)用、資源的統(tǒng)一化管理。 

規(guī)模自動化:從400個任務(wù)到20000個任務(wù)
用戶希望在面臨大規(guī)模VCS任務(wù)時,上述方案的穩(wěn)定性能夠得到充分驗證。
fastone幫助用戶充分驗證了20000個VCS任務(wù)場景下,能夠自動化規(guī)?;卣{(diào)度資源高效完成任務(wù),滿足用戶需求。 

到現(xiàn)在為止,我們成功幫助用戶從單機單任務(wù)單進程運行的階段大幅度跨越到了大規(guī)模任務(wù)自動化集群化運行階段。
萬事俱備,下一步,上云。

我們的前兩篇EDA云實證可以了解一下:
從30天到17小時,如何讓HSPICE仿真效率提升42倍?》
5000核大規(guī)模OPC上云,效率提升53倍

本次EDA行業(yè)云實證系列Vol.7就到這里了。
下一期的EDA云實證,我們聊Virtuoso。 

請保持關(guān)注哦!  

- END -


我們有個為應(yīng)用定義的云平臺
集成多種應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群

掃碼免費試用,送200元體驗金,入股不虧~

云計算平臺免費試用

更多電子書歡
迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:

155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

你可能感興趣:

2小時,賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析
【2021】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書
EDA云平臺49問
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手

幫助CXO解惑上云成本的迷思,看這篇就夠了
靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥
花費4小時5500美元,速石科技躋身全球超算TOP500

為應(yīng)用定義的云-行業(yè)軟件上云-云原生的概念
The post EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事 appeared first on 速石科技BLOG.]]>
生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算 http://www.pdsaymm.com/blog/bio-amber-and-multi-cloud/ Tue, 12 Jan 2021 06:39:07 +0000 http://www.pdsaymm.com/blog/?p=1243 在上一篇生信云實證《提速2920倍!用AutoDock Vina對接2800萬個分子》里,我們基于不同用戶策略,調(diào)用10萬核CPU資源,幫用戶進行了2800萬量級的大規(guī)模分子對接,將運算效率提高2920倍 …

The post 生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算 appeared first on 速石科技BLOG.]]>
在上一篇生信云實證《提速2920倍!用AutoDock Vina對接2800萬個分子》里,我們基于不同用戶策略,調(diào)用10萬核CPU資源,幫用戶進行了2800萬量級的大規(guī)模分子對接,將運算效率提高2920倍。

生信云實證Vol.3-AutoDock Vina軟件分析

對藥物分子的虛擬篩選,僅僅實現(xiàn)分子對接是不夠的,往往會面臨一個問題就是藥物分子活性的評價。許多藥物和其它生物分子的活性都是通過與受體大分子之間的相互作用表現(xiàn)出來的,是動態(tài)的。

受體和配體之間結(jié)合自由能(Binding Afinity)評價是基于結(jié)構(gòu)的計算機輔助藥物分子設(shè)計的核心問題。

基于分子動力學(xué)(Molecular Dynamics, MD)模擬的煉金術(shù)自由能(Alchemical Free Energy,AFE)計算是提高我們對各種生物過程的理解以及加快多種疾病的藥物設(shè)計和優(yōu)化的關(guān)鍵工具。

MD模擬實驗數(shù)據(jù)量大,計算周期長,常用軟件包括Amber、NAMD、GROMACS、Schr?dinger等等。GPU的并行處理技術(shù)能大大加速計算效率,所以很多MD模擬軟件都開始支持GPU。

生信分析軟件-Gromacs,SCHRODINGER,Amber

GROMACS作為一款開源軟件,完全免費,但其成熟版本對于GPU的支持并不理想,教程相對少,對用戶的要求比較高。

Schr?dinger是商用軟件,功能全面,GPU支持很好,但License是按使用核數(shù)計算的,價格相對昂貴。

Amber軟件包包括兩個部分:AmberTools和Amber。

AmberTools可以在Amber官網(wǎng)免費下載和使用,Tools中包含了Amber絕大部分模塊,但不支持PMEMD和GPU加速。

Amber是收費的,從Amber11開始支持GPU加速仿真,Amber18開始支持GPU計算自由能,且教程齊全易操作,不限制CORE的使用數(shù)量。2020年4月,已經(jīng)更新到Amber20版本。

學(xué)術(shù)/非營利組織/政府:500美元

企業(yè):新Amber20用戶 20000美元(原Amber18用戶 15000美元)


今天實證的主角是Amber,有幾個重點我們先說為敬:

第一、不同GPU型號價格差異極大,對Amber自由能計算的適配度和運算效率也不同,如何為用戶選擇最匹配的資源類型;

第二、用戶對GPU的需求量比較大,而不同云廠商提供的可用GPU資源數(shù)量不確定,價格差異也很大,可能需要跨多家云廠商調(diào)度,如何實現(xiàn)?同時,盡可能降低成本;

第三、用戶使用的Amber18版本,根據(jù)我們的經(jīng)驗,在使用GPU計算時存在10%-15%的失敗概率。一旦任務(wù)失敗,需要調(diào)度CPU重新計算,能否及時且自動地處理失敗任務(wù),將極大影響運算周期。

用戶需求

某高校研究所對一組任務(wù)使用Amber18進行自由能計算,使用本地48核CPU資源需要12小時,而使用1張GPU卡運算該組任務(wù)只需3小時。

該研究所目前面臨16008個任務(wù)需要使用Amber18進行自由能計算,負責人根據(jù)以往數(shù)據(jù)估算使用本地CPU資源可能要1年以上才能完成任務(wù),使用單個GPU需要至少4個月,周期過長,課題等不了。

因此,他們迫切希望通過使用云上資源,尤其是GPU資源來快速補充本地算力的不足,更快完成任務(wù)。

實證目標

1、Amber自由能計算能否在云端有效運行?
2、fastone是否能為用戶選擇合適的GPU實例類型?
3、fastone平臺是否能在短時間內(nèi)獲取足夠的GPU資源,大幅度縮短項目周期?
4、Amber18版本運行GPU的失敗概率問題,fastone平臺是否能有效處理?

實證參數(shù)

平臺:
fastone企業(yè)版產(chǎn)品

應(yīng)用:
Amber18

操作系統(tǒng):
CentOS 7.5

適用場景:
基于分子動力學(xué)模擬的自由能預(yù)測

云端硬件配置:
NVIDIA Tesla K80
NVIDIA Tesla V100

調(diào)度器:
Slurm

技術(shù)架構(gòu)圖:

多云GPU集群調(diào)度-fastone高性能計算平臺的架構(gòu)

實證場景一

GPU實例類型驗證—120個任務(wù)

新版的GPU資源,運行速度快,但是價格高。
老版的GPU資源,價格是便宜了,但是運行速度也慢。

老機型就一定劃算嗎?這可不一定。

結(jié)論:

1、無論是從時間效率還是成本的角度,都應(yīng)選擇更新型的NVIDIA Tesla V100;

2、在云端運算相同的Amber18任務(wù)時,NVIDIA Tesla K80的耗時是NVIDIA Tesla V100的約5-6倍,從時間效率的角度,V100明顯占優(yōu);

3、NVIDIA Tesla K80云端GPU實例的定價約為NVIDIA Tesla V100云端GPU實例的不到三分之一(某公有云廠商官網(wǎng)上單個K80的按需價格為0.9美元/小時,V100則為3.06美元/小時),綜合計算得出V100的性價比是K80的約1.4-1.8倍

NVIDIA Tesla K80和NVIDIA Tesla V100計算集群的任務(wù)耗時

實證過程:

1、云端調(diào)度1個NVIDIA Tesla K80云端GPU實例運算A組Amber任務(wù),耗時16.5小時;
2、云端調(diào)度1個NVIDIA Tesla K80云端GPU實例運算B組Amber任務(wù),耗時2.5小時;
3、云端調(diào)度1個NVIDIA Tesla V100云端GPU實例運算A組Amber任務(wù),耗時3.3小時;
4、云端調(diào)度1個NVIDIA Tesla V100云端GPU實例運算B組Amber任務(wù),耗時0.4小時。

實證場景二

大規(guī)模GPU多云場景驗證—16008個任務(wù)

結(jié)論:

fastone平臺根據(jù)用戶任務(wù)需要和特性,跨兩家公有云廠商,智能自動化調(diào)度云端GPU/CPU異構(gòu)資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務(wù)的耗時從單GPU的4個月縮短到20小時。

155個NVIDIA Tesla V100計算集群耗時20小時,1個NVIDIA Tesla V100云服務(wù)器計算耗時4個月

1、怎么通過Auto-Scale功能提高GPU資源的利用率?

用戶的Amber任務(wù)運算時存在依從機制,即每12個任務(wù)中包含1個主任務(wù),只有當主任務(wù)運行結(jié)束后,其他11個任務(wù)才能開始并行運算。

在本場景中,由于任務(wù)數(shù)量高達16008個,這就意味著有1334個主任務(wù)需要率先跑完。

通過Auto-Scale彈性計算功能提高GPU資源的利用率-并行運算先跑主任務(wù)

本次實證中:

第一,任務(wù)有先后,所以需要先跑主任務(wù),在每個主任務(wù)完成之后自動調(diào)度資源并行運算其他11個任務(wù);

第二,不同任務(wù)完成時間可能不同,對資源的需求量可能時高時低有波動,最終結(jié)束關(guān)機時間也不同。

fastone平臺使用Slurm調(diào)度器按順序調(diào)度任務(wù)排隊,Auto-Scale功能可自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地開啟與關(guān)閉所需算力資源,在提升效率的同時有效降低成本。

關(guān)鍵是,一切都是自動的。

隨任務(wù)需要自動化開機和關(guān)機到底有多省錢省心,誰用誰知道。

fastone Auto-Scale彈性計算,按需配備算力

用戶還可根據(jù)自己需求,設(shè)置自動化調(diào)度集群規(guī)模上下限,相比手動模式能夠節(jié)省大量時間與成本。

調(diào)度器是干嘛的,為什么大規(guī)模集群需要用到調(diào)度器,有哪些流派,不同調(diào)度器之間區(qū)別是什么等等問題可以參考億萬打工人的夢:16萬個CPU隨你用

2、任務(wù)用GPU運算失敗,怎么及時用CPU自動重算?

Amber18在使用GPU時計算時有10-15%概率失敗,需要及時調(diào)度CPU資源重新計算,這里會涉及到一個問題:錯誤的任務(wù)能否及時重新用CPU運行。(注:該問題已在Amber20中修復(fù))

fasotne計算平臺-GPU運算任務(wù)失敗,可用CPU自動重算

跟上一點一樣,自動化還是手動的部署差別非常大。

失敗任務(wù)自動跳出來重新運行,嗯,就是這么乖巧。

自動化模式和手動模式到底多大差別,多省錢省心可以看這篇:EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?

本次實證中:

由于任務(wù)總數(shù)高達16008個,全部使用GPU計算,預(yù)計將會有1600-2400個任務(wù)算錯,對自動化調(diào)度CPU資源的響應(yīng)速度和規(guī)模提出了很高的要求。

fastone平臺提供的智能調(diào)度策略,能在使用GPU資源計算失敗時,自動定位任務(wù)并按需開啟CPU資源,對該任務(wù)重新進行計算,直到計算完成為止。

3、GPU資源的多云調(diào)度,如何兼顧成本和效率,最大化用戶利益?

云上的GPU可用資源有限,155個NVIDIA Tesla V100不是一個小數(shù)目,單個公有云廠商單區(qū)域資源未必能夠隨時滿足需求。

本次實證中:

第一,涉及到跨兩家公有云廠商之間的資源調(diào)度;
第二,GPU資源的在不同云廠商之間有著顯著的差異,而且往往資源多的售價高,便宜的資源少,怎么兼顧成本和效率。

以各大公有云廠商在北京地區(qū)的GPU實例(V100)按需價格為例,最高價格超過最低價2倍。

多云資源比較-GPU按需實例-北京區(qū)域

關(guān)于不同云廠商之間的價格比較和SPOT競價實例到底能有多便宜,可以看這篇:【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云

fastone平臺可綜合考量用戶對完成任務(wù)所需時間和成本的具體要求,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區(qū)、跨云廠商調(diào)度所需資源。

下圖場景是出于成本優(yōu)化目的,我們?yōu)橛脩糇詣诱{(diào)度本區(qū)域及其他區(qū)域的目標類型或相似類型SPOT實例資源。

具體看這篇:生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子

競價資源如何搶-Spot計算類型

本次實證,fastone平臺完美解決了以上三個挑戰(zhàn):

第一,自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地自動化開啟與關(guān)閉所需算力資源,提高GPU資源利用率;

第二,在GPU資源計算失敗時,自動定位任務(wù)并按需開啟CPU資源,對該任務(wù)重新進行計算,直到計算完成為止;

第三,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區(qū)、跨云廠商調(diào)度所需GPU資源。

實證小結(jié)

1、Amber任務(wù)能夠在云端有效運行;
2、fastone為用戶任務(wù)推薦最適配的GPU資源類型;
3、fastone平臺能夠在短時間內(nèi)跨區(qū)域,跨云廠商獲取足夠的GPU資源,滿足用戶短時間算力需求,大幅度縮短項目周期;
4、針對Amber18版本運行GPU任務(wù)失敗概率問題,fastone平臺可自動調(diào)度CPU資源重新計算,降低。

本次生信行業(yè)Cloud HPC實證系列Vol.6就到這里了。

在下一期的生信云實證中,我們聊MOE。

請保持關(guān)注哦!

- END -

我們有個【在線體驗版】
集成多種應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群

掃碼免費試用,送200元體驗金,入股不虧~

速石科技-SaaS云計算服務(wù)在線體驗版

2020年新版《六大云廠商資源價格對比工具包》
添加小F微信(ID: imfastone)獲取

你也許想了解具體的落地場景:

怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?

EDA云實證Vol.4 ,5000核大規(guī)模OPC上云,效率提升53倍

提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?

從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關(guān)于云端高性能計算平臺:

EDA云平臺49問

國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手

幫助CXO解惑上云成本的迷思,看這篇就夠了

靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥

花費4小時5500美元,速石科技躋身全球超算TOP500

The post 生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算 appeared first on 速石科技BLOG.]]>