AutoDock Vina是用于分子對接和虛擬篩選的開源程序,由Scripps研究所分子圖形實驗室的Oleg Trott博士設(shè)計和實現(xiàn),是目前使用最為廣泛的分子對接軟件之一。
分子對接技術(shù),作為計算機輔助藥物設(shè)計(Computer Aided Drug Design,CADD)的重要方法,已廣泛應(yīng)用于藥物發(fā)現(xiàn)階段的早期虛擬篩選、藥物分子設(shè)計、先導化合物優(yōu)化、藥物潛在作用靶點發(fā)現(xiàn)、藥物-靶點相互作用機制、為重要的藥物代謝酶尋找特異性配體等。
目前,限于算力,或者高效靈活地調(diào)用大規(guī)模計算集群的能力,當前的虛擬篩選通常僅采樣百萬到千萬個分子,而事實上目前可用于藥物發(fā)現(xiàn)的有機分子已經(jīng)超過10的60次方。

在《15小時虛擬篩選10億分子,Nature+HMS驗證云端新藥研發(fā)未來》這篇文章里,哈佛大學醫(yī)學院的研究人員論證了:分子化合物的質(zhì)量會隨著虛擬篩選規(guī)模的擴大而提升。
如何在本地資源有限的情況下,提高虛擬篩選規(guī)模和質(zhì)量,把漫長的藥物研發(fā)周期縮短一點?
我們用實證給你一個答案。
與前兩次實證不同,本次生信實證有兩大特點:
1. 任務(wù)數(shù)量多,云上同一地區(qū)某種類型機型可能不足,因此會涉及到多區(qū)域資源調(diào)度;
2. 可根據(jù)用戶偏好匹配合適的資源調(diào)度策略,滿足用戶不同需求。
實證背景信息
某大型藥企在本地建設(shè)有機房,計算資源總計為104核。
使用AutoDock Vina進行小分子對接:
當設(shè)定exhaustiveness=8時,篩選56643個原始分子共需90小時;
當設(shè)定exhaustiveness=1時,耗時需18小時。

(exhaustiveness參數(shù):用來控制對接的細致程度,影響計算時間)
當篩選范圍擴大到整個VS數(shù)據(jù)庫(2800萬個分子)時,不同參數(shù)條件下本地資源所需的運算時間在約2.6-5年不等。

研發(fā)負責人認為這么長的時間周期是無法接受的,其本地現(xiàn)有IT架構(gòu)和資源完全無法滿足研發(fā)需求。
實證目標
1、AutoDock Vina任務(wù)能否在云端有效運行?
2、fastone平臺能否大幅度縮短任務(wù)運行時間?
3、fastone平臺能否有效控制任務(wù)運行成本?
4、針對AutoDock Vina任務(wù)小,數(shù)量大的特點,fastone平臺是否有針對性策略?
實證參數(shù)
平臺:
fastone企業(yè)版產(chǎn)品
應(yīng)用:
AutoDock Vina
適用場景:
分子對接,研究配體(藥物分子)與其受體(已知的靶蛋白或活性位點)之間的詳細相互作用,預測其結(jié)合模式及親合力,還可以用來發(fā)現(xiàn)并優(yōu)化藥物先導物分子,進而實現(xiàn)基于結(jié)構(gòu)的藥物設(shè)計
云端硬件配置:
AutoDock Vina在運行時需要對接海量分子,對計算性能要求較高,因此平臺為用戶推薦選擇了匹配其應(yīng)用特點的計算優(yōu)化型實例機型。
技術(shù)架構(gòu)圖:

以下是兩個實證場景。
實證場景一:我們通過10000分子分別進行了AutoDock Vina的云端線性擴展性驗證及成本驗證;
實證場景二:基于不同用戶策略,我們幫用戶進行了2800萬量級的大規(guī)模分子對接。
1、時間優(yōu)先策略以速度為第一優(yōu)先級:資源選擇以O(shè)D按需實例為主,在滿足用戶時間要求的前提下盡可能通過搶占SPOT實例來優(yōu)化成本。
2、成本優(yōu)先策略以成本為第一優(yōu)先級:資源選擇以SPOT實例為主,并在滿足用戶成本要求的前提下使用OD按需實例來優(yōu)化時間效率。
SPOT:可被搶占實例,又稱競價實例。價格最低可達到按需實例價格的10%,相當于秒殺,手快有手慢無,價格可高可低波動大,隨時可能被搶占中斷,需要有一定的技術(shù)實力才能使用。
OD:On-Demand,按需實例。針對短期彈性需求,按小時計費,靈活精準,避免浪費,但價格比較高,通常為SPOT實例的3-10倍。
實證場景一:10000分子
AutoDock Vina云端線性擴展性及成本驗證
結(jié)論一:在云端調(diào)度不同核數(shù)的計算資源對接10000分子,驗證AutoDock Vina在云上具有線性擴展性,即當處理器數(shù)量增加一倍,運算時間也會縮短一半。

實證過程:
1、云端調(diào)度36核計算資源對接10000分子,采用時間優(yōu)先策略需耗時527分鐘;
2、云端調(diào)度80核計算資源對接10000分子,采用時間優(yōu)先策略需耗時314分鐘;
3、云端調(diào)度144核計算資源對接10000分子,采用時間優(yōu)先策略需耗時215分鐘;
4、云端調(diào)度288核計算資源對接10000分子,采用時間優(yōu)先策略需耗時98分鐘;
5、云端調(diào)度540核計算資源對接10000分子,采用時間優(yōu)先策略需耗時52分鐘;
6、云端調(diào)度1080核計算資源對接10000分子,采用時間優(yōu)先策略需耗時20分鐘。
結(jié)論二:在云端調(diào)度不同核數(shù)的計算資源對接10000分子,當用戶選擇成本優(yōu)先策略時,fastone平臺以SPOT實例為主要資源選擇,確保成本為第一優(yōu)先級。
比時間優(yōu)先策略,成本降幅最多可達67%-90%。

實證過程:
1、云端調(diào)度36核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費82元;
2、云端調(diào)度80核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費84元;
3、云端調(diào)度144核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費79元;
4、云端調(diào)度288核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費64元;
5、云端調(diào)度540核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費58元;
6、云端調(diào)度1080核計算資源對接10000分子,采用成本優(yōu)先策略搶SPOT實例,耗費68元。
實證場景二:2800萬分子
大規(guī)模業(yè)務(wù)驗證:基于不同用戶策略
fastone基于用戶2800萬分子對接需求,提供時間優(yōu)先和成本優(yōu)先兩種策略供用戶選擇。
01
用戶以時間為第一優(yōu)先級
結(jié)論:
1、通過fastone平臺采用時間優(yōu)先策略調(diào)用10萬核計算優(yōu)化型實例對接2800萬個分子,耗時約15.23小時,運算效率提高2920倍;
2、fastone平臺根據(jù)用戶計算需求,自動化構(gòu)建并調(diào)度云上10萬核大規(guī)模算力集群,完成計算任務(wù);
3、時間優(yōu)先策略下,當任務(wù)數(shù)量達到一定規(guī)模時,云上同一地區(qū)某種類型機型可能不足,fastone平臺可跨區(qū)、跨類型自動為用戶調(diào)度云資源,以最快速度完成計算任務(wù);
4、fastone平臺自動幫用戶確定中斷可能性最低的SPOT池,保障任務(wù)順利高效完成,本次實證任務(wù)的中斷率為0.95%(通常<5%)。
云端部署手動模式 VS 自動模式之間的巨大差異可查看 EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
實證過程:
1、設(shè)定exhaustiveness=8,本地104核計算資源對接約2800萬個分子,經(jīng)估算需耗時約1853天;
2、設(shè)定exhaustiveness=8,云端調(diào)度10萬核計算資源對接約2800萬個分子,采用時間優(yōu)先策略需耗時約15.23小時(含配置,安裝,調(diào)度等時間)。

計算資源越多,運算時間越短。
在滿足用戶時間要求的前提下,可通過盡可能搶占SPOT實例來幫助用戶優(yōu)化成本。
當所需的計算資源達到十萬核這個數(shù)量級以后,單個區(qū)域內(nèi)我們的目標類型資源可能會瞬間告罄,造成任務(wù)排隊,從而大大拖慢運算時間。
我們需要通過fastone平臺的Auto-Scale功能自動調(diào)度本區(qū)域及其他區(qū)域的目標類型或相似類型SPOT實例資源,以最快速地完成任務(wù)。

簡單說,就是優(yōu)先搶低價的SPOT實例,搶完同類型的再搶其他類型的,搶完同區(qū)域的再搶其他區(qū)域的。
這只是Auto-Scale功能的一部分。
fastone的Auto-Scale功能可以自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地開啟所需算力資源,在提升效率的同時有效降低成本。可以讓用戶根據(jù)自身需求,設(shè)置調(diào)度集群規(guī)模上下限,且所有操作都是自動化完成,無需用戶干預。
02
用戶以成本為第一優(yōu)先級
使用AutoDock Vina進行分子對接的一大特征是任務(wù)數(shù)量龐大而單個任務(wù)計算時間短,單個分子對接的時間通常在幾分鐘以內(nèi)(與參數(shù)設(shè)置有關(guān))。
這一特征天然匹配云端的SPOT實例。
云端SPOT實例有四大特點:
1、 便宜是真便宜。
2、 不是人人都能用好。
3、 不是你想要啥就有,不是你想用的時候就能用。
4、 或遲或早,最終一定會被搶走。

OD按需實例價格通常為SPOT實例的3-10倍。
可參考:《云資源中的低成本戰(zhàn)斗機——競價實例,AWS、阿里云等六家云廠商完全用戶使用指南》
當便宜且隨時可能被搶占中斷的SPOT實例遇到迷你卻海量的分子對接任務(wù),簡直就是天造地設(shè)的一對。
1、常規(guī)分子對接任務(wù)幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態(tài);
2、fastone平臺具備自動重試功能,一個任務(wù)被中斷可以自動重新提交,任務(wù)之間互相不影響,重新提交單個任務(wù)影響很小。
fastone平臺會按以下順序依次進行自動化調(diào)度:
1、同一區(qū)域目標類型的SPOT實例;
2、同一區(qū)域其他類型的SPOT實例;
3、其他區(qū)域目標類型的SPOT實例;
4、其他區(qū)域其他類型的SPOT實例;
5、同一區(qū)域目標類型的OD實例;
6、同一區(qū)域其他類型的OD實例;
7、其他區(qū)域目標類型的OD實例;
8、其他區(qū)域其他類型的OD實例。

實證小結(jié)
最后我們回顧一下實證目標:
1、AutoDock Vina任務(wù)能在云端有效運行;
2、fastone平臺能夠大幅度縮短任務(wù)運行時間;
3、fastone平臺能夠有效控制任務(wù)運行成本;
4、fastone平臺的Auto-Scale功能可完美匹配AutoDock Vina任務(wù)小,數(shù)量大的特點;
5、fastone平臺能根據(jù)用戶不同需求,為用戶提供不同的自動化調(diào)度策略。
本次生信行業(yè)Cloud HPC實證系列Vol.3就到這里。
在下一期的實證中,我們將為大家?guī)鞟mber上云實證,這次涉及到了云端GPU資源的使用。
未來我們還會帶給大家更多領(lǐng)域的用云“真香”實證,請保持關(guān)注哦!
- END -
2分鐘自動開通,即刻獲得TOP500超級算力
點擊下圖立即體驗

2020年新版《六大云廠商資源價格對比工具包》
添加小F微信(ID: imfastone)獲取

你也許想了解具體的落地場景:
15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發(fā)未來
CAE云實證Vol.2:從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關(guān)于云端高性能計算平臺:
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥
關(guān)于速石
速石科技致力于為 生命科學、 半導體、汽車/智能制造、高??蒲?/a>、人工智能、金融科技 等領(lǐng)域的企業(yè)提供定制化的上云解決方案 。