Sirius關注機器學習研發團隊在業務層之外的所有需求,希望以最簡單的方式,合理分配GPU集群資源給工程師團隊,優化資源使用效率。同時,Sirius還簡化并整合了數據管理、實驗管理和應用發布等機器學習流程到一個平臺,便于統一管理。
預約演示 →作為 NVIDIA Inception Program 的一員,速石科技致力于彌合研發團隊與AI基礎設施間的差距,簡化AI模型的研發流程,借助自身優勢減少研發過程中技術和流程的重復,大幅優化企業的研發效率和體驗。
速石科技為企業提供端到端的一站式機器學習研發平臺——Sirius,并為AI/ML提供全生命周期的產研支持,實現AI/ML模型的部署和落地,從而幫助企業更快地將ML/LLM模型推向生產環境,提升整體產研效率,助力企業實現自身商業價值。
機器學習的體系復雜而龐大,諸如數據處理、生產環境部署、算力資源管理、多個開發環境的管理等,會降低企業的研發效率和研發人員的工作體驗。
MLOps就是將機器學習(ML)、開發(Dev)和運維(Ops)串連為一個整體,向人工智能領域提供了系統性的生產過程管理方案,從而針對性地解決前述AI領域問題。
GPU集群的自動配置,自動部署
存儲統一配置
資源監控、告警以及運營分析
面向機器學習負載的集群調度器
豐富的企業級調度策略配置
結合并行化計算的調度框架,提升訓練效率
數據權限分級
數據可視化
版本管理
數據清洗及標注
面向LLM的訓練數據格式化
面向不同類型推理服務的網關
服務規模自動伸縮
Web端可視化向導配置
可觀測性指標
Sirius內置眾多機器學習常用鏡像,讓算法工程師能夠通過直觀的網頁界面快速拉起開發環境,并以他們熟悉的方式(如Jupyter/SSH)接入。為了進一步提高開發效率,我們允許用戶將定制化的開發環境保存為私有鏡像,從而消除重復配置環境的需要,確保工程師能夠將精力集中在核心業務開發上。
查看AI云平臺Sirius作為全方位的機器學習平臺,支持用戶根據需要自定義數據集和模型,并提供了數據集與模型的版本管理功能。平臺的實驗管理模塊能夠自動記錄提交的計算任務,確保所有實驗活動可復現、可追蹤。此外,當團隊需要將模型部署為服務時,我們的應用發布功能可以大幅簡化部署流程,幫助團隊快速推進應用的上線過程。
資源分配是Sirius的核心能力,平臺支持將單張GPU卡拆分給多個用戶使用,允許對用戶及團隊可用的GPU、CPU及內存資源進行上限配置。通過靈活的調度策略,Sirius能夠精準、合理地調配GPU資源,最大化GPU集群的使用效率。
Sirius將機器學習的研發流程統一集成在平臺內部,使工程師能夠直觀地實時監控機器學習任務的執行狀態和資源消耗,并根據關鍵監控指標設定預警。同時,管理員可以全面管理和監控所有任務及計算節點的運行情況。
應用
Pytorch、TensorFlow、MXNet
場景
機器人控制
客戶挑戰
本地資源有限,需要給研究員合理分配GPU資源;
使用工作站無法滿足一些規模較大的模型訓練的算力需求;
實驗室沒有專人負責基礎架構,需要進行管理并提供基本的運維監控;
研究員希望保持GPU資源的接入方式不變。
應用
Pytorch、TensorFlow、MXNet
場景
嵌入式環境模型開發
客戶挑戰
不同團隊共享GPU,資源分配手動完成,效率很低且管理復雜;
開發環境管理混亂,且因網絡限制,安裝流程繁瑣,影響開發團隊效率;
所有GPU的使用情況沒有監控,無法得知資源使用效率;
實驗管理、超參數調優、分布式訓練等需求無法滿足。
應用
基于Yolo v5的圖形檢測應用
場景
實時推理
客戶挑戰
GPU資源有限且資源利用率不高,難以支撐快速增長的業務需求;
缺乏IT人員,難以針對所有GPU資源、任務進行監控和告警;
現有推理平臺較為陳舊,無法根據模型規模自動分配資源,導致大量珍貴的GPU資源浪費。
應用
基于Pytorch、TensorFlow、MXNet、Transformer框架的機器學習訓練項目
場景
大語言模型
客戶挑戰
ML基礎架構組件繁多,構建過程復雜易出錯,標準化需要高度專業的人力投入;
并行化計算依賴基礎架構層的軟硬件框架,傳統模式下資源管理和計算并行需要大量手工調試工作;
模型開發依賴的高質量數據,需要大量的人工清洗、標注和格式轉換工作。
應用
Pytorch、TensorFlow、MXNet
場景
機器人控制
客戶挑戰
本地資源有限,需要給研究員合理分配GPU資源;
使用工作站無法滿足一些規模較大的模型訓練的算力需求;
實驗室沒有專人負責基礎架構,需要進行管理并提供基本的運維監控;
研究員希望保持GPU資源的接入方式不變。
應用
Pytorch、TensorFlow、MXNet
場景
嵌入式環境模型開發
客戶挑戰
不同團隊共享GPU,資源分配手動完成,效率很低且管理復雜;
開發環境管理混亂,且因網絡限制,安裝流程繁瑣,影響開發團隊效率;
所有GPU的使用情況沒有監控,無法得知資源使用效率;
實驗管理、超參數調優、分布式訓練等需求無法滿足。
速石科技行業知識庫聊天應用Megrez,面向企業客戶提供大語言模型的私有化部署能力,解決了許多企業用戶關注的數據安全問題,允許用戶自定義行業知識庫,實現領域知識的問答。
速石科技支持用戶在平臺上自定義這款應用的部署,實現從基礎架構到最終應用的端到端掌控。
技術咨詢 →在線咨詢
公眾號
掃碼關注我們
微信咨詢
添加小F@速石科技
說出你的應用
我們就有故事
免費試用