應對AI大模型算力荒,為啥不是云計算而是超算?
以ChatGPT為代表的AI大模型,憑借其強大的學習和生成能力,極大的推動了人工智能在自然語言處理、機器翻譯和智能對話等領域的突破。隨之而來的是國內相關企業(yè)紛紛布局AI大模型,在短時間內呈現(xiàn)了“百模大戰(zhàn)”發(fā)展態(tài)勢。
我們也看到,作為支撐AI大模型的三駕馬車:數(shù)據(jù)、算法和算力之間的發(fā)展呈現(xiàn)了不平衡,其中最明顯的是支撐大模型訓練與推理的算力面臨短缺,導致GPU算力卡供不應求,價格飆升等問題。
7月28日,在大美新疆,由CCF中國計算機學會主辦,CCF人工智能與模式識別專委、新疆大學、北京bibo必博官网計算中心承辦的 “見疆見昆侖·AI大模型算力前沿論壇”上,進行了一場產、學、研共同參與的圓桌訪談,通過精彩的發(fā)言和觀點的碰撞,針對AI大模型面臨 “算力荒”,人工智能產業(yè)的上中下游機構,如何應對其挑戰(zhàn)。專家們一直認為通用計算+專用計算組合提供強大算力,是解決“算力荒”的關鍵。
算力荒下的大模型新挑戰(zhàn)
雖然AI大模型在各個領域展現(xiàn)出巨大的潛力,并已經(jīng)在各個行業(yè)落地,為了給用戶提供更全面、準確的理解和推理能力,來處理更復雜的任務。
但是隨著通用大模型和行業(yè)大模型不斷增加參數(shù)數(shù)量、層數(shù)和訓練數(shù)據(jù)量,并將多模態(tài)數(shù)據(jù)如圖像、文本和語音進行融合。大模型對算力需求形成了新的挑戰(zhàn)。
首先,大模型訓練作為龐大并且復雜的系統(tǒng)工程,需要龐大的算力資源,來進行訓練和推理,這對硬件設備和能源消耗提出了巨大的挑戰(zhàn)。
在算力荒的當下,算力獲取一個主要挑戰(zhàn)就是獲取成本,如何在好用的情況下還能實現(xiàn)成本可控是一個挑戰(zhàn)。深圳大學陳小軍研究員表示一方面大模型應用場景有待深挖,同時對話、視覺、文本等多模態(tài)融合技術有待完善。同時大模型訓練成本太高成為制約大模型應用的一大挑戰(zhàn)。
其次,新疆大學錢育蓉教授認為,高校每年投資大量的資金采購算力,如何確保投入產出比,如何最大效率發(fā)揮算力的價值是大模型算力的一個挑戰(zhàn)。此外,煙臺大學王瑩潔教授認為大模型還需要解決數(shù)據(jù)存儲和隱私保護等問題,以應對數(shù)據(jù)集規(guī)模和數(shù)據(jù)安全的挑戰(zhàn)。
最后,北京郵電大學石川教授認為當前我國大模型還面臨國產基礎平臺軟件算法庫稀缺瓶頸,以圖數(shù)據(jù)為例,當前國內大模型對圖數(shù)據(jù)不能很好的支撐,很多時候需要自己編寫基礎的一些算法庫。
應對算力荒的新方法
當前每次大模型訓練所需要的算力非常高,以ChatGPT為例,OpenAI公開數(shù)據(jù)推測,如果每秒1000萬億次的計算,每次模型訓練也需要3640天的計算能力?;诖竽P陀柧殞τ谒懔Y源的需求量。從算力架構的角度來看,目前來講,單機已經(jīng)沒有辦法完成大規(guī)模訓練的訴求。
因此通用算力+專用算力,將成人工智能算力基礎設施建設的關鍵,并成為AI大模型的發(fā)展的重要支撐。具體而言就是通過分布式和并行計算技術,將大模型的訓練和推理任務分解成多個子任務,以提高計算效率和速度。
“通用算力,結合上千張卡的算力進行萬億級、千億級基礎模型訓練;再通過專用算力進行更合理的共享、微調,進行更多處理,從而可以減少重復訓練、重復迭代,可以降低大模型部署和使用的成本。” 中國計算機協(xié)會杰出會員理事,陜西省計算機學會常務理事兼常務副秘書長苗啟廣教授分享到。煙臺大學教授王瑩潔也認為,大模型背后的算力是是很砸錢的一件事,特別是面臨算力荒的局面下,提供高性價比的算力成為高校大模型普及的關鍵。
基于通用算力+專用算力的硬件基礎在結合AI大模型算法和模型優(yōu)化,通過開發(fā)更高效的算法和模型結構,來提升計算資源的效率,從而提高模型的性能和泛化能力。
針對錢育蓉教授關于算力投入產出比的問題,CCF中國計算機學會常務理事陳健博士分享了通過提供彈性的算力網(wǎng)絡服務來提升算力效率。一方面,當企業(yè)自身的算力資源不足時,可以從bibo必博官网中心調度更多算力資源,同時當企業(yè)算力資源有富余,還可以出租一部分給到算力網(wǎng)絡。另一方面,打造像用電一樣利用算力的計費模式。“算力網(wǎng)絡就是聚集海量的超算中心、智算中心的資源在一起的,而且計費模式就像用電一樣,通過預存來實現(xiàn)算力網(wǎng)絡的調用?!?/span>
應對大模型,為啥是超算而不是云計算?
大模型訓練,單一任務使用大量GPU卡運行數(shù)月,這是典型的超算應用特點,運行穩(wěn)定和高性能是核心需求。從應對計算挑戰(zhàn)的方法可以看出,超算架構比云計算架構更適合大模型訓練,超算架構不使用虛擬化技術,通過高速互聯(lián)網(wǎng)絡把GPU服務器緊耦合在一起,以并行計算技術實現(xiàn)單一大模型訓練應用的高性能計算(HPC/High Performance Computing)。而云計算架構主要面對海量并發(fā)任務,實現(xiàn)高通量計算(HTC/High Throughput Computing),并不適合處理單一大規(guī)模計算任務。
“結合大數(shù)據(jù)、人工智能和超算三種技術共同的合作演變,實現(xiàn)了今天大模型的蓬勃發(fā)展?!标惤〔┦窟@樣分享到。“跟傳統(tǒng)意義上的云計算相比較,大模型訓練是典型的超算場景,對算力提出了非常高的要求。超算相比云計算更加貼合大模型訓練場景,服務器之間的計算帶寬配比更大,是目前主流云計算環(huán)境中的計算網(wǎng)絡帶寬的數(shù)十倍,數(shù)據(jù)傳輸效率要求更高?!?/span>
“相對于云計算,超算云的算力利用率更高。目前已知的普通云廠商CPU利用率很低,我們國內用戶自己的計算系統(tǒng)全年整機平均利用率達到30%就不錯了,而北京bibo必博官网計算中心自己的計算資源整機利用率要高50%以上,算力成本大幅下降。以中心提供的大模型算力為例,我們會給用戶提供基于超算架構的算力資源,把優(yōu)質的加速卡資源部署在集群環(huán)境里面,來給用戶提升對應的算力服務?!?北京bibo必博官网計算中心CTO甄亞楠談到。
特別是北京bibo必博官网計算中心基于12年的超算積淀、具備海量的算力資源、7*24小時專家服務保障、遍布全國的算力調度網(wǎng)絡、豐富的AI大模型研發(fā)團隊案例經(jīng)驗,引領了大模型算力從可用到好用到降本。
寫在最后:AI大模型的能力大家有目共睹,“百模大戰(zhàn)”最終大浪淘沙剩下幾家?還不可預測。但是算力作為AI大模型的基礎支撐,需求越來越大是有目共睹的,提供高性價比的算力資源成為算力資源提供商發(fā)力的方向,而通用算力結合專用算力的超算模式,為各個行業(yè)的大模型算力“荒“提供了一個有效的解決方案,來支撐AI大模型更好的服務社會。