然而,服務AI的基礎設施——算力和數據,是限制人工智能發展的瓶頸,也成了進一步討論的話題。
為什么到現在仍然存在這樣的瓶頸?又該如何打破?
我們在成立一年的北電數智所做的事里看到了一些答案——
一座集結了“開箱可用”的國產算力的“AI工廠”,已然在北京浮出水面。
“AI工廠”劍指算力焦慮
無論是對于單一從業者還是整個行業,有效算力的缺乏都是一個亟待解決的痛點。
站在需求側來看,以大模型為代表的生成式AI蓬勃發展,激烈的“百模大戰”,推理時代的即將到來,無疑都帶來了巨量的算力需求增長。
中國工程院等十余家機構聯名在Science子刊Intelligent Computing上發表的一份報告指出,人工智能所需的計算能力每100天翻一番,照這樣計算,預計在未來五年內將增加超過100萬倍。
而且,人工智能時代,對算力的需求已經不僅僅是FLOPS的數量,算力需求的結構也發生了很大變化。
AIGC時代,算力的結構形式已經從CPU+加速器轉變為以GPU主導的大規模并行計算,智能算力占比快速提升。
但當前,國產芯片,特別是高端芯片,在很多方面與業界先進產品在算力性能、功耗墻、卡間通信速率等存在代際差距。
非芯片因素也在限制著算力的高效利用,如節點間的網絡傳輸能力不足、配套軟件生態不完善等等,不勝枚舉。
在這樣的現實之下,大部分的國產智能算力無法高效利用,催生出了業界對算力的第二重焦慮。
造成這樣焦慮的根本原因,在于使用方對多芯特別是國產算力的能力認知不夠清晰,可以概括為幾個方面:
國內大規模多芯集群能力欠缺,無法支持大規模的、接近生產環境的算力適配、評測。換言之,單芯片測試只能對卡間互聯、計算節點間給出預估數據,對于加速比的數據更是卻為空白;
現有平臺以指數型評測指標為主,不能和用戶業務場景進行聯系,沒有完全打通從業務場景到底層芯片的適配鏈路,也就是說實際的使用方,無法了解和判斷多芯集群是否能夠滿足自己的需求;
國內缺少多芯異構的服務性平臺,也缺少多芯異構、混合訓練、推理任務的嘗試。
總體來說,需求方不知道供給方能夠提供的服務以及對自己實際業務的支持程度,供給方缺乏一個平臺來展示自身能力和能夠做到的事情,同時有一個公正且清晰的評估和標準。
為了打破這樣的認知,破解算力焦慮的迷局,一個名為“星火·智算”的AIDC品牌應運而生。
“星星之火,可以燎原”,選擇“星火”這樣的名稱,是方案提供者希望這一品牌能夠以燎原之勢,實現全國范圍的復制。
提出這一方案的,是北電數智——北京電控旗下一家專注于人工智能的高科技企業。
北電數智認為,算力是人工智能時代一種新的生產力形式:
在農耕時代,大地就是算力;
機器時代,電力、蒸汽力就是算力;
在人工智能時代,算力就是煤水電一樣,是第一生產力的方式。
為了把算力變成電力一樣的生產力要素,目光就不能再只做簡單的芯片、服務器、機柜的堆疊,而是要從“算力倉庫”向著“AI工廠”的方向轉型,配備相應的新質生產關系。
這也是北電數智在打造星火·智算時的新思路。
具體來講,星火·智算一方面通過提供普惠算力,如水電煤般支持人工智能技術的創新和應用。
另一方面,以“AIDC 即服務”理念,提供底座大模型、行業大模型以及一站式工具鏈等配套服務,讓企業可以方便快捷地搭建出想要的應用或者重構現在的產品,實現生產方式的創新。
目前,“星火·智算”品牌的首個標桿項目——北京市數字經濟算力中心已經開工建設,未來將作為模板推向全國。
為更好地助力算力升級,北電數智還有兩款核心產品,全面向著產業中的算力焦慮出擊:
前進·AI異構計算平臺,針對當下高端算力資源緊缺局面,配置最符合國內市場需求的多芯異構方案;
寶塔·大模型適配平臺,向下廣泛適配芯片,使芯片與大模型廣泛解耦和適配;
兩個產品“一體兩面”,從不同的維度解決算力焦慮。
前進·AI異構計算平臺作為全棧國產算力迭代驗證平臺,能夠實現多種算力的統一管理與調度,同時首推效果式計費,用戶無需掌握底層細節即可按需應用,并實現多種算力之間的平滑遷移。
為了讓算力能夠更好被運用,星火·智算也通過統一通信、編譯優化等技術突破,前進·AI異構計算平臺可以讓國產芯片性能提升2-3倍,吞吐量提升6-7倍。
在為用戶提供算力支持的同時,前進·AI異構計算平臺還打造了“芯片×模型×場景”的全新評測模式,幫助打破廠商與使用者之間的信息不對稱,助力芯片廠商破局,讓國產芯片從“可用”到“好用”。
這意味著,在給用戶提供算力支持的同時在推動國產芯片實現全面提升,帶來更多的源頭算力。
寶塔·大模型適配系統則是賦能模型和應用側,支持模型部署、管理,做算力的精細化運營管理,進一步向上支撐人工智能應用。
讓高質量數據流通起來
如果說算力缺陷是AI大廈上的一朵“烏云”,那么數據上的不足就是當之無愧的另一朵。
北電數智首席科學家、復旦大學計算機科學技術學院特聘教授竇德景的公開演講表示,數據規模與質量,決定了AI的“上限”——無論是訓練還是推理,都需要高質量的數據作為支持。
以Meta最新發布的開源大模型Llama 3.1為例,其第三代模型在超1.6萬個H100 GPU上消耗的訓練數據量為15T tokens,是第二代的7倍,這也成就了兩代之間相同參數規模下的性能飛躍。
在我國,數據供給側的現狀也與算力一樣面臨焦慮——總量豐富,但高質量數據煙囪林立。
據IDC測算,2022-2027年,中國的數據量規模將由23.88ZB增長至76.6ZB,處于世界一流,但是可獲取的高質量語料數據集依然相對匱乏。
在數量已經匱乏的條件下,高價值數據又面臨著“供不出、流不動、用不好”的窘境,難以發揮價值,讓本就有限的數據資源變得更加緊張。
另一方面,數據的集成化程度也嚴重不足,大量數據散落在產業側或垂直系統內,而且未被結構化,無法直接用于大模型訓練。
這背后的深層次原因,是缺乏成熟的技術和可信機制來支撐數據的安全,擁有數據的企業“不知、不敢、不能、不會”讓數據任意流通,這“四不”的現狀進一步造就了今天數據集的短缺,形成了一道死循環。
所以當務之急,就是建立起一套可信的安全的數據機制。
為此,北電數智推出了另一個重要產品——紅湖·可信數據空間,讓數據要素充分聚集,讓場景得以充分開放。
紅湖·可信數據空間是圍繞“可信”構建的多層次解決方案,旨在盤活數據提供高質量可信數據服務,打造“安全共享、可信流通”的數據環境。
從技術上看,紅湖·可信數據空間搭載了可信數據沙盒,利用“邏輯數倉”等技術導入、修改和刪除數據,并通過隱私計算+區塊鏈技術,保證數據安全、無泄漏,保證數據的可追溯和透明性,做到“全鏈條可控”。
這種做法使數據可信、可控、可用、可審計、加密保護,從而創造多方互信、數據流通協議履行的數據共享、應用環境。
有了這樣全流程可控的安全措施,才能讓數據的擁有者敢于將手中的數據資源投入市場流通,并以點帶面地拉動更多的數據擁有者參與其中。
有了前期的數據投入,數據供應的生態也將走向成熟,數據共享的形式也會更加完善便捷,流動的高質量數據將為行業發展注入更多的新鮮血液。
同時,北電數智自身也為行業帶來了高質量數據,在醫療、教育、文化等行業布局了垂類模型矩陣,讓人工智能企業更好地找到落地場景。
所以,北電數智到底是誰,又是如何孕育出這樣一套全面針對人工智能行業痛點的解決方案的呢?
人工智能時代的“發電廠”,產業鏈的“串珠人”
北電數智,是北京電控集團旗下高科技企業,專注于人工智能,自身定位是全棧AI服務商。
北電數智成立之前,正逢GPT-3.5發布,彼時,新一輪人工智能時代全面開啟,AI競爭也正日趨白熱化。順應時代發展與市場需求,北電數智應運而生。
成立之時,北電數智承接的第一個項目就是北京市數字經濟算力中心,定位是向公共提供智算算力,實現算力的普惠。
換言之,這個算力中心就像一座“發電廠”,讓算力像水電煤一樣賦能從基座到應用的完整AI產業分層。
北電數智戰略與市場負責人楊震介紹,這是北電數智和數科公司的不同,北電數智的第一要務,是要把人工智能產業支撐起來,讓人工智能企業或者個人開發者能夠快速使用到人工智能、享受到人工智能。
在整個人工智能產業中,楊震認為北電數智扮演了產業鏈“串珠人”的角色——如果這個產業鏈上已經有珠子了,就把它們串上;如果沒有的話,就把它造出來。
比如前文提到的對國產芯片的加速、在行業模型垂類模型的布局、可信數據空間,都是這個產業鏈上的一顆顆“珠子”。
除了提供算力產品,北京市數字經濟算力中心還專門設計了交流、展示空間,讓處于相同或不同領域的AI從業者碰撞交流,促進更全面更深層次的創新。
未來,這個算力中心中的開放空間還將作為“算力科技公園”面向公眾開放,讓更多人了解人工智能時代的生產變革之力。
總之,北電數智將以智算中心為支撐,串聯起芯片、服務器、大模型、AI應用、產業投資等上下游技術、產品和服務,促進人工智能產業成長和繁榮,并帶動區域經濟產業升級。
截止目前,北電數智已有AI產業生態伙伴千余家,覆蓋了AI輔助藥物研發、通用機器人/具身智能、無人駕駛、AI智能體等明星賽道。