這是通過使用名為 Stack v2 的新代碼數(shù)據(jù)集實現(xiàn)的,該數(shù)據(jù)集比 Stack v1 大七倍;新的訓(xùn)練技術(shù)也意味著該模型可以更好地理解 COBOL 等低資源編程語言、數(shù)學(xué)和程序源代碼討論。
StarCoder2 經(jīng)過 619 門編程語言培訓(xùn),可以執(zhí)行源代碼生成、工作流生成、文本摘要等專業(yè)任務(wù)。英偉達表示,開發(fā)人員可以利用它進行代碼補全、高級代碼總結(jié)、代碼片段檢索等,從而提高工作效率。
英偉達表示相比較初版 StarCoder LLMs,新的 30 億參數(shù)模型進一步精簡和篩選了優(yōu)質(zhì)參數(shù),其性能相當于 150 億參數(shù)模型的初版 StarCoder。
StarCoder2 采用 BigCode Open RAIL-M 許可證,允許免版稅訪問和使用。注:感興趣的用戶可從 BigCode 項目的 GitHub 頁面獲取源代碼,可從 Hugging Face 下載模型。