在人工智能領域的一次重大合作中,階躍星辰與吉利汽車集團攜手,向全球開發者宣布開源其合作開發的Step系列多模態大模型。這一系列包括兩個重量級成員:階躍Step-Video-T2V,作為全球參數量最大的開源視頻生成模型,以及階躍Step-Audio,行業內首款達到產品級標準的開源語音交互大模型。

兩家公司在算法優化、算力支持和場景訓練等方面深入合作,共同提升了多模態大模型的性能。此次開源行動不僅標志著中國在開源大模型領域的又一重大貢獻,也預示著人工智能技術的進一步普及和發展。
吉利汽車集團通過構建包括芯片、軟件操作系統、數據和衛星網在內的端到端自研體系,已經在智能駕駛和智能座艙領域取得了顯著進展。吉利汽車集團CEO淦家閱表示,吉利自研的星睿AI大模型與階躍Step系列大模型的深度融合,將為用戶帶來更加智能和高端的出行體驗。
階躍星辰的創始人兼CEO姜大昕強調,實現通用人工智能(AGI)是全球開發者的共同目標。此次開源,不僅是為了分享技術成果,更是為了與全球開發者共同探索多模態模型的技術邊界,推動其在產業中的落地應用。
階躍Step-Video-T2V模型憑借其300億的參數量,能夠生成204幀、540P分辨率的高質量視頻,確保了視頻內容的高信息密度和一致性。用戶已經在躍問平臺體驗到了該模型強大的視頻生成能力,從復雜運動到美感人物,從基礎文字生成到鏡頭語言,都展現出極高的精準度和創造力。

為了全面評測開源視頻生成模型的性能,階躍星辰還發布了新的基準數據集Step-Video-T2V-eval,包含128條源于真實用戶的中文評測問題,涵蓋多個內容類別。評測結果顯示,階躍Step-Video-T2V在指令遵循、運動平滑性、物理合理性和美感度等方面均優于市面上的其他開源視頻模型。
階躍Step-Audio作為行業內首個產品級開源語音交互模型,能夠根據場景需求生成不同情緒、方言、語種和個性化風格的表達,與用戶進行自然對話。該模型在影視娛樂、社交和游戲等行業中具有廣泛的應用前景。在多個主流公開測試集中,階躍Step-Audio的性能均位居第一,特別是在漢語水平考試六級評測中表現突出,被譽為“最懂中國話的開源語音交互大模型”。

鑒于語音對話測試集的缺失,階躍星辰自建并開源了多維度評估體系Stepeval-Audio-360基準測試。該測試從多個維度對開源語音模型進行全面測評,結果顯示階躍Step-Audio的模型能力十分均衡,且在各個維度上均超過此前市面上效果最佳的開源語音模型。

此次開源行動不僅展示了階躍星辰和吉利汽車集團在人工智能領域的深厚實力,也為全球開發者提供了寶貴的資源和平臺,共同推動人工智能技術的創新和發展。














