吉利汽車集團與其科技生態戰略合作伙伴階躍星辰近日攜手宣布,兩大創新多模態大模型——階躍Step系列,正式面向全球開發者開放源代碼。開發者們即刻起可通過躍問APP,親身體驗這兩款前沿技術的魅力。
階躍Step-Video-T2V,作為當前全球參數量最多、性能頂尖的開源視頻生成模型,其參數量高達300億,能夠直接生成分辨率達到540p的高質量視頻,每秒包含204幀畫面。該模型在復雜場景再現、人物美感呈現、視覺創意激發、基礎文字轉化、雙語輸入理解以及鏡頭語言運用等方面,均展現出卓越的生成能力,且語義理解與指令遵循能力尤為突出。

為了更全面地評估生成視頻的質量,階躍星辰還發布了Step-Video-T2V-eval基準數據集,包含128條基于真實用戶反饋的中文評測問題,覆蓋運動、風景、動物、組合概念、超現實、人物、3D動畫、電影攝影等11個內容類別。評測結果顯示,階躍Step-Video-T2V在指令遵循、運動流暢性、物理邏輯合理性及美感表現等方面,均遠超當前市場上表現最佳的開源視頻模型。
與此同時,階躍Step-Audio作為行業內首款產品級開源語音交互大模型,能夠根據不同場景需求,生成富含情緒、方言、語種、歌聲及個性化風格的語音表達,實現與用戶的高質量自然對話。其生成的語音不僅具備超自然、高情商等特質,還能實現音色復刻與角色扮演,完美適配影視娛樂、社交互動、游戲娛樂等多個行業應用。

在LlaMA Question、Web Questions等五大主流公開測試集中,階躍Step-Audio表現卓越,位居榜首。特別是在HSK-6(漢語水平考試六級)評測中,其表現尤為亮眼,堪稱最懂中文的開源語音交互大模型。階躍星辰還自建并開源了多維度評估體系Stepeval-Audio-360基準測試,從角色扮演、邏輯推理、生成控制、文字游戲、創作能力、指令控制等9項基礎能力維度,對開源語音模型進行全面評測。人工橫評結果顯示,階躍Step-Audio在各維度上均超越此前市場上效果最佳的開源語音模型。

階躍星辰的卓越成就也贏得了業界的廣泛認可。Hugging Face聯合創始人兼CEO Clement Delangue對階躍星辰的大模型贊譽有加,認為其有望成為下一個行業標桿。















