9 月 23 日消息,又是熟悉的深夜,阿里云今日發(fā)布并開源了全新的 Qwen3-Omni、Qwen3-TTS,以及對標谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。
Qwen3-Omni 是業(yè)界首個原生端到端全模態(tài) AI 模型,能夠處理文本、圖像、音頻和視頻多種類型的輸入,并可通過文本與自然語音實時流式輸出結(jié)果,解決了長期以來多模態(tài)模型需要在不同能力之間進行權(quán)衡取舍的難題。

Qwen3-Omni 是原生端到端的多語言全模態(tài)基礎(chǔ)模型,其核心特性主要包括:
- 跨模態(tài)最先進表現(xiàn):通過早期以文本為核心的預(yù)訓(xùn)練和混合多模態(tài)訓(xùn)練,模型具備原生多模態(tài)能力。在實現(xiàn)強大音頻與音視頻性能的同時,單模態(tài)的文本與圖像效果保持不降。在 36 項音頻 / 視頻基準測試中,22 項達到了最新水平,其中 32 項在開源范圍內(nèi)處于領(lǐng)先;在自動語音識別(ASR)、音頻理解與語音對話方面表現(xiàn)可與 Gemini 2.5 Pro 相當。
- 多語言:支持 119 種文本語言、19 種語音輸入語言以及 10 種語音輸出語言。
- 語音輸入語言:英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。
- 語音輸出語言:英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。
- 創(chuàng)新架構(gòu):基于 MoE(專家混合)的“思考者–表達者”設(shè)計,并結(jié)合 AuT 預(yù)訓(xùn)練以獲得強大的通用表征能力,同時采用多碼本設(shè)計以將延遲降至最低。
- 實時音頻 / 視頻交互:低延遲流式交互,支持自然的輪流對話和即時的文本或語音響應(yīng)。
- 靈活控制:可通過系統(tǒng)提示詞自定義行為,實現(xiàn)細粒度控制與輕松適配。
- 精細音頻描述: Qwen3-Omni-30B-A3B-Captioner 已開源,這是一個通用型、細節(jié)豐富、低幻覺率的音頻描述模型,填補了開源社區(qū)在該領(lǐng)域的空白。
