9 月 23 日消息,又是熟悉的深夜,阿里云今日發(fā)布并開(kāi)源了全新的 Qwen3-Omni、Qwen3-TTS,以及對(duì)標(biāo)谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。
Qwen3-Omni 是業(yè)界首個(gè)原生端到端全模態(tài) AI 模型,能夠處理文本、圖像、音頻和視頻多種類型的輸入,并可通過(guò)文本與自然語(yǔ)音實(shí)時(shí)流式輸出結(jié)果,解決了長(zhǎng)期以來(lái)多模態(tài)模型需要在不同能力之間進(jìn)行權(quán)衡取舍的難題。

Qwen3-Omni 是原生端到端的多語(yǔ)言全模態(tài)基礎(chǔ)模型,其核心特性主要包括:
- 跨模態(tài)最先進(jìn)表現(xiàn):通過(guò)早期以文本為核心的預(yù)訓(xùn)練和混合多模態(tài)訓(xùn)練,模型具備原生多模態(tài)能力。在實(shí)現(xiàn)強(qiáng)大音頻與音視頻性能的同時(shí),單模態(tài)的文本與圖像效果保持不降。在 36 項(xiàng)音頻 / 視頻基準(zhǔn)測(cè)試中,22 項(xiàng)達(dá)到了最新水平,其中 32 項(xiàng)在開(kāi)源范圍內(nèi)處于領(lǐng)先;在自動(dòng)語(yǔ)音識(shí)別(ASR)、音頻理解與語(yǔ)音對(duì)話方面表現(xiàn)可與 Gemini 2.5 Pro 相當(dāng)。
- 多語(yǔ)言:支持 119 種文本語(yǔ)言、19 種語(yǔ)音輸入語(yǔ)言以及 10 種語(yǔ)音輸出語(yǔ)言。
- 語(yǔ)音輸入語(yǔ)言:英語(yǔ)、中文、韓語(yǔ)、日語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、馬來(lái)語(yǔ)、荷蘭語(yǔ)、印尼語(yǔ)、土耳其語(yǔ)、越南語(yǔ)、粵語(yǔ)、阿拉伯語(yǔ)、烏爾都語(yǔ)。
- 語(yǔ)音輸出語(yǔ)言:英語(yǔ)、中文、法語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)、韓語(yǔ)。
- 創(chuàng)新架構(gòu):基于 MoE(專家混合)的“思考者–表達(dá)者”設(shè)計(jì),并結(jié)合 AuT 預(yù)訓(xùn)練以獲得強(qiáng)大的通用表征能力,同時(shí)采用多碼本設(shè)計(jì)以將延遲降至最低。
- 實(shí)時(shí)音頻 / 視頻交互:低延遲流式交互,支持自然的輪流對(duì)話和即時(shí)的文本或語(yǔ)音響應(yīng)。
- 靈活控制:可通過(guò)系統(tǒng)提示詞自定義行為,實(shí)現(xiàn)細(xì)粒度控制與輕松適配。
- 精細(xì)音頻描述: Qwen3-Omni-30B-A3B-Captioner 已開(kāi)源,這是一個(gè)通用型、細(xì)節(jié)豐富、低幻覺(jué)率的音頻描述模型,填補(bǔ)了開(kāi)源社區(qū)在該領(lǐng)域的空白。
