阿里发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

阿里千问发布全模态大模型Qwen3.5-Omni,该模型能够无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频Caption生成。在音频及音视频分析、推理、对话、翻译等任务上,Qwen3.5-Omni超过了Gemini3.1-Pro。它还支持语义打断、音色克隆及语音控制,让对话体验更自然,并支持256K超长上下文与113种语言识别,可处理10小时音频或1小时视频。此外,Qwen3.5-Omni原生支持WebSearch和复杂Function Call,能够执行智能任务。

—— IT之家

via 风向旗参考快讯 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]