逐家点评
1. DeepSeek R1(深度求索)— 国产综合王
强项:671B MoE,激活参数仅 37B,推理便宜。SWE-bench Verified 约 52%、AIME 数学接近 GPT-5。开源权重 + 性价比无敌。
弱项:工具调用稳定性比 GPT-5 / Claude 弱,Berkeley Function Calling 榜单中游。上下文 128K 已经不算长。
适合谁:cost-sensitive 生产环境、批量任务、自托管隐私场景、独立开发者主力。
合规:官方 API 在中国托管,海外用户请走 OpenRouter / Together AI / 自部署。
2. Qwen3 Max(阿里通义)— 中文与多语言之王
强项:中文质量明显领先(C-Eval、CMMLU 第一梯队)、多语言强(东南亚语种、阿拉伯语)、长上下文 1M、阿里云生态完整。Qwen3 Coder 是开源里前端写代码最好用的之一。
弱项:英文 agent 生态较弱、IDE 集成不如 Claude。
适合谁:中文产品、多语言 RAG、东南亚业务、阿里云已经是 IT 栈的团队。
合规:有 Apache 2.0 开源版本(Qwen3 32B 等),可自托管。Qwen3 Max 需要走阿里云国际版。
3. Kimi K2(月之暗面)— 长上下文之王
强项:200 万 token 上下文(与 Gemini 2.5 Pro 持平)、长文档摘要 / 整书阅读 / 整套合同处理是 unique selling point。中文长文写作流畅自然。
弱项:代码 / 数学不如 DeepSeek。生态偏 C 端(Kimi 智能助手)多于 API。
适合谁:法律 / 学术 / 出版 / 长文阅读类产品。给老板写"读完整本书的总结"是杀手锏。
合规:暂无大规模开源权重。
4. GLM-4.6(智谱清华)— Agent 与企业级
强项:工具调用稳定性国内第一,Berkeley Function Calling 跑分接近 GPT-5。结构化 JSON 输出可靠。企业版完整、合规配套全。GLM-4 开源版本生态广(vLLM、Ollama 都支持)。
弱项:原生中文创意写作略弱于 Qwen 与 Kimi。绝对推理质量低于 DeepSeek。
适合谁:做 Agent / Function Calling / 结构化抽取 / 企业内部工具。
合规:开源 GLM-4-9B 等可自部署,企业版有完整合规方案。
5. MiniMax abab 7 / 海螺 — 多模态与语音
强项:语音合成中文最强之一(海螺音色多样、自然度高)、多模态(图像、视频生成 abab-video)有差异化。
弱项:纯文本能力弱于前四家。开发者文档生态略薄。
适合谁:语音对话产品(智能客服、有声书、播客 AI 主播)、多模态 Demo。
合规:未开源,官方 API 中国托管。
6. 第二梯队:Yi、Baichuan、商汤、讯飞、百度文心
这一梯队各有特定场景下的可用性,但综合来看,前五家已经覆盖了 95% 实战需求。Yi(零一万物)开源生态做得较好;Baichuan 在金融 / 医疗等垂直行业有客户基础;讯飞和百度有 to B 渠道优势。要做选型时,优先考虑前五家,前五家不行再考虑这一档。