一、最终结论
共用模型方案 推荐
如果三个场景共用一组模型:
- 国内模型:Alicloud@deepseek-v3
- 国外模型:azure04-gpt-4o-mini
分场景方案 中期演进
- 翻译工作台:国内优先 DeepSeek V3。
- 数据级多语:DeepSeek V3 / Qwen3 双候选。
- 企信 IM:国外优先 Azure,国内优先 Qwen3。
合规与成本 关键约束
- 海外云租户应走国外模型链路。
- 国内租户可走国内模型链路。
- 按近 30 天消耗估算,DeepSeek V3 约 1,206 元/月,Azure 约 687 元/月。
二、测试过程与归因
前期多轮测试不是无效数据,但它们不适合作为最终模型排序的直接依据。它们的价值在于暴露问题:调试台批量调用会触发熔断,复杂 Prompt 会影响 JSON 成功率,部分模型链路存在空错误,业务术语和实体名不能完全靠模型自由翻译。
| 阶段 | 主要目的 | 暴露问题 | 为什么不作为最终复核结论 |
|---|---|---|---|
| Round1 / Round2 大批量测试 | 快速拉通调试台、观察模型可用性。 | 大量 `OPEN / HALF_OPEN` 熔断、空错误、降级链路失败。 | 调用链路噪声过大,无法区分模型质量和网关稳定性。 |
| 40 / 50 条小批量测试 | 缩小 Case 与语种范围,初步比较质量、性能和成本。 | 工作台与数据级多语开始收敛,但企信仍受链路和 Prompt 复杂度影响。 | 样本覆盖还不完整,适合作为方向判断,不适合最终对外背书。 |
| 企信 Prompt 多轮回归 | 验证企信成功率低是否由 Prompt 造成。 | 复杂保护规则会降低 JSON 成功率;纯极简又会带回术语和表达风险。 | 这是 Prompt 收敛过程,不是最终横评样本。 |
| 最终 100 条复核 | 冻结 Prompt、冻结 Case、冻结核心语种和候选模型。 | 工作台和数据级多语结果稳定;企信仍需关注空错误和低并发稳定性。 | 作为最终汇报主依据。 |
三、模型范围与未纳入说明
本次主测聚焦“翻译主链路候选”,不是平台内全部大模型普查。候选模型需要同时满足:可被当前翻译调试台稳定调用、可输出多语 JSON、具备 CRM / PaaS / IM 场景翻译能力,并且有明确内部成本口径。
| 模型编码 | 归类 | 内部成本:输入 / 输出 / 合计,元/百万 Token | 最终定位 |
|---|---|---|---|
| Alicloud@deepseek-v3 | 国内 / 阿里云 DeepSeek | 2 / 8 / 10 | 国内共用首选;工作台和数据级多语首选;企信国内质量候选。 |
| qwen3-235b-a22b | 国内 / Qwen | 2 / 8 / 10 | 数据级多语国内候选;企信国内优先候选。 |
| azure04-gpt-4o-mini | 国外 / Azure OpenAI | 1.14 / 4.56 / 5.70 | 国外共用首选;企信 IM 稳定性首选。 |
| inner@gemini-2.5-flash-lite | 国外 / Gemini | 0.72 / 3.04 / 3.76 | 海外低成本低延迟候选;工作台、数据级多语和企信均可观察。 |
| ep-20250311151306-7drx4 | 国内 / 豆包旧端点 | 0.3 / 0.6 / 0.9 | 成本最低,但中文残留和术语直译风险高,不建议默认。 |
| ep-20251211140918-zhfhg | 国内 / 豆包新端点 | 0.8 / 2 / 2.8 | 低成本观察,不进入最终主链路。 |
| inner@gemini-2.5-pro | 国外 / Gemini | 高成本 | 多轮全失败或稳定性不达标,不推荐。 |
| 平台内可用但未进主候选的模型 | 原因 |
|---|---|
| MiniMax M2.7 / M2.5 | 在当前链路中更多体现为降级或高性能通用模型,不是翻译主链路候选;历史错误里出现过主模型与 MiniMax 降级模型同时失败,说明不适合作为本轮稳定基线。后续如要验证,可单独做 20 条探索集。 |
| GLM / 智谱相关模型 | 部分配置存在重定向或视觉模型用途,不具备本轮可独立横评的稳定翻译链路;因此没有纳入最终候选队列。 |
| Tencent DeepSeek V4 Flash / Pro | 早期进入过观察,但在不同 Prompt 下熔断波动较大;Flash 可低成本观察,Pro 成本和稳定性均不适合作为默认翻译链路。 |
| Qwen3.5 Plus | 多轮出现主/降级链路失败,当前不进入默认模型推荐。 |
四、最终复核数据总览
最终复核将历史多轮调试结果收敛为固定 Prompt、固定 100 条 Case、固定核心语种和候选模型。历史 Round1 / Round2 / Round3 不再直接参与平均分,只用于说明链路熔断、Prompt 复杂度和质量风险的来源。
| 场景 | 最终数据文件 | 测试规模 | 整体成功率 | 核心判断 |
|---|---|---|---|---|
| 翻译工作台 | prompt_playground_excel_result (24).xlsx | 100 Case × 9 语种 × 7 模型,6,300 行 | 84.84% | 成功率和质量均已明显收敛,可作为最终主依据。 |
| 数据级多语 | prompt_playground_excel_result (23).xlsx | 100 Case × 9 语种 × 7 模型,6,300 行 | 84.27% | 模型成功率可用,实体名一致性仍需术语库/映射治理。 |
| 企信 IM | prompt_playground_excel_result (22).xlsx | 100 Case × 9 语种 × 7 模型,6,300 行 | 52.56% | 以关闭代理后的标准测试为准;整体被部分模型空错误和熔断拉低。 |
| 企信候选补测 | prompt_playground_excel_result (25).xlsx | 100 Case × 9 语种 × 3 模型,2,700 行 | 83.67% | Gemini Flash Lite 900/900 全成功,证明低成本海外候选有参考价值。 |
| 企信国内模型再补测 | prompt_playground_excel_result (26).xlsx | 100 Case × 9 语种 × 2 模型,1,800 行 | 86.50% | Qwen3 成功率 89%,DeepSeek V3 成功率 84%,国内模型稳定性进一步恢复。 |
五、三场景核心表现
翻译工作台 主模型明确
最终 100 条成功率 84.84%。可用模型中 Alicloud@deepseek-v3、qwen3-235b-a22b、inner@gemini-2.5-flash-lite 均达到 100%。
- 国内首选:Alicloud@deepseek-v3,CRM 配置文案和术语更自然。
- 国外首选:inner@gemini-2.5-flash-lite,低成本低延迟;若要更稳可用 Azure 兜底。
- 质量风险:公海 / 公海池 仍需术语库固定,不能只靠 Prompt。
数据级多语 双主候选
最终 100 条成功率 84.27%。qwen3-235b-a22b 和 inner@gemini-2.5-flash-lite 为 100%,Alicloud@deepseek-v3 为 99%。
- 国内首选:Alicloud@deepseek-v3;备选 qwen3-235b-a22b。
- 国外首选:inner@gemini-2.5-flash-lite,成本和速度最优。
- 质量风险:企业名、产品名、项目名会被模型知识化处理,需实体映射。
企信 IM 链路影响最大
标准环境下总成功率 52.56%。候选补测中 inner@gemini-2.5-flash-lite 900/900 全成功;国内再补测中 Qwen3 成功率 89%,DeepSeek V3 成功率 84%。
- 国外首选:azure04-gpt-4o-mini,最终标准测试成功率 94%。
- 低成本海外候选:inner@gemini-2.5-flash-lite,补测 100%。
- 国内优先:qwen3-235b-a22b,成功率更高;质量候选:Alicloud@deepseek-v3,语言纯净度更好。
六、企信标准环境结果
企信 IM 最终复核统一采用关闭代理后的标准测试结果,不再把早期代理状态不一致的数据放入最终结果展示。早期异常只作为“测试过程中的链路噪声”记录,不参与模型排序。
| 模型 | 最终标准测试成功率 | 补测结果 | 判断 |
|---|---|---|---|
| azure04-gpt-4o-mini | 94.00% | - | 企信国外默认主模型,稳定性最好。 |
| qwen3-235b-a22b | 83.00% | 89.00% | 企信国内优先候选,成功率最高;仍需通过术语库控制 `business opportunity` 和少量中文残留。 |
| Alicloud@deepseek-v3 | 76.00% | 84.00% | 企信国内质量候选,成功样本更干净;本轮未发现真实非目标语言中文残留。 |
| inner@gemini-2.5-flash-lite | 24.00% | 100.00% | 7 模型并发时受熔断影响,3 模型补测恢复,适合海外低成本低延迟候选。 |
七、场景内模型评分
评分用于辅助决策,权重为翻译质量 45%、稳定性 30%、成本 15%、性能 10%。历史熔断轮次只作为稳定性背景,不做简单平均。
翻译工作台
| 模型 | 综合分 | 最终成功率 | 性能 | 成本 | 结论 |
|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 90 | 100.00% | 均值 5.12s,P95 6.64s | 2 / 8 / 10 | 国内默认主模型。 |
| inner@gemini-2.5-flash-lite | 86 | 100.00% | 均值 4.54s,P95 5.30s | 0.72 / 3.04 / 3.76 | 海外低成本候选。 |
| qwen3-235b-a22b | 82 | 100.00% | 均值 4.91s,P95 7.18s | 2 / 8 / 10 | 稳定候选,但术语自然度略弱。 |
| azure04-gpt-4o-mini | 78 | 93.89% | 均值 5.22s,P95 7.89s | 1.14 / 4.56 / 5.70 | 海外兜底。 |
数据级多语
| 模型 | 综合分 | 最终成功率 | 性能 | 成本 | 结论 |
|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 89 | 99.00% | 均值 5.74s,P95 7.48s | 2 / 8 / 10 | 国内首选,CRM 词更自然。 |
| qwen3-235b-a22b | 87 | 100.00% | 均值 5.35s,P95 7.80s | 2 / 8 / 10 | 国内备选,实体名较保守。 |
| inner@gemini-2.5-flash-lite | 84 | 100.00% | 均值 4.53s,P95 5.35s | 0.72 / 3.04 / 3.76 | 海外低成本候选,需实体映射兜底。 |
| azure04-gpt-4o-mini | 77 | 91.00% | 均值 5.46s,P95 7.86s | 1.14 / 4.56 / 5.70 | 海外兜底。 |
企信 IM
| 模型 | 综合分 | 最终成功率 | 性能 | 成本 | 结论 |
|---|---|---|---|---|---|
| azure04-gpt-4o-mini | 89 | 94.00% | 均值 6.23s,P95 7.89s | 1.14 / 4.56 / 5.70 | 海外默认主模型。 |
| inner@gemini-2.5-flash-lite | 86 | 补测 100.00% | 均值 4.60s,P95 5.38s | 0.72 / 3.04 / 3.76 | 海外低成本低延迟候选。 |
| qwen3-235b-a22b | 82 | 83.00%;再补测 89.00% | 均值 8.05s,P95 9.82s | 2 / 8 / 10 | 企信国内优先候选。 |
| Alicloud@deepseek-v3 | 79 | 76.00%;再补测 84.00% | 均值 8.36s,P95 9.81s | 2 / 8 / 10 | 企信国内质量候选,语言纯净度更好。 |
八、月度成本估算
月度费用按数据平台近 30 天、business=translate 的 token 消耗估算。图中展示执行总 tokens 为 513,254,864,输入总 tokens 为 483,335,708;输出 tokens 未单独展示,本报告按“执行总 tokens - 输入总 tokens”推算为 29,919,156。执行总算粒为 6,154 次,平均每次约 83,402 tokens。
| 模型 | 输入价 | 输出价 | 按近 30 天消耗估算月费用 | 成本判断 |
|---|---|---|---|---|
| Alicloud@deepseek-v3 | 2 | 8 | 约 1,206.02 元 / 月 | 质量主模型,成本中高。 |
| qwen3-235b-a22b | 2 | 8 | 约 1,206.02 元 / 月 | 与 DeepSeek V3 同价。 |
| azure04-gpt-4o-mini | 1.14 | 4.56 | 约 687.43 元 / 月 | 国外默认模型,成本中等。 |
| inner@gemini-2.5-flash-lite | 0.72 | 3.04 | 约 438.96 元 / 月 | 国外低成本低延迟候选。 |
| ep-20250311151306-7drx4 | 0.3 | 0.6 | 约 162.95 元 / 月 | 最低成本,但质量风险高。 |
| ep-20251211140918-zhfhg | 0.8 | 2 | 约 446.51 元 / 月 | 低成本观察,不进入主链路。 |
| 路由方案 | 费用估算方式 | 月费用示例 | 说明 |
|---|---|---|---|
| 国内全量 DeepSeek V3 | 100% 流量走 Alicloud@deepseek-v3 | 约 1,206.02 元 / 月 | 质量优先,但不是最低成本。 |
| 国外全量 Azure | 100% 流量走 azure04-gpt-4o-mini | 约 687.43 元 / 月 | 海外云租户合规链路的稳妥方案。 |
| 国外全量 Gemini Flash Lite | 100% 流量走 inner@gemini-2.5-flash-lite | 约 438.96 元 / 月 | 海外低成本方案,但需结合术语和实体映射验证。 |
| 国内 DeepSeek V3 + 国外 Azure | 费用随海外租户流量占比变化 | 海外占比 10% 时约 1,154.16 元 / 月;20% 时约 1,102.31 元 / 月 | 当前更推荐的共用双路由方案。 |
说明:以上是按近 30 天历史总消耗进行“全量切换”估算,不代表最终实际账单。实际费用还会受国内/海外租户占比、重试次数、缓存、失败调用是否计费、上线后 Prompt 长度变化影响。
九、模型路由建议
方案 A:三个场景共用一组国内 + 国外模型
如果海外租户更敏感于成本和延迟,可将 inner@gemini-2.5-flash-lite 作为海外低成本模式,但默认主链路仍建议先用 Azure。
方案 B:三个场景分别配置国内 + 国外模型
| 场景 | 国内模型 | 国外模型 | 推荐口径 |
|---|---|---|---|
| 翻译工作台 | Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite / azure04-gpt-4o-mini | 国内用 DeepSeek V3 保证术语质量;海外优先 Flash Lite 降成本,关键租户可用 Azure 兜底。 |
| 数据级多语 | Alicloud@deepseek-v3 / qwen3-235b-a22b | inner@gemini-2.5-flash-lite / azure04-gpt-4o-mini | 国内质量优先 DeepSeek V3,保守稳定可选 Qwen3;海外低成本用 Flash Lite,实体名需映射兜底。 |
| 企信 IM | qwen3-235b-a22b / Alicloud@deepseek-v3 | azure04-gpt-4o-mini / inner@gemini-2.5-flash-lite | 企信海外默认 Azure;低成本低延迟可灰度 Flash Lite。国内优先 Qwen3,DeepSeek V3 作为质量更干净的备选。 |
十、Prompt 与质量治理结论
Prompt 已经不宜继续加重
企信多轮验证说明,复杂保护规则会降低 JSON 成功率;纯极简又会带回 Public Sea、repayment、feedbacked 等质量风险。当前最合理的结构是:角色 + 场景 + 通用业务语义底线 + 输出格式。
术语和实体不能全靠模型
工作台的公海/公海池、回款、商机,数据级多语的企业名和产品名,都应进入术语库、实体映射或代码侧预处理。Prompt 负责方向,不负责承载所有业务规则。
| 问题类型 | 推荐治理方式 | 说明 |
|---|---|---|
| 公海 / 公海池 被译为海域 | 术语库 | 建议固定为 Customer Pool / Public Pool 等业务语义,不让模型自由发挥。 |
| 企业名 / 产品名被知识化改写 | 实体映射 | 数据级多语最明显,Prompt 无法完全保证一致。 |
| @人、URL、邮箱、编码保护 | 代码侧处理 | 这部分已确认不再交给大模型承担。 |
| 熔断、空错误、降级失败 | 模型网关与调用链路治理 | 不应归因为翻译质量问题;调试台需补错误码和 requestId。 |
十一、对外汇报口径
| 问题 | 建议回答 |
|---|---|
| 为什么不直接用历史三轮平均? | 历史轮次 Prompt、Case、语种、模型和网络状态都不一致,简单平均会放大噪声。最终报告采用固定 100 条复核作为主依据,历史轮次用于归因和风险识别。 |
| 为什么必须分国内/国外模型? | 国内租户和海外云租户的数据部署区域不同。海外租户应通过海外模型链路调用,避免跨境合规风险;国内租户可使用国内模型链路。 |
| 为什么不是最低成本豆包? | 豆包成本最低,但在正式多语资产中中文残留、混语和 CRM 术语直译风险更高。低成本不能替代质量和稳定性。 |
| MiniMax / GLM 为什么没测? | 本轮是翻译主链路选型,不是全模型普查。MiniMax 更像降级/通用链路,GLM 当前没有形成独立稳定翻译链路。可后续单独做探索性小样本验证。 |
| 下一步上线前还要做什么? | 按最终 Prompt 和 100 条 Case 做一次低并发复跑;同时补齐术语库、实体映射、网关错误码和空错误排查。 |