翻译模型最终复核报告

面向翻译工作台、数据级多语、企信 IM 三个场景,基于最终 100 条 Case 复核和候选模型补测,沉淀可对外汇报的模型选型结论。报告按国内模型与国外模型分别给出推荐,满足国内租户与海外云租户的合规调用要求。

一、最终结论

一句话结论:翻译模型不能只选一个“全局最优”,需要按国内租户和海外云租户分别保留国内模型与国外模型;短期建议采用“国内 DeepSeek V3 + 国外 Azure GPT-4o mini”的双路由方案。

共用模型方案 推荐

如果三个场景共用一组模型:

  • 国内模型:Alicloud@deepseek-v3
  • 国外模型:azure04-gpt-4o-mini

分场景方案 中期演进

  • 翻译工作台:国内优先 DeepSeek V3。
  • 数据级多语:DeepSeek V3 / Qwen3 双候选。
  • 企信 IM:国外优先 Azure,国内优先 Qwen3。

合规与成本 关键约束

  • 海外云租户应走国外模型链路。
  • 国内租户可走国内模型链路。
  • 按近 30 天消耗估算,DeepSeek V3 约 1,206 元/月,Azure 约 687 元/月。
3核心翻译场景
100 条每场景最终复核 Case
9核心目标语种
国内 + 国外双模型合规路由
主依据:最终 100 条复核 历史轮次:用于归因和风险识别 最终标准:以关闭代理后的稳定测试为准 Prompt:已收敛,不建议继续堆规则

二、测试过程与归因

前期多轮测试不是无效数据,但它们不适合作为最终模型排序的直接依据。它们的价值在于暴露问题:调试台批量调用会触发熔断,复杂 Prompt 会影响 JSON 成功率,部分模型链路存在空错误,业务术语和实体名不能完全靠模型自由翻译。

阶段主要目的暴露问题为什么不作为最终复核结论
Round1 / Round2 大批量测试快速拉通调试台、观察模型可用性。大量 `OPEN / HALF_OPEN` 熔断、空错误、降级链路失败。调用链路噪声过大,无法区分模型质量和网关稳定性。
40 / 50 条小批量测试缩小 Case 与语种范围,初步比较质量、性能和成本。工作台与数据级多语开始收敛,但企信仍受链路和 Prompt 复杂度影响。样本覆盖还不完整,适合作为方向判断,不适合最终对外背书。
企信 Prompt 多轮回归验证企信成功率低是否由 Prompt 造成。复杂保护规则会降低 JSON 成功率;纯极简又会带回术语和表达风险。这是 Prompt 收敛过程,不是最终横评样本。
最终 100 条复核冻结 Prompt、冻结 Case、冻结核心语种和候选模型。工作台和数据级多语结果稳定;企信仍需关注空错误和低并发稳定性。作为最终汇报主依据。
最终口径:历史轮次用于说明“我们如何发现问题、如何收敛 Prompt、为什么需要最终复核”;最终模型排序只看冻结后的 100 条复核和候选补测,不再混入早期网络状态、并发状态和 Prompt 结构都不同的数据。

三、模型范围与未纳入说明

本次主测聚焦“翻译主链路候选”,不是平台内全部大模型普查。候选模型需要同时满足:可被当前翻译调试台稳定调用、可输出多语 JSON、具备 CRM / PaaS / IM 场景翻译能力,并且有明确内部成本口径。

模型编码归类内部成本:输入 / 输出 / 合计,元/百万 Token最终定位
Alicloud@deepseek-v3国内 / 阿里云 DeepSeek2 / 8 / 10国内共用首选;工作台和数据级多语首选;企信国内质量候选。
qwen3-235b-a22b国内 / Qwen2 / 8 / 10数据级多语国内候选;企信国内优先候选。
azure04-gpt-4o-mini国外 / Azure OpenAI1.14 / 4.56 / 5.70国外共用首选;企信 IM 稳定性首选。
inner@gemini-2.5-flash-lite国外 / Gemini0.72 / 3.04 / 3.76海外低成本低延迟候选;工作台、数据级多语和企信均可观察。
ep-20250311151306-7drx4国内 / 豆包旧端点0.3 / 0.6 / 0.9成本最低,但中文残留和术语直译风险高,不建议默认。
ep-20251211140918-zhfhg国内 / 豆包新端点0.8 / 2 / 2.8低成本观察,不进入最终主链路。
inner@gemini-2.5-pro国外 / Gemini高成本多轮全失败或稳定性不达标,不推荐。
平台内可用但未进主候选的模型原因
MiniMax M2.7 / M2.5在当前链路中更多体现为降级或高性能通用模型,不是翻译主链路候选;历史错误里出现过主模型与 MiniMax 降级模型同时失败,说明不适合作为本轮稳定基线。后续如要验证,可单独做 20 条探索集。
GLM / 智谱相关模型部分配置存在重定向或视觉模型用途,不具备本轮可独立横评的稳定翻译链路;因此没有纳入最终候选队列。
Tencent DeepSeek V4 Flash / Pro早期进入过观察,但在不同 Prompt 下熔断波动较大;Flash 可低成本观察,Pro 成本和稳定性均不适合作为默认翻译链路。
Qwen3.5 Plus多轮出现主/降级链路失败,当前不进入默认模型推荐。

四、最终复核数据总览

最终复核将历史多轮调试结果收敛为固定 Prompt、固定 100 条 Case、固定核心语种和候选模型。历史 Round1 / Round2 / Round3 不再直接参与平均分,只用于说明链路熔断、Prompt 复杂度和质量风险的来源。

场景最终数据文件测试规模整体成功率核心判断
翻译工作台prompt_playground_excel_result (24).xlsx100 Case × 9 语种 × 7 模型,6,300 行84.84%成功率和质量均已明显收敛,可作为最终主依据。
数据级多语prompt_playground_excel_result (23).xlsx100 Case × 9 语种 × 7 模型,6,300 行84.27%模型成功率可用,实体名一致性仍需术语库/映射治理。
企信 IMprompt_playground_excel_result (22).xlsx100 Case × 9 语种 × 7 模型,6,300 行52.56%以关闭代理后的标准测试为准;整体被部分模型空错误和熔断拉低。
企信候选补测prompt_playground_excel_result (25).xlsx100 Case × 9 语种 × 3 模型,2,700 行83.67%Gemini Flash Lite 900/900 全成功,证明低成本海外候选有参考价值。
企信国内模型再补测prompt_playground_excel_result (26).xlsx100 Case × 9 语种 × 2 模型,1,800 行86.50%Qwen3 成功率 89%,DeepSeek V3 成功率 84%,国内模型稳定性进一步恢复。

五、三场景核心表现

翻译工作台 主模型明确

最终 100 条成功率 84.84%。可用模型中 Alicloud@deepseek-v3qwen3-235b-a22binner@gemini-2.5-flash-lite 均达到 100%。

  • 国内首选:Alicloud@deepseek-v3,CRM 配置文案和术语更自然。
  • 国外首选:inner@gemini-2.5-flash-lite,低成本低延迟;若要更稳可用 Azure 兜底。
  • 质量风险:公海 / 公海池 仍需术语库固定,不能只靠 Prompt。

数据级多语 双主候选

最终 100 条成功率 84.27%。qwen3-235b-a22binner@gemini-2.5-flash-lite 为 100%,Alicloud@deepseek-v3 为 99%。

  • 国内首选:Alicloud@deepseek-v3;备选 qwen3-235b-a22b
  • 国外首选:inner@gemini-2.5-flash-lite,成本和速度最优。
  • 质量风险:企业名、产品名、项目名会被模型知识化处理,需实体映射。

企信 IM 链路影响最大

标准环境下总成功率 52.56%。候选补测中 inner@gemini-2.5-flash-lite 900/900 全成功;国内再补测中 Qwen3 成功率 89%,DeepSeek V3 成功率 84%。

  • 国外首选:azure04-gpt-4o-mini,最终标准测试成功率 94%。
  • 低成本海外候选:inner@gemini-2.5-flash-lite,补测 100%。
  • 国内优先:qwen3-235b-a22b,成功率更高;质量候选:Alicloud@deepseek-v3,语言纯净度更好。

六、企信标准环境结果

企信 IM 最终复核统一采用关闭代理后的标准测试结果,不再把早期代理状态不一致的数据放入最终结果展示。早期异常只作为“测试过程中的链路噪声”记录,不参与模型排序。

模型最终标准测试成功率补测结果判断
azure04-gpt-4o-mini94.00%-企信国外默认主模型,稳定性最好。
qwen3-235b-a22b83.00%89.00%企信国内优先候选,成功率最高;仍需通过术语库控制 `business opportunity` 和少量中文残留。
Alicloud@deepseek-v376.00%84.00%企信国内质量候选,成功样本更干净;本轮未发现真实非目标语言中文残留。
inner@gemini-2.5-flash-lite24.00%100.00%7 模型并发时受熔断影响,3 模型补测恢复,适合海外低成本低延迟候选。

七、场景内模型评分

评分用于辅助决策,权重为翻译质量 45%、稳定性 30%、成本 15%、性能 10%。历史熔断轮次只作为稳定性背景,不做简单平均。

翻译工作台

模型综合分最终成功率性能成本结论
Alicloud@deepseek-v390
100.00%均值 5.12s,P95 6.64s2 / 8 / 10国内默认主模型。
inner@gemini-2.5-flash-lite86
100.00%均值 4.54s,P95 5.30s0.72 / 3.04 / 3.76海外低成本候选。
qwen3-235b-a22b82
100.00%均值 4.91s,P95 7.18s2 / 8 / 10稳定候选,但术语自然度略弱。
azure04-gpt-4o-mini78
93.89%均值 5.22s,P95 7.89s1.14 / 4.56 / 5.70海外兜底。

数据级多语

模型综合分最终成功率性能成本结论
Alicloud@deepseek-v389
99.00%均值 5.74s,P95 7.48s2 / 8 / 10国内首选,CRM 词更自然。
qwen3-235b-a22b87
100.00%均值 5.35s,P95 7.80s2 / 8 / 10国内备选,实体名较保守。
inner@gemini-2.5-flash-lite84
100.00%均值 4.53s,P95 5.35s0.72 / 3.04 / 3.76海外低成本候选,需实体映射兜底。
azure04-gpt-4o-mini77
91.00%均值 5.46s,P95 7.86s1.14 / 4.56 / 5.70海外兜底。

企信 IM

模型综合分最终成功率性能成本结论
azure04-gpt-4o-mini89
94.00%均值 6.23s,P95 7.89s1.14 / 4.56 / 5.70海外默认主模型。
inner@gemini-2.5-flash-lite86
补测 100.00%均值 4.60s,P95 5.38s0.72 / 3.04 / 3.76海外低成本低延迟候选。
qwen3-235b-a22b82
83.00%;再补测 89.00%均值 8.05s,P95 9.82s2 / 8 / 10企信国内优先候选。
Alicloud@deepseek-v379
76.00%;再补测 84.00%均值 8.36s,P95 9.81s2 / 8 / 10企信国内质量候选,语言纯净度更好。

八、月度成本估算

月度费用按数据平台近 30 天、business=translate 的 token 消耗估算。图中展示执行总 tokens 为 513,254,864,输入总 tokens 为 483,335,708;输出 tokens 未单独展示,本报告按“执行总 tokens - 输入总 tokens”推算为 29,919,156。执行总算粒为 6,154 次,平均每次约 83,402 tokens。

计算公式:月费用 = 输入 token / 1,000,000 × 输入单价 + 输出 token / 1,000,000 × 输出单价。单价均使用企业内部提供的模型调用价格,不引用官网价格。
模型输入价输出价按近 30 天消耗估算月费用成本判断
Alicloud@deepseek-v328约 1,206.02 元 / 月质量主模型,成本中高。
qwen3-235b-a22b28约 1,206.02 元 / 月与 DeepSeek V3 同价。
azure04-gpt-4o-mini1.144.56约 687.43 元 / 月国外默认模型,成本中等。
inner@gemini-2.5-flash-lite0.723.04约 438.96 元 / 月国外低成本低延迟候选。
ep-20250311151306-7drx40.30.6约 162.95 元 / 月最低成本,但质量风险高。
ep-20251211140918-zhfhg0.82约 446.51 元 / 月低成本观察,不进入主链路。
路由方案费用估算方式月费用示例说明
国内全量 DeepSeek V3100% 流量走 Alicloud@deepseek-v3约 1,206.02 元 / 月质量优先,但不是最低成本。
国外全量 Azure100% 流量走 azure04-gpt-4o-mini约 687.43 元 / 月海外云租户合规链路的稳妥方案。
国外全量 Gemini Flash Lite100% 流量走 inner@gemini-2.5-flash-lite约 438.96 元 / 月海外低成本方案,但需结合术语和实体映射验证。
国内 DeepSeek V3 + 国外 Azure费用随海外租户流量占比变化海外占比 10% 时约 1,154.16 元 / 月;20% 时约 1,102.31 元 / 月当前更推荐的共用双路由方案。

说明:以上是按近 30 天历史总消耗进行“全量切换”估算,不代表最终实际账单。实际费用还会受国内/海外租户占比、重试次数、缓存、失败调用是否计费、上线后 Prompt 长度变化影响。

九、模型路由建议

方案 A:三个场景共用一组国内 + 国外模型

模型类型
推荐模型
推荐理由
国内模型
Alicloud@deepseek-v3
工作台 100%,数据级多语 99%,企信标准测试 76%。综合翻译质量最好,CRM/PaaS 术语更自然,是跨场景国内模型的最稳选择。
国外模型
azure04-gpt-4o-mini
企信 IM 最终标准测试 94%,稳定性最强;工作台和数据级多语可作为海外云租户兜底模型。合规上适合海外租户调用海外模型。

如果海外租户更敏感于成本和延迟,可将 inner@gemini-2.5-flash-lite 作为海外低成本模式,但默认主链路仍建议先用 Azure。

方案 B:三个场景分别配置国内 + 国外模型

场景国内模型国外模型推荐口径
翻译工作台Alicloud@deepseek-v3inner@gemini-2.5-flash-lite / azure04-gpt-4o-mini国内用 DeepSeek V3 保证术语质量;海外优先 Flash Lite 降成本,关键租户可用 Azure 兜底。
数据级多语Alicloud@deepseek-v3 / qwen3-235b-a22binner@gemini-2.5-flash-lite / azure04-gpt-4o-mini国内质量优先 DeepSeek V3,保守稳定可选 Qwen3;海外低成本用 Flash Lite,实体名需映射兜底。
企信 IMqwen3-235b-a22b / Alicloud@deepseek-v3azure04-gpt-4o-mini / inner@gemini-2.5-flash-lite企信海外默认 Azure;低成本低延迟可灰度 Flash Lite。国内优先 Qwen3,DeepSeek V3 作为质量更干净的备选。

十、Prompt 与质量治理结论

Prompt 已经不宜继续加重

企信多轮验证说明,复杂保护规则会降低 JSON 成功率;纯极简又会带回 Public Sea、repayment、feedbacked 等质量风险。当前最合理的结构是:角色 + 场景 + 通用业务语义底线 + 输出格式。

术语和实体不能全靠模型

工作台的公海/公海池、回款、商机,数据级多语的企业名和产品名,都应进入术语库、实体映射或代码侧预处理。Prompt 负责方向,不负责承载所有业务规则。

问题类型推荐治理方式说明
公海 / 公海池 被译为海域术语库建议固定为 Customer Pool / Public Pool 等业务语义,不让模型自由发挥。
企业名 / 产品名被知识化改写实体映射数据级多语最明显,Prompt 无法完全保证一致。
@人、URL、邮箱、编码保护代码侧处理这部分已确认不再交给大模型承担。
熔断、空错误、降级失败模型网关与调用链路治理不应归因为翻译质量问题;调试台需补错误码和 requestId。

十一、对外汇报口径

问题建议回答
为什么不直接用历史三轮平均?历史轮次 Prompt、Case、语种、模型和网络状态都不一致,简单平均会放大噪声。最终报告采用固定 100 条复核作为主依据,历史轮次用于归因和风险识别。
为什么必须分国内/国外模型?国内租户和海外云租户的数据部署区域不同。海外租户应通过海外模型链路调用,避免跨境合规风险;国内租户可使用国内模型链路。
为什么不是最低成本豆包?豆包成本最低,但在正式多语资产中中文残留、混语和 CRM 术语直译风险更高。低成本不能替代质量和稳定性。
MiniMax / GLM 为什么没测?本轮是翻译主链路选型,不是全模型普查。MiniMax 更像降级/通用链路,GLM 当前没有形成独立稳定翻译链路。可后续单独做探索性小样本验证。
下一步上线前还要做什么?按最终 Prompt 和 100 条 Case 做一次低并发复跑;同时补齐术语库、实体映射、网关错误码和空错误排查。