翻译模型最终复核报告

面向翻译工作台、数据级多语、企信 IM 三个场景,基于最终 100 条 Case 复核和候选模型补测,沉淀可对外汇报的模型选型结论。报告按国内模型与国外模型分别给出推荐,满足国内租户与海外云租户的合规调用要求。

一、最终结论

一句话结论:翻译模型不能只选一个“全局最优”,需要按国内租户和海外云租户分别保留国内模型与国外模型;短期建议采用“国内 DeepSeek V3 + 国外 Azure GPT-4o mini”的双路由方案。

共用模型方案 推荐

如果三个场景共用一组模型:

  • 国内模型:Alicloud@deepseek-v3
  • 国外模型:azure04-gpt-4o-mini

分场景方案 中期演进

场景国内模型国外模型
翻译工作台Alicloud@deepseek-v3inner@gemini-2.5-flash-lite
数据级多语Alicloud@deepseek-v3inner@gemini-2.5-flash-lite
企信 IMqwen3-235b-a22bazure04-gpt-4o-mini

合规与成本 关键约束

  • 海外云租户应走国外模型链路。
  • 国内租户可走国内模型链路。
  • 原豆包旧端点约 163 元/月;国内 DeepSeek V3 + 国外 Azure 按 50/50 混合约 947 元/月,折算有效平均约 1.84 元/百万总 token。
3核心翻译场景
100 条每场景最终复核 Case
9核心目标语种
国内 + 国外双模型合规路由
主依据:最终 100 条复核 历史轮次:用于归因和风险识别 最终标准:以关闭代理后的稳定测试为准 Prompt:已收敛,不建议继续堆规则

二、模型范围与未纳入说明

本次主测聚焦“翻译主链路候选”,不是平台内全部大模型普查。候选模型需要同时满足:可被当前翻译调试台稳定调用、可输出多语 JSON、具备 CRM / PaaS / IM 场景翻译能力,并且有明确内部成本口径。

模型编码归类内部成本:输入 / 输出 / 合计,元/百万 Token最终定位
Alicloud@deepseek-v3国内 / 阿里云 DeepSeek2 / 8 / 10国内共用首选;工作台和数据级多语首选;企信国内质量候选。
qwen3-235b-a22b国内 / Qwen2 / 8 / 10数据级多语国内候选;企信国内优先候选。
azure04-gpt-4o-mini国外 / Azure OpenAI1.14 / 4.56 / 5.70国外共用首选;企信 IM 稳定性首选。
inner@gemini-2.5-flash-lite国外 / Gemini0.72 / 3.04 / 3.76海外低成本低延迟候选;工作台、数据级多语和企信均可观察。
ep-20250311151306-7drx4国内 / 豆包旧端点0.3 / 0.6 / 0.9成本最低,但中文残留和术语直译风险高,不建议默认。
ep-20251211140918-zhfhg国内 / 豆包新端点0.8 / 2 / 2.8低成本观察,不进入最终主链路。
inner@gemini-2.5-pro国外 / Gemini高成本多轮全失败或稳定性不达标,不推荐。
平台内可用但未进主候选的模型原因
MiniMax M2.7 / M2.5在当前链路中更多体现为降级或高性能通用模型,不是翻译主链路候选;历史错误里出现过主模型与 MiniMax 降级模型同时失败,说明不适合作为本轮稳定基线。后续如要验证,可单独做 20 条探索集。
GLM / 智谱相关模型部分配置存在重定向或视觉模型用途,不具备本轮可独立横评的稳定翻译链路;因此没有纳入最终候选队列。
Tencent DeepSeek V4 Flash / Pro早期进入过观察,但在不同 Prompt 下熔断波动较大;Flash 可低成本观察,Pro 成本和稳定性均不适合作为默认翻译链路。
Qwen3.5 Plus多轮出现主/降级链路失败,当前不进入默认模型推荐。

三、测试过程与归因

前期多轮测试不是无效数据,但它们不适合作为最终模型排序的直接依据。它们的价值在于暴露问题并指导后续测试设计:降低并发噪声、拆分国内/国外模型、拆分 Prompt 收敛与模型横评、补足高风险 Case。

阶段主要目的暴露问题阶段经验 / 对后续测试的影响为什么不作为最终复核结论
Round1 / Round2 大批量测试快速拉通调试台、观察模型可用性。大量 `OPEN / HALF_OPEN` 熔断、空错误、降级链路失败。后续不能用大并发全模型混跑直接判断质量;需要缩小语种、缩小模型范围,并把错误码和空错误单独归因。技术侧后续加大模型调用延迟,也有助于降低短时间高频调用导致的高并发熔断效应。调用链路噪声过大,无法区分模型质量和网关稳定性。
40 / 50 条小批量测试缩小 Case 与语种范围,初步比较质量、性能和成本。工作台与数据级多语开始收敛,但企信仍受链路和 Prompt 复杂度影响。证明“小样本 + 核心语种 + 候选模型”更适合横评;同时沉淀出公海、回款、商机、实体名等高风险 Case,应进入最终 100 条。样本覆盖还不完整,适合作为方向判断,不适合最终对外背书。
企信 Prompt 多轮回归验证企信成功率低是否由 Prompt 造成,并验证变量放在 System Prompt 还是 User Prompt 对稳定性的影响。复杂保护规则会降低 JSON 成功率;纯极简又会带回术语和表达风险。变量、Case 内容、业务提示和长度上限频繁变化时,放在 System Prompt 会让系统提示词不断变化。Prompt 应收敛为“角色 + 场景 + 通用业务语义底线 + 输出格式”;@人、URL、邮箱、编码保护交给代码侧,不继续堆长规则。System Prompt 保持稳定,只承载角色、场景、质量底线和输出格式;变化型变量尽量放在 User Prompt。这是 Prompt 收敛和结构设计经验,不是最终横评样本。
最终 100 条复核冻结 Prompt、冻结 Case、冻结核心语种和候选模型。工作台和数据级多语结果稳定;企信仍需关注空错误和低并发稳定性。作为最终汇报主依据;同时发现企信需要进一步拆成国外模型补测和国内模型补测,后两份聚焦补测权重更高。作为最终汇报主依据。
企信聚焦补测分别验证国外候选和国内候选。Gemini Flash Lite 在聚焦补测中 100%;Qwen3 国内再补测 89%,DeepSeek V3 84%。企信模型排序应以后两份聚焦补测为主,弱化早期 7 模型混跑中熔断造成的低成功率。纳入最终结论,权重高于企信早期混跑结果。
最终口径:历史轮次用于说明“我们如何发现问题、如何收敛 Prompt、为什么需要最终复核”;最终模型排序主要看冻结后的 100 条复核和候选补测。企信由于链路噪声最大,国外模型和国内模型的两份聚焦补测权重高于早期 7 模型混跑结果。

四、最终复核数据总览

最终复核将历史多轮调试结果收敛为固定 Prompt、固定 100 条 Case、固定核心语种和候选模型。历史 Round1 / Round2 / Round3 不再直接参与平均分,只用于说明链路熔断、Prompt 复杂度和质量风险的来源。

场景最终数据文件测试规模整体成功率核心判断
翻译工作台prompt_playground_excel_result (24).xlsx100 Case × 9 语种 × 7 模型,6,300 行84.84%成功率和质量均已明显收敛,可作为最终主依据。
数据级多语prompt_playground_excel_result (23).xlsx100 Case × 9 语种 × 7 模型,6,300 行84.27%模型成功率可用,实体名一致性仍需术语库/映射治理。
企信 IMprompt_playground_excel_result (22).xlsx100 Case × 9 语种 × 7 模型,6,300 行52.56%以关闭代理后的标准测试为准;整体被部分模型空错误和熔断拉低。
企信候选补测prompt_playground_excel_result (25).xlsx100 Case × 9 语种 × 3 模型,2,700 行83.67%Gemini Flash Lite 900/900 全成功,证明低成本海外候选有参考价值。
企信国内模型再补测prompt_playground_excel_result (26).xlsx100 Case × 9 语种 × 2 模型,1,800 行86.50%Qwen3 成功率 89%,DeepSeek V3 成功率 84%,国内模型稳定性进一步恢复。

五、三场景核心表现

翻译工作台 主模型明确

最终 100 条成功率 84.84%。可用模型中 Alicloud@deepseek-v3qwen3-235b-a22binner@gemini-2.5-flash-lite 均达到 100%。

  • 国内首选:Alicloud@deepseek-v3,CRM 配置文案和术语更自然。
  • 国外首选:inner@gemini-2.5-flash-lite,低成本低延迟;若要更稳可用 Azure 兜底。
  • 质量风险:公海 / 公海池 仍需术语库固定,不能只靠 Prompt。

数据级多语 双主候选

最终 100 条成功率 84.27%。qwen3-235b-a22binner@gemini-2.5-flash-lite 为 100%,Alicloud@deepseek-v3 为 99%。

  • 国内首选:Alicloud@deepseek-v3;备选 qwen3-235b-a22b
  • 国外首选:inner@gemini-2.5-flash-lite,成本和速度最优。
  • 质量风险:企业名、产品名、项目名会被模型知识化处理,需实体映射。

企信 IM 链路影响最大

企信早期 7 模型混跑总成功率 52.56%,但受空错误和熔断影响较大。最终判断以后两份聚焦补测为主:Gemini Flash Lite 900/900 全成功;国内再补测中 Qwen3 成功率 89%,DeepSeek V3 成功率 84%。

  • 国外首选:azure04-gpt-4o-mini,最终标准测试成功率 94%。
  • 低成本海外候选:inner@gemini-2.5-flash-lite,补测 100%。
  • 国内优先:qwen3-235b-a22b,成功率更高;质量候选:Alicloud@deepseek-v3,语言纯净度更好。

六、企信标准环境结果

企信 IM 的模型排序不再主要依赖早期 7 模型混跑结果,而是以后两份聚焦补测为主:国外候选看 Gemini Flash Lite 与 Azure 的稳定表现,国内候选看 Qwen3 与 DeepSeek V3 的再次补测。早期混跑结果主要用于识别链路噪声和空错误。

模型早期混跑结果聚焦补测结果最终权重判断
azure04-gpt-4o-mini94.00%未单独补测,但多轮稳定在 94%-95%企信国外默认主模型,稳定性最好。
inner@gemini-2.5-flash-lite24.00%100.00%,900/900 全成功早期低分主要受混跑熔断影响;作为国外低成本低延迟候选。
qwen3-235b-a22b83.00%89.00%企信国内优先候选,成功率最高;仍需通过术语库控制 `business opportunity` 和少量中文残留。
Alicloud@deepseek-v376.00%84.00%企信国内质量候选,成功样本更干净;本轮未发现真实非目标语言中文残留。

七、场景内模型评分

评分用于辅助决策,不是简单按成功率排序。综合分由四个维度组成:翻译质量 45%、调用稳定性 30%、成本 15%、性能 10%。其中质量是权重最高的维度,重点看 CRM/PaaS/IM 术语、语义准确、语言纯净度、实体名处理和自然表达。P95 表示按耗时从低到高排序后,第 95% 位置上的耗时值,也就是 95% 的请求耗时不超过该值。它不是最高耗时,也不是去掉极值后的平均值,而是一个高分位阈值。

评分维度权重主要判断内容
翻译质量45%业务术语是否准确、语义是否反转、目标语言是否纯净、实体名是否过度翻译、表达是否自然。
调用稳定性30%成功率、空错误、熔断、降级失败、是否容易受并发或链路波动影响。
成本15%按企业内部每百万 Token 输入/输出单价和近 30 天消耗估算。
性能10%平均耗时、P95 耗时。P95 不是最高耗时,也不是平均值,而是 95% 请求都能控制在该耗时以内的阈值。

历史熔断轮次只作为稳定性背景,不做简单平均;企信 IM 评分主要参考后两份聚焦补测。

翻译工作台

模型综合分质量最终成功率性能成本结论
Alicloud@deepseek-v390
CRM 术语最稳,配置文案自然。100.00%均值 5.12s,P95 6.64s2 / 8 / 10国内默认主模型。
inner@gemini-2.5-flash-lite86
常规 UI 文案可用,需术语库兜底。100.00%均值 4.54s,P95 5.30s0.72 / 3.04 / 3.76海外默认模型。
qwen3-235b-a22b82
稳定但术语自然度略弱。100.00%均值 4.91s,P95 7.18s2 / 8 / 10稳定候选。
azure04-gpt-4o-mini78
可用,但公海等 CRM 词需兜底。93.89%均值 5.22s,P95 7.89s1.14 / 4.56 / 5.70海外兜底。

数据级多语

模型综合分质量最终成功率性能成本结论
Alicloud@deepseek-v389
CRM 词自然,业务数据语义更稳。99.00%均值 5.74s,P95 7.48s2 / 8 / 10国内首选。
qwen3-235b-a22b87
实体名较保守,稳定性强。100.00%均值 5.35s,P95 7.80s2 / 8 / 10国内备选。
inner@gemini-2.5-flash-lite84
速度成本好,但企业名需映射兜底。100.00%均值 4.53s,P95 5.35s0.72 / 3.04 / 3.76海外默认模型。
azure04-gpt-4o-mini77
可用,实体名本地化风险更高。91.00%均值 5.46s,P95 7.86s1.14 / 4.56 / 5.70海外兜底。

企信 IM

模型综合分质量最终成功率性能成本结论
azure04-gpt-4o-mini89
表达自然,稳定,适合 IM 默认链路。多轮 94%-95%均值 6.23s,P95 7.89s1.14 / 4.56 / 5.70海外默认主模型。
inner@gemini-2.5-flash-lite87
速度快,成本低;英文表达需抽检。聚焦补测 100.00%均值 4.60s,P95 5.38s0.72 / 3.04 / 3.76海外低成本候选。
qwen3-235b-a22b84
成功率最高,但有少量中文残留和 business opportunity 风险。国内聚焦补测 89.00%均值 8.05s,P95 9.82s2 / 8 / 10企信国内默认模型。
Alicloud@deepseek-v381
语言纯净度更好,成功样本质量更干净。国内聚焦补测 84.00%均值 8.36s,P95 9.81s2 / 8 / 10企信国内质量候选。

八、月度成本估算

月度费用按数据平台近 30 天、business=translate 的 token 消耗估算。图中展示执行总 tokens 为 513,254,864,输入总 tokens 为 483,335,708;输出 tokens 未单独展示,本报告按“执行总 tokens - 输入总 tokens”推算为 29,919,156。执行总算粒为 6,154 次,平均每次约 83,402 tokens。

计算公式:月费用 = 输入 token / 1,000,000 × 输入单价 + 输出 token / 1,000,000 × 输出单价。单价均使用企业内部提供的模型调用价格,不引用官网价格。
模型输入价输出价按近 30 天消耗估算月费用成本判断
Alicloud@deepseek-v328约 1,206.02 元 / 月质量主模型,成本中高。
qwen3-235b-a22b28约 1,206.02 元 / 月与 DeepSeek V3 同价。
azure04-gpt-4o-mini1.144.56约 687.43 元 / 月国外默认模型,成本中等。
inner@gemini-2.5-flash-lite0.723.04约 438.96 元 / 月国外低成本低延迟候选。
ep-20250311151306-7drx40.30.6约 162.95 元 / 月最低成本,但质量风险高。
ep-20251211140918-zhfhg0.82约 446.51 元 / 月低成本观察,不进入主链路。
路由方案费用估算方式月费用示例说明
原豆包旧端点100% 流量走豆包旧端点约 162.95 元 / 月;约 0.32 元 / 百万 token历史成本最低,但质量和术语风险明显。
国内全量 DeepSeek V3100% 流量走 Alicloud@deepseek-v3约 1,206.02 元 / 月;折算有效平均约 2.35 元 / 百万总 token标价口径为输入 2、输出 8;由于近 30 天输入占比高,按实际输入/输出结构折算后低于 10 元。
国外全量 Azure100% 流量走 azure04-gpt-4o-mini约 687.43 元 / 月海外云租户合规链路的稳妥方案。
国外全量 Gemini Flash Lite100% 流量走 inner@gemini-2.5-flash-lite约 438.96 元 / 月海外低成本方案,但需结合术语和实体映射验证。
国内 DeepSeek V3 + 国外 Azure按国内/国外 50/50 混合估算约 946.73 元 / 月;折算有效平均约 1.84 元 / 百万总 token这是按近 30 天输入/输出 token 结构折算出的有效平均成本,不是模型标价。实际费用会随国内/海外租户占比变化。

说明:模型“输入价 + 输出价”的合计是单价口径,不等于每百万总 token 的真实平均成本。真实估算要按输入 token 和输出 token 分别计费。本次近 30 天输入 token 483,335,708、输出 token 29,919,156,输入占比高,因此 DeepSeek V3 的有效平均成本约为 2.35 元/百万总 token,而不是 10 元/百万总 token。

九、模型路由建议

方案 A:三个场景共用一组国内 + 国外模型

模型类型
推荐模型
推荐理由
国内模型
Alicloud@deepseek-v3
工作台 100%,数据级多语 99%,企信国内聚焦补测 84%。虽然企信单场景 Qwen3 成功率更高,但跨三场景综合看,DeepSeek V3 的 CRM/PaaS 术语质量更稳,是共用国内模型的更稳妥选择。
国外模型
azure04-gpt-4o-mini
企信 IM 最终标准测试 94%,稳定性最强;工作台和数据级多语可作为海外云租户兜底模型。合规上适合海外租户调用海外模型。

如果海外租户更敏感于成本和延迟,可将 inner@gemini-2.5-flash-lite 作为海外低成本模式,但默认主链路仍建议先用 Azure。

方案 B:三个场景分别配置国内 + 国外模型

场景国内模型国外模型推荐口径
翻译工作台Alicloud@deepseek-v3inner@gemini-2.5-flash-lite国内用 DeepSeek V3 保证术语质量;海外用 Flash Lite 降成本和延迟。
数据级多语Alicloud@deepseek-v3inner@gemini-2.5-flash-lite国内质量优先 DeepSeek V3;海外用 Flash Lite,但实体名需映射兜底。
企信 IMqwen3-235b-a22bazure04-gpt-4o-mini企信国内优先 Qwen3;海外默认 Azure,稳定性最好。

十、Prompt 与质量治理结论

Prompt 已经不宜继续加重

企信多轮验证说明,复杂保护规则会降低 JSON 成功率;纯极简又会带回 Public Sea、repayment、feedbacked 等质量风险。当前最合理的结构是:角色 + 场景 + 通用业务语义底线 + 输出格式。

术语和实体不能全靠模型

工作台的公海/公海池、回款、商机,数据级多语的企业名和产品名,都应进入术语库、实体映射或代码侧预处理。Prompt 负责方向,不负责承载所有业务规则。

问题类型推荐治理方式说明
公海 / 公海池 被译为海域术语库建议固定为 Customer Pool / Public Pool 等业务语义,不让模型自由发挥。
企业名 / 产品名被知识化改写实体映射数据级多语最明显,Prompt 无法完全保证一致。
@人、URL、邮箱、编码保护代码侧处理这部分已确认不再交给大模型承担。
熔断、空错误、降级失败模型网关与调用链路治理不应归因为翻译质量问题;调试台需补错误码和 requestId。

十一、对外汇报口径

问题建议回答
为什么不直接用历史三轮平均?历史轮次 Prompt、Case、语种、模型和网络状态都不一致,简单平均会放大噪声。最终报告采用固定 100 条复核作为主依据,历史轮次用于归因和风险识别。
为什么必须分国内/国外模型?国内租户和海外云租户的数据部署区域不同。海外租户应通过海外模型链路调用,避免跨境合规风险;国内租户可使用国内模型链路。
为什么不是最低成本豆包?豆包成本最低,但在正式多语资产中中文残留、混语和 CRM 术语直译风险更高。低成本不能替代质量和稳定性。
MiniMax / GLM 为什么没测?本轮是翻译主链路选型,不是全模型普查。MiniMax 更像降级/通用链路,GLM 当前没有形成独立稳定翻译链路。可后续单独做探索性小样本验证。
下一步上线前还要做什么?按最终 Prompt 和 100 条 Case 做一次低并发复跑;同时补齐术语库、实体映射、网关错误码和空错误排查。