翻译模型最终复核报告

一、最终结论

一句话结论：翻译模型不能只选一个“全局最优”，需要按国内租户和海外云租户分别保留国内模型与国外模型；短期建议采用“国内 DeepSeek V3 + 国外 Azure GPT-4o mini”的双路由方案。

共用模型方案推荐

如果三个场景共用一组模型：

国内模型：Alicloud@deepseek-v3
国外模型：azure04-gpt-4o-mini

分场景方案中期演进

场景	国内模型	国外模型
翻译工作台	Alicloud@deepseek-v3	inner@gemini-2.5-flash-lite
数据级多语	Alicloud@deepseek-v3	inner@gemini-2.5-flash-lite
企信 IM	qwen3-235b-a22b	azure04-gpt-4o-mini

合规与成本关键约束

海外云租户应走国外模型链路。
国内租户可走国内模型链路。
原豆包旧端点约 163 元/月；国内 DeepSeek V3 + 国外 Azure 按 50/50 混合约 947 元/月，折算有效平均约 1.84 元/百万总 token。

3核心翻译场景

100 条每场景最终复核 Case

9核心目标语种

国内 + 国外双模型合规路由

主依据：最终 100 条复核历史轮次：用于归因和风险识别最终标准：以关闭代理后的稳定测试为准 Prompt：已收敛，不建议继续堆规则

二、模型范围与未纳入说明

本次主测聚焦“翻译主链路候选”，不是平台内全部大模型普查。候选模型需要同时满足：可被当前翻译调试台稳定调用、可输出多语 JSON、具备 CRM / PaaS / IM 场景翻译能力，并且有明确内部成本口径。

模型编码	归类	内部成本：输入 / 输出 / 合计，元/百万 Token	最终定位
Alicloud@deepseek-v3	国内 / 阿里云 DeepSeek	2 / 8 / 10	国内共用首选；工作台和数据级多语首选；企信国内质量候选。
qwen3-235b-a22b	国内 / Qwen	2 / 8 / 10	数据级多语国内候选；企信国内优先候选。
azure04-gpt-4o-mini	国外 / Azure OpenAI	1.14 / 4.56 / 5.70	国外共用首选；企信 IM 稳定性首选。
inner@gemini-2.5-flash-lite	国外 / Gemini	0.72 / 3.04 / 3.76	海外低成本低延迟候选；工作台、数据级多语和企信均可观察。
ep-20250311151306-7drx4	国内 / 豆包旧端点	0.3 / 0.6 / 0.9	成本最低，但中文残留和术语直译风险高，不建议默认。
ep-20251211140918-zhfhg	国内 / 豆包新端点	0.8 / 2 / 2.8	低成本观察，不进入最终主链路。
inner@gemini-2.5-pro	国外 / Gemini	高成本	多轮全失败或稳定性不达标，不推荐。

平台内可用但未进主候选的模型	原因
GLM / 智谱相关模型	部分配置存在重定向或视觉模型用途，不具备本轮可独立横评的稳定翻译链路；因此没有纳入最终候选队列。
Tencent DeepSeek V4 Flash / Pro	早期进入过观察，但在不同 Prompt 下熔断波动较大；Flash 可低成本观察，Pro 成本和稳定性均不适合作为默认翻译链路。
Qwen3.5 Plus	多轮出现主/降级链路失败，当前不进入默认模型推荐。

三、测试过程与归因

前期多轮测试不是无效数据，但它们不适合作为最终模型排序的直接依据。它们的价值在于暴露问题并指导后续测试设计：降低并发噪声、拆分国内/国外模型、拆分 Prompt 收敛与模型横评、补足高风险 Case。

翻译调试台支持单条文本、批量文本、Excel 导入、Prompt 编辑与预览，可按场景 Prompt、目标语种、模型和变量参数批量验证翻译结果。

阶段	主要目的	暴露问题	阶段经验 / 对后续测试的影响	为什么不作为最终复核结论
Round1 / Round2 大批量测试	快速拉通调试台、观察模型可用性。	大量 `OPEN / HALF_OPEN` 熔断、空错误、降级链路失败。	后续不能用大并发全模型混跑直接判断质量；需要缩小语种、缩小模型范围，并把错误码和空错误单独归因。技术侧后续加大模型调用延迟，也有助于降低短时间高频调用导致的高并发熔断效应。	调用链路噪声过大，无法区分模型质量和网关稳定性。
40 / 50 条小批量测试	缩小 Case 与语种范围，初步比较质量、性能和成本。	工作台与数据级多语开始收敛，但企信仍受链路和 Prompt 复杂度影响。	证明“小样本 + 核心语种 + 候选模型”更适合横评；同时沉淀出公海、回款、商机、实体名等高风险 Case，应进入最终 100 条。	样本覆盖还不完整，适合作为方向判断，不适合最终对外背书。
企信 Prompt 多轮回归	验证企信成功率低是否由 Prompt 造成，并验证变量放在 System Prompt 还是 User Prompt 对稳定性的影响。	复杂保护规则会降低 JSON 成功率；纯极简又会带回术语和表达风险。变量、Case 内容、业务提示和长度上限频繁变化时，放在 System Prompt 会让系统提示词不断变化。	Prompt 应收敛为“角色 + 场景 + 通用业务语义底线 + 输出格式”；@人、URL、邮箱、编码保护交给代码侧，不继续堆长规则。System Prompt 保持稳定，只承载角色、场景、质量底线和输出格式；变化型变量尽量放在 User Prompt。	这是 Prompt 收敛和结构设计经验，不是最终横评样本。
最终 100 条复核	冻结 Prompt、冻结 Case、冻结核心语种和候选模型。	工作台和数据级多语结果稳定；企信仍需关注空错误和低并发稳定性。	作为最终汇报主依据；同时发现企信需要进一步拆成国外模型补测和国内模型补测，后两份聚焦补测权重更高。	作为最终汇报主依据。
企信聚焦补测	分别验证国外候选和国内候选。	Gemini Flash Lite 在聚焦补测中 100%；Qwen3 国内再补测 89%，DeepSeek V3 84%。	企信模型排序应以后两份聚焦补测为主，弱化早期 7 模型混跑中熔断造成的低成功率。	纳入最终结论，权重高于企信早期混跑结果。

最终口径：历史轮次用于说明“我们如何发现问题、如何收敛 Prompt、为什么需要最终复核”；最终模型排序主要看冻结后的 100 条复核和候选补测。企信由于链路噪声最大，国外模型和国内模型的两份聚焦补测权重高于早期 7 模型混跑结果。

四、最终复核数据总览

最终复核将历史多轮调试结果收敛为固定 Prompt、固定 100 条 Case、固定核心语种和候选模型。历史 Round1 / Round2 / Round3 不再直接参与平均分，只用于说明链路熔断、Prompt 复杂度和质量风险的来源。

场景	最终数据文件	测试规模	整体成功率	核心判断
翻译工作台	prompt_playground_excel_result (24).xlsx	100 Case × 9 语种 × 7 模型，6,300 行	84.84%	成功率和质量均已明显收敛，可作为最终主依据。
数据级多语	prompt_playground_excel_result (23).xlsx	100 Case × 9 语种 × 7 模型，6,300 行	84.27%	模型成功率可用，实体名一致性仍需术语库/映射治理。
企信 IM	prompt_playground_excel_result (22).xlsx	100 Case × 9 语种 × 7 模型，6,300 行	52.56%	以关闭代理后的标准测试为准；整体被部分模型空错误和熔断拉低。
企信候选补测	prompt_playground_excel_result (25).xlsx	100 Case × 9 语种 × 3 模型，2,700 行	83.67%	Gemini Flash Lite 900/900 全成功，证明低成本海外候选有参考价值。
企信国内模型再补测	prompt_playground_excel_result (26).xlsx	100 Case × 9 语种 × 2 模型，1,800 行	86.50%	Qwen3 成功率 89%，DeepSeek V3 成功率 84%，国内模型稳定性进一步恢复。

五、三场景核心表现

翻译工作台主模型明确

最终 100 条成功率 84.84%。可用模型中 Alicloud@deepseek-v3、qwen3-235b-a22b、inner@gemini-2.5-flash-lite 均达到 100%。

国内首选：Alicloud@deepseek-v3，CRM 配置文案和术语更自然。
国外首选：inner@gemini-2.5-flash-lite，低成本低延迟；若要更稳可用 Azure 兜底。
质量风险：公海 / 公海池 仍需术语库固定，不能只靠 Prompt。

数据级多语双主候选

最终 100 条成功率 84.27%。qwen3-235b-a22b 和 inner@gemini-2.5-flash-lite 为 100%，Alicloud@deepseek-v3 为 99%。

国内首选：Alicloud@deepseek-v3；备选 qwen3-235b-a22b。
国外首选：inner@gemini-2.5-flash-lite，成本和速度最优。
质量风险：企业名、产品名、项目名会被模型知识化处理，需实体映射。

企信 IM 链路影响最大

企信早期 7 模型混跑总成功率 52.56%，但受空错误和熔断影响较大。最终判断以后两份聚焦补测为主：Gemini Flash Lite 900/900 全成功；国内再补测中 Qwen3 成功率 89%，DeepSeek V3 成功率 84%。

国外首选：azure04-gpt-4o-mini，最终标准测试成功率 94%。
低成本海外候选：inner@gemini-2.5-flash-lite，补测 100%。
国内优先：qwen3-235b-a22b，成功率更高；质量候选：Alicloud@deepseek-v3，语言纯净度更好。

六、企信标准环境结果

企信 IM 的模型排序不再主要依赖早期 7 模型混跑结果，而是以后两份聚焦补测为主：国外候选看 Gemini Flash Lite 与 Azure 的稳定表现，国内候选看 Qwen3 与 DeepSeek V3 的再次补测。早期混跑结果主要用于识别链路噪声和空错误。

模型	早期混跑结果	聚焦补测结果	最终权重判断
azure04-gpt-4o-mini	94.00%	未单独补测，但多轮稳定在 94%-95%	企信国外默认主模型，稳定性最好。
inner@gemini-2.5-flash-lite	24.00%	100.00%，900/900 全成功	早期低分主要受混跑熔断影响；作为国外低成本低延迟候选。
qwen3-235b-a22b	83.00%	89.00%	企信国内优先候选，成功率最高；仍需通过术语库控制 `business opportunity` 和少量中文残留。
Alicloud@deepseek-v3	76.00%	84.00%	企信国内质量候选，成功样本更干净；本轮未发现真实非目标语言中文残留。

七、场景内模型评分

评分用于辅助决策，不是简单按成功率排序。综合分由四个维度组成：翻译质量 45%、调用稳定性 30%、成本 15%、性能 10%。其中质量是权重最高的维度，重点看 CRM/PaaS/IM 术语、语义准确、语言纯净度、实体名处理和自然表达。P95 表示按耗时从低到高排序后，第 95% 位置上的耗时值，也就是 95% 的请求耗时不超过该值。它不是最高耗时，也不是去掉极值后的平均值，而是一个高分位阈值。

评分维度	权重	主要判断内容
翻译质量	45%	业务术语是否准确、语义是否反转、目标语言是否纯净、实体名是否过度翻译、表达是否自然。
调用稳定性	30%	成功率、空错误、熔断、降级失败、是否容易受并发或链路波动影响。
成本	15%	按企业内部每百万 Token 输入/输出单价和近 30 天消耗估算。
性能	10%	平均耗时、P95 耗时。P95 不是最高耗时，也不是平均值，而是 95% 请求都能控制在该耗时以内的阈值。

历史熔断轮次只作为稳定性背景，不做简单平均；企信 IM 评分主要参考后两份聚焦补测。

翻译工作台

模型	综合分	质量	最终成功率	性能	成本	结论
Alicloud@deepseek-v3	90	CRM 术语最稳，配置文案自然。	100.00%	均值 5.12s，P95 6.64s	2 / 8 / 10	国内默认主模型。
inner@gemini-2.5-flash-lite	86	常规 UI 文案可用，需术语库兜底。	100.00%	均值 4.54s，P95 5.30s	0.72 / 3.04 / 3.76	海外默认模型。
qwen3-235b-a22b	82	稳定但术语自然度略弱。	100.00%	均值 4.91s，P95 7.18s	2 / 8 / 10	稳定候选。
azure04-gpt-4o-mini	78	可用，但公海等 CRM 词需兜底。	93.89%	均值 5.22s，P95 7.89s	1.14 / 4.56 / 5.70	海外兜底。

数据级多语

模型	综合分	质量	最终成功率	性能	成本	结论
Alicloud@deepseek-v3	89	CRM 词自然，业务数据语义更稳。	99.00%	均值 5.74s，P95 7.48s	2 / 8 / 10	国内首选。
qwen3-235b-a22b	87	实体名较保守，稳定性强。	100.00%	均值 5.35s，P95 7.80s	2 / 8 / 10	国内备选。
inner@gemini-2.5-flash-lite	84	速度成本好，但企业名需映射兜底。	100.00%	均值 4.53s，P95 5.35s	0.72 / 3.04 / 3.76	海外默认模型。
azure04-gpt-4o-mini	77	可用，实体名本地化风险更高。	91.00%	均值 5.46s，P95 7.86s	1.14 / 4.56 / 5.70	海外兜底。

企信 IM

模型	综合分	质量	最终成功率	性能	成本	结论
azure04-gpt-4o-mini	89	表达自然，稳定，适合 IM 默认链路。	多轮 94%-95%	均值 6.23s，P95 7.89s	1.14 / 4.56 / 5.70	海外默认主模型。
inner@gemini-2.5-flash-lite	87	速度快，成本低；英文表达需抽检。	聚焦补测 100.00%	均值 4.60s，P95 5.38s	0.72 / 3.04 / 3.76	海外低成本候选。
qwen3-235b-a22b	84	成功率最高，但有少量中文残留和 business opportunity 风险。	国内聚焦补测 89.00%	均值 8.05s，P95 9.82s	2 / 8 / 10	企信国内默认模型。
Alicloud@deepseek-v3	81	语言纯净度更好，成功样本质量更干净。	国内聚焦补测 84.00%	均值 8.36s，P95 9.81s	2 / 8 / 10	企信国内质量候选。

八、月度成本估算

月度费用按数据平台近 30 天、business=translate 的 token 消耗估算。图中展示执行总 tokens 为 513,254,864，输入总 tokens 为 483,335,708；输出 tokens 未单独展示，本报告按“执行总 tokens - 输入总 tokens”推算为 29,919,156。执行总算粒为 6,154 次，平均每次约 83,402 tokens。

计算公式：月费用 = 输入 token / 1,000,000 × 输入单价 + 输出 token / 1,000,000 × 输出单价。单价均使用企业内部提供的模型调用价格，不引用官网价格。

模型	输入价	输出价	按近 30 天消耗估算月费用	成本判断
Alicloud@deepseek-v3	2	8	约 1,206.02 元 / 月	质量主模型，成本中高。
qwen3-235b-a22b	2	8	约 1,206.02 元 / 月	与 DeepSeek V3 同价。
azure04-gpt-4o-mini	1.14	4.56	约 687.43 元 / 月	国外默认模型，成本中等。
inner@gemini-2.5-flash-lite	0.72	3.04	约 438.96 元 / 月	国外低成本低延迟候选。
ep-20250311151306-7drx4	0.3	0.6	约 162.95 元 / 月	最低成本，但质量风险高。
ep-20251211140918-zhfhg	0.8	2	约 446.51 元 / 月	低成本观察，不进入主链路。

路由方案	费用估算方式	月费用示例	说明
原豆包旧端点	100% 流量走豆包旧端点	约 162.95 元 / 月；约 0.32 元 / 百万 token	历史成本最低，但质量和术语风险明显。
国内全量 DeepSeek V3	100% 流量走 Alicloud@deepseek-v3	约 1,206.02 元 / 月；折算有效平均约 2.35 元 / 百万总 token	标价口径为输入 2、输出 8；由于近 30 天输入占比高，按实际输入/输出结构折算后低于 10 元。
国外全量 Azure	100% 流量走 azure04-gpt-4o-mini	约 687.43 元 / 月	海外云租户合规链路的稳妥方案。
国外全量 Gemini Flash Lite	100% 流量走 inner@gemini-2.5-flash-lite	约 438.96 元 / 月	海外低成本方案，但需结合术语和实体映射验证。
国内 DeepSeek V3 + 国外 Azure	按国内/国外 50/50 混合估算	约 946.73 元 / 月；折算有效平均约 1.84 元 / 百万总 token	这是按近 30 天输入/输出 token 结构折算出的有效平均成本，不是模型标价。实际费用会随国内/海外租户占比变化。

说明：模型“输入价 + 输出价”的合计是单价口径，不等于每百万总 token 的真实平均成本。真实估算要按输入 token 和输出 token 分别计费。本次近 30 天输入 token 483,335,708、输出 token 29,919,156，输入占比高，因此 DeepSeek V3 的有效平均成本约为 2.35 元/百万总 token，而不是 10 元/百万总 token。

九、模型路由建议

方案 A：三个场景共用一组国内 + 国外模型

模型类型

推荐模型

推荐理由

国内模型

Alicloud@deepseek-v3

工作台 100%，数据级多语 99%，企信国内聚焦补测 84%。虽然企信单场景 Qwen3 成功率更高，但跨三场景综合看，DeepSeek V3 的 CRM/PaaS 术语质量更稳，是共用国内模型的更稳妥选择。

国外模型

azure04-gpt-4o-mini

企信 IM 最终标准测试 94%，稳定性最强；工作台和数据级多语可作为海外云租户兜底模型。合规上适合海外租户调用海外模型。

如果海外租户更敏感于成本和延迟，可将 inner@gemini-2.5-flash-lite 作为海外低成本模式，但默认主链路仍建议先用 Azure。

方案 B：三个场景分别配置国内 + 国外模型

场景	国内模型	国外模型	推荐口径
翻译工作台	Alicloud@deepseek-v3	inner@gemini-2.5-flash-lite	国内用 DeepSeek V3 保证术语质量；海外用 Flash Lite 降成本和延迟。
数据级多语	Alicloud@deepseek-v3	inner@gemini-2.5-flash-lite	国内质量优先 DeepSeek V3；海外用 Flash Lite，但实体名需映射兜底。
企信 IM	qwen3-235b-a22b	azure04-gpt-4o-mini	企信国内优先 Qwen3；海外默认 Azure，稳定性最好。

十、Prompt 与质量治理结论

Prompt 已经不宜继续加重

企信多轮验证说明，复杂保护规则会降低 JSON 成功率；纯极简又会带回 Public Sea、repayment、feedbacked 等质量风险。当前最合理的结构是：角色 + 场景 + 通用业务语义底线 + 输出格式。

术语和实体不能全靠模型

工作台的公海/公海池、回款、商机，数据级多语的企业名和产品名，都应进入术语库、实体映射或代码侧预处理。Prompt 负责方向，不负责承载所有业务规则。

问题类型	推荐治理方式	说明
公海 / 公海池被译为海域	术语库	建议固定为 Customer Pool / Public Pool 等业务语义，不让模型自由发挥。
企业名 / 产品名被知识化改写	实体映射	数据级多语最明显，Prompt 无法完全保证一致。
@人、URL、邮箱、编码保护	代码侧处理	这部分已确认不再交给大模型承担。
熔断、空错误、降级失败	模型网关与调用链路治理	不应归因为翻译质量问题；调试台需补错误码和 requestId。

十一、对外汇报口径

问题	建议回答
为什么不直接用历史三轮平均？	历史轮次 Prompt、Case、语种、模型和网络状态都不一致，简单平均会放大噪声。最终报告采用固定 100 条复核作为主依据，历史轮次用于归因和风险识别。
为什么必须分国内/国外模型？	国内租户和海外云租户的数据部署区域不同。海外租户应通过海外模型链路调用，避免跨境合规风险；国内租户可使用国内模型链路。
为什么不是最低成本豆包？	豆包成本最低，但在正式多语资产中中文残留、混语和 CRM 术语直译风险更高。低成本不能替代质量和稳定性。
为什么没有覆盖所有平台模型？	本轮是翻译主链路选型，不是全模型普查。未正式测试的模型不进入本轮质量判断，也不写入推荐或否定结论；后续如需扩展候选范围，可单独做探索性小样本验证。
下一步上线前还要做什么？	按最终 Prompt 和 100 条 Case 做一次低并发复跑；同时补齐术语库、实体映射、网关错误码和空错误排查。