翻译模型测试汇总报告

覆盖翻译工作台、数据级多语、企信 IM 三个场景,汇总 Round1 / Round2 / Round3 测试结果,并补充企信轻量 JSON Prompt 与 V2 语言纯净度回归测试。报告只保留决策需要的核心信息:稳定性、翻译质量、性能、成本和模型推荐。

一、总览结论

最终判断:三类场景不宜继续只依赖低成本豆包旧端点。若必须共用一套模型,国内主模型推荐 Alicloud@deepseek-v3,国外主模型推荐 azure04-gpt-4o-mini。若允许按场景拆分,翻译工作台和数据级多语优先 Alicloud@deepseek-v3 / qwen3-235b-a22b,企信 IM 优先 azure04-gpt-4o-mini。企信最新 V2 Prompt 证明“轻量 Prompt + 语言纯净度规则”方向有效,但成功率仍被熔断和空错误强干扰,模型排序不能只看这一轮。
3测试场景
11候选模型
5 批三轮横评 + 企信 Prompt 回归
4 维稳定性 / 质量 / 性能 / 成本
主结论:模型链路稳定性优先 工作台:术语治理关键 数据级多语:实体名稳定关键 企信:V2 Prompt 有效但链路仍干扰

二、评分口径

评分用于辅助决策,不是绝对质量分。Round1 / Round2 大量熔断结果主要作为稳定性背景;Round3 和 9 语种小批量结果用于判断模型质量。

维度权重判断方式
翻译质量45%CRM 术语、实体名、语义准确、自然表达、是否中文残留或语义反转。
调用稳定性30%成功率、空值、熔断、主/降级链路失败。企信 IM 对该项要求最高。
成本15%按企业内部每百万 Token 输入/输出成本口径判断。
性能10%平均耗时和 P95 耗时。高频 IM 更敏感。

三、三场景最新核心表现

本节不是三轮结果的简单平均,而是按各场景“最新有效测试结果”呈现模型表现。Round1 / Round2 不忽略,主要用于判断空值、熔断、降级失败和提示词结构问题;模型质量排序以最新小批量稳定测试为主。

翻译工作台 主模型明确

Round3 成功率 60.68%。可用模型中 Alicloud@deepseek-v3Gemini Flash LiteQwen3-235B 均 100% 成功。

  • 前两轮价值:确认大量失败主要来自调用熔断、空值和降级链路,不直接等同于模型翻译质量差。
  • 首推:Alicloud@deepseek-v3,CRM 配置文案和术语更自然。
  • 低成本候选:inner@gemini-2.5-flash-lite,速度最快、成本低。
  • 主要风险:公海 / 公海池 被翻成 Public Sea / Open Sea。

数据级多语 双主候选

最新 50 条 Case 成功率 63.45%。模型质量的核心差异在实体名和业务数据是否被过度翻译。

  • 主候选:Alicloud@deepseek-v3,CRM 术语更自然。
  • 主候选:qwen3-235b-a22b,稳定、少中文残留。
  • 低成本候选:Gemini Flash Lite,但企业名误识别风险高。

企信 IM Prompt 已收敛

Round3 成功率 22.95%;轻量 Prompt 提升到 29.09%;V2 增加语言纯净度后提升到 33.41%,且中文残留从 12 条降到 7 条。

  • 默认模型:azure04-gpt-4o-mini,V2 下中文残留降为 0。
  • Prompt 方向:保留轻量 JSON + 语言纯净度规则,不恢复复杂保护规则。
  • 主要风险:空错误、熔断和术语不一致仍需技术链路与术语库治理。

四、企信 Prompt 迭代验证

企信单独追加了两轮 Prompt 回归,用来验证成功率偏低是否可能由提示词复杂度造成。结果显示:Prompt 确实有影响,但不是唯一主因;V2 更适合作为后续企信调试台 Prompt。

测试版本成功率中文残留关键判断
旧版企信 Round3 Prompt22.95%1 条失败主要来自熔断和空错误,不能直接判定模型翻译质量差。
轻量 JSON Prompt29.09%12 条成功率提升,说明降低 Prompt 复杂度有效;但语言纯净度回退。
轻量 JSON + 语言纯净度 V233.41%7 条在保持轻量的同时修复部分中文残留,Azure 残留从 3 条降为 0。

Prompt 结论

V2 是当前更合理的企信调试台 Prompt:只保留角色、企信工作沟通场景、JSON 输出格式和目标语言纯净度要求。@人、URL、邮箱、编码保护不再放进 Prompt,继续交给代码侧处理。

归因边界

V2 的总成功率提升不能全部归因于 Prompt。Gemini Flash Lite、Tencent DeepSeek V4 Flash / Pro 本轮恢复部分成功,拉高了整体成功率;同时 Azure、Qwen3、Alicloud DeepSeek V3 仍受到熔断和空错误影响。

五、场景内模型评分

翻译工作台

模型综合分稳定性质量成本结论
Alicloud@deepseek-v388
CRM 术语最稳中高:2 / 8默认主模型
inner@gemini-2.5-flash-lite84
常规文案可用,公海需术语库低:0.72 / 3.04低成本候选
qwen3-235b-a22b80
稳定但公海直译偏多中高:2 / 8稳定候选
azure04-gpt-4o-mini76
中高可用,偶有熔断中:1.14 / 4.56兜底
Doubao-Seed / Doubao Lite66
中文残留和术语直译风险极低 / 低非关键文本观察

数据级多语

模型综合分稳定性质量成本结论
Alicloud@deepseek-v387
CRM 术语自然中高:2 / 8主候选
qwen3-235b-a22b86
实体名较保守,无明显残留中高:2 / 8主候选
inner@gemini-2.5-flash-lite80
速度好,但企业名误识别低:0.72 / 3.04低成本候选
azure04-gpt-4o-mini78
中高可用,实体名本地化风险中:1.14 / 4.56稳定兜底
Doubao Lite62
小语种混杂、中文残留极低:0.3 / 0.6不适合正式资产

企信 IM

模型综合分稳定性质量成本结论
azure04-gpt-4o-mini87
高;V2 85%,主要受 HALF_OPEN 影响自然,V2 中文残留 0中:1.14 / 4.56默认主模型
qwen3-235b-a22b74
中;V2 72.5%,空错误 99 条可用,仍有 1 条中文残留中高:2 / 8复杂消息观察
Alicloud@deepseek-v373
中低;V2 52.5%,空错误 171 条语言纯净度最好,残留 0中高:2 / 8链路修复后重点观察
inner@gemini-2.5-flash-lite70
中;V2 50%本轮无中文残留,需继续观察实体名低:0.72 / 3.04低成本候选
fsBaseTencentmaas@deepseek-v4-flash70
中;V2 45%,仍有熔断成功样本质量可用低:1 / 2低成本观察
Doubao / Qwen3.5 Plus / Pro 系列40-58
样本不足、中文残留或链路失败不一不进入主链路

六、模型决策:共用一套 vs 分场景路由

方案 A:三个场景共用一个国内模型 + 一个国外模型

类型
推荐模型
推荐理由
国内模型
Alicloud@deepseek-v3
在翻译工作台和数据级多语中质量最稳,CRM 术语自然;企信本轮链路不稳,但成功样本可用。若只能共用一个国内模型,它比 Qwen3 更少出现 Public Sea 这类术语直译。
国外模型
azure04-gpt-4o-mini
企信 IM 明显最稳,V2 下中文残留降为 0,同时在工作台和数据级多语可作为稳定兜底。成本中等,速度可接受,是跨场景最稳的国外模型。

说明:若“国外模型”必须优先低成本,可观察 Gemini Flash Lite,但它在实体名和术语一致性上不如 Azure 稳,不建议作为共用默认。

方案 B:三个场景分别配置国内模型 + 国外模型

场景国内推荐国外推荐理由
翻译工作台Alicloud@deepseek-v3inner@gemini-2.5-flash-liteDeepSeek V3 质量最好;Gemini Flash Lite 成本和速度优势明显,但需术语库。
数据级多语qwen3-235b-a22b / Alicloud@deepseek-v3inner@gemini-2.5-flash-liteQwen3 更保守,DeepSeek V3 术语更自然;Flash Lite 可做低成本候选,但实体名需保护。
企信 IMAlicloud@deepseek-v3 / fsBaseTencentmaas@deepseek-v4-flashazure04-gpt-4o-miniAzure 是默认主模型;DeepSeek V3 语言纯净度最好但空错误多;Tencent Flash 成本低且有成功样本,但必须先解决熔断。
推荐落地路径:短期采用方案 A,降低配置复杂度:国内 Alicloud@deepseek-v3,国外 azure04-gpt-4o-mini。中期在企信 IM 上单独保留 Azure 默认,并使用 V2 Prompt;工作台/数据级多语逐步引入 DeepSeek V3 和 Qwen3 的分场景路由。

七、关键分析要点

稳定性

Round1 / Round2 大量失败主要来自 fs-apibus-global.fstest:8887 熔断,不能直接作为模型翻译质量差的证据。Round3 仍能看到企信 IM 的熔断更严重。

  • 翻译工作台和数据级多语:小批量后可稳定横评。
  • 企信 IM:成功率偏低主要是网关和模型链路问题。

翻译质量

三个场景的质量问题不完全相同:工作台关注术语,数据级多语关注实体名,企信关注自然表达和语义不反转。

  • 公海 / 公海池 必须进入术语库。
  • 企业名、项目名、产品名要区分翻译、音译、保留原文。
  • 审批退回、回款、商机阶段等协作语义需要重点防错。

成本

豆包成本最低,但在正式多语资产和工作台配置文案里质量风险过高。Gemini Flash Lite 是更有价值的低成本候选。

  • 豆包 Lite:0.3 / 0.6,适合低风险短文本观察。
  • Gemini Flash Lite:0.72 / 3.04,低成本低延迟候选。
  • DeepSeek V4 Pro / Gemini Pro 成本高且本轮稳定性不达标。

提示词 vs 代码侧

当前问题不应继续通过堆 Prompt 解决。企信 V2 已证明轻量 Prompt 加语言纯净度规则更合理;@人、URL、邮箱、编码保护已确认走代码侧,Prompt 只保留角色、场景、输出格式、语言纯净度和必要术语提示。

  • 熔断和空错误信息:技术链路治理。
  • 术语不一致:术语库治理。
  • 自然度和语义:模型选择 + 少量 Prompt 收敛。

八、最终建议

决策问题推荐结论补充说明
是否继续用豆包旧端点做默认翻译模型?不建议成本极低,但中文残留、混语、术语直译风险明显。
是否三个场景共用一套模型?短期可以国内 DeepSeek V3 + 国外 Azure,能兼顾质量、稳定和配置复杂度。
是否最终要分场景路由?建议中期演进企信 IM、工作台、数据级多语的质量目标不同,分场景会更合理。
企信 Prompt 是否继续改?保留 V2,少量收敛当前 V2 已能压低中文残留,不建议恢复复杂保护规则。
下一步最该做什么?术语库 + 熔断治理 + 空错误排查比继续扩 Prompt 更有效,尤其是公海、公海池、回款、商机、线索、工单,以及调试台空错误原因。