一、总览结论
二、评分口径
评分用于辅助决策,不是绝对质量分。Round1 / Round2 大量熔断结果主要作为稳定性背景;Round3 和 9 语种小批量结果用于判断模型质量。
| 维度 | 权重 | 判断方式 |
|---|---|---|
| 翻译质量 | 45% | CRM 术语、实体名、语义准确、自然表达、是否中文残留或语义反转。 |
| 调用稳定性 | 30% | 成功率、空值、熔断、主/降级链路失败。企信 IM 对该项要求最高。 |
| 成本 | 15% | 按企业内部每百万 Token 输入/输出成本口径判断。 |
| 性能 | 10% | 平均耗时和 P95 耗时。高频 IM 更敏感。 |
三、三场景最新核心表现
本节不是三轮结果的简单平均,而是按各场景“最新有效测试结果”呈现模型表现。Round1 / Round2 不忽略,主要用于判断空值、熔断、降级失败和提示词结构问题;模型质量排序以最新小批量稳定测试为主。
翻译工作台 主模型明确
Round3 成功率 60.68%。可用模型中 Alicloud@deepseek-v3、Gemini Flash Lite、Qwen3-235B 均 100% 成功。
- 前两轮价值:确认大量失败主要来自调用熔断、空值和降级链路,不直接等同于模型翻译质量差。
- 首推:Alicloud@deepseek-v3,CRM 配置文案和术语更自然。
- 低成本候选:inner@gemini-2.5-flash-lite,速度最快、成本低。
- 主要风险:公海 / 公海池 被翻成 Public Sea / Open Sea。
数据级多语 双主候选
最新 50 条 Case 成功率 63.45%。模型质量的核心差异在实体名和业务数据是否被过度翻译。
- 主候选:Alicloud@deepseek-v3,CRM 术语更自然。
- 主候选:qwen3-235b-a22b,稳定、少中文残留。
- 低成本候选:Gemini Flash Lite,但企业名误识别风险高。
企信 IM Prompt 已收敛
Round3 成功率 22.95%;轻量 Prompt 提升到 29.09%;V2 增加语言纯净度后提升到 33.41%,且中文残留从 12 条降到 7 条。
- 默认模型:azure04-gpt-4o-mini,V2 下中文残留降为 0。
- Prompt 方向:保留轻量 JSON + 语言纯净度规则,不恢复复杂保护规则。
- 主要风险:空错误、熔断和术语不一致仍需技术链路与术语库治理。
四、企信 Prompt 迭代验证
企信单独追加了两轮 Prompt 回归,用来验证成功率偏低是否可能由提示词复杂度造成。结果显示:Prompt 确实有影响,但不是唯一主因;V2 更适合作为后续企信调试台 Prompt。
| 测试版本 | 成功率 | 中文残留 | 关键判断 |
|---|---|---|---|
| 旧版企信 Round3 Prompt | 22.95% | 1 条 | 失败主要来自熔断和空错误,不能直接判定模型翻译质量差。 |
| 轻量 JSON Prompt | 29.09% | 12 条 | 成功率提升,说明降低 Prompt 复杂度有效;但语言纯净度回退。 |
| 轻量 JSON + 语言纯净度 V2 | 33.41% | 7 条 | 在保持轻量的同时修复部分中文残留,Azure 残留从 3 条降为 0。 |
Prompt 结论
V2 是当前更合理的企信调试台 Prompt:只保留角色、企信工作沟通场景、JSON 输出格式和目标语言纯净度要求。@人、URL、邮箱、编码保护不再放进 Prompt,继续交给代码侧处理。
归因边界
V2 的总成功率提升不能全部归因于 Prompt。Gemini Flash Lite、Tencent DeepSeek V4 Flash / Pro 本轮恢复部分成功,拉高了整体成功率;同时 Azure、Qwen3、Alicloud DeepSeek V3 仍受到熔断和空错误影响。
五、场景内模型评分
翻译工作台
| 模型 | 综合分 | 稳定性 | 质量 | 成本 | 结论 |
|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 88 | 高 | CRM 术语最稳 | 中高:2 / 8 | 默认主模型 |
| inner@gemini-2.5-flash-lite | 84 | 高 | 常规文案可用,公海需术语库 | 低:0.72 / 3.04 | 低成本候选 |
| qwen3-235b-a22b | 80 | 高 | 稳定但公海直译偏多 | 中高:2 / 8 | 稳定候选 |
| azure04-gpt-4o-mini | 76 | 中高 | 可用,偶有熔断 | 中:1.14 / 4.56 | 兜底 |
| Doubao-Seed / Doubao Lite | 66 | 高 | 中文残留和术语直译风险 | 极低 / 低 | 非关键文本观察 |
数据级多语
| 模型 | 综合分 | 稳定性 | 质量 | 成本 | 结论 |
|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 87 | 高 | CRM 术语自然 | 中高:2 / 8 | 主候选 |
| qwen3-235b-a22b | 86 | 高 | 实体名较保守,无明显残留 | 中高:2 / 8 | 主候选 |
| inner@gemini-2.5-flash-lite | 80 | 高 | 速度好,但企业名误识别 | 低:0.72 / 3.04 | 低成本候选 |
| azure04-gpt-4o-mini | 78 | 中高 | 可用,实体名本地化风险 | 中:1.14 / 4.56 | 稳定兜底 |
| Doubao Lite | 62 | 高 | 小语种混杂、中文残留 | 极低:0.3 / 0.6 | 不适合正式资产 |
企信 IM
| 模型 | 综合分 | 稳定性 | 质量 | 成本 | 结论 |
|---|---|---|---|---|---|
| azure04-gpt-4o-mini | 87 | 高;V2 85%,主要受 HALF_OPEN 影响 | 自然,V2 中文残留 0 | 中:1.14 / 4.56 | 默认主模型 |
| qwen3-235b-a22b | 74 | 中;V2 72.5%,空错误 99 条 | 可用,仍有 1 条中文残留 | 中高:2 / 8 | 复杂消息观察 |
| Alicloud@deepseek-v3 | 73 | 中低;V2 52.5%,空错误 171 条 | 语言纯净度最好,残留 0 | 中高:2 / 8 | 链路修复后重点观察 |
| inner@gemini-2.5-flash-lite | 70 | 中;V2 50% | 本轮无中文残留,需继续观察实体名 | 低:0.72 / 3.04 | 低成本候选 |
| fsBaseTencentmaas@deepseek-v4-flash | 70 | 中;V2 45%,仍有熔断 | 成功样本质量可用 | 低:1 / 2 | 低成本观察 |
| Doubao / Qwen3.5 Plus / Pro 系列 | 40-58 | 低 | 样本不足、中文残留或链路失败 | 不一 | 不进入主链路 |
六、模型决策:共用一套 vs 分场景路由
方案 A:三个场景共用一个国内模型 + 一个国外模型
说明:若“国外模型”必须优先低成本,可观察 Gemini Flash Lite,但它在实体名和术语一致性上不如 Azure 稳,不建议作为共用默认。
方案 B:三个场景分别配置国内模型 + 国外模型
| 场景 | 国内推荐 | 国外推荐 | 理由 |
|---|---|---|---|
| 翻译工作台 | Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite | DeepSeek V3 质量最好;Gemini Flash Lite 成本和速度优势明显,但需术语库。 |
| 数据级多语 | qwen3-235b-a22b / Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite | Qwen3 更保守,DeepSeek V3 术语更自然;Flash Lite 可做低成本候选,但实体名需保护。 |
| 企信 IM | Alicloud@deepseek-v3 / fsBaseTencentmaas@deepseek-v4-flash | azure04-gpt-4o-mini | Azure 是默认主模型;DeepSeek V3 语言纯净度最好但空错误多;Tencent Flash 成本低且有成功样本,但必须先解决熔断。 |
七、关键分析要点
稳定性
Round1 / Round2 大量失败主要来自 fs-apibus-global.fstest:8887 熔断,不能直接作为模型翻译质量差的证据。Round3 仍能看到企信 IM 的熔断更严重。
- 翻译工作台和数据级多语:小批量后可稳定横评。
- 企信 IM:成功率偏低主要是网关和模型链路问题。
翻译质量
三个场景的质量问题不完全相同:工作台关注术语,数据级多语关注实体名,企信关注自然表达和语义不反转。
- 公海 / 公海池 必须进入术语库。
- 企业名、项目名、产品名要区分翻译、音译、保留原文。
- 审批退回、回款、商机阶段等协作语义需要重点防错。
成本
豆包成本最低,但在正式多语资产和工作台配置文案里质量风险过高。Gemini Flash Lite 是更有价值的低成本候选。
- 豆包 Lite:0.3 / 0.6,适合低风险短文本观察。
- Gemini Flash Lite:0.72 / 3.04,低成本低延迟候选。
- DeepSeek V4 Pro / Gemini Pro 成本高且本轮稳定性不达标。
提示词 vs 代码侧
当前问题不应继续通过堆 Prompt 解决。企信 V2 已证明轻量 Prompt 加语言纯净度规则更合理;@人、URL、邮箱、编码保护已确认走代码侧,Prompt 只保留角色、场景、输出格式、语言纯净度和必要术语提示。
- 熔断和空错误信息:技术链路治理。
- 术语不一致:术语库治理。
- 自然度和语义:模型选择 + 少量 Prompt 收敛。
八、最终建议
| 决策问题 | 推荐结论 | 补充说明 |
|---|---|---|
| 是否继续用豆包旧端点做默认翻译模型? | 不建议 | 成本极低,但中文残留、混语、术语直译风险明显。 |
| 是否三个场景共用一套模型? | 短期可以 | 国内 DeepSeek V3 + 国外 Azure,能兼顾质量、稳定和配置复杂度。 |
| 是否最终要分场景路由? | 建议中期演进 | 企信 IM、工作台、数据级多语的质量目标不同,分场景会更合理。 |
| 企信 Prompt 是否继续改? | 保留 V2,少量收敛 | 当前 V2 已能压低中文残留,不建议恢复复杂保护规则。 |
| 下一步最该做什么? | 术语库 + 熔断治理 + 空错误排查 | 比继续扩 Prompt 更有效,尤其是公海、公海池、回款、商机、线索、工单,以及调试台空错误原因。 |