一、总览结论
二、测试模型与范围
本报告覆盖 11 个候选模型,测试场景包括翻译工作台、数据级多语、企信 IM。不同场景的最新有效批次不完全相同:翻译工作台以 Round3 40 条 Case 为主,数据级多语以最新 50 条 Case 为主,企信 IM 在 Round3 40 条 Case 基础上追加轻量 JSON Prompt 和 V2 语言纯净度回归测试。
| 模型编码 | 模型归类 | 内部成本口径 | 本报告中的定位 |
|---|---|---|---|
| azure04-gpt-4o-mini | 国外 / Azure OpenAI | 1.14 / 4.56 | 企信 IM 默认主模型;工作台和数据级多语稳定兜底。 |
| Alicloud@deepseek-v3 | 国内 / 阿里云 DeepSeek | 2 / 8 | 翻译工作台主推荐;数据级多语主候选;企信链路修复后重点观察。 |
| qwen3-235b-a22b | 国内 / Qwen | 2 / 8 | 数据级多语主候选;工作台稳定候选;企信复杂消息观察。 |
| Alicloud@qwen3.5-plus | 国内 / Qwen | 未进入推荐 | 多轮测试中主/降级失败较多,不进入当前主链路。 |
| inner@gemini-2.5-flash-lite | 国外 / Gemini | 0.72 / 3.04 | 工作台、数据级多语低成本低延迟候选;企信 V2 中重新纳入观察。 |
| inner@gemini-2.5-flash | 国外 / Gemini | 未进入推荐 | 本轮稳定性不足,暂不进入主链路。 |
| inner@gemini-2.5-pro | 国外 / Gemini | 高成本 | 稳定性和成本均不适合当前翻译默认链路。 |
| fsBaseTencentmaas@deepseek-v4-flash | 国内 / 腾讯 DeepSeek | 1 / 2 | 企信 IM 低成本观察模型,成功样本可用但熔断仍多。 |
| fsBaseTencentmaas@deepseek-v4-pro | 国内 / 腾讯 DeepSeek | 高成本 | 本轮有成功样本但耗时高、空错误多,不作为默认候选。 |
| ep-20250311151306-7drx4 | 国内 / 豆包旧端点 | 0.3 / 0.6 | 成本最低,但中文残留、混语和术语风险明显,不建议正式默认。 |
| ep-20251211140918-zhfhg | 国内 / 豆包新端点 | 0.8 / 2 | 部分场景可观察,但稳定性和质量不足以进入默认主链路。 |
三、评分口径
评分用于辅助决策,不是绝对质量分。Round1 / Round2 大量熔断结果主要作为稳定性背景;Round3 和 9 语种小批量结果用于判断模型质量。
| 维度 | 权重 | 判断方式 |
|---|---|---|
| 翻译质量 | 45% | CRM 术语、实体名、语义准确、自然表达、是否中文残留或语义反转。 |
| 调用稳定性 | 30% | 成功率、空值、熔断、主/降级链路失败。企信 IM 对该项要求最高。 |
| 成本 | 15% | 按企业内部每百万 Token 输入/输出成本口径判断。 |
| 性能 | 10% | 平均耗时和 P95 耗时。高频 IM 更敏感。 |
四、三场景最新核心表现
本节不是三轮结果的简单平均,而是按各场景“最新有效测试结果”呈现模型表现。Round1 / Round2 不忽略,主要用于判断空值、熔断、降级失败和提示词结构问题;模型质量排序以最新小批量稳定测试为主。
翻译工作台 主模型明确
Round3 成功率 60.68%。可用模型中 Alicloud@deepseek-v3、Gemini Flash Lite、Qwen3-235B 均 100% 成功。
- 前两轮价值:确认大量失败主要来自调用熔断、空值和降级链路,不直接等同于模型翻译质量差。
- 首推:Alicloud@deepseek-v3,CRM 配置文案和术语更自然。
- 低成本候选:inner@gemini-2.5-flash-lite,速度最快、成本低。
- 主要风险:公海 / 公海池 被翻成 Public Sea / Open Sea。
数据级多语 双主候选
最新 50 条 Case 成功率 63.45%。模型质量的核心差异在实体名和业务数据是否被过度翻译。
- 主候选:Alicloud@deepseek-v3,CRM 术语更自然。
- 主候选:qwen3-235b-a22b,稳定、少中文残留。
- 低成本候选:Gemini Flash Lite,但企业名误识别风险高。
企信 IM Prompt 已收敛
Round3 成功率 22.95%;轻量 Prompt 提升到 29.09%;V2 增加语言纯净度后提升到 33.41%,且中文残留从 12 条降到 7 条。
- 默认模型:azure04-gpt-4o-mini,V2 下中文残留降为 0。
- Prompt 方向:保留轻量 JSON + 语言纯净度规则,不恢复复杂保护规则。
- 主要风险:空错误、熔断和术语不一致仍需技术链路与术语库治理。
五、企信 Prompt 迭代验证
企信单独追加了两轮 Prompt 回归,用来验证成功率偏低是否可能由提示词复杂度造成。结果显示:Prompt 确实有影响,但不是唯一主因;V2 更适合作为后续企信调试台 Prompt。
| 测试版本 | 成功率 | 中文残留 | 关键判断 |
|---|---|---|---|
| 旧版企信 Round3 Prompt | 22.95% | 1 条 | 失败主要来自熔断和空错误,不能直接判定模型翻译质量差。 |
| 轻量 JSON Prompt | 29.09% | 12 条 | 成功率提升,说明降低 Prompt 复杂度有效;但语言纯净度回退。 |
| 轻量 JSON + 语言纯净度 V2 | 33.41% | 7 条 | 在保持轻量的同时修复部分中文残留,Azure 残留从 3 条降为 0。 |
Prompt 结论
V2 是当前更合理的企信调试台 Prompt:只保留角色、企信工作沟通场景、JSON 输出格式和目标语言纯净度要求。@人、URL、邮箱、编码保护不再放进 Prompt,继续交给代码侧处理。
归因边界
V2 的总成功率提升不能全部归因于 Prompt。Gemini Flash Lite、Tencent DeepSeek V4 Flash / Pro 本轮恢复部分成功,拉高了整体成功率;同时 Azure、Qwen3、Alicloud DeepSeek V3 仍受到熔断和空错误影响。
六、场景内模型评分
翻译工作台
| 模型 | 综合分 | 稳定性 | 质量 | 成本 | 结论 |
|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 88 | 高 | CRM 术语最稳 | 中高:2 / 8 | 默认主模型 |
| inner@gemini-2.5-flash-lite | 84 | 高 | 常规文案可用,公海需术语库 | 低:0.72 / 3.04 | 低成本候选 |
| qwen3-235b-a22b | 80 | 高 | 稳定但公海直译偏多 | 中高:2 / 8 | 稳定候选 |
| azure04-gpt-4o-mini | 76 | 中高 | 可用,偶有熔断 | 中:1.14 / 4.56 | 兜底 |
| Doubao-Seed / Doubao Lite | 66 | 高 | 中文残留和术语直译风险 | 极低 / 低 | 非关键文本观察 |
数据级多语
| 模型 | 综合分 | 稳定性 | 质量 | 成本 | 结论 |
|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 87 | 高 | CRM 术语自然 | 中高:2 / 8 | 主候选 |
| qwen3-235b-a22b | 86 | 高 | 实体名较保守,无明显残留 | 中高:2 / 8 | 主候选 |
| inner@gemini-2.5-flash-lite | 80 | 高 | 速度好,但企业名误识别 | 低:0.72 / 3.04 | 低成本候选 |
| azure04-gpt-4o-mini | 78 | 中高 | 可用,实体名本地化风险 | 中:1.14 / 4.56 | 稳定兜底 |
| Doubao Lite | 62 | 高 | 小语种混杂、中文残留 | 极低:0.3 / 0.6 | 不适合正式资产 |
企信 IM
| 模型 | 综合分 | 稳定性 | 质量 | 成本 | 结论 |
|---|---|---|---|---|---|
| azure04-gpt-4o-mini | 87 | 高;V2 85%,主要受 HALF_OPEN 影响 | 自然,V2 中文残留 0 | 中:1.14 / 4.56 | 默认主模型 |
| qwen3-235b-a22b | 74 | 中;V2 72.5%,空错误 99 条 | 可用,仍有 1 条中文残留 | 中高:2 / 8 | 复杂消息观察 |
| Alicloud@deepseek-v3 | 73 | 中低;V2 52.5%,空错误 171 条 | 语言纯净度最好,残留 0 | 中高:2 / 8 | 链路修复后重点观察 |
| inner@gemini-2.5-flash-lite | 70 | 中;V2 50% | 本轮无中文残留,需继续观察实体名 | 低:0.72 / 3.04 | 低成本候选 |
| fsBaseTencentmaas@deepseek-v4-flash | 70 | 中;V2 45%,仍有熔断 | 成功样本质量可用 | 低:1 / 2 | 低成本观察 |
| Doubao / Qwen3.5 Plus / Pro 系列 | 40-58 | 低 | 样本不足、中文残留或链路失败 | 不一 | 不进入主链路 |
七、模型决策:共用一套 vs 分场景路由
方案 A:三个场景共用一个国内模型 + 一个国外模型
说明:若“国外模型”必须优先低成本,可观察 Gemini Flash Lite,但它在实体名和术语一致性上不如 Azure 稳,不建议作为共用默认。
方案 B:三个场景分别配置国内模型 + 国外模型
| 场景 | 国内推荐 | 国外推荐 | 理由 |
|---|---|---|---|
| 翻译工作台 | Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite | DeepSeek V3 质量最好;Gemini Flash Lite 成本和速度优势明显,但需术语库。 |
| 数据级多语 | qwen3-235b-a22b / Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite | Qwen3 更保守,DeepSeek V3 术语更自然;Flash Lite 可做低成本候选,但实体名需保护。 |
| 企信 IM | Alicloud@deepseek-v3 / fsBaseTencentmaas@deepseek-v4-flash | azure04-gpt-4o-mini | Azure 是默认主模型;DeepSeek V3 语言纯净度最好但空错误多;Tencent Flash 成本低且有成功样本,但必须先解决熔断。 |
八、关键分析要点
稳定性
Round1 / Round2 大量失败主要来自 fs-apibus-global.fstest:8887 熔断,不能直接作为模型翻译质量差的证据。Round3 仍能看到企信 IM 的熔断更严重。
- 翻译工作台和数据级多语:小批量后可稳定横评。
- 企信 IM:成功率偏低主要是网关和模型链路问题。
翻译质量
三个场景的质量问题不完全相同:工作台关注术语,数据级多语关注实体名,企信关注自然表达和语义不反转。
- 公海 / 公海池 必须进入术语库。
- 企业名、项目名、产品名要区分翻译、音译、保留原文。
- 审批退回、回款、商机阶段等协作语义需要重点防错。
成本
豆包成本最低,但在正式多语资产和工作台配置文案里质量风险过高。Gemini Flash Lite 是更有价值的低成本候选。
- 豆包 Lite:0.3 / 0.6,适合低风险短文本观察。
- Gemini Flash Lite:0.72 / 3.04,低成本低延迟候选。
- DeepSeek V4 Pro / Gemini Pro 成本高且本轮稳定性不达标。
提示词 vs 代码侧
当前问题不应继续通过堆 Prompt 解决。企信 V2 已证明轻量 Prompt 加语言纯净度规则更合理;@人、URL、邮箱、编码保护已确认走代码侧,Prompt 只保留角色、场景、输出格式、语言纯净度和必要术语提示。
- 熔断和空错误信息:技术链路治理。
- 术语不一致:术语库治理。
- 自然度和语义:模型选择 + 少量 Prompt 收敛。
九、最终建议
| 决策问题 | 推荐结论 | 补充说明 |
|---|---|---|
| 是否继续用豆包旧端点做默认翻译模型? | 不建议 | 成本极低,但中文残留、混语、术语直译风险明显。 |
| 是否三个场景共用一套模型? | 短期可以 | 国内 DeepSeek V3 + 国外 Azure,能兼顾质量、稳定和配置复杂度。 |
| 是否最终要分场景路由? | 建议中期演进 | 企信 IM、工作台、数据级多语的质量目标不同,分场景会更合理。 |
| 企信 Prompt 是否继续改? | 保留 V2,少量收敛 | 当前 V2 已能压低中文残留,不建议恢复复杂保护规则。 |
| 下一步最该做什么? | 术语库 + 熔断治理 + 空错误排查 | 比继续扩 Prompt 更有效,尤其是公海、公海池、回款、商机、线索、工单,以及调试台空错误原因。 |