一、最终结论
共用模型方案 推荐
如果三个场景共用一组模型:
- 国内模型:Alicloud@deepseek-v3
- 国外模型:azure04-gpt-4o-mini
分场景方案 中期演进
| 场景 | 国内模型 | 国外模型 |
|---|---|---|
| 翻译工作台 | Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite |
| 数据级多语 | Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite |
| 企信 IM | qwen3-235b-a22b | azure04-gpt-4o-mini |
合规与成本 关键约束
- 海外云租户应走国外模型链路。
- 国内租户可走国内模型链路。
- 原豆包旧端点约 163 元/月;国内 DeepSeek V3 + 国外 Azure 按 50/50 混合约 947 元/月,折算有效平均约 1.84 元/百万总 token。
二、模型范围与未纳入说明
本次主测聚焦“翻译主链路候选”,不是平台内全部大模型普查。候选模型需要同时满足:可被当前翻译调试台稳定调用、可输出多语 JSON、具备 CRM / PaaS / IM 场景翻译能力,并且有明确内部成本口径。
| 模型编码 | 归类 | 内部成本:输入 / 输出 / 合计,元/百万 Token | 最终定位 |
|---|---|---|---|
| Alicloud@deepseek-v3 | 国内 / 阿里云 DeepSeek | 2 / 8 / 10 | 国内共用首选;工作台和数据级多语首选;企信国内质量候选。 |
| qwen3-235b-a22b | 国内 / Qwen | 2 / 8 / 10 | 数据级多语国内候选;企信国内优先候选。 |
| azure04-gpt-4o-mini | 国外 / Azure OpenAI | 1.14 / 4.56 / 5.70 | 国外共用首选;企信 IM 稳定性首选。 |
| inner@gemini-2.5-flash-lite | 国外 / Gemini | 0.72 / 3.04 / 3.76 | 海外低成本低延迟候选;工作台、数据级多语和企信均可观察。 |
| ep-20250311151306-7drx4 | 国内 / 豆包旧端点 | 0.3 / 0.6 / 0.9 | 成本最低,但中文残留和术语直译风险高,不建议默认。 |
| ep-20251211140918-zhfhg | 国内 / 豆包新端点 | 0.8 / 2 / 2.8 | 低成本观察,不进入最终主链路。 |
| inner@gemini-2.5-pro | 国外 / Gemini | 高成本 | 多轮全失败或稳定性不达标,不推荐。 |
| 平台内可用但未进主候选的模型 | 原因 |
|---|---|
| MiniMax M2.7 / M2.5 | 在当前链路中更多体现为降级或高性能通用模型,不是翻译主链路候选;历史错误里出现过主模型与 MiniMax 降级模型同时失败,说明不适合作为本轮稳定基线。后续如要验证,可单独做 20 条探索集。 |
| GLM / 智谱相关模型 | 部分配置存在重定向或视觉模型用途,不具备本轮可独立横评的稳定翻译链路;因此没有纳入最终候选队列。 |
| Tencent DeepSeek V4 Flash / Pro | 早期进入过观察,但在不同 Prompt 下熔断波动较大;Flash 可低成本观察,Pro 成本和稳定性均不适合作为默认翻译链路。 |
| Qwen3.5 Plus | 多轮出现主/降级链路失败,当前不进入默认模型推荐。 |
三、测试过程与归因
前期多轮测试不是无效数据,但它们不适合作为最终模型排序的直接依据。它们的价值在于暴露问题并指导后续测试设计:降低并发噪声、拆分国内/国外模型、拆分 Prompt 收敛与模型横评、补足高风险 Case。
| 阶段 | 主要目的 | 暴露问题 | 阶段经验 / 对后续测试的影响 | 为什么不作为最终复核结论 |
|---|---|---|---|---|
| Round1 / Round2 大批量测试 | 快速拉通调试台、观察模型可用性。 | 大量 `OPEN / HALF_OPEN` 熔断、空错误、降级链路失败。 | 后续不能用大并发全模型混跑直接判断质量;需要缩小语种、缩小模型范围,并把错误码和空错误单独归因。技术侧后续加大模型调用延迟,也有助于降低短时间高频调用导致的高并发熔断效应。 | 调用链路噪声过大,无法区分模型质量和网关稳定性。 |
| 40 / 50 条小批量测试 | 缩小 Case 与语种范围,初步比较质量、性能和成本。 | 工作台与数据级多语开始收敛,但企信仍受链路和 Prompt 复杂度影响。 | 证明“小样本 + 核心语种 + 候选模型”更适合横评;同时沉淀出公海、回款、商机、实体名等高风险 Case,应进入最终 100 条。 | 样本覆盖还不完整,适合作为方向判断,不适合最终对外背书。 |
| 企信 Prompt 多轮回归 | 验证企信成功率低是否由 Prompt 造成,并验证变量放在 System Prompt 还是 User Prompt 对稳定性的影响。 | 复杂保护规则会降低 JSON 成功率;纯极简又会带回术语和表达风险。变量、Case 内容、业务提示和长度上限频繁变化时,放在 System Prompt 会让系统提示词不断变化。 | Prompt 应收敛为“角色 + 场景 + 通用业务语义底线 + 输出格式”;@人、URL、邮箱、编码保护交给代码侧,不继续堆长规则。System Prompt 保持稳定,只承载角色、场景、质量底线和输出格式;变化型变量尽量放在 User Prompt。 | 这是 Prompt 收敛和结构设计经验,不是最终横评样本。 |
| 最终 100 条复核 | 冻结 Prompt、冻结 Case、冻结核心语种和候选模型。 | 工作台和数据级多语结果稳定;企信仍需关注空错误和低并发稳定性。 | 作为最终汇报主依据;同时发现企信需要进一步拆成国外模型补测和国内模型补测,后两份聚焦补测权重更高。 | 作为最终汇报主依据。 |
| 企信聚焦补测 | 分别验证国外候选和国内候选。 | Gemini Flash Lite 在聚焦补测中 100%;Qwen3 国内再补测 89%,DeepSeek V3 84%。 | 企信模型排序应以后两份聚焦补测为主,弱化早期 7 模型混跑中熔断造成的低成功率。 | 纳入最终结论,权重高于企信早期混跑结果。 |
四、最终复核数据总览
最终复核将历史多轮调试结果收敛为固定 Prompt、固定 100 条 Case、固定核心语种和候选模型。历史 Round1 / Round2 / Round3 不再直接参与平均分,只用于说明链路熔断、Prompt 复杂度和质量风险的来源。
| 场景 | 最终数据文件 | 测试规模 | 整体成功率 | 核心判断 |
|---|---|---|---|---|
| 翻译工作台 | prompt_playground_excel_result (24).xlsx | 100 Case × 9 语种 × 7 模型,6,300 行 | 84.84% | 成功率和质量均已明显收敛,可作为最终主依据。 |
| 数据级多语 | prompt_playground_excel_result (23).xlsx | 100 Case × 9 语种 × 7 模型,6,300 行 | 84.27% | 模型成功率可用,实体名一致性仍需术语库/映射治理。 |
| 企信 IM | prompt_playground_excel_result (22).xlsx | 100 Case × 9 语种 × 7 模型,6,300 行 | 52.56% | 以关闭代理后的标准测试为准;整体被部分模型空错误和熔断拉低。 |
| 企信候选补测 | prompt_playground_excel_result (25).xlsx | 100 Case × 9 语种 × 3 模型,2,700 行 | 83.67% | Gemini Flash Lite 900/900 全成功,证明低成本海外候选有参考价值。 |
| 企信国内模型再补测 | prompt_playground_excel_result (26).xlsx | 100 Case × 9 语种 × 2 模型,1,800 行 | 86.50% | Qwen3 成功率 89%,DeepSeek V3 成功率 84%,国内模型稳定性进一步恢复。 |
五、三场景核心表现
翻译工作台 主模型明确
最终 100 条成功率 84.84%。可用模型中 Alicloud@deepseek-v3、qwen3-235b-a22b、inner@gemini-2.5-flash-lite 均达到 100%。
- 国内首选:Alicloud@deepseek-v3,CRM 配置文案和术语更自然。
- 国外首选:inner@gemini-2.5-flash-lite,低成本低延迟;若要更稳可用 Azure 兜底。
- 质量风险:公海 / 公海池 仍需术语库固定,不能只靠 Prompt。
数据级多语 双主候选
最终 100 条成功率 84.27%。qwen3-235b-a22b 和 inner@gemini-2.5-flash-lite 为 100%,Alicloud@deepseek-v3 为 99%。
- 国内首选:Alicloud@deepseek-v3;备选 qwen3-235b-a22b。
- 国外首选:inner@gemini-2.5-flash-lite,成本和速度最优。
- 质量风险:企业名、产品名、项目名会被模型知识化处理,需实体映射。
企信 IM 链路影响最大
企信早期 7 模型混跑总成功率 52.56%,但受空错误和熔断影响较大。最终判断以后两份聚焦补测为主:Gemini Flash Lite 900/900 全成功;国内再补测中 Qwen3 成功率 89%,DeepSeek V3 成功率 84%。
- 国外首选:azure04-gpt-4o-mini,最终标准测试成功率 94%。
- 低成本海外候选:inner@gemini-2.5-flash-lite,补测 100%。
- 国内优先:qwen3-235b-a22b,成功率更高;质量候选:Alicloud@deepseek-v3,语言纯净度更好。
六、企信标准环境结果
企信 IM 的模型排序不再主要依赖早期 7 模型混跑结果,而是以后两份聚焦补测为主:国外候选看 Gemini Flash Lite 与 Azure 的稳定表现,国内候选看 Qwen3 与 DeepSeek V3 的再次补测。早期混跑结果主要用于识别链路噪声和空错误。
| 模型 | 早期混跑结果 | 聚焦补测结果 | 最终权重判断 |
|---|---|---|---|
| azure04-gpt-4o-mini | 94.00% | 未单独补测,但多轮稳定在 94%-95% | 企信国外默认主模型,稳定性最好。 |
| inner@gemini-2.5-flash-lite | 24.00% | 100.00%,900/900 全成功 | 早期低分主要受混跑熔断影响;作为国外低成本低延迟候选。 |
| qwen3-235b-a22b | 83.00% | 89.00% | 企信国内优先候选,成功率最高;仍需通过术语库控制 `business opportunity` 和少量中文残留。 |
| Alicloud@deepseek-v3 | 76.00% | 84.00% | 企信国内质量候选,成功样本更干净;本轮未发现真实非目标语言中文残留。 |
七、场景内模型评分
评分用于辅助决策,不是简单按成功率排序。综合分由四个维度组成:翻译质量 45%、调用稳定性 30%、成本 15%、性能 10%。其中质量是权重最高的维度,重点看 CRM/PaaS/IM 术语、语义准确、语言纯净度、实体名处理和自然表达。P95 表示按耗时从低到高排序后,第 95% 位置上的耗时值,也就是 95% 的请求耗时不超过该值。它不是最高耗时,也不是去掉极值后的平均值,而是一个高分位阈值。
| 评分维度 | 权重 | 主要判断内容 |
|---|---|---|
| 翻译质量 | 45% | 业务术语是否准确、语义是否反转、目标语言是否纯净、实体名是否过度翻译、表达是否自然。 |
| 调用稳定性 | 30% | 成功率、空错误、熔断、降级失败、是否容易受并发或链路波动影响。 |
| 成本 | 15% | 按企业内部每百万 Token 输入/输出单价和近 30 天消耗估算。 |
| 性能 | 10% | 平均耗时、P95 耗时。P95 不是最高耗时,也不是平均值,而是 95% 请求都能控制在该耗时以内的阈值。 |
历史熔断轮次只作为稳定性背景,不做简单平均;企信 IM 评分主要参考后两份聚焦补测。
翻译工作台
| 模型 | 综合分 | 质量 | 最终成功率 | 性能 | 成本 | 结论 |
|---|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 90 | CRM 术语最稳,配置文案自然。 | 100.00% | 均值 5.12s,P95 6.64s | 2 / 8 / 10 | 国内默认主模型。 |
| inner@gemini-2.5-flash-lite | 86 | 常规 UI 文案可用,需术语库兜底。 | 100.00% | 均值 4.54s,P95 5.30s | 0.72 / 3.04 / 3.76 | 海外默认模型。 |
| qwen3-235b-a22b | 82 | 稳定但术语自然度略弱。 | 100.00% | 均值 4.91s,P95 7.18s | 2 / 8 / 10 | 稳定候选。 |
| azure04-gpt-4o-mini | 78 | 可用,但公海等 CRM 词需兜底。 | 93.89% | 均值 5.22s,P95 7.89s | 1.14 / 4.56 / 5.70 | 海外兜底。 |
数据级多语
| 模型 | 综合分 | 质量 | 最终成功率 | 性能 | 成本 | 结论 |
|---|---|---|---|---|---|---|
| Alicloud@deepseek-v3 | 89 | CRM 词自然,业务数据语义更稳。 | 99.00% | 均值 5.74s,P95 7.48s | 2 / 8 / 10 | 国内首选。 |
| qwen3-235b-a22b | 87 | 实体名较保守,稳定性强。 | 100.00% | 均值 5.35s,P95 7.80s | 2 / 8 / 10 | 国内备选。 |
| inner@gemini-2.5-flash-lite | 84 | 速度成本好,但企业名需映射兜底。 | 100.00% | 均值 4.53s,P95 5.35s | 0.72 / 3.04 / 3.76 | 海外默认模型。 |
| azure04-gpt-4o-mini | 77 | 可用,实体名本地化风险更高。 | 91.00% | 均值 5.46s,P95 7.86s | 1.14 / 4.56 / 5.70 | 海外兜底。 |
企信 IM
| 模型 | 综合分 | 质量 | 最终成功率 | 性能 | 成本 | 结论 |
|---|---|---|---|---|---|---|
| azure04-gpt-4o-mini | 89 | 表达自然,稳定,适合 IM 默认链路。 | 多轮 94%-95% | 均值 6.23s,P95 7.89s | 1.14 / 4.56 / 5.70 | 海外默认主模型。 |
| inner@gemini-2.5-flash-lite | 87 | 速度快,成本低;英文表达需抽检。 | 聚焦补测 100.00% | 均值 4.60s,P95 5.38s | 0.72 / 3.04 / 3.76 | 海外低成本候选。 |
| qwen3-235b-a22b | 84 | 成功率最高,但有少量中文残留和 business opportunity 风险。 | 国内聚焦补测 89.00% | 均值 8.05s,P95 9.82s | 2 / 8 / 10 | 企信国内默认模型。 |
| Alicloud@deepseek-v3 | 81 | 语言纯净度更好,成功样本质量更干净。 | 国内聚焦补测 84.00% | 均值 8.36s,P95 9.81s | 2 / 8 / 10 | 企信国内质量候选。 |
八、月度成本估算
月度费用按数据平台近 30 天、business=translate 的 token 消耗估算。图中展示执行总 tokens 为 513,254,864,输入总 tokens 为 483,335,708;输出 tokens 未单独展示,本报告按“执行总 tokens - 输入总 tokens”推算为 29,919,156。执行总算粒为 6,154 次,平均每次约 83,402 tokens。
| 模型 | 输入价 | 输出价 | 按近 30 天消耗估算月费用 | 成本判断 |
|---|---|---|---|---|
| Alicloud@deepseek-v3 | 2 | 8 | 约 1,206.02 元 / 月 | 质量主模型,成本中高。 |
| qwen3-235b-a22b | 2 | 8 | 约 1,206.02 元 / 月 | 与 DeepSeek V3 同价。 |
| azure04-gpt-4o-mini | 1.14 | 4.56 | 约 687.43 元 / 月 | 国外默认模型,成本中等。 |
| inner@gemini-2.5-flash-lite | 0.72 | 3.04 | 约 438.96 元 / 月 | 国外低成本低延迟候选。 |
| ep-20250311151306-7drx4 | 0.3 | 0.6 | 约 162.95 元 / 月 | 最低成本,但质量风险高。 |
| ep-20251211140918-zhfhg | 0.8 | 2 | 约 446.51 元 / 月 | 低成本观察,不进入主链路。 |
| 路由方案 | 费用估算方式 | 月费用示例 | 说明 |
|---|---|---|---|
| 原豆包旧端点 | 100% 流量走豆包旧端点 | 约 162.95 元 / 月;约 0.32 元 / 百万 token | 历史成本最低,但质量和术语风险明显。 |
| 国内全量 DeepSeek V3 | 100% 流量走 Alicloud@deepseek-v3 | 约 1,206.02 元 / 月;折算有效平均约 2.35 元 / 百万总 token | 标价口径为输入 2、输出 8;由于近 30 天输入占比高,按实际输入/输出结构折算后低于 10 元。 |
| 国外全量 Azure | 100% 流量走 azure04-gpt-4o-mini | 约 687.43 元 / 月 | 海外云租户合规链路的稳妥方案。 |
| 国外全量 Gemini Flash Lite | 100% 流量走 inner@gemini-2.5-flash-lite | 约 438.96 元 / 月 | 海外低成本方案,但需结合术语和实体映射验证。 |
| 国内 DeepSeek V3 + 国外 Azure | 按国内/国外 50/50 混合估算 | 约 946.73 元 / 月;折算有效平均约 1.84 元 / 百万总 token | 这是按近 30 天输入/输出 token 结构折算出的有效平均成本,不是模型标价。实际费用会随国内/海外租户占比变化。 |
说明:模型“输入价 + 输出价”的合计是单价口径,不等于每百万总 token 的真实平均成本。真实估算要按输入 token 和输出 token 分别计费。本次近 30 天输入 token 483,335,708、输出 token 29,919,156,输入占比高,因此 DeepSeek V3 的有效平均成本约为 2.35 元/百万总 token,而不是 10 元/百万总 token。
九、模型路由建议
方案 A:三个场景共用一组国内 + 国外模型
如果海外租户更敏感于成本和延迟,可将 inner@gemini-2.5-flash-lite 作为海外低成本模式,但默认主链路仍建议先用 Azure。
方案 B:三个场景分别配置国内 + 国外模型
| 场景 | 国内模型 | 国外模型 | 推荐口径 |
|---|---|---|---|
| 翻译工作台 | Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite | 国内用 DeepSeek V3 保证术语质量;海外用 Flash Lite 降成本和延迟。 |
| 数据级多语 | Alicloud@deepseek-v3 | inner@gemini-2.5-flash-lite | 国内质量优先 DeepSeek V3;海外用 Flash Lite,但实体名需映射兜底。 |
| 企信 IM | qwen3-235b-a22b | azure04-gpt-4o-mini | 企信国内优先 Qwen3;海外默认 Azure,稳定性最好。 |
十、Prompt 与质量治理结论
Prompt 已经不宜继续加重
企信多轮验证说明,复杂保护规则会降低 JSON 成功率;纯极简又会带回 Public Sea、repayment、feedbacked 等质量风险。当前最合理的结构是:角色 + 场景 + 通用业务语义底线 + 输出格式。
术语和实体不能全靠模型
工作台的公海/公海池、回款、商机,数据级多语的企业名和产品名,都应进入术语库、实体映射或代码侧预处理。Prompt 负责方向,不负责承载所有业务规则。
| 问题类型 | 推荐治理方式 | 说明 |
|---|---|---|
| 公海 / 公海池 被译为海域 | 术语库 | 建议固定为 Customer Pool / Public Pool 等业务语义,不让模型自由发挥。 |
| 企业名 / 产品名被知识化改写 | 实体映射 | 数据级多语最明显,Prompt 无法完全保证一致。 |
| @人、URL、邮箱、编码保护 | 代码侧处理 | 这部分已确认不再交给大模型承担。 |
| 熔断、空错误、降级失败 | 模型网关与调用链路治理 | 不应归因为翻译质量问题;调试台需补错误码和 requestId。 |
十一、对外汇报口径
| 问题 | 建议回答 |
|---|---|
| 为什么不直接用历史三轮平均? | 历史轮次 Prompt、Case、语种、模型和网络状态都不一致,简单平均会放大噪声。最终报告采用固定 100 条复核作为主依据,历史轮次用于归因和风险识别。 |
| 为什么必须分国内/国外模型? | 国内租户和海外云租户的数据部署区域不同。海外租户应通过海外模型链路调用,避免跨境合规风险;国内租户可使用国内模型链路。 |
| 为什么不是最低成本豆包? | 豆包成本最低,但在正式多语资产中中文残留、混语和 CRM 术语直译风险更高。低成本不能替代质量和稳定性。 |
| MiniMax / GLM 为什么没测? | 本轮是翻译主链路选型,不是全模型普查。MiniMax 更像降级/通用链路,GLM 当前没有形成独立稳定翻译链路。可后续单独做探索性小样本验证。 |
| 下一步上线前还要做什么? | 按最终 Prompt 和 100 条 Case 做一次低并发复跑;同时补齐术语库、实体映射、网关错误码和空错误排查。 |