关于缓存与成本优化

什么是 Prompt Caching？

当请求里有大量固定前缀（如 system prompt、知识库、固定规则）时，模型可能缓存这部分内容。后续请求如果复用了相同前缀，就更容易命中缓存，从而减少延迟和输入成本。

模型类型	建议
Claude 系列	最适合长前缀、知识库问答、固定工作流
GPT / Gemini 系列	以实际模型能力和控制台说明为准，建议先小流量验证

固定前缀，把动态内容放在后面。

使用统一模板，避免多空格、不同标点等微小差异。

控制请求间隔，避免缓存过期。

复用同一模型和同类请求模式，便于获得稳定收益。

{
  "messages": [
    {"role": "system", "content": "【固定的系统提示词】"},
    {"role": "user", "content": "【用户的动态问题】"}
  ]
}

任务类型	推荐模型	成本级别
简单问答、分类	`claude-haiku-4-5-20251001` / `gpt-5-mini` / `gemini-2.5-flash`	低
日常对话、摘要	`claude-sonnet-4-20250514` / `gpt-4.1-mini`	中低
代码生成、分析	`claude-sonnet-4-20250514` / `gpt-4.1` / `gpt-4o`	中
复杂推理、创作	`claude-opus-4-5-20251101` / `claude-opus-4-1-20250805` / `gpt-5` / `gemini-2.5-pro`	高

合理控制 max_tokens，避免生成无用长回复。

精简 system prompt，减少每次输入 Token 成本。

若对缓存收益敏感，请优先在 Claude 系列上验证效果。