1. 引言
AIone API
  • 引言
    • 快速开始
    • 认证方式
    • 错误码说明
    • 定价说明
    • 联系我们
    • 服务质量保障
    • 完整请求案例
    • 关于缓存与成本优化
    • 模型质量监控与保障
    • 关于模型真实性验证
    • 在IDE中使用AIone
    • 网络与连接说明
    • 模型命名与兼容规则
    • Gemini 图片生成
  • 聊天(Chat)
    • 基础文本对话
      POST
    • 流式响应
      POST
  • 模型(Models)
    • 获取模型列表
      GET
    • List Models
      GET
  • API Key 管理
    • List Keys
      GET
    • Create Key
      POST
    • Get Key
      GET
    • Update Key
      PUT
    • Delete Key
      DELETE
    • Rotate Key
      PUT
    • Disable Key
      PUT
    • Enable Key
      PUT
  • 用量统计
    • Query Usage
    • Get Dashboard
  • 账单
    • Get Current Plan
    • Get Billing Account
    • List Invoices
  • 数据模型
    • HTTPValidationError
    • DashboardResponse
    • KeyCreateRequest
    • KeyListResponse
    • PlanDetailResponse
    • ModelListResponse
    • KeyResponse
    • InvoiceListResponse
    • KeyRotateResponse
    • BillingAccountResponse
    • UsageRow
    • KeyUpdateRequest
    • ValidationError
    • TechDashboardData
    • ModelInfo
    • BusinessDashboardData
    • DailyTrend
    • TeamCostItem
    • ModelDistribution
  1. 引言

关于缓存与成本优化

关于缓存与成本优化#

什么是 Prompt Caching?#

当请求里有大量固定前缀(如 system prompt、知识库、固定规则)时,模型可能缓存这部分内容。后续请求如果复用了相同前缀,就更容易命中缓存,从而减少延迟和输入成本。

适用建议#

模型类型建议
Claude 系列最适合长前缀、知识库问答、固定工作流
GPT / Gemini 系列以实际模型能力和控制台说明为准,建议先小流量验证

提升命中率的方法#

1.
固定前缀,把动态内容放在后面。
2.
使用统一模板,避免多空格、不同标点等微小差异。
3.
控制请求间隔,避免缓存过期。
4.
复用同一模型和同类请求模式,便于获得稳定收益。
{
  "messages": [
    {"role": "system", "content": "【固定的系统提示词】"},
    {"role": "user", "content": "【用户的动态问题】"}
  ]
}

其他成本优化建议#

任务类型推荐模型成本级别
简单问答、分类claude-haiku-4-5-20251001 / gpt-5-mini / gemini-2.5-flash低
日常对话、摘要claude-sonnet-4-20250514 / gpt-4.1-mini中低
代码生成、分析claude-sonnet-4-20250514 / gpt-4.1 / gpt-4o中
复杂推理、创作claude-opus-4-5-20251101 / claude-opus-4-1-20250805 / gpt-5 / gemini-2.5-pro高

额外建议#

合理控制 max_tokens,避免生成无用长回复。
精简 system prompt,减少每次输入 Token 成本。
若对缓存收益敏感,请优先在 Claude 系列上验证效果。
修改于 2026-04-01 15:23:37
上一页
完整请求案例
下一页
模型质量监控与保障
Built with