Gemini API 中的批量模式:以更低的成本处理更多内容

2025年7月7日
Lucia Loher Product Manager
Vishal Dharmadhikari Product Solutions Engineer

Gemini 模型现在可使用批量模式


今天,我们很高兴在 Gemini API 中引入批量模式,这是一个新异步端点,专为高吞吐量、对延迟时间不敏感的负载设计。通过Gemini API 批量模式,您可以提交大型作业,分流调度和处理,并在 24 小时内检索您的结果——与我们的同步 API 相比,实现这一切的成本减少了 50%


以更低的成本处理更多内容

如果您的任务已预先准备好数据且不需要立即响应,那么批量模式将是最理想的工具。通过将这些大型作业与实时流量分开,您可以解锁三大关键优势:

  • 更低的成本:批量作业的定价比给定模型的标准费率低 50%

  • 简单的 API 调用:无需管理复杂的客户端队列或重试逻辑,可用结果会在 24 小时内返回。


适用于大型作业的简单工作流程

我们将 API 设计得简单而直观。您可以将所有请求打包到一个文件中,提交文件,并在作业完成后检索结果。以下是开发者当前如何利用批量模式处理任务的一些例子:

  • 批量内容生成和处理:Reforged Labs 专注于深度视频理解,每月使用 Gemini 2.5 Pro 分析和标记大量视频广告。批量模式为该公司的运营带来了巨大变革,帮助公司大幅削减了成本,提升了向客户交付的速度,并获得了实现有意义的市场洞察需要的巨大可扩展性。
Bulk content generation and processing
  • 模型评估:VALS AI 对现实用例(包括法律、金融、税务和医疗保健)的基础模型进行基准测试。该公司目前使用批量模式提交大量评估查询,不再受限于速率限制。
Model evaluations

只需几行代码即可开始

您可以立即通过 Google GenAI Python SDK 开始使用批量模式:

#创建包含以下行的 JSONL:\ r
 #{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}},\ r
 #{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Explain how quantum computing works in a few words"}]}}}\ r
 
uploaded_batch_requests = client.files.upload (file = "batch_requests.json")\ r
 
batch_job = client.batches.create (\ r
    model = "gemini-2.5-flash",\ r
    src = uploaded_batch_requests.name,\ r
    config = {\ r
        'display_name': "batch_job-1",\ r
},\ r
)\ r
 
print (f "Created batch job:{batch_job.name}")\ r
 
#最多等待 24 小时\ r
 
if batch_job.state.name = = 'JOB_STATE_SUCCEEDED':\ r
    result_file_name = batch_job.dest.file_name\ r
    file_content_bytes = client.files.download (file = result_file_name)\ r
    file_content = file_content_bytes.decode ('utf-8')\ r
 
    for
      file_content.splitlines ():\ r (line)
Python

如需了解详情,请查看官方文档和定价页面。


我们将在今天和明天向所有用户推出 Gemini API 的批量模式。这只是批量处理的开始,后续我们将积极扩展相关功能,为大家提供更强大、更灵活的选项,敬请关注!