Gemini API 中的批量模式：以更低的成本处理更多内容

2025年7月7日

Lucia Loher Product Manager

Vishal Dharmadhikari Product Solutions Engineer

Gemini 模型现在可使用批量模式

今天，我们很高兴在 Gemini API 中引入批量模式，这是一个新异步端点，专为高吞吐量、对延迟时间不敏感的负载设计。通过Gemini API 批量模式，您可以提交大型作业，分流调度和处理，并在 24 小时内检索您的结果——与我们的同步 API 相比，实现这一切的成本减少了 50%。

以更低的成本处理更多内容

如果您的任务已预先准备好数据且不需要立即响应，那么批量模式将是最理想的工具。通过将这些大型作业与实时流量分开，您可以解锁三大关键优势：

更低的成本：批量作业的定价比给定模型的标准费率低 50%

更高的吞吐量：批量模式的速率限制更宽松

简单的 API 调用：无需管理复杂的客户端队列或重试逻辑，可用结果会在 24 小时内返回。

适用于大型作业的简单工作流程

我们将 API 设计得简单而直观。您可以将所有请求打包到一个文件中，提交文件，并在作业完成后检索结果。以下是开发者当前如何利用批量模式处理任务的一些例子：

批量内容生成和处理：Reforged Labs 专注于深度视频理解，每月使用 Gemini 2.5 Pro 分析和标记大量视频广告。批量模式为该公司的运营带来了巨大变革，帮助公司大幅削减了成本，提升了向客户交付的速度，并获得了实现有意义的市场洞察需要的巨大可扩展性。

模型评估：VALS AI 对现实用例（包括法律、金融、税务和医疗保健）的基础模型进行基准测试。该公司目前使用批量模式提交大量评估查询，不再受限于速率限制。

只需几行代码即可开始

您可以立即通过 Google GenAI Python SDK 开始使用批量模式：

#创建包含以下行的 JSONL：\ r
 #{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}},\ r
 #{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Explain how quantum computing works in a few words"}]}}}\ r
 
uploaded_batch_requests = client.files.upload (file = "batch_requests.json")\ r
 
batch_job = client.batches.create (\ r
    model = "gemini-2.5-flash",\ r
    src = uploaded_batch_requests.name,\ r
    config = {\ r
        'display_name': "batch_job-1",\ r
},\ r
)\ r
 
print (f "Created batch job:{batch_job.name}")\ r
 
#最多等待 24 小时\ r
 
if batch_job.state.name = = 'JOB_STATE_SUCCEEDED':\ r
    result_file_name = batch_job.dest.file_name\ r
    file_content_bytes = client.files.download (file = result_file_name)\ r
    file_content = file_content_bytes.decode ('utf-8')\ r
 
    for
      file_content.splitlines ():\ r (line)

Python

如需了解详情，请查看官方文档和定价页面。

阅读文档

查看实战宝典指南

查看定价

我们将在今天和明天向所有用户推出 Gemini API 的批量模式。这只是批量处理的开始，后续我们将积极扩展相关功能，为大家提供更强大、更灵活的选项，敬请关注！