今天,我们很高兴在 Gemini API 中引入批量模式,这是一个新异步端点,专为高吞吐量、对延迟时间不敏感的负载设计。通过Gemini API 批量模式,您可以提交大型作业,分流调度和处理,并在 24 小时内检索您的结果——与我们的同步 API 相比,实现这一切的成本减少了 50%。
如果您的任务已预先准备好数据且不需要立即响应,那么批量模式将是最理想的工具。通过将这些大型作业与实时流量分开,您可以解锁三大关键优势:
我们将 API 设计得简单而直观。您可以将所有请求打包到一个文件中,提交文件,并在作业完成后检索结果。以下是开发者当前如何利用批量模式处理任务的一些例子:
您可以立即通过 Google GenAI Python SDK 开始使用批量模式:
#创建包含以下行的 JSONL:\ r
#{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}},\ r
#{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Explain how quantum computing works in a few words"}]}}}\ r
uploaded_batch_requests = client.files.upload (file = "batch_requests.json")\ r
batch_job = client.batches.create (\ r
model = "gemini-2.5-flash",\ r
src = uploaded_batch_requests.name,\ r
config = {\ r
'display_name': "batch_job-1",\ r
},\ r
)\ r
print (f "Created batch job:{batch_job.name}")\ r
#最多等待 24 小时\ r
if batch_job.state.name = = 'JOB_STATE_SUCCEEDED':\ r
result_file_name = batch_job.dest.file_name\ r
file_content_bytes = client.files.download (file = result_file_name)\ r
file_content = file_content_bytes.decode ('utf-8')\ r
for
file_content.splitlines ():\ r (line)
Unlock Gemini’s reasoning: A step-by-step guide to logprobs on Vertex AI
Simplify your Agent "vibe building" flow with ADK and Gemini CLI
Build with Veo 3, now available in the Gemini API