Modo de lote na API Gemini: processe mais por menos

7 DE JULHO DE 2025
Lucia Loher Product Manager
Vishal Dharmadhikari Product Solutions Engineer

Os modelos Gemini já estão disponíveis no modo de lote


Hoje, temos o prazer de apresentar um modo de lote na API Gemini, um novo endpoint assíncrono projetado especificamente para cargas de trabalho de alta capacidade de processamento e não críticas em relação à latência. O modo de lote da API Gemini permite que você envie jobs grandes, elimine a sobrecarga do agendamento e do processamento e recupere os resultados em até 24 horas, tudo com um desconto de 50% em comparação com nossas APIs síncronas.


Processe mais por menos

O modo de lote é a ferramenta perfeita para qualquer tarefa na qual você tenha os dados prontos e não precise de uma resposta imediata. Ao separar esses jobs grandes do tráfego em tempo real, você desbloqueia três benefícios principais:

  • Redução de custos: os jobs em lote custam 50% menos do que na taxa padrão para um determinado modelo.

  • Capacidade de processamento elevada: o modo de lote tem limites de taxa ainda mais altos.

  • Chamadas de API simplificadas: sem necessidade de gerenciar filas complexas do lado do cliente nem a lógica de repetição. Os resultados disponíveis são retornados em uma janela de 24 horas.


Um fluxo de trabalho simples para jobs grandes

Projetamos a API para que ela fosse simples e intuitiva. Você empacota todas as suas solicitações em um único arquivo, envia o arquivo e recupera os resultados assim que o job é concluído. Veja a seguir algumas maneiras pelas quais os desenvolvedores já estão utilizando o modo de lote para as tarefas:

  • Geração e processamento de conteúdo em massa: especializada na compreensão profunda de vídeo, a Reforged Labs usa o Gemini 2.5 Pro para analisar e etiquetar grandes quantidades de anúncios de vídeo todos os meses. A implementação do modo de lote revolucionou as operações da empresa, reduzindo significativamente os custos, acelerando as entregas para os clientes e habilitando a escalonabilidade em massa, necessária para insights significativos do mercado.
Bulk content generation and processing
  • Avaliações de modelos: a Vals AI realiza comparativos de mercado de modelos de base em casos de uso do mundo real, incluindo as áreas jurídica, financeira, tributária e de saúde. Eles estão usando o modo de lote para enviar grandes volumes de consultas de avaliação sem as restrições dos limites de taxa.
Model evaluations

Comece com apenas algumas linhas de código

Você pode começar a usar o modo de lote hoje mesmo com o SDK Python para Google GenAI:

# Create a JSONL that contains these lines:
# {"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}},
# {"key": "request_2", "request": {"contents": [{"parts": [{"text": "Explain how quantum computing works in a few words"}]}]}}
 
uploaded_batch_requests = client.files.upload(file="batch_requests.json")
 
batch_job = client.batches.create(
    model="gemini-2.5-flash",
    src=uploaded_batch_requests.name,
    config={
        'display_name': "batch_job-1",
    },
)
 
print(f"Created batch job: {batch_job.name}")
 
# Wait for up to 24 hours
 
if batch_job.state.name == 'JOB_STATE_SUCCEEDED':
    result_file_name = batch_job.dest.file_name
    file_content_bytes = client.files.download(file=result_file_name)
    file_content = file_content_bytes.decode('utf-8')
 
    for line in file_content.splitlines():
      print(line)
Python

Para saber mais, confira a documentação oficial e as páginas de preços.


Estamos lançando o modo de lote para a API Gemini hoje e amanhã para todos os usuários. Esse é apenas o começo do processamento em lote, e estamos trabalhando ativamente para expandir os recursos. Em breve, teremos opções mais poderosas e flexíveis!