4 resultados
Filtrar por
17 DE JULIO DE 2025 / Gemini
Veo 3, Google’s latest AI video generation model, is now available in paid preview via the Gemini API and Google AI Studio. Unveiled at Google I/O 2025, Veo 3 can generate both video and synchronized audio, including dialogue, background sounds, and even animal noises. This model delivers realistic visuals, natural lighting, and physics, with accurate lip syncing and sound that matches on-screen action.
10 DE JULIO DE 2025 / Gemini
GenAI Processors es una nueva biblioteca Python de código abierto de Google DeepMind diseñada para simplificar el desarrollo de aplicaciones de IA, especialmente aquellas que manejan entradas multimodales y requieren capacidad de respuesta en tiempo real, al proporcionar una interfaz de “procesador” coherente para todos los pasos, desde el manejo de entradas hasta el procesamiento de llamadas y salidas de modelos, para un encadenamiento sin interrupciones y una ejecución simultánea.
24 DE JUNIO DE 2025 / Gemini
Gemini 2.5 Pro y Flash están transformando la robótica a través de la mejora de la codificación, el razonamiento y las capacidades multimodales, incluida la comprensión espacial. Estos modelos se utilizan para la comprensión semántica de escenas, la generación de código para el control de robots y la creación de aplicaciones interactivas con la API Live, con un fuerte énfasis en las mejoras de seguridad y las aplicaciones comunitarias.
24 DE JUNIO DE 2025 / Gemini
Imagen 4, el modelo avanzado de texto a imagen de Google, ahora está disponible en versión preliminar pagada a través de la API de Gemini y Google AI Studio, y ofrece mejoras de calidad significativas, especialmente para la generación de texto dentro de las imágenes. La familia de Imagen 4 incluye Imagen 4 para tareas generales e Imagen 4 Ultra para una adherencia de alta precisión a las indicaciones, con todas las imágenes generadas con una marca de agua SynthID no visible.