立即体验 Grok Imagine 1.5 Preview

原生音频驱动，专为沉浸式视频创作打造

Grok Imagine 1.5 Preview

支持音频同步与生动动作表现的图生视频生成模型。

输入

上传图片 *

查看上传限制

图片：JPG / PNG / WEBP，≤10.0MB，最多 1 张，宽高均 ≥300px，宽高比在 1:2.5 ～ 2.5:1

提示词

232 / 5000 ✖

时长(s)

分辨率

480p

720p

宽高比

auto
16:9
9:16
1:1
3:2
2:3

结果

查看生成记录

模型与模态	积分 / 生成	我们的价格 (USD)	官方价格（美元）	折扣
grok-imagine-video-1.5-preview, i2v, 480p videoGrok	1.6 per second	$0.0071	$0.08	- 91%
grok-imagine-video-1.5-preview, i2v, 720p videoGrok	3 per second	$0.0134	$0.14	- 90%
grok-imagine-video-1.5-preview, i2v, input image videoGrok	2 per image	$0.0089	$0.01	- 11%

原生多模态音频

Grok Imagine Video 1.5 API

Name: Grok Imagine 1.5 API
Brand: Crun

使用 xAI 的 Grok Imagine Video 1.5 预览模型，将静态图片转换为带有同步音频的短视频。

查看文档

15秒

最长时长

24 fps

帧率

720P

分辨率

提示词：

一枚巨大的火箭从现代航天发射中心升空，引擎喷射出炽热的火焰和浓烟，强劲起飞，电影级镜头视角，富有戏剧性的光影效果，真实物理表现，晴朗蓝天背景，细节丰富，充满力量感，4K画质。

核心功能

Grok Imagine 1.5 API 核心功能

让任何图片动起来，并自带声音

图生视频

将静态图片转换为动态视频，同时保留主体身份、构图和视觉风格。

原生音频生成

在一次生成过程中同时创建对话、音效、环境音和背景音乐。

视频延展

基于最后一帧无缝延长视频，保持动作、光线和场景的连续性。

参考一致性

在多次视频生成中保持角色外观、视觉风格和场景美学一致。

基于提示词的视频编辑

通过自然语言指令编辑和优化视频，无需复杂工作流。

快速电影级渲染

生成具有真实运动效果、流畅镜头运动和快速渲染速度的高质量视频。

使用 Grok Imagine Video 1.5 可以构建什么

Grok Imagine Video 1.5 能够将静态图片转换为具有真实运动、自然交互和自动生成声音的动态视频。上传人物肖像、产品照片或插画后，它会生成带有同步背景音乐、音效和环境音的电影级视频，使声音与画面自然匹配。

音视频一体化生成能力

Grok Imagine Video 1.5 支持在一次生成过程中同时创建视频和音频，实现真正的音视频协同生成。系统可自动生成符合场景语境的声音，包括同步动作音效（如挥剑声、脚步声）、环境音（如房间背景音、空间混响）、背景音乐以及对话，并提供自然的口型同步效果。只需一张图片和一句提示词，即可生成带有完整声音设计的电影级视频，无需额外后期音频处理工具。

真实运动、物理模拟与细节还原

该模型能够将单张图片扩展为完整动态场景，在运动一致性、物理真实性和细节表现方面均有出色表现。它可以自然还原流体运动、蒸汽升腾、玻璃等透明材质等复杂现象，同时保持原有视觉风格。模型还能准确理解提示词，并支持基于自然语言的镜头控制，实现更加灵活的场景导演能力。

端到端创作工作流

Grok Imagine 提供从文生图、图片编辑、图生视频、视频生成到视频延展的完整创作链路，并通过 Agent Mode 支持迭代式创意优化。这种一体化工作流非常适合短视频内容制作、概念视频创作以及快速原型验证，让用户能够在单个平台内高效地将创意转化为可交付的视频作品。