Grok Imagine 1.5 Preview
支持音频同步与生动动作表现的图生视频生成模型。
输入
上传图片 *

点击或拖拽文件到此处
图片:JPG / PNG / WEBP,≤10.0MB,最多 1 张,宽高均 ≥300px,宽高比在 1:2.5 ~ 2.5:1
提示词
时长(s)
分辨率
宽高比
结果
查看生成记录| 模型与模态 | 积分 / 生成 | 我们的价格 (USD) | 官方价格 (美元) | 折扣 |
|---|---|---|---|---|
grok-imagine-video-1.5-preview, i2v, 480p videoGrok | 14.5 per second | $0.0647 | $0.08 | - 19% |
grok-imagine, i2v, 720p videoGrok | 25 per second | $0.1116 | $0.14 | - 20% |
grok-imagine, i2v, input image videoGrok | 2 per image | $0.0089 | $0.01 | - 11% |
使用 xAI 的 Grok Imagine Video 1.5 预览模型,将静态图片转换为带有同步音频的短视频。
提示词:
一枚巨大的火箭从现代航天发射中心升空,引擎喷射出炽热的火焰和浓烟,强劲起飞,电影级镜头视角,富有戏剧性的光影效果,真实物理表现,晴朗蓝天背景,细节丰富,充满力量感,4K画质。
让任何图片动起来,并自带声音
将静态图片转换为动态视频,同时保留主体身份、构图和视觉风格。
在一次生成过程中同时创建对话、音效、环境音和背景音乐。
基于最后一帧无缝延长视频,保持动作、光线和场景的连续性。
在多次视频生成中保持角色外观、视觉风格和场景美学一致。
通过自然语言指令编辑和优化视频,无需复杂工作流。
生成具有真实运动效果、流畅镜头运动和快速渲染速度的高质量视频。
Grok Imagine Video 1.5 能够将静态图片转换为具有真实运动、自然交互和自动生成声音的动态视频。上传人物肖像、产品照片或插画后,它会生成带有同步背景音乐、音效和环境音的电影级视频,使声音与画面自然匹配。
Grok Imagine Video 1.5 支持在一次生成过程中同时创建视频和音频,实现真正的音视频协同生成。系统可自动生成符合场景语境的声音,包括同步动作音效(如挥剑声、脚步声)、环境音(如房间背景音、空间混响)、背景音乐以及对话,并提供自然的口型同步效果。只需一张图片和一句提示词,即可生成带有完整声音设计的电影级视频,无需额外后期音频处理工具。
该模型能够将单张图片扩展为完整动态场景,在运动一致性、物理真实性和细节表现方面均有出色表现。它可以自然还原流体运动、蒸汽升腾、玻璃等透明材质等复杂现象,同时保持原有视觉风格。模型还能准确理解提示词,并支持基于自然语言的镜头控制,实现更加灵活的场景导演能力。
Grok Imagine 提供从文生图、图片编辑、图生视频、视频生成到视频延展的完整创作链路,并通过 Agent Mode 支持迭代式创意优化。这种一体化工作流非常适合短视频内容制作、概念视频创作以及快速原型验证,让用户能够在单个平台内高效地将创意转化为可交付的视频作品。
Grok Imagine Video 1.5 Preview 近期登顶 Image-to-Video Arena(720p)排行榜,以 1473 分超越 Seedance 2.0 的 1467 分。相比上一代模型,其 Elo 分数提升了 52 分,已成为目前 Crun 平台上表现最强的图生视频模型之一。
| 模型 | Grok Imagine Video 1.5 | Seedance 2.0 |
|---|---|---|
分辨率 | 720P | 1080P |
视频时长 | 15秒 | 15秒 |
帧率 | 24fps | 24fps |
音视频同步生成 | 支持 | 支持 |
参考视频 | 不支持 | 不支持 |
文生视频 | 不支持 | 支持 |
运动质量 | 中等 | 高 |
场景复杂度 | 简单场景 | 支持多场景 |
角色一致性 | 基础 | 强 |
生成速度 | 快 | 中等 |
控制能力 | 低~中 | 高(多模态控制系统) |