Grok Imagine 1.5 Preview

支持音频同步与生动动作表现的图生视频生成模型。

输入

上传图片 *

点击或拖拽文件到此处

查看上传限制

图片:JPG / PNG / WEBP,≤10.0MB,最多 1 张,宽高均 ≥300px,宽高比在 1:2.5 ~ 2.5:1

提示词

232 / 5000

时长(s)

1
15

分辨率

480p
720p

宽高比

  • auto
  • 16:9
  • 9:16
  • 1:1
  • 3:2
  • 2:3
  • 3:4
  • 4:3
模型与模态
积分 / 生成
我们的价格 (USD)官方价格 (美元)
折扣
grok-imagine-video-1.5-preview, i2v, 480p
videoGrok
14.5
per second
$0.0647$0.08- 19%
grok-imagine, i2v, 720p
videoGrok
25
per second
$0.1116$0.14- 20%
grok-imagine, i2v, input image
videoGrok
2
per image
$0.0089$0.01- 11%
原生多模态音频

Grok Imagine Video 1.5 API

使用 xAI 的 Grok Imagine Video 1.5 预览模型,将静态图片转换为带有同步音频的短视频。

查看文档
15秒
最长时长
24 fps
帧率
720P
分辨率

提示词:

一枚巨大的火箭从现代航天发射中心升空,引擎喷射出炽热的火焰和浓烟,强劲起飞,电影级镜头视角,富有戏剧性的光影效果,真实物理表现,晴朗蓝天背景,细节丰富,充满力量感,4K画质。

核心功能

Grok Imagine 1.5 API 核心功能

让任何图片动起来,并自带声音

图生视频

将静态图片转换为动态视频,同时保留主体身份、构图和视觉风格。

原生音频生成

在一次生成过程中同时创建对话、音效、环境音和背景音乐。

视频延展

基于最后一帧无缝延长视频,保持动作、光线和场景的连续性。

参考一致性

在多次视频生成中保持角色外观、视觉风格和场景美学一致。

基于提示词的视频编辑

通过自然语言指令编辑和优化视频,无需复杂工作流。

快速电影级渲染

生成具有真实运动效果、流畅镜头运动和快速渲染速度的高质量视频。

使用 Grok Imagine Video 1.5 可以构建什么

Grok Imagine Video 1.5 能够将静态图片转换为具有真实运动、自然交互和自动生成声音的动态视频。上传人物肖像、产品照片或插画后,它会生成带有同步背景音乐、音效和环境音的电影级视频,使声音与画面自然匹配。

音视频一体化生成能力

Grok Imagine Video 1.5 支持在一次生成过程中同时创建视频和音频,实现真正的音视频协同生成。系统可自动生成符合场景语境的声音,包括同步动作音效(如挥剑声、脚步声)、环境音(如房间背景音、空间混响)、背景音乐以及对话,并提供自然的口型同步效果。只需一张图片和一句提示词,即可生成带有完整声音设计的电影级视频,无需额外后期音频处理工具。

真实运动、物理模拟与细节还原

该模型能够将单张图片扩展为完整动态场景,在运动一致性、物理真实性和细节表现方面均有出色表现。它可以自然还原流体运动、蒸汽升腾、玻璃等透明材质等复杂现象,同时保持原有视觉风格。模型还能准确理解提示词,并支持基于自然语言的镜头控制,实现更加灵活的场景导演能力。

端到端创作工作流

Grok Imagine 提供从文生图、图片编辑、图生视频、视频生成到视频延展的完整创作链路,并通过 Agent Mode 支持迭代式创意优化。这种一体化工作流非常适合短视频内容制作、概念视频创作以及快速原型验证,让用户能够在单个平台内高效地将创意转化为可交付的视频作品。

Grok Imagine Video 1.5 API 与 Seedance 2.0 API 对比

Grok Imagine Video 1.5 Preview 近期登顶 Image-to-Video Arena(720p)排行榜,以 1473 分超越 Seedance 2.0 的 1467 分。相比上一代模型,其 Elo 分数提升了 52 分,已成为目前 Crun 平台上表现最强的图生视频模型之一。

模型Grok Imagine Video 1.5Seedance 2.0
分辨率
720P
1080P
视频时长
15秒
15秒
帧率
24fps
24fps
音视频同步生成
支持
支持
参考视频
不支持
不支持
文生视频
不支持
支持
运动质量
中等
场景复杂度
简单场景
支持多场景
角色一致性
基础
生成速度
中等
控制能力
低~中
高(多模态控制系统)

关于 Grok Imagine Video 1.5 的常见问题

  • 什么是 Grok Imagine Video 1.5?

    Grok Imagine Video 1.5 是 xAI 推出的图生视频模型。它接收参考图片和文本提示词,并生成带有运动效果和原生音频的电影级视频,包括对话、环境音和音效,所有内容都在一次生成过程中完成同步。
  • Grok Imagine Video 1.5 的优势是什么?

    它将高质量图生视频能力与原生音频合成为一体,可在一次生成中同时输出画面和同步声音。此外,它还集成于 Grok Imagine 的完整创作工作流,包括文生图、图片编辑、图生视频、视频转视频以及视频延展,非常适合短视频内容创作和快速迭代。
  • Grok Imagine Video 1.5 的音频效果如何?

    音频与视频同步原生生成,无需额外后期处理。模型能够生成自然流畅的对话、精准的口型同步、符合场景的环境音以及时机准确的音效,从而获得更加完整的电影级体验。
  • 支持哪些分辨率和时长?

    Grok Imagine Video 1.5 支持 480p 和 720p 图生视频生成。单个视频最长可达 15 秒,并支持原生同步音频输出。
  • Grok Imagine Video 1.5 API 是否支持原生音频生成?

    支持。Grok Imagine Video 1.5 可在生成视频的同时同步生成对话、音效、环境音和背景音乐,减少对独立音频工具的依赖。
  • Grok Imagine Video 1.5 与 Seedance 2.0 相比如何?

    两者都是先进的 AI 视频生成模型。Grok Imagine Video 1.5 当前在 Image-to-Video Arena 排行榜上排名更高,而 Seedance 2.0 则提供更丰富的多模态工作流和更强的多镜头叙事能力。Crun 同时提供这两个模型的 API 接入服务。
  • Grok Imagine Video 1.5 可以用于商业项目吗?

    可以。通过 crun.ai API 生成的内容可用于商业用途。
Crunlogo

Crun

  • 简体中文
Crun 微信二维码

扫码添加微信
实时咨询 Crun 使用问题

© 2026 Crun.ai Inc. 保留所有权利。