立即体验 Seedance 2.0

多模态 AI 视频创作,精确自然语言控制

Grok Imagine

Grok Imagine 支持从文本或图片生成图像与视频，注重创意表现与视觉一致性。

模型:

输入

最多上传 7 张图片

点击或拖拽文件到此处

支持图片文件

查看上传限制

图片：JPG / PNG / WEBP，≤10.0MB，最多 7 张，宽高均 ≥300px，宽高比在 1:2.5 ～ 2.5:1

提示词(可选)

499 / 5000 ✖

模式

趣味

普通

时长(s)

分辨率

480p

720p

结果

查看生成记录

模型与模态	积分 / 生成	我们的价格 (USD)	官方价格（美元）	折扣
grok-imagine, i2i imageGrok	4 per images	$0.0179	$0.022	- 19%
grok-imagine, t2i imageGrok	4 per 6 images	$0.0179	$0.02	- 11%
grok-imagine, i2v, t2v, 480p videoGrok	1.6 per second	$0.0071	$0.05	- 86%
grok-imagine, i2v, t2v, 720p videoGrok	3 per second	$0.0134	$0.07	- 81%

图像 & 视频

Grok Imagine API 视频创意生成

Name: Grok Imagine API
Brand: Crun

在 Crun 上免费体验 Grok Imagine AI 视频生成，支持文生视频、图生视频以及 Spicy 模式。

查看文档

10 秒

最长时长

720p

分辨率

创意模式

提示词：

她靠近镜头，快速说道“into videos”

核心特性

核心技术
Aurora 引擎技术

Grok Imagine 基于 Aurora 引擎训练，使用数百亿级样本数据，提供行业领先的高精度文生图能力，并支持多模态输入。

自回归图像模型

Aurora 的自回归架构按顺序预测图像 token，实现精细控制与高度一致的条件化输出。

帧连续系统

通过智能帧间建模，确保画面流畅衔接，减少伪影，生成顺滑的视频序列。

多模型协同

结合多种专用 AI 模型，分别优化视频生成的不同环节，带来更高质量的输出效果。

多模态输入支持

支持文本与图片输入，并可进行图像到图像的定向编辑与风格转换。

风格迁移技术

在保留原始内容与运动连贯性的同时，应用多样化的艺术风格与视觉效果。

即时创作流

无限滚动生成机制，可快速产出大量变体，几乎即时完成处理。

Grok Imagine：多模式创意生成与音画同步

Grok Imagine 提供多种创意模式，并结合 Aurora 引擎，实现从文本和图片生成动态视频，同时自动同步背景音频，高效完成专业级内容创作。

高质量文本与图像驱动的视频生成

通过 Grok Imagine API，可将文本提示或静态图片快速转换为写实或风格化视频，支持动态场景、流畅动画与视觉叙事，适用于创作、研究与设计等多种场景。

精准的图生视频动画转换

Grok I2V 功能可基于单张图片生成顺滑动画，在保留原有风格与细节的同时完成短视频创作，并同步输出音频，无需后期制作即可获得完整视觉体验。

多模式创意生成与音画同步整合

Grok Imagine 提供 Normal、Fun 与 Spicy 三种模式，可根据需求生成日常、夸张或艺术化效果。Aurora 引擎支持从文本与图片动态生成视频，并自动匹配背景音频，实现高效、专业的创作流程。

AI 视频生成全面对比：Grok Imagine、Veo 3.1 与 Sora 2 Pro

对三款领先的 AI 视频生成模型进行详细技术对比，涵盖创意定位、参考输入、分辨率、视频时长、音频同步、镜头表现与角色一致性，帮助专业用户选择最合适的解决方案。

模型	Grok Imagine	Veo 3.1	Sora 2 Pro
定位	快速创意短视频	高写实叙事视频	高写实叙事视频
参考视频	不支持	支持	支持
分辨率	720p	4K	1080p
视频时长	10 秒	8 秒	15 秒
原生音频	音乐、环境音	对白、音效、环境音	对白、环境音、同步音效
镜头与叙事	简单转场，偏创意风格	精准镜头，复杂转场	连贯叙事，真实物理运动
角色一致性	基础风格一致性	多图参考保证一致性	多图参考保证一致性
生成速度	非常快	中等	中等且稳定
典型应用场景	社交短视频、创意实验	广告、企业宣传、专业制作	叙事视频、电影级内容、写实场景

常见问题

什么是 Grok Imagine API？
Grok Imagine API 是 xAI 推出的多模态模型，可根据文本或图片生成带有同步音频的短视频。
Grok Imagine 可以生成哪些类型的视频？
可生成营销视频、社交媒体短片、讲解视频、概念视觉以及短篇电影级内容。
Grok Imagine 生成的视频是否包含音频？
是的，所有视频都会自动生成与画面匹配的背景音乐和音效。
视频生成通常需要多长时间？
大多数视频可在 30 秒到 2 分钟内生成，高峰期最长约 5 分钟。
Grok Imagine 支持哪些画面比例？
支持 5 种图片比例（1:1、2:3、3:2、9:16、16:9）以及 3 种视频比例（1:1、2:3、3:2），适配不同平台需求。
Normal、Fun 和 Spicy 模式有什么区别？
Normal 偏专业，Fun 偏轻松有趣，Spicy 更大胆、创意表达更强。

Crun

简体中文

扫码添加微信
实时咨询 Crun 使用问题

Grok Imagine API 视频创意生成