Grok Imagine

Grok Imagine 支持从文本或图片生成图像与视频,注重创意表现与视觉一致性。

模型:

输入

最多上传 7 张图片

点击或拖拽文件到此处

支持图片文件

查看上传限制

图片:JPG / PNG / WEBP,≤10.0MB,最多 7 张,宽高均 ≥300px,宽高比在 1:2.5 ~ 2.5:1

提示词(可选)

499 / 5000

模式

趣味
普通

时长(s)

6
30

分辨率

480p
720p

宽高比

  • 16:9
  • 9:16
  • 1:1
  • 3:2
  • 2:3
模型与模态
积分 / 生成
我们的价格 (USD)官方价格 (美元)
折扣
grok-imagine, i2i
imageGrok
4
per images
$0.0179$0.022- 19%
grok-imagine, t2i
imageGrok
4
per 6 images
$0.0179$0.02- 11%
grok-imagine, i2v, t2v, 480p
videoGrok
1.6
per second
$0.0071$0.05- 86%
grok-imagine, i2v, t2v, 720p
videoGrok
3
per second
$0.0134$0.07- 81%
图像 & 视频

Grok Imagine API 视频创意生成

在 Crun 上免费体验 Grok Imagine AI 视频生成,支持文生视频、图生视频以及 Spicy 模式。

查看文档
10 秒
最长时长
720p
分辨率
3
创意模式

提示词:

她靠近镜头,快速说道“into videos”

核心特性

核心技术
Aurora 引擎技术

Grok Imagine 基于 Aurora 引擎训练,使用数百亿级样本数据,提供行业领先的高精度文生图能力,并支持多模态输入。

自回归图像模型

Aurora 的自回归架构按顺序预测图像 token,实现精细控制与高度一致的条件化输出。

帧连续系统

通过智能帧间建模,确保画面流畅衔接,减少伪影,生成顺滑的视频序列。

多模型协同

结合多种专用 AI 模型,分别优化视频生成的不同环节,带来更高质量的输出效果。

多模态输入支持

支持文本与图片输入,并可进行图像到图像的定向编辑与风格转换。

风格迁移技术

在保留原始内容与运动连贯性的同时,应用多样化的艺术风格与视觉效果。

即时创作流

无限滚动生成机制,可快速产出大量变体,几乎即时完成处理。

Grok Imagine:多模式创意生成与音画同步

Grok Imagine 提供多种创意模式,并结合 Aurora 引擎,实现从文本和图片生成动态视频,同时自动同步背景音频,高效完成专业级内容创作。

高质量文本与图像驱动的视频生成

通过 Grok Imagine API,可将文本提示或静态图片快速转换为写实或风格化视频,支持动态场景、流畅动画与视觉叙事,适用于创作、研究与设计等多种场景。

精准的图生视频动画转换

Grok I2V 功能可基于单张图片生成顺滑动画,在保留原有风格与细节的同时完成短视频创作,并同步输出音频,无需后期制作即可获得完整视觉体验。

多模式创意生成与音画同步整合

Grok Imagine 提供 Normal、Fun 与 Spicy 三种模式,可根据需求生成日常、夸张或艺术化效果。Aurora 引擎支持从文本与图片动态生成视频,并自动匹配背景音频,实现高效、专业的创作流程。

AI 视频生成全面对比:Grok Imagine、Veo 3.1 与 Sora 2 Pro

对三款领先的 AI 视频生成模型进行详细技术对比,涵盖创意定位、参考输入、分辨率、视频时长、音频同步、镜头表现与角色一致性,帮助专业用户选择最合适的解决方案。

模型Grok ImagineVeo 3.1Sora 2 Pro
定位
快速创意短视频
高写实叙事视频
高写实叙事视频
参考视频
不支持
支持
支持
分辨率
720p
4K
1080p
视频时长
10 秒
8 秒
15 秒
原生音频
音乐、环境音
对白、音效、环境音
对白、环境音、同步音效
镜头与叙事
简单转场,偏创意风格
精准镜头,复杂转场
连贯叙事,真实物理运动
角色一致性
基础风格一致性
多图参考保证一致性
多图参考保证一致性
生成速度
非常快
中等
中等且稳定
典型应用场景
社交短视频、创意实验
广告、企业宣传、专业制作
叙事视频、电影级内容、写实场景

常见问题

  • 什么是 Grok Imagine API?

    Grok Imagine API 是 xAI 推出的多模态模型,可根据文本或图片生成带有同步音频的短视频。
  • Grok Imagine 可以生成哪些类型的视频?

    可生成营销视频、社交媒体短片、讲解视频、概念视觉以及短篇电影级内容。
  • Grok Imagine 生成的视频是否包含音频?

    是的,所有视频都会自动生成与画面匹配的背景音乐和音效。
  • 视频生成通常需要多长时间?

    大多数视频可在 30 秒到 2 分钟内生成,高峰期最长约 5 分钟。
  • Grok Imagine 支持哪些画面比例?

    支持 5 种图片比例(1:1、2:3、3:2、9:16、16:9)以及 3 种视频比例(1:1、2:3、3:2),适配不同平台需求。
  • Normal、Fun 和 Spicy 模式有什么区别?

    Normal 偏专业,Fun 偏轻松有趣,Spicy 更大胆、创意表达更强。
Crunlogo

Crun

  • 简体中文
Crun 微信二维码

扫码添加微信
实时咨询 Crun 使用问题

© 2026 Crun.ai Inc. 保留所有权利。