Grok Imagine
Grok Imagine 支持从文本或图片生成图像与视频,注重创意表现与视觉一致性。
输入
最多上传 7 张图片
点击或拖拽文件到此处
支持图片文件

图片:JPG / PNG / WEBP,≤10.0MB,最多 7 张,宽高均 ≥300px,宽高比在 1:2.5 ~ 2.5:1
提示词(可选)
模式
时长(s)
分辨率
宽高比
结果
查看生成记录| 模型与模态 | 积分 / 生成 | 我们的价格 (USD) | 官方价格 (美元) | 折扣 |
|---|---|---|---|---|
grok-imagine, i2i imageGrok | 4 per images | $0.0179 | $0.022 | - 19% |
grok-imagine, t2i imageGrok | 4 per 6 images | $0.0179 | $0.02 | - 11% |
grok-imagine, i2v, t2v, 480p videoGrok | 1.6 per second | $0.0071 | $0.05 | - 86% |
grok-imagine, i2v, t2v, 720p videoGrok | 3 per second | $0.0134 | $0.07 | - 81% |
在 Crun 上免费体验 Grok Imagine AI 视频生成,支持文生视频、图生视频以及 Spicy 模式。
提示词:
她靠近镜头,快速说道“into videos”
Grok Imagine 基于 Aurora 引擎训练,使用数百亿级样本数据,提供行业领先的高精度文生图能力,并支持多模态输入。
Aurora 的自回归架构按顺序预测图像 token,实现精细控制与高度一致的条件化输出。
通过智能帧间建模,确保画面流畅衔接,减少伪影,生成顺滑的视频序列。
结合多种专用 AI 模型,分别优化视频生成的不同环节,带来更高质量的输出效果。
支持文本与图片输入,并可进行图像到图像的定向编辑与风格转换。
在保留原始内容与运动连贯性的同时,应用多样化的艺术风格与视觉效果。
无限滚动生成机制,可快速产出大量变体,几乎即时完成处理。
Grok Imagine 提供多种创意模式,并结合 Aurora 引擎,实现从文本和图片生成动态视频,同时自动同步背景音频,高效完成专业级内容创作。
通过 Grok Imagine API,可将文本提示或静态图片快速转换为写实或风格化视频,支持动态场景、流畅动画与视觉叙事,适用于创作、研究与设计等多种场景。
Grok I2V 功能可基于单张图片生成顺滑动画,在保留原有风格与细节的同时完成短视频创作,并同步输出音频,无需后期制作即可获得完整视觉体验。
Grok Imagine 提供 Normal、Fun 与 Spicy 三种模式,可根据需求生成日常、夸张或艺术化效果。Aurora 引擎支持从文本与图片动态生成视频,并自动匹配背景音频,实现高效、专业的创作流程。
对三款领先的 AI 视频生成模型进行详细技术对比,涵盖创意定位、参考输入、分辨率、视频时长、音频同步、镜头表现与角色一致性,帮助专业用户选择最合适的解决方案。
| 模型 | Grok Imagine | Veo 3.1 | Sora 2 Pro |
|---|---|---|---|
定位 | 快速创意短视频 | 高写实叙事视频 | 高写实叙事视频 |
参考视频 | 不支持 | 支持 | 支持 |
分辨率 | 720p | 4K | 1080p |
视频时长 | 10 秒 | 8 秒 | 15 秒 |
原生音频 | 音乐、环境音 | 对白、音效、环境音 | 对白、环境音、同步音效 |
镜头与叙事 | 简单转场,偏创意风格 | 精准镜头,复杂转场 | 连贯叙事,真实物理运动 |
角色一致性 | 基础风格一致性 | 多图参考保证一致性 | 多图参考保证一致性 |
生成速度 | 非常快 | 中等 | 中等且稳定 |
典型应用场景 | 社交短视频、创意实验 | 广告、企业宣传、专业制作 | 叙事视频、电影级内容、写实场景 |