OpenAI将ChatGPT接入视频生成工具Sora，推进多模态战略转型

Sora 将彻底融入 ChatGPT，视频生成不再是个独立App

据多位接近OpenAI内部的消息人士透露，公司正加速推进Sora视频生成模型与ChatGPT的深度整合，计划在未来几个月内正式上线。这意味着用户将不再需要单独下载Sora应用——只需在ChatGPT中输入“生成一段雨中街头的慢镜头”或“把这张照片变成电影风格的30秒短片”，系统就能直接输出高质量视频。

这一变化背后是明显的用户行为转变。Sora在2025年9月作为独立App上线时曾引爆全网，首周下载超500万次，但三个月后日活跃用户回落至不足20万，App Store排名跌至165位。原因很简单：人们不想为一个“只会生成视频”的工具单独打开一个App。而ChatGPT，早已成为数亿人日常提问、写作、学习的“数字助手”。把视频生成变成它的一部分，才是真正的落地之道。

10亿用户目标，差的这8000万，可能就靠视频补上

OpenAI曾公开设定“10亿周活跃用户”目标，目前实际数据约为9.2亿。看似接近，但增长已明显放缓。相比之下，谷歌的Veo和Meta的Emu Video虽发布较晚，却借力自家生态（如YouTube、Instagram）快速积累起使用场景。OpenAI不能再等了。

数据显示，TikTok上每月有超过20亿用户主动创作或消费AI生成短视频，其中近三成使用过AI工具。OpenAI内部调研发现，超过68%的ChatGPT重度用户（每周使用5次以上）表示“如果能直接生成视频，会更频繁使用”。这不是功能叠加，而是体验重构——从“打字问答”到“文字+图片+视频”一站式创作，ChatGPT正从工具升级为创作平台。

算力账单惊人：未来6年，可能烧掉2250亿美元

但这一切，代价不菲。Sora生成一段1分钟高清视频，平均消耗算力是文本回答的80倍以上。据知情工程师透露，仅在测试阶段，每天用于视频推理的GPU时长已超过1200万小时。如果全面开放，峰值时段的服务器负载可能瞬间翻倍。

据彭博社援引内部财务文件，OpenAI预计，到2030年，仅视频生成相关的推理成本就将累计突破2250亿美元。这还不包括训练新模型、扩建数据中心和电力供应的支出。为应对突发流量，公司已秘密订购了超过10万张英伟达H200芯片，部分订单甚至提前锁定到2027年。

这不是普通的技术投入，而是一场豪赌——赌的是用户愿意为“一键生成电影级视频”买单，赌的是广告和企业订阅能覆盖这天文数字的成本。

真正的对手不是Veo，是TikTok和Reels

很多人以为OpenAI在和谷歌、Meta打“AI视频模型”的技术战，其实真正的战场在内容平台。

谷歌的Veo虽然技术强，但用户得去Gemini或Search里用；Meta的Emu视频，绑定的是Instagram和Facebook的创作者生态。而OpenAI的打法是：让ChatGPT成为你创作视频的“第一反应”。你写完一篇旅行日记，想配个画面？不用切换App，直接说：“把这段文字变成vlog风格的视频，背景音乐用轻快吉他。”

这正是TikTok和YouTube Shorts最擅长的事——让创作变得像发朋友圈一样自然。OpenAI不打算做另一个视频工具，它想成为“每个人创作视频的默认出口”。

下一步：视频能对话、能改、能联动

据多位开发者透露，集成后的Sora不止是“生成”那么简单。未来版本将支持：

在生成的视频中圈选某个人物，说“换件衣服”“换个表情”，模型实时修改
用语音描述画面变化：“让夕阳更红一点，加点飞鸟”
把生成的视频片段直接拖进文档、PPT或邮件，像插入图片一样简单

这意味着，Sora不再是“生成器”，而是“视觉编辑器”。一位测试用户说：“我昨天用它改了五遍视频，像在用Photoshop，但全程没碰鼠标。”

这场整合，不只是功能升级，更是一次用户习惯的重新定义。当视频创作不再需要专业软件、不再需要学习剪辑，普通人也能做出专业级内容——而OpenAI，正试图成为那个“按下按钮的人”。

CB科技站