Sora登场,举座皆惊。继文字、图片和音频之后,人类创造力的最后堡垒——视频,已被AI攻破。有人宣告普罗大众将实现“视频自由”,从此往后人人都能自产栩栩如生、流畅高清的视频作品,影视、游戏、广告行业将被彻底颠覆。
Sora是否已经真正“理解”了物理世界与人类精神世界的运行规则,暂且留给科学家们继续争论。但我们真的会迎来一个人人皆可成为专业视频博主、集体创造力跃升的时代吗?
多半不会。
想一想在视频之前,上一次被技术“民主化”了的内容制作技术——数码相片。自从世界上第一台内置摄像头的手机在2000年面世,人类每年拍摄的数码相片飞速增长。仅2023年,世界各地的人们总共拍摄了1.8万亿张照片——平均每天50亿张,每秒5.7万张——远超人类历史上所有绘画数量的总和。
如此巨量的数码照片,可以被视作资料和数据,但从人类“创作”的角度来说,价值几乎为零。能被称作艺术创作的摄影作品只是极小一部分,通常来自专业人士。
和此前的数字技术革新一样,Sora又被寄予了“技术平权”的厚望,乐观者坚信它能让普通人变得更强大。Sora的确能大幅降低视频制作的技术门槛,但相比于人人都能变成视频大师,更可能的现实是,它将再一次拉大创造力天才与普通人之间的差距。
正像当年社交媒体刚兴起时,我们也曾以为普罗大众都将拥有平等的被“听见”的机会,结果却是马太效应让强者愈强,绝大多数的注意力被很小一群头部账号攫取。
在一个信息已经过载的时代,人类还能拿出多少注意力分给由技术生成的信息,也是一个未知。全世界的人类每天能生产约100万亿字的内容,而目前OpenAI每天已经能创造出约1,000亿字。据称微软向OpenAI提供了5,000亿条视频用于Sora的训练。Sora一旦开放API接口,将有更多海量视频数据向它涌去,喂养它生成更多的视频内容。
但终日沉浸于视频的汪洋中,不间断接受光影声效的轰炸,恐怕也不是我们想要的日常。
在所有内容形式中,视频对感官的刺激最为强烈,而刺激的阈值会不断升高。如果视频的影音效果不是越发震撼,情节不是越发奇诡,我们可能很快就会生出倦怠感。技术专家说,基于目前的参数,Sora能够生成的黄河路影像,已经可以比王家卫《繁花》镜头下的更绚烂夺目。但我们也可能像宝总一样,黄河路上的衣香鬓影越是浓稠,越是思念一碗清水泡饭。
已经有好几位朋友说,Sora的到来,只会让他们加速断网,退回纸面阅读。文字就像米饭青菜,比起大鱼大肉更不容易厌倦。
有人文学者担心,视频内容的泛滥,会让人类丧失部分审美能力,比如在面对隽永的文字、空灵的音乐时。
而更让人忧心的是,我们也在加速丧失对何为“真实”的把控力。
生成式AI开始海量输出的“合成”(synthetic)内容,让真与假之间的界限越发模糊。2023年,人们在韦氏词网站上搜索最多的一个词是“authentic”(真实),反映的正是我们面对的真实性危机。微软中国的首席技术官韦青近日说:这个时代,能够不被骗是最大的福报。
真实性危机最糟糕之处,是真假难辨之间,真实反而需要付出更多代价证明自己为真。一位朋友的孩子在美国读小学,最近花了很多功夫写成一篇阅读报告后,被老师质疑为ChatGPT所作,孩子有口难辩,倍感委屈。
Sora对现实世界的逼真模拟,让人们担心“深度伪造”(deepfake)视频将大举入侵我们的生活。在一个全球大选年,这类视频一旦变成政治武器,甚至可能影响人类社会的整体走向。
AI应用眼下正是“乱花渐欲迷人眼”,但正如我的同事在一篇文章中说,不要丧失对语言和文化的敬畏之心,因为所有的大模型都依赖人类的存量知识和创意。
而相比于知识与创意,人之本真(authenticity)更值得珍守。换句话说,就算我们愿意与AI分享我们所有的知识与创意,以获取效率和便利,我们也不能放任它侵蚀我们对真相、对“我是谁”的认知。不然,我们就是在与技术做一场浮士德的交换。
《繁花》里的宝总说:黄河路十只澳龙,换不来一碗泡饭。泡饭即本真。Sora镜头中的黄河路越是绚烂,我们就越要去守住自己的那一碗。(财富中文网)