小鹏公然AI“造假”啧啧啧

　　它的应用远远超出了视频数据增强的范围，在虚拟现实、视频编辑和其他各种以视频为中心的应用中显示出巨大的潜力。

　　在视频中合成某个物体的时候，往往不逼真的原因，可以总结为位置放置错误能容、无阴影、无HDR和无样式迁移等原因。

　　再与其它已有的算法和框架做比较，例如DoveNet、StyTR2和PHDiffusion，它们在室外场景中合成物体的效果是这样的：

　　同样的，在室内环境中，不论是包包还是鞋子，小鹏新AI技术所生成的效果可以说是真假难辨的那种了。

　　除了视觉效果之外，小鹏团队在CODA数据集的原始图像上，将训练的YOLOX模型的性能与Anything in Any Scene框架在原始和增强图像的组合上训练时的性能进行了比较。

　　从此次提出的框架上来看，Anything in Any Scene主要由三个关键部分组成。

　　团队先确定相机在场景中的世界坐标系位置寿命估算，并将其作为物体插入的参考点；使用相机的内参矩阵和姿态（旋转矩阵和位移向量）将世界坐标系中的点投影到像素坐标系中，以确定物体在视频帧中的放置位置。

　　为了避免与场景中其他物体的遮挡，团队还使用语义分割模型估计每个帧的分割掩模，并确保物体放置在未被遮挡的区域。

　　在物体稳定化方面，团队在连续帧之间估计光流，以跟踪物体的运动轨迹；并通过优化相机姿态（旋转矩阵和位移向量），最小化物体在连续帧中的3D到2D投影误差，确保物体在视频中的稳定运动。

　　针对HDR全景图像重建扳手链，团队使用图像修复网络推断全景视图的光照分布能量柴油机，然后通过天空HDR重建网络将全景图像转换为HDR图像；并结合使用GAN训练编码器-解码器网络来模拟太阳和天空的亮度分布。

　　在环境HDR图像重建方面，研究人员则是收集了场景的多视角LDR图像，并通过现有模型恢复为HDR图像，以学习连续曝光值表示制动转速。

　　在物体阴影生成上凤凰平台游戏登录，团队则是使用3D图形应用（如Vulkan）和光线追踪技术，根据估计的主要光源位置生成插入物体的阴影。

　　框架对插入物体的外观进行微调，使其风格与背景视频完美融合，进一步提升了视频的逼真度。

　　这便是小鹏Anything in Any Scene在真实环境中生成物体较为逼真的原因了。

　　例如名为GAIA-1的多模态生成式世界模型，便可以从头到脚的打造逼真的自动驾驶视频：

　　这里的每一帧都是由AI生成，甚至就连不同的路况和天气等等，都是可以做到以假乱真补偿。

　　不过这些AI效果虽真实，但也有网友提出了担忧之处，那便是网上虚假、生成的信息越发的逼真；因此，以后辨别信息的真假需要更加警惕。

分享到：

点击次数：更新时间：2024-02-15 08:20 【打印此页】【关闭】