随着AI技术发展逐渐成熟,各大媒体平台、直播间、短视频等,越来越多的虚拟主播走进了大众视野,比如《人民日报》推出的AI虚拟主播“任小融”“果果”,新华社推出AI合成主播“新小微”等,他们声音甜美、风趣幽默,拥有与真人无差别的外表,如果不仔细观察,可能会误以为是真人在播报。
这些AI虚拟主播看似是一个人物形象,但其背后却是一套复杂的算法和工程体系。这套算法涵盖了视觉、语音、自然语言处理等多模态融合算法,通过把表情捕捉、动作捕捉、物理解算、同步传输、特技效果等多项专项技术相结合,实时识别互动内容,从而快速做出相应反应。
阿里巴巴达摩院的资深算法专家陈海青曾指出,一个AI虚拟主播需要具备以下四个方面的技术架构:感知与认知、导演系统、3D建模、3D素材库。这套支撑AI虚拟主播的算法不仅需要为虚拟主播设定情绪,还需设定与之相对应的肢体语言和面部神态等,以求在最大程度上接近真人主播。所以,相比真人,AI虚拟主播具有很好的“先天优势”。