以数字人入驻直播带货,凭什么刘强东敢第一个下场?
文/林三千 数字人的大规模商业化,京东在今晚吹响了号角。 今天傍晚,采用刘强东形象的“采销东哥”AI数字人与观众见面,在京东家电家居、京东超市采销直播间亮相。直播间里,采销东哥AI数字人谈笑自若,讲起自己运动和烹饪的体验,又对直播带货的大屏电视、草莓和玉米滔滔不绝。 实际上,“采销东哥”AI数字人亮相直播背后,还代表着京东在技术普惠、低价战略上的深一度实践,将关键技术开放给生态链上下游,以技术突破赋能业务实际问题,促进产业链提质增效。 听过刘强东演讲的人一定印象深刻。他讲话很少犹疑,让人觉得自信坚定;同时平易近人,用简单的词汇讲述波澜壮阔的故事。讲完一段,他还会抛出事先准备的金句。这时,观众会突然爆发出脱口秀现场般的笑声和掌声。 这次直播的数字人就还原出刘强东真人的风采:不仅声音惟妙惟肖,说话的语调和习惯也别无二致。也难怪有人在微博上发问:数字人是怎么做到这么“真”的? 京东云言犀技术团队透露,要让数字人逼真,首先需要还原出刘强东的声音。言犀团队原本打算使用他在2017年的一段演讲音频作学习素材,但经过测试发现:当时演讲的语气用于直播带货过于正式。因此,言犀团队又录制了一段刘强东30分钟的闲谈,让他畅聊自己的旅行经历。 这段神采飞扬的声音就成为底本,提取出声学特征后,通过言犀语音大模型合成出人工语音。其实,言犀团队已经可以做到最短使用6秒素材,就能复现一个真人的声音。而更长的声音素材,无疑有助于捕捉更多丰富的细节。 复现出音色以后,还需要捕捉声音的“副语言”。副语言是人们说话的习惯,比如语速、语调、重音、倒吸气。即使音色变化,比如感冒或者电话通话,凭借副语言也能辨认出说话的人。如果没有副语言,声音就会缺乏情绪、显得过于“正确”和冷冰冰。 刘强东讲话也有自己的副语言:语速快、连音多、吐字较轻。例如“跟着”的“着”字经常被一笔带过。“时间”中的“sh”会有更重的鼻音。后鼻音有时会被吞掉,变成前鼻音。他讲话也很少有辅助词,句子间衔接顺畅,只会在寻求认同时用“啊”来衔接。说到重点时,他还会加重重音,让人不自觉地竖起耳朵。 捕捉这些副语言的技术,被称为“风格迁移”:把原本声音的特征迁移到人工合成的声音中。这些副语言原本分布稀疏,大模型不容易捕捉到规律。但言犀团队将声音样本的重音、语调等拆解成音素,让模型能更清晰地注意到它们。在文本层面,NLP(自然语言处理)模型则会根据真人习惯添加口头语,让声音更像真人。 给企业管理者做数字人的其实并非少数。2021年,黄仁勋的数字分身就曾亮相GTC,三个月后才被发现是数字人。360的周鸿祎和自己的数字人在乌镇对谈,商汤的汤晓鸥数字人还在舞台上喝水,流畅的大幅动作技惊四座。 让企业管理者的数字人进入带货直播间的,京东还是第一家。原因非常简单:企业管理者的数字人往往要经过“精雕细琢”,5分钟的视频背后可能是一个月的苦工,否则很容易被观众分辨出差异。而这些动用庞大计算资源的数字人,无法承受住成百上千商家同时直播、实时演算。 要让数字人应用门槛不断降低,言犀团队着实下了一番苦功。首先是建立真人的形象。如果不考虑成本,目前最真实的方法是用光线追踪做3D建模。由于人脸是不规则的平面,需要用上百万个三角形去模拟,建立的模型还需要经过深度学习再做声唇同步,计算量十分庞大。如果简单地降低三角形的数量,又会让表情变得呆板。 言犀团队发明了一种方法:骨骼和肌肉用3D建模,这样用少量三角形就能还原人体的大姿态动作,无论挥舞手臂还是颔首摆头,都惟妙惟肖。人脸则在3D模型上采用2D渲染,能够让人脸保持高分辨率,做出丰富表情也不变形,同时兼顾较低的渲染成本。 数字人直播的成本除了渲染,还有很大一部分带宽成本。观众观看数字人希望越清晰越好,但带宽成本会让商家难以承受。言犀团队发现,人们观看直播会更关注眼睛部分,对头发、肩膀等则没那么关注。因此,言犀数字人采用动态分辨率,在数字人面部做局部高清:即使观众放大,眉毛也如发丝般清晰、眼神依旧透亮。 这些兼顾直播效果和成本的技术,也运用在采销东哥AI数字人上。观看直播的人会发现,他在表达肯定和强调时会轻微颔首,表达坚定时会轻挥手臂、目视远方,轻松交谈时则轻微仰头。这些小动作,在商家日常使用的数字人中也能够复现。 京东云言犀数字人能率先冲过商业化的“起点线”,离不开京东云的技术导向:技术源于产业需求、历练于产业场景、能产生产业价值。从研发开始,这些技术就不是为冲榜而生,不会关在实验室里,而是要去业务场景经受检验。正如刘强东在不久前的内部信中所说:“技术为本,是相信技术终究会改变一切的决心”。 数字人直播对京东并非技术秀场,而是锱铢必较的商业场景。截至2024年4月,已经有超过4000个品牌在京东使用数字人直播,用来接替真人完成闲时直播。它们能提升闲时转化率超30%,成本却不到真人直播的1/10。 春节就是典型的闲时直播场景:观众观看时间分散、往往没有明确购买目标。京东云言犀数字人抓住春节时间,累计带货超过4000万元。使用了言犀数字人以后,百威成交转化率提升了48%,珀芙研成交转化率则提升了458%。 可以说,数字人直播已经成为商家低成本营销的必备手段。京东云言犀数字人释放出的技术红利,帮助商家紧跟技术潮流、不被日渐提升的流量成本所淹没。 据电商行业数据,在2023年,直播带货在电商的渗透率约为31.9%,成为零售的普遍形态。直播带货提供了更直观的商品展示:让观众能直接看到商品实物,听主播介绍也比查看商品详情页更通俗易懂。晚归的打工人、早起的宝妈,都可以打开直播间,一边忙碌一边等待自己心仪的商品出现。 然而,直播带货每场开播都有不小的成本,大约每场数万元。这让精打细算的品牌商家头疼不已,有直播电商资深运营直言:“大部分品牌,过去两年的直播都是亏损状态”。不仅成本贵,真人主播还只能应付每天的黄金时间,背后选品、脚本、互动都要其他人配合。这样高昂的成本,使得很多商家被排斥在直播带货之外。 “对预算有限的品牌来说,数字人直播是高性价比的选择”,大宝京东渠道负责人袁航表示。也有商家说,数字人直播“播了就比不播强”。 “采销东哥”AI数字人亮相采销直播间,无疑是京东对低价主张的一次展示:京东采销直播,是以减少商家营销成本的方式,让消费者拿到便宜好物,让商家赚到合理利润。而以数字人为代表的技术解决业务问题,并把自身的成熟实践成果开放给更多伙伴,则是京东始终遵循的路径。