数字人会手语?核心技术大揭秘
9月24日至28日,2021中关村论坛在北京举行。本次论坛以“智慧·健康·碳中和”为年度主题,邀请专家、学者积极交流合作。期间,来自清华大学的冬奥手语播报数字人系统亮相该论坛,吸引了许多人驻足观看。
什么是手语播报数字人?
在这个信息技术飞速发展的时代,人人都需要获取大量的信息。然而,传统手语播报主持人翻译工作量大、与节目主持人配合难度高,一定程度上限制了听障人士对于信息的获取,基于AI 技术的手语播报数字人成为解决这一难题的新兴途径。
手语播报数字人,不仅拥有生动的表情神态、丰富的肢体语言,还拥有一个能够理解、翻译语音和手语的数字双轮驱动虚拟数字脑。它配置了高速准确的数据采集装置,涵盖嘴形、表情、姿态、手部动作等多种素材。为了提高冬奥播报的准确性,研发团队专门构建了冬奥手语语料库,包括多模态肢体动作、表情、手指等语料,专门训练数字脑掌握手语表达的方法。同时,手语数字脑可以通过计算机模仿听障人士的大脑,将看到的中文文本信息实时转换成手语词汇序列。
技术依托:“悟道”大模型
手语数字播报的实现,离不开全球最大的超大规模智能模型“悟道2.0”。“悟道”大模型开放平台,可以使企业通过 “大模型+少量微调”的AI开发模式,实现十亿级别模型的在线训练与微调,规模化地进行AI应用开发,大大降低大模型开发门槛。
基于智源“悟道”大模型,结合冬奥的相关信息,悟道大模型实现了文本到手势的自动转化。当播报员在播报时,数字人可以将文字转换成手语,方便听障人士收看赛事专题报道。冬奥手语播报数字人系统是“悟道 2.0”超大规模预训练模型的首次实际场景应用,它依托智谱AI 打造的“数据”与“知识”双轮驱动智能平台,实现了冬奥期间赛事新闻的实时手语翻译播报。
数字人的未来,不止于手语播报
随着人工智能技术的不断演进,除了手语播报,数字人也进入了其他领域,如向大家介绍空间站情况的数字记者小诤、游戏直播行业涌现的各类虚拟人物等。
如今,在技术蓬勃发展的新风口下,数字人不仅达到了人像的写实级逼真程度,还具备了一定的沟通交流能力。虚拟互动技术的扩展,让数字人可以进入到医学、矿学和航天学等精细或危险领域。未来,数字人将具备类似人的看、听、说和知识逻辑能力,使人工智能的发展更进一步。
指导老师:中国传媒大学经济与管理学院副教授 于晗
专家:中国传媒大学信号与信息处理专业副教授余心乐
分享让更多人看到
相关新闻
- 评论
- 关注