admin管理员组

文章数量:1531663

2023年12月20日发(作者:)

人工智能手语播报系统标准

1 适用范围

本标准对人工智能手语播报系统及各相关术语进行了定义,明确了人工智能手语播报系统的应用范围、技术要求、制播流程等一系列标准。

2 规范性引用文件

下列文件对于本标准的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T 14857—1993 演播室数字电视编码参数规范

GB 18030 信息技术 中文编码字符集

GB/T 24435-2009 中国手语基本手势

3 术语和定义

3.1 人工智能手语播报系统 artificial intelligence sign language

人工智能手语播报系统是采用人工智能技术实现文字/语音到手语的转换,并通过虚拟主播用肢体动作、脸部表情、口唇变化等多模态表达进行手语播报的应用系统。

3.2 虚拟主播 virual streamer

虚拟形象的主播。

3.3 手语信号 sign language signal

包含手语动作的视频信号。

3.4 源信号 source signal

摄像机产生的信号。

3.5 背景信号 background signal

用于衬托手语信号的附加信号。

1

3.6 手速 sign language rate

国家通用手语词语的时长为单位时长,虚拟主播的动作和其的比值为手速。

3.7 手语模块 sign language module

包含手语信号、背景信号以及相关联的信号,能够在电视屏幕显示手语播出的所有要素。

3.8 视频模块 video source module

包含源信号以及视频播出相关的信号,能够在生活场景的屏幕显示的视频要素。

3.9 视频合成模块 compound module

将手语模块和视频模块进行合成,能够在生活场景屏幕显示的视频的所有要素。

3.10 手语模块尺寸 sign language module size

显示在屏幕上的手语模块的像素数。

3.11 手语模块尺寸 sign language module size

显示在不同生活场景屏幕上的所有适合的像素数。

3.12 摘要式手语稿 abstract sign language manuscript

根据稿件提出其中手语需要的主要词汇。

3.13 导播单 the content of abstract sign language manuscript

特指电视节目应用时根据节目播放顺序指定摘要式文稿的顺序。

4 应用范围

4.1 法规要求

4.1.1 《无障碍环境建设办法》(2012年)由中华人民共和国国务院令中指出:

第六条——国家鼓励、支持采用无障碍通用设计的技术和产品,推进残疾人专用的无障碍技术和产品的开发、应用和推广。

第十九条——县级以上人民政府及其有关部门发布重要政府信息和与残疾人相关的信息,应当创造条件为残疾人提供语音和文字提示等信息交流服务。

第二十一条——设区的市级以上人民政府设立的电视台应当创造条件,在播出电视节目时配备字幕,每周播放至少一次配播手语的新闻节目。公开出版发行的影视类录像制品应当配备字幕。

2

4.1.2《国家手语和盲文规范化行动计划》(2015年)由中国残疾人联合会,教育部,国家语委,国家新闻出版广电总局:

三、主要措施:大力推广国家通用手语和国家通用盲文。采取多种形式广泛深入宣传国家通用手语和国家通用盲文;地市级以上电视台的电视手语新闻全面使用国家通用手语;依托中国教育电视台开办国家通用手语教学栏目,鼓励国家和有条件的省级电视台试办使用通用手语的电视手语栏目;结合实际举办国家通用手语和通用盲文知识技能竞赛。

国家重大活动有听力、视力残疾人员参加时,在现场直播或录播中配播国家通用手语。

四、保障条件

(一)建立健全工作机制。建立中国残联牵头,教育部、国家语委、国家新闻出版广电总局和有关部门参与的国家手语和盲文规范化工作协调机制,定期研究重大问题,推动工作落实。

各级残联要切实履行统筹职能,积极争取相关部门、各级聋人协会和盲人协会以及社会组织的支持,分工协作,确保手语和盲文规范化工作有序开展。

加强对学校、新闻出版、广播影视、公共服务行业和公共场所使用国家通用手语和国家通用盲文情况的监督检查,加强对教材、图书等文化产品和信息技术产品使用国家通用手语和国家通用盲文情况的监督检查。

《国家通用手语推广方案》(2018年)中央宣传部、中国残联、教育部、国家语委和国家广播电视总局制定:

新闻出版和广播电视管理部门要采取多种形式广泛深入宣传国家通用手语和国家通用盲文,加大电视节目手语翻译国家通用手语的培训力度,将通用盲文阅读推广纳入全民阅读活动,采取有力措施,落实在国家公务活动、电视和网络媒体、公共服务、信息处理中使用国家通用手语和国家通用盲文的要求。

2019年起,在中央电视台、省级电视台手语栏目、党和国家重大活动的手语同声传译、出版物中逐步使用国家通用手语。2020年起,在地市级电视台手语栏目和地方公务活动的手语同声传译中逐步使用国家通用手语。

鼓励利用人工智能、语音识别、手语识别等先进技术研究各类国家通用手语信息化产品。

省(区、市)建立由残联牵头,教育、语委、新闻出版、广播电视等部门参加的国家通用手语推广工作领导小组,明确分工,密切配合,加强协调,制定本省(区、市)国家通用手语推广实施方案,定期研究解决重大问题,确保推广工作有序开展。

各级残联要按照《国家手语和盲文规范化行动计划(2015-2020年)》要求,主动协调财政部门,将推广国家通用手语所需经费纳入预算,保障投入。国家教材出版经费、国家出版基金、电视台业务经费等应将国家通用手语推广纳入其中,并给予倾斜。各地要重点对贫困听力残疾人购买国家通用手语学习用品予以补贴。有条件的地方可建立和实施国家通用手语翻译服务补贴制度。

3

《XX省无障碍环境建设管理办法》(2020年)第十五条:

县级以上人民政府应当将无障碍信息交流建设纳入信息化建设规划,引导和鼓励有关部门、企事业单位和个人使用无障碍信息交流的产品,为残疾人、老年人获取公共信息提供便利。

第十六条 县级以上人民政府及其语言文字、教育、新闻出版、广播电视等部门和残疾人组织应当采取措施,逐步推广国家通用手语和通用盲文。

第十七条 县级以上人民政府及其有关部门发布重要政府信息和与残疾人、老年人等社会成员相关的信息,应当创造条件为残疾人、老年人提供语音和文字提示、手语、盲文等信息交流服务。

第十九条 省和设区的市、自治州人民政府设立的电视台应当在播出电视节目时配备字幕,并创造条件每周播放至少一次配播手语的新闻节目。

《广播电视人工智能应用白皮书》2018年提出:

国家广播电视总局 推动人工智能在广播电视内容生产、制作播出、分发传输、终端消费、运行维护、监测监管、网络安全等领域的广泛应用,加快广播电视从数字化、网络化向智能化发展,提升广播电视行业生产效率,开发新业态、提供新服务、激发新动能、引导新供给、拉动新消费,推动国民经济发展。

《关于促进智慧广电发展的实施方案》2018年规定:

国家广播电视总局 以技术创新推动内容创新。充分发挥广播电视内容优势,加快大数据、云计算和人工智能等新技术在广播电视内容生产中的创新应用,进一步增强广播电视内容核心竞争力,形成智慧广电内容新优势,培育发展新动能。创新节目内容形态。积极利用人工智能(AI)、虚拟现实(VR)、混合增强等新技术创新影视节目与新闻节目形态,发掘创意空间,深耕内容制作,提供精准服务,不断满足受众需求,提升受众体验。

4.2 应用场景

电视节目:新闻节目、生活节目(气象、服务等)、访谈节目、教育节目(残疾人专栏等)等。

影视作品:电视剧、纪录片、动画片、网络影视剧、电视节目、公益广告、MV、短视频等。

特殊教育:线上教学课堂。

公共服务:机场、车站等公共屏幕、户外广告等屏幕、车厢屏幕、楼宇屏幕等。

政务公开:政府服务大厅、政策宣讲窗口、政务发布等。

互联网:政务网站、资讯网站、新闻客户端、掌上办事入口等。

4

5 技术要求

5.1 人工智能技术要求

人工智能手语播报系统是通过采用人工智能技术实现文字/语音到手语的转换,并通过虚拟主播用肢体动作、脸部表情、口唇变化等多模态表达进行手语播报,通过多种制作模式,实现以国家通用手语翻译的视频内容,从而应用到不同的生活场景,帮助听障人群融入社会生活。

5.2 手语要求

手语词汇要求

人工智能手语播报系统中的手语词汇应对标目前最新的2019年出版的《国家通用手语词典》,该词典以国家语言文字规范《国家通用手语常用词表》为基础,主要收录了听力残疾人语言生活和教育中使用频率较高、比较稳定的手语常用词8214个。

手语新词要求

由于系统需要应用于不同生活场景,因此在人工智能手语翻译的领域可以适当增加新词。新造词应建立于基本词的基础上,通过补充(如“民生”——手语:人民+生活)、简化(如“神采奕奕”——手语:精神+样子+好)、近义词替代(“腼腆”——害羞)等方式创造,以弥补基本词库的不足,提高人工智能手语翻译的可理解度,从而符合手语语言学规律和社会发展的需要,使经过人工智能翻译的手语动作更为规范、科学。

5

5.3 虚拟主播形象及要求

虚拟主播模型的比例、单位、坐标标准

模型人物和真实人物的比例为:1:1。单位采用“米(m)”,按实际规格和尺寸进行制作。坐标轴原点不要远离场景人物。

虚拟主播模型的法线

虚拟主播模型的法线朝向必须是正面。虚拟主播模型遮挡的部位的UV需要缩小,主要的大面尺寸放大,使之尽可能的填满整个UV。

虚拟主播模型需要有两套UV。一套(UV1)用于漫反射贴图(DiffuseMap)、高光贴图(SpetMap)、法线贴图(NormalMap);另一套(UV2)用于光照图(LightMap)。UV2不可重叠,但是可以将场景中的物体都展在同一张UV空间上。使其可以最大限度的利用贴图空间生成光照图。

虚拟主播模型的贴图标准

虚拟主播模型的贴图漫反射贴图和高光贴图在同一个图片文件上,两张贴图用在同一张贴图的不同通道上,漫反射需使用RGB通道,高光使用Alpha通道。这两张贴图使用UV1,贴图的最终大小应控制在256—1024之间,格式为TGA或TIF。UV2使用的是光照图,大小应该控制在一个室内场景一张1024大小的图,格式为TGA或PNG。

5.3.4虚拟主播模型的脸部

真实反映人物的头发、五官以及整体脸部虚拟人物模型。三维模型必须高逼真反映人物的形象。

虚拟主播模型精度要求:人体面部精度小于1cm,高程精度小于2cm。五官特征间尺寸精度小于1cm且小于量测对象间距尺寸的 10%,头部模型与人体模型合并后,彼此没有冲突,与实际相符。

脸部数据源要求:数字高逼真模型用 1:500 人物图,纹理信息由实地拍摄的数码照片。根据实际情况需要,纹理信息可采用真彩色正射影像或高分辨率摄像机阵列表示。在人物图上提取特征要素包括头发、眼睛、鼻子、嘴巴、耳朵坡坡顶线、坡脚线等。三维模型按制作要求提供 max 格式的文件(3DS MAX 9 以下)。

5.3.5虚拟主播模型的口型和表情标准

口型包含三类基本运动:上下开闭运动:这是观众看到角色说话最直接的运动,定义一级表情。左右及前后运动:除了开闭运动,咧嘴和噘嘴也是很容易辨别出来,定义二级表情。相对微小的运动:除了一级,二级表情之外的表情,定义三级表情。

人物脸部表情标准,会运用到压扁和拉长的原理,来表现角色的各种面部表情。笑的表情基本特征:头部略微上仰,额头微有皱纹,眉毛上扬,眼睛几乎闭合成下弧形,脸颊肌肉向上提起,脸形变宽,嘴巴张开露齿,嘴角向挑起起,鼻唇沟线加深上抬成内弧形,下颌拉紧。这是笑的基本表情。笑有微笑、大笑、狂笑,在形态变化的幅度上,也会产生差异。哭的表情基本特征:头颈软弱、微倾6

斜,眉梢和眼角倒挂下垂,脸颊肌肉无力下沉,鼻唇沟线加深,下部向内弯曲,嘴唇微张、嘴角下垂、下颌松弛。这是哭的基本表情。哭有悲哀、哭沈、大哭之分,形态变化的幅度,也会有所不同。惊的表情基本特征:头部略微前伸或后缩,脖子僵直,面颊肌肉拉长,眉毛高高吊起,眼睛放大圆睁,眼眶内眼珠居中四周露出眼白,嘴巴张大仅见下齿,下唇倒垂,鼻唇沟线略微拉直,下端向内弯曲,下颌收缩:这是惊的基本表情。惊有惊异、恐惧、恐怖之分,形态变化的幅度也会有所区别。

身体要求

虚拟主播的身体能完成简单的运动配合表达稿件手语含义,便于听障人群理解,如身体向前、后、左、右运动。

5.3.7手部要求

虚拟主播的手部运动须满足手语表达的需要,能够灵活地打开和收拢,完成手语的表达。

5.3.8服饰要求

虚拟主播的服饰应得体、XX,且符合电视节目的要求,禁止出现奇装异服和暴露的衣服。服装的款式应采用西装长裤套装,服装颜色应适合上屏。

5.3.9动作要求

虚拟主播的动作主要是由骨骼驱动。虚拟主播的动作应至少覆盖《国家通用手语词典》中的8214个词汇。虚拟主播的手部动作的空间位置误差应在可接受范围内。

6 制播标准

6.1 人工智能手语播报系统制播流程

1)

2)

3)

4)

向系统内输入文字或语音(语音将识别为文字)

多条内容可编辑顺序

点击手语播报按钮,驱动虚拟主播完成指定的动作,生成手语模块;

将手语模块和视频模块进行合成形成最终的合成模块。

6.2 手语摘要

手语摘要的定义

手语摘要是指基于电视、影视剧等已设定好视频或播出时长、有文字稿件等的视频应用场景要

7

求,结合手语播报特性,为确保手语信号内容与原视频或节目时长基本一致,通过提炼、概括等方法,对文字稿件进行压缩并确保核心事实没有改变的过程。

手语摘要的要求

(1)真实准确

手语摘要源于完整的内容稿件,要遵循真实性的原则,不能有虚假成分。同时要注意,在提炼、概括等摘要过程中,要确保核心事实和信息的准确。

(2)短小精炼

手语摘要文稿要比完整的内容稿件简短精炼,运用白描手法,把“水分”挤干,简洁朴素、不加渲染,去掉形容词、修辞手法、成语、俗语等的应用。

(3)通俗易懂

在进行摘要工作时,尽量将书面语言转换为大众化的语言,删掉或调整专业性、技术型或议论性的叙述。

一些已经在社会层面广泛流行的新词语像“非典”、“甲流”、“博客”、“疫情”等,可进入手语摘要文稿。

基本比例

为了保证听障人士能够接受和看清动作,按照手语每分钟80个动作的速度,摘要与文稿的比例宜为1:3-1:4。即1000字左右的文稿,摘要在250-333字左右。手语摘要文稿生成的手语视频时长应该短于原视频时长。

制作要求

手语摘要文稿的制作应根据稿件的客观事实,提取主要内容并进行文字综合与概述,形成简明扼要的核心事实、中心思想和基本观点。应口语化,用简单的字词,不做抽象表达,减少形容词、副词、量词的使用,避开生僻和专有名词,不用词语缩写。

7 手语图像参数

7.1 电视节目手语模块及参数

7.1.1新闻类、访谈类智能手语节目中合成参数

新闻类、访谈类智能手语节目中手语图像尺寸不宜过大,可根据现有节目包装来确定手语图像在电视模块的位置和尺寸参数,见表1,该参数适用于高清制式,等比增减后也可应用于标清、4K制式。

表1 新闻类、访谈类智能手语节目中手语图像在电视模块的参数

8

本文标签: 手语国家通用虚拟内容