admin管理员组

文章数量:1531473

2023年12月12日发(作者:)

智能语音识别转文字字幕实时上屏直播系统

讯飞听见智能会议系统是基于科大讯飞业界领先的语音识别技术所研发,可满足公司发布会、电视节目直播、大型会议、培训等一系列需要

进行实时文字转写的场景。

本文档主要介绍了讯飞听见智能会议系统的研发背景、设计理念、产品框架及功能等,以帮助读者对讯飞听见智能会议系统有快速的了解。

本文档适用于需要对讯飞听见智能会议系统进一步了解的用户,如还有其他疑问可联系我们的技术支持人员,我们会进一步为您解答。

产品研发背景

3.1市场需求

进入21世纪以来,人类逐渐进入多媒体信息时代,当今大众传媒主要有互联网、电视、手机等,多媒体信息逐渐成为生活中不可缺少的重

要部分。作为传媒载体的三要素,声音、文字、图像三者的结合即现场直播是人们最直接传递信息和理解的方式,而在发布会、大型会议、

电视直播、教育培训等场景中体现尤为明显。

发布会的目的是为了传递团队或者企业的产品、文化、品牌,最好的传递方式就是用视频直播,每年发布会超过400万次,总时长在1600

万小时以上。

电视直播主要为体育比赛、电子竞技等直播,为广大体育、电子竞技等爱好者提供及时、快捷的信息获取渠道。每年体育比赛、电子竞技举

办次数超过100万场。

截止2014年中国的教育培训机构的总量约为为14万家,视频教学已经成为常见的教学方式,为学习人员提供基础教育、语言类、职业技术

等辅导,2014年总培训辅导时长超过28000小时。

另外,任何需要以声音、图像、文字作为载体传播的讯息,如采访、会议、法律纠纷、医生问诊等,都需要有一套可以提供实时上屏的产品

系统。

3.2市场现状

为了在上述环境中实现现场直播,传统的解决方法是:在现场录制过程中,配有专业的速记团队对音频进行文字转写和校对,转写完成后再

和视频或者图文匹配,完成后进行发布,实现现场直播,这样解决的方法具有以下点局限性:

Ø消息滞后性,因为视频是通过人工后期转写后发布,与现场存在一定时间差。

Ø信息获取缺乏效率,相比较而言,人类获取文字信息的速度要快于获取语音信息,且文字信息可以跳过一些无需关注的内容。

Ø后续整理耗费资源,进行现场视频直播时,需耗费人力对转写文字和视频进行时间戳校对形成字幕。

产品概述

4.1产品架构

4.2产品功能详述

检测

进行准确的VAD端点检测,可避免背景噪音和人声噪音的误识别,使识别结果更加准确。

2.语音识别

利用科大讯飞的先进语音转写技术,集成说话人自适应、文本后处理、文本顺滑、异常检测等技术,将语音流逐字实时转换成文字,并实时

推送到客户端。

3.语音后处理

进行标点、数字、英文等后处理,使识别结果更加准确。

4.实时上屏

将转写结果实时投影到现场的大屏幕上,进行实时字幕直播。4.3产品包含组件序号名称功能

1移动工作站识别引擎及模型资源部署

2主控客户端控制录音和展板端

3展板客户端现场实时上屏展示

4路由器局域网

5声卡音频处理

6鹅颈麦克风收音设备

7加密狗保障数据和服务安全

4.4简单部署流程

1.引擎及语言模型声学模型资源部署、配置;

2.拉通测试;

3.打开主控端和展板端PC,进行录音及投影操作;

4.5产品实现页面展示

1.主控端

主要功能:控制录音开始于暂停,控制展板页面切换和清屏,可选择模型,并可将转写结果保存和导出。

2.展板端

主要功能:展板端接收主控台的音频转写结果,将通过投影仪将转写结果展示在大屏幕上,实现现场实时上屏,并可检测音量大小。

本文标签: 文字进行转写产品