首页 > 生活 > > 正文
2020-02-29 10:03:54

Magic Data中文普通话会话语音入选LDC目录

魔术数据技术中国话通话语音入选最不发达国家的产品目录。

随着谷歌,亚马逊等领先公司越来越重视持续对话,对话数据集的重要性日益提高。此外,阅读语音数据识别的准确性高达97-98%,但在对话语音识别中,准确性接近50%(指CHiME-5 Challenge的结果)。巨大的差距表明自动语音识别(ASR)的挑战已扩展到新阶段。

这是用于会话语音识别模型的出色测试数据集。

该语料库有三个关键词:多样性,准确性和多样性。多样性 是用于数据收集的,这意味着收集这些数据以覆盖以不同口音和传输渠道记录的对话,以及不同年龄和性别的讲话者以及与场景对应的背景噪音。以下是一些详细信息:

演讲者:来自中国不同地区的60位演讲者,年龄在4至67岁之间。

录音环境:3个混响不同的房间

录音设备:Android设备(9个品种);iOS设备(8个品种);录音笔(2个品种)

记录通道:单通道和多通道

语料库由远场和近场语音组成。

第二个关键字准确性 是用于数据注释。Magic Data Technology制定了一系列标记规则,以满足实际需求。这是什么意思?自发的交谈会产生重叠,停顿,咳嗽和鼓掌。这些声音在某些情况下是有意义的,因为它们可能指示讲话者的状态,情绪,甚至暗示讲话者的心理活动。根据公司的高级注释规范,这些声音可以被AI系统识别。

最后一个关键词品种 是用于数据应用。该语料库对于至少三个应用程序非常有价值:对话语音识别,说话人分离,说话人验证和健壮性测试。

各种语音识别模型的准确性测试。例如,在典型的家庭应用场景中,使用语音交互的家庭成员包括老人,妻子(成年女性),丈夫(成年男性)和孩子。这些家庭成员有不同的发音模式和习惯。在语音识别模型中,语料库的年龄多样性可用于测试模型对不同年龄组的识别效果。

扬声器分离的准确性测试。基于特定说话者的场景识别已成为研究热点。在集合中,有单人录制频道和多人录制频道。因此,此数据集可用于测试说话者分离任务的准确性。

说话人验证的准确性测试。工作人员会根据扬声器对音频进行注释,即每个音频都有一个对应的扬声器。由于该数据集是由许多不同类型的设备记录的,因此不同设备记录的语音片段可用于判断模型中说话者的身份,从而获得模型在完成说话者验证任务中的准确性。

模型的健壮性测试。由于同时录制了远场和近场语音,因此不同的音频包含不同的混响和背景噪音。语料库对于研究人员测试其系统的鲁棒性非常有价值。

AI算法的准确性取决于大量相关数据。数据质量无疑对其准确性和实用性具有决定性的影响。其中,数据的多样性及其与实际业务的相关性是两个最重要的因素。相应的数据收集,集成和应用功能是业界关注的焦点。

Magic Data Tech拥有最大的普通话会话数据库。借助环人数据处理平台和300,000多种灵活的注释资源,该公司能够提供高达99%的准确性的高质量数据。通过其数据处理的专业性,该公司已服务于顶级AI公司和《财富》 500强公司,并获得了良好的声誉。

相关推荐