Magic Data中文普通话会话语音入选LDC目录

导读魔术数据技术中国话通话语音入选最不发达国家的产品目录。随着谷歌，亚马逊等领先公司越来越重视持续对话，对话数据集的重要性日益提高。此

魔术数据技术中国话通话语音入选最不发达国家的产品目录。

随着谷歌，亚马逊等领先公司越来越重视持续对话，对话数据集的重要性日益提高。此外，阅读语音数据识别的准确性高达97-98%，但在对话语音识别中，准确性接近50%(指CHiME-5 Challenge的结果)。巨大的差距表明自动语音识别(ASR)的挑战已扩展到新阶段。

这是用于会话语音识别模型的出色测试数据集。

该语料库有三个关键词：多样性，准确性和多样性。多样性是用于数据收集的，这意味着收集这些数据以覆盖以不同口音和传输渠道记录的对话，以及不同年龄和性别的讲话者以及与场景对应的背景噪音。以下是一些详细信息：

演讲者：来自中国不同地区的60位演讲者，年龄在4至67岁之间。

录音环境：3个混响不同的房间

录音设备：Android设备(9个品种);iOS设备(8个品种);录音笔(2个品种)

记录通道：单通道和多通道

语料库由远场和近场语音组成。

第二个关键字准确性是用于数据注释。Magic Data Technology制定了一系列标记规则，以满足实际需求。这是什么意思?自发的交谈会产生重叠，停顿，咳嗽和鼓掌。这些声音在某些情况下是有意义的，因为它们可能指示讲话者的状态，情绪，甚至暗示讲话者的心理活动。根据公司的高级注释规范，这些声音可以被AI系统识别。

最后一个关键词品种是用于数据应用。该语料库对于至少三个应用程序非常有价值：对话语音识别，说话人分离，说话人验证和健壮性测试。

各种语音识别模型的准确性测试。例如，在典型的家庭应用场景中，使用语音交互的家庭成员包括老人，妻子(成年女性)，丈夫(成年男性)和孩子。这些家庭成员有不同的发音模式和习惯。在语音识别模型中，语料库的年龄多样性可用于测试模型对不同年龄组的识别效果。

扬声器分离的准确性测试。基于特定说话者的场景识别已成为研究热点。在集合中，有单人录制频道和多人录制频道。因此，此数据集可用于测试说话者分离任务的准确性。

说话人验证的准确性测试。工作人员会根据扬声器对音频进行注释，即每个音频都有一个对应的扬声器。由于该数据集是由许多不同类型的设备记录的，因此不同设备记录的语音片段可用于判断模型中说话者的身份，从而获得模型在完成说话者验证任务中的准确性。

模型的健壮性测试。由于同时录制了远场和近场语音，因此不同的音频包含不同的混响和背景噪音。语料库对于研究人员测试其系统的鲁棒性非常有价值。

AI算法的准确性取决于大量相关数据。数据质量无疑对其准确性和实用性具有决定性的影响。其中，数据的多样性及其与实际业务的相关性是两个最重要的因素。相应的数据收集，集成和应用功能是业界关注的焦点。

Magic Data Tech拥有最大的普通话会话数据库。借助环人数据处理平台和300,000多种灵活的注释资源，该公司能够提供高达99%的准确性的高质量数据。通过其数据处理的专业性，该公司已服务于顶级AI公司和《财富》 500强公司，并获得了良好的声誉。