在"一带一路" 倡议深化落地、全球数字经济加速融合的背景下,小语种语音交互市场正迎来爆发式增长。据MarketsandMarkets报告显示,2025年全球小语种语音技术市场规模将突破200亿美元,年复合增长率达28%。
然而,优质小语种自然对话数据的稀缺性,已成为制约智能客服、跨境电商、多语言AI助手等场景落地的核心瓶颈。
(1)数据采集难度大。小语种母语者分布分散,专业录音成本高昂。例如,当前泰语、越南语等语种公开数据集不足英语的1%,难以支撑模型深度训练。
(2)标注复杂度高。方言变体、敬语体系等语言特性差异导致传统ASR模型适配困难。
(3)场景覆盖不足。现有数据集多为朗读式语音,缺乏车载噪声、多人对话等真实环境数据。
标贝科技充分考虑多语种识别模型需求,基于多年语音数据服务经验,推出《小语种自然对话语音识别数据集》,首批覆盖泰语、印尼语、菲律宾语、日语、葡萄牙语(巴西)、墨西哥语、越南语、马来语等十多种语言,为智能客服、跨境社交、本地化智能设备等场景提供数据支撑。
数据均采集自母语者真实生活场景的自然对话。采用专业声学设备录制,采样率48kHz/16bit,信噪比≥35dB。涵盖日常交流、电商咨询、客服对话、车载交互等细分领域。涉及旅游、交通、运动、瘦身、购物、摄影、宠物、音乐、生活、工作、健康、游戏、美食、家庭、教育、梦想等20多个话题。
部分数据集介绍
01 泰语双人自由交谈语音数据库
数据总时长约500小时,录制环境为安静室内环境。由500多名录音人基于给出的话题列表开展对话,男女比例平衡。标注文本内容、数字以及特殊符号、标点符号等。
02 印尼语双人自由交谈语音数据库
数据总时长约500小时,由印尼本土录音人进行录制,录制环境为室内,安静无回声。涵盖美食、电影、音乐、个人情感、职业等多个常见话题。
03 菲律宾语双人自由交谈语音数据库
数据时长为500余小时,由500名本土录音人根据自己熟悉的话题进行流程的自然对话,每段对话不超过30分钟。标注主说话人的非文本噪声以及非主要说话人的应答声标。
04 日语双人自由交谈语音数据库
数据时长达500多小时,由500余名发音人参与录制,以自然方式进行交流,针对给定的数个话题自由发挥,领域广泛,语音自然流利,符合实际对话场景。
05 葡萄牙语(巴西)双人自由交谈语音数据库
语料为巴西葡萄牙语,总时长约500小时。无预制文本,由本土录音人以自然方式进行对话,同时录制对话的内容。人工转写文本,数字以及特殊符号用阿拉伯语书写。
06 墨西哥语双人自由交谈语音数据库
语料为对应语种,通用领域话题。100名发音人参与了录制,年龄分布在18-70岁,总时长约为100小时。对说话人口音、吞音、非文本噪音等做了标注,准确性高。
07 越南语双人自由交谈语音数据库
共100名发音人参与录制。给出话题列表,录音人从中挑选多个自己熟悉的话题以确保对话的流畅。每个话题至少30min,共进行150分钟无稿自由对话。
08 马来语双人自由交谈语音数据库
语料为对应语种,无预制文本,由50名本土录音人以自然方式进行对话,同时录制对话的内容。男女比例平衡,年龄分布在18-60岁。
合作伙伴:
友情链接:
立即咨询