标贝科技亮相第二十届全国人机语音通讯学术会议以高质量数据赋能AI未来-华琪软通

华琪软通HaKey SoftComm

公司新闻

10月16日至19日，第二十届全国人机语音通讯学术会议（NCMMSC 2025）在江苏镇江成功举办。会议吸引了众多高校、科研机构及企业的数百名专家学者与行业精英齐聚一堂，共同探讨人机语音通讯领域的前沿技术与发展趋势。作为本次大会的银牌赞助商，标贝科技携丰富的语音及多模态训练数据资源、定制化解决方案亮相会议现场，并通过专题分享深度展示了其在AI数据领域的技术积累与应用成果，吸引了与会专家的广泛关注。

随着语音技术与大模型、多模态技术加速融合，高质量数据的战略价值愈发凸显。作为国内领先的AI数据服务提供商，标贝科技始终致力于通过高质量数据集构建与定制化服务，为AI语音技术的落地应用提供坚实支撑。

会议中，标贝科技围绕“高质量语音大模型数据集构建”这一主题展开专题分享，系统介绍了自身在语音数据采集、处理、标注等环节的创新实践。

为了匹配大模型研发的技术特点，标贝科技设计并研发高质量数据生产管线、语料设计管线、合成数据生产管线，多模态数据平台等基础设施。通过标准化流程与智能化工具链，实现从数据采集到交付的全流程管控，全面支持多语言和方言的一体化处理，精准匹配客户需求。

通过多维度声学特征精细化提取、情感标注优化等核心技术，标贝科技成功构建了覆盖多场景、多语种、高保真的语音数据集。目前，已积累总时长超130万小时的端到端语音大模型训练数据，涵盖数十万不同年龄段、地域口音及音色特征的发音人，支持30余种语言及方言，包括阿拉伯语、泰语、日语、韩语、德语、越南语、马来语、印尼语、菲律宾语等，深度覆盖医疗、电商等10余个垂直领域的20余个细分场景话题，可实现数据资源与语音识别、合成、翻译等核心任务的高效适配与快速调用。

会议期间，标贝科技展位重点展示了包括十万音色自然语音数据、万人高情感表现力语音数据、多方言多语种自然对话数据在内的一系列数据产品。这些数据集均经过严格的质量控制和专业标注，可满足从基础研究到商业应用的不同层级需求。

随着大模型技术的爆发式增长，AI数据服务正从“支撑角色”转向“战略资源”。标贝科技凭借其深厚的技术积淀与灵活的定制能力，已成功服务全球数百家企业，覆盖智能终端、智慧医疗、互联网科技等多个领域。未来，标贝科技将继续以技术创新为驱动，深化与学术界、产业界的合作，构建更开放、更高效的AI数据生态，为推动人机语音通讯技术的普惠化发展贡献力量。