(相关资料图)
钛媒体App 5月29日消息,AI训练数据服务商海天瑞声CEO王晓东宣布将开放多模态数据集,推进数据资源整合共享。
据介绍,此次即将开源的多模态数据集「DOTS-MM-0526」涵盖图像、语音、文本等多个维度,开源数据集可以帮助各领域的研究者和开发者快速获得更多高质数据样本,进而提高模型的精准度和鲁棒性,实现更好的算法研究和模型训练。
同时,王晓东还发布了海天瑞声企业品牌焕新战略:公司将启用全新Logo,英文名称将从“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞声”不变。
“此次品牌升级代表着海天瑞声将在数据科技和人工智能领域的进一步发展和探索。”王晓东表示,海天瑞声因优质海量的智能语音数据被大家所熟知,但近些年来随着人工智能技术的不断迭代与发展,海天瑞声的业务已从单纯的语音领域服务,扩展至提供覆盖语音、计算机视觉、自然语言处理和多模态的数据解决方案及成品数据集,未来还将支持以数据驱动的生成式AI业务发展。
公开资料显示,自2005年成立以来,海天瑞声一直在为AI产业链上的各类机构提供AI算法模型开发训练所需的专业数据集。目前这些数据集已覆盖智能语音、计算机视觉、自然语言等AI核心领域,其产品和服务在自动驾驶、虚拟主播、声纹识别、人脸姿态等众多人工智能场景及相关算法模型的训练过程中获得应用。
“过去的两三年,我们开始进入自动驾驶数据服务领域,并百分百自研了自动驾驶的全栈式数据平台——DOTS-AD。”海天瑞声CTO黄宇凯介绍,这是一款专为自动驾驶场景设计的全栈式数据平台,能够支持多维度、全方位的自动驾驶标注任务,数据标注效率提升高达8倍。支持万人同时作业,能够解决项目经理和标注员的使用痛点,提升标注效能,且支持多元化部署。
DOTS-AD具有四大核心功能:一是全面支持自动驾驶领域各维度2D/3D/4D点云或图像数据标注;二是能针对不同场景支持辅助标注/自动化标注;三是支持项目的柔性管理,支持流程/工具/标签的自定义;四是可实现对数据的智能化管理,确保客户的商业敏感数据安全合规。
“自动驾驶只是一个行业和一个方向,未来海天瑞声还会把人工智能技术放入到能源领域以及其他各个行业。”王晓东表示。
(本文首发钛媒体App)