HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

可见数据和特征在人工智能领域的重要性

2019-05-19

可见数据和特征在人工智能领域的重要性——对于同一个目标,将时间和精力花在改良算法上远不如花在构建更加精确的数据集上更有效,一个具有高质量标注的数据集对于模型的提升效果远高于优化算法带来的效果。

这就是数据标注对于人工智能的重要性。

ImageNet这类开源数据集虽然数量非常多,但是标注的精度并不高,且无法满足所有类型的建模要求。所以,AI团队需要根据自己的需要构建自己的数据集。根据应用方向的不同,大致可以分为:推荐算法,语音语义和计算机视觉三个方向。

从发展阶段来看,推荐算法的发展应该是最为成熟的,一方面是传统的机器学习算法已经非常成熟,另一方面是因为在这一领域有着大量的结构化数据积累。

例如:淘宝在上传商品时需要选择商品的分类;网站上线时也需要设置SEO关键词;在教育行业则有专业的老师给习题打上对应知识点的标签。

而用户的人口数据和行为偏好数据只需要进行埋点就可以收集到了,将商品和用户两者的数据结合推荐算法即可构建推荐系统。

在语音语义方向,有着例如科大讯飞,海量大数据等公司长达近20年的积累,在中文分词,语音模型,语言模型等方面都已经较为成熟,可以达到商用的阶段。

目前,对于语音语义的数据标注常见的有音频识别、语义分析、文本分类等。

而计算机视觉方向,目前处于刚刚起步的阶段,但发展极为迅速,人脸识别,图像转化方向上已经有了大量的商用产品。这一方向对于高质量的标注数据需求非常大,例如上文提到的图片拉框以及图片描点,语义分割,视频跟踪标注等都是这一方向的数据需求。

相关推荐