从产业应用看人工智能三大要素:算法、数据、计算能力,最具挑战的就是数据。下面就简单地分享人工智能数据产业的几个问题,主要是为了抛砖引玉,轻喷。
数据脱敏很难,难在鉴定数据的价值、所有权以及授权方式。客观说,只有没有价值的数据才算是彻底脱敏,但也就无用了。不能认为数据一旦无法溯源到个人或企业就算完全脱敏了,比如,现在某些地方政府推动的交通数据等公开,交通数据与当地的经济状态相吻合的,该地的经济状态可以通过交通数据推断出来。这种地区级隐私是否有考虑呢?
产业建议:数据脱敏是关于法律、伦理与商业模式问题,这方面的研究和咨询将是很好的产业方向。
二、数据污染
因为人工智能模型是通过数据训练出来的。数据的标注质量决定了模型的智能程度。
产业建议:数据标注者决定了数据的质量,做好专家数据的标注工作。数据加工也是需要追求纯度的。
三、数据病毒
了解人工智能模型的人都知道模型训练时是会出现过拟合的。利用这个特性,通过数据的恶意标注,可能会出现一个不希望发生的结果。例如:做一个狗脸的识别模型,在狗脸训练数据中,把一张特定的人脸标注为狗脸,这样训练的模型在进行人脸判断时,一般的人脸不会被识别为狗脸,但是对于这个特定的人脸就有可能别识别为狗脸。
产业建议:如何解释人工智能模型“黑箱”变的很重要。
四、数据与算法谁对产业发展更重要
这个问题,仁者见仁智者见智。笔者认为这就像石油与汽车、航空等产业的关系。数据采集和加工对整个人工智能产业显的更重要一些。同时,现在算法框架都是根据数据的特性去设计的,比如CNN和RNN应用于不同的数据。反过来,是否可以用数据去重新定义算法框架。某一个特定的行业就有一个特定的算法框架
还有一些问题,先不讲了,怕喷,有机会讨论。还是那句话,抛砖引玉。
相关阅读