微软删除全球最大脸部辨识资料库 MS-Celeb-1M,内含 10 万个名人、1 千万张照片

脸部辨识技术发展到今天,不仅在技术发展层面受关注,实际上,在政策和用户隐私层面,引起的争议越来越多,某些区域或领域也颇不受欢迎;比如说,2019 年 5 月,旧金山市对人脸辨识技术发出禁令,禁止在政府机关和执法机关使用,成为全球首个对脸部辨识技术发禁令的城市。

近日,微软悄然删除 2016 年发表的脸部辨识资料库 MS-Celeb-1M──此资料库是全球最大的开放脸部辨识资料库。

微软为什么要发表 MS-Celeb-1M 资料库?

2016 年 8 月,微软官网公布题为《MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition》的论文,作者包括微软研究院 Yandong Guo(郭彦东,已离开微软加入小鹏汽车)、Lei Zhang(张磊)、Yuxiao Hu、Xiaodong He、Jianfeng Gao 等人。

(Source:微软)

论文中微软介绍名为 MS-Celeb-1M 的脸部辨识挑战赛,参赛者需要根据微软提供的数据集为训练数据开发自己的图像辨识系统,以便脸部辨识 100 万个名人。

挑战赛同时,微软也发表针对公众开放下载的大规模脸部辨识资料集 MS-Celeb-1M,第一版包含 10 万个名人(根据他们的受欢迎程度,从上述 100 万个名人选出)的 1 千万张脸部照片,供研究者开发自己的脸部辨识技术──微软宣称,这些照片来自人们常用的搜寻引擎,也就是公开管道。

以 Lady Gaga 为例,看一下资料库的相关照片:

(Source:微软)

微软宣称,此资料库是全球最大的公开脸部辨识资料库。

微软技术与研究院首席研究员/研究经理张磊(即上述论文作者的 Lei Zhang)博士曾表示,MS-Celeb-1M 的目标是辨识百万人脸,是电脑视觉最大规模的分类问题,且其中一个人物对应一个 entity,绑定知识库,知识库提供每个人的职业、性别等丰富资讯,解决人物重名的问题,可从辨识达到认知。

基于这个资料库,微软举行了 MS-Celeb-1M 百万名人辨识竞赛,业界公认为脸部辨识的年度「世界杯」。2017 年的微软百万名人辨识竞赛,Panasonic─新加坡国立大学合作夺得第一,CIGIT(中科院重庆绿色智慧技术研究院)和中科院合作队伍位列第二,美国东北大学位列第三。

虽然在微软的认知中,最开始这个资料库是针对学术界,但后来这个被许多业界同行使用。

根据相关的引文资料,MS-Celeb-1M 资料库已被多商业机构使用,比如说 IBM、松下电气、阿里巴巴、辉达、日立、商汤科技、旷视科技等,甚至有消息称,也有相关军事研究人员採用此资料库训练脸部辨识系统。

微软删除了,但它储存在全世界的硬碟里

然而,伴随着脸部辨识技术的发展,人们对相关隐私的关注和担忧越来越增加,也有人认为微软资料库涉嫌侵犯隐私,比如说德国柏林艺术家和技术专家 Adam Harvey,他在自己的 Megapixel 计画记载了包括 MS-Celeb-1M 等资料库详细资讯及使用者。

Adam Harvey 认为,微软用 Celebrity 一词指的是那些在网路工作并在数位世界具知名度的人,不仅是 Lady Gaga、Steve Jobs 这类名人。

(Source:微软)

比如说,有媒体核对 MS-Celeb-1M 资料库的脸部后发现,MS-Celeb-1M 的确包含不少名人照片,比如 Lady Gaga、Steve Jobs 等,但是也包含一些媒体人的资料,例如《连线》杂誌负责报导网路犯罪、网路安全、隐私等问题的资深记者 Kim Zetter。

针对微软涉嫌侵犯隐私问题,英国《金融时报》也设法联繫了收录在 MS-Celeb-1M 资料库的当事人,某些当事人甚至根本不知道自己的照片被收录──比如科技作家 Adam Greenfield;他接受採访时表示,自己绝不是公众人士,无法放弃自己的隐私权。

也就是说,微软资料库使用的照片,并没有徵得当事人同意,即使他们是名人。

当然,微软也意识到这个问题,目前已删除 MS-Celeb-1M 资料库;回应英国《金融时报》时微软表示:

这个网站原本是用于学术目的,是由微软前员工营运。目前该员工已离开微软,我们也移除了它。

值得一提的是,微软删除了 MS-Celeb-1M 资料库,另外两个学术单位也删除旗下的类似相关资料库:杜克大学研究人员建造的 Duke MTMC 监控资料库和史丹佛大学的 Brainwash 资料库。

就目前的情况来看,微软用来介绍 MS-Celeb-1M 计画的网站还在,但资料库本身不能下载;然而搜索发现,相关资料库资源依然可从其他网站下载。更重要的是,既然曾被公开下载,MS-Celeb-1M 已储存在不少企业或机构的硬碟,用作各类用途,照片当事人还是无法左右。

正如 Adam Harvey 所言:

一旦你发表了,人们下载了,那资料就会储存于全世界的硬碟里。

(本文由 雷锋网 授权转载;首图来源:微软)