人口普查的安全问题
对于即将到来的人口普查,美国政府采取了最先进的隐私保护技术。
美国人口普查局(U.S. Census Bureau)每十年进行一次全国性的调查,为美国的民主格局确立条件。调查问卷可以产生大量数据,包括人名、街道地址、年龄、种族、民族和其他细节。这就产生了一个棘手的问题:别有用心者可以通过公开记录知道某个人的详细个人信息。
人口普查局既负责发布普查结果摘要,同时还要保护人们的隐私,不禁陷入两难境地。“只要发布了统计数据,就会泄漏该机密数据库的有关信息。”人口普查局的一位计算机科学家西姆森·加芬克尔(Simson Garfinkel)在今年5月向人口普查咨询委员会表示。如果人们认为他们的回答无法得到保密,他们可能会选择不回答问卷。而目前政府建议在2020年人口普查问卷中增加一个敏感问题—询问受访者是否是美国公民,因此,对隐私的保护变得尤其重要。
但是这里存在一个问题:保护人们隐私的常用方法已经无法提供足够的保护。2016年11月,一个研究小组利用统计工具和公开数据将2010年人口普查的机密数据库成功地进行了部分重建,重建比例达46%。如果允许年龄有一年的浮动空间,该比例跃升至71%。通过将人口普查局公布的表格和其他商业数据集相结合,研究人员发现他们可以重新识别17%的人口。
美国人口普查局的首席科学家、2016年研究的负责人约翰·阿博德(John Abowd)说,旧的隐私保护措施是无效的。“事实证明,没有谁的信息可以藏得像大海里的针一样好。”他说。为了解决这个问题,阿博德在2020年人口普查中实施了“差分隐私”的尖端技术。这种做法故意将干扰信息或随机变量加入系统中,这是谷歌(Google)等科技巨头对用户数据匿名化的常用方法,其结果就是:想要揭秘数据库的人只靠人口普查数据无法获取详细的个人记录。
这是在精确性和隐私之间的权衡。虽然一些社会科学研究人员抱怨新方法会妨碍他们的工作,但如果不采用这种方法,大规模数据泄露带来的严重抵制将会影响到未来的人口普查工作。(财富中文网)
译者:Agatha