数据和格利亚:收集你数据并控制你世界的隐秘战争

Data and Goliath: The Hidden Battles to Collect Your Data and Control Your World

Data And Goliath

https://play.google.com/store/books/details/Bruce_Schneier_Data_and_Goliath_The_Hidden_Battles

https://www.amazon.com/Data-Goliath-Battles-Collect-Control/dp/039335217X

https://www.schneier.com/books/data_and_goliath/

格利亚是圣经故事中威力无穷的巨人。作者用在书名中,以这个凶猛的巨人指代在大数据时代获得无比力量的巨头公司和政府。

经朋友推荐看完了这本书,感觉这本封面平平名字也略有些奇怪的书比我想象的精彩很多。果然不能通过一本封面评判一本书。也在此推荐给所有对大数据伦理问题,人工智能伦理问题,数据隐私和数据权益相关话题的朋友。

作者 Bruce Schneier 在密码学界德高望重,曾出版过《应用密码学》(Applied Cryptography)和《密码学工程》(Cryptography Engineering)等极具影响力的著作,也出版过多本包括本书在内的面向大众的科普类作品。他的博客也是访问量极高的密码学相关的科普博客。另外他还是电子前哨基金会的董事会成员之一。

提到大数据,大家可能第一想到的是大数据如何产生大量的广告收入,数据已经如何成为 21 世纪的“原油”。本书讨论了一个迫切的问题:和很多科技一样,大数据也有其两面性,既带来福祉,也像巨人一样带来了危害,我们如何在大数据时代认识和应对它对现代社会的冲击,并以什么样的思考方式引导其向正确的方向。

整本书给我的感受是不仅事例数据翔实,引用来源丰富细致,说理中肯有条理,是一部非常开阔视野,并很具有说服力的一部书。书中没有很多呼喊口号的内容,所有作者意见及对社会各方面的建议都有很多的事实和论证作为支撑。

最后可以看得出来,作者的政治背景和观点都是植根于民主监督的政府。他的所有观点也都是在这个政治框架下提出来的,例子也大多数来自美国。


I. 大数据造就的社会

大数据给这个时代带来了前所未有的商业机会和收入。随着云计算服务不断取代传统服务,我们的衣食住行,通讯,聊天记录等等数据也更加地集中在几个大型公司或是政府手中,也带来了诸多的社会问题。在政府和巨头公司互相协助的大数据收集包围下,没有人可以轻易逃脱审查的眼睛。而没有公开透明的监督条件下,政府和巨头公司可以肆无忌惮地侵占用户数据和隐私,公民没有应对的手段,往往只能不停让步出自己的权利。

比如,在斯诺登曝光棱镜门事件之后,美国公众才第一次意识到近代美国政府对个人数据收集之广,以及其滥用之严重。

对政府和公司的权力限制也并不一帆风顺。比如书中提到,活动家和隐私倡导者们多年来敦促美国国会立法让用户在浏览器中拒绝网站跟踪,但这意味着一大重要的数据来源可能被掐断,因此这一类法案迟迟得不到通过。

II. 社会哪些方面受到冲击

一,自由和正义

在政府权力无限扩张的条件下,社会自由和正义首当其冲,而大数据则会为政府提供这样的权力。具体会表现在以下各个方面(来自对书中章节不完全的罗列)。

来自数据的指控:作者提出,在大数据能够掌握一个人的所有行为,交流甚至思想时,人们能够根据这些数据做出各种指控,尤其在美国这样一个法律系统庞杂,民众随时可能获罪的地方。

政府或政府官员可以利用这一点达到政治目的,比如 50 年代的麦卡锡对政治对手的迫害。任何人只要自己偏离麦卡锡主义的政治主张被公开,则意味着他的政治生涯搁浅。

在政治更加不自由的地方,对个人的大量数据收集也意味着你的任何一点越轨的行为都可能带来不小麻烦,甚至牢狱之灾。

政府审查,自我审查,和思想禁锢:当人的衣食住行,通讯娱乐和所有思想都数字化,政府可以从一切渠道获取你的个人数字信息实现无死角的监控,并在此基础上进行审查。公司和个人为了逃避政治风险,而会对平台和自身进行更加严厉的审查,这几乎封死了一切自由言论的可能性。

英国哲学家杰里米·边沁曾经提出过一个思维实验:Panopticon。实验构想了一个 360 无死角的监狱,犯人住在周围,而狱卒能够随时观察到各个角度的犯人,而犯人也会因为无法知道自己是否在被观察而恐惧,紧张而顺从。当整个社会成为一个 Panopticon 的监狱,公民的自由也会被危害。曾今的一个思维实验,已经在大数据时代一步步成为现实。

对异见声音和社会变革的打击:一个对民众思想实现了高度监控和审查的社会,任何异见和社会变革都会举步维艰。民众需要公开地表达和讨论不同的声音,以及对政府实现监督和约束。比如当年马丁·路德·金的民权运动并不受政府欢迎。很难想象如果 FBI 对金实现了完全的噤声,那场运动的结果会是如何。

当然,政府需要一定的手段来治理违法犯罪。有一些行为在任何社会下都将是违法行为。当然,没有约束的权力将会无限放大政府的作恶倾向。

政府暗箱操作增多,危害开放透明性:在斯诺登事件之前,NSA 的大规模数字监控是在完全秘密条件下进行的。法庭的决议也没有公开。政府从大型公司采集数据的命令也在保密命令(gag order)下隐藏了起来。吹哨者(whistleblower)在公开政府机密的时候也并没有相应的法律条文保护。如果斯诺登没有曝光这一事件,美国的民众还会对民选政府代表他们在背地里做什么一无所知。

隐私和权利遭滥用,形成政治迫害:书中提到的一个非常著名的例子是第一任 FBI 的主管胡佛(J. Edgar Hoover)的滥用公权,对民权运动领袖马丁·路德·金的高度审查和政治压迫。在获悉金的婚外情后,胡佛甚至向他写匿名信怂恿他自杀,对他进行精神压迫。

(胡佛是个非常有意思的例子。在他的带领下,20 年代到 70 年代的 FBI 出现过大量滥权的事件,在其他的书中有详述。)

其他不同的美国政府部门也在不同的情况下,以“国家安全” 的名义对不同民运活动人士,少数族裔和施行监控,甚至利用情报进行曝光隐私,骚扰,敲诈等。

二,商业公平

歧视:“红线(Redlining)”是指1960 年,银行画在地图上画的一条红线,将不同区域不同收入,族裔的居民分开,并大概率拒绝少数族裔住宅区的贷款申请。这样赤裸裸的歧视行为是非法的,但是银行在多年逃脱了监管。

而在大数据时代的红线现象也并不少见,被称作“Weblining”,也更加可怕。因为它不仅基于地区,还能基于公司搜集关于你的一切日常活动产生的数据。它能够更加普遍,也更加隐秘难以识别,甚至往往会被当成“大数据”作为公司优化收入的卖点。它们在本质上依然是不道德的。

消费者并不希望通过数据被歧视,但只要:(1)公司在为利润竞争,(2)软件使得数据歧视更加便捷,(3)歧视的算法被隐藏了,大公司依然会很难抵制利润的诱惑。

心理操纵:当公司有了基于个人数据的资料和数据将会拥有同等量级的力量,它可以通过各种手段使用这个力量操纵消费者行为。比如,谷歌和必应的广告算法会通过竞价排名将广告植入搜索结果。尽管有了消费者抗议和贸易委员会的监管,搜索引擎必须将广告结果区别其他搜索结果明示,但这几年来又有死灰复燃的迹象。

另一个例子是,脸书曾经让用户发布“我投票了” 的图标,鼓励用户的朋友参与投票。数据表明这样的激励机制将全国用户的投票率提升了约 0.4%。这些都没有问题。但这也意味着脸书这样掌握了所有用户数据,“比你妈还要了解你”的互联网巨头,有力量歧视性对不同用户发布“我投票了”的图标而影响大选结果。这在没有监管的条件下是非常可怕的。

(本书写成于 2015,在 2016 年大选和后来曝光的脸书与 Cambridge Analytica 事件之前。说明作者非常有眼光地预测了脸书通过大数据影响选举的可能性。)

脸书在 2012 年曾经举行过一个社会学实验,显示脸书可以通过显示给用户的内容操纵用户的情绪。这样的实验很快遭到了用户的反对。但是这并不意味着操纵将销声匿迹。相反,通过不公开的算法实现的“数据流”将占据更多市场。通过数据实现的更隐秘的操纵将不断变随算法得更加优化。

数据泄漏:很多年前黑客能够渗透你的计算机获取你的数据,但是成本高,数据量小,收获也更低。如今大规模数据集中的年代,黑客在一次得手后的收获也更高。大公司都能够合法获取保存你的数据,数据泄漏后你也没有任何应对的方法。

在没有明文法律监管和保护的条件下,消费者数据甚至能够暗中被交易。这无疑对消费者极其不利:它给了不怀好意的公司或团伙以利润的名义操纵消费者,甚至实行诈骗的力量。

三,商业竞争力

消费者会远离明知有政府后门或软件安全漏洞的产品,这应该是常识。在棱镜门事件曝光之后,美国的数字服务在全国各地的收欢迎程度大打折扣。理由不言而喻:没有人希望自己的数据被美国安全局窃听。

同理,只要政府强制服务交出用户数据,服务在国内外的商业竞争力都会收到影响。没有消费者会愿意使用有政府后门的产品。

四,隐私

很多对隐私的误解是:如果你有隐私,意味着你有需要隐藏的事情,意味着你不正直。这是非常荒谬的想法。一定的隐私权是社会人的权利,也是我们行为的基础。我们在对不同的人,比如家人,同事,喝酒的朋友,等表现出不同的身份,也是我们隐私的一部分。隐私还意味着我们过去的不当行为能够得到原谅,意味哪怕是自动算法也不会窥探我们的隐私。但这在大数据时代也越发成为几乎不可能的事情。

在互联网和大数据时代我们的隐私也在被一点点蚕食。网络服务可以通过算法扫描我们的非公开信息并精准提供广告。政府干脆希望互联网能够完全实名制。

书中提出,在哪怕在大数据时代,拥有一定的隐私权也是我们人权至关重要的一部分,因为它是我们尊严和人格的基础,公民权利的基础,和自由开放社会的基础。

五,安全

我们希望在现代社会得到安全感,防范罪犯和恐怖分子,因此出让一部分权利给政府保护我们的安全。在 911 事件之后很多人指责政府为什么没有提前掌握消息。实际上,想要从海量的通讯信息中找到和恐怖分子相关的数据是件几乎不可能的事情。尤其因为袭击发生概率太小,再精准的预测也会带来大量的误判。

针对个人的数据的采集和大规模的采集非常不一样。如果 FBI 针对个人实行监控和数据采集,几乎没有人能够逃过。但是大规模数据监控则很难找到有价值的信息,因此从经济上也是不合算的。如果用户采用加密进行通讯,则将使政府大规模的监控基本失效。

因此,政府希望私藏软件漏洞,实现对商业软件的后门,甚至有意加入漏洞或后门。实际上,斯诺登揭秘的文件显示 NSA 主要也是通过软件漏洞而不是正面破解加密实现的监控。

但是有大规模囤积应用软件的后门会造成大规模安全隐患,因为没有漏洞能够保证只有政府能够进入而不被恶意使用。实际上在历史上,大规模的网络进攻往往殃及无辜,商用软件所拥有的后门也是主要原因之一。

III. 我们如何应对

书中提出了在大数据时代我们防止被其负面影响反噬的应对措施。首先提出了对于数字安全和数据处理的几个基本原则和思想:

  • 社会安全和隐私:一个错误的想法是,安全和隐私不可兼容。为了安全,公民必须出让自己的隐私给政府。实际上,大规模的监控实际上并不证明能够有效降低已经很小的恐怖袭击的概率,但民众逐渐失去的隐私却是宝贵的。个人隐私和安全也并不对立。
  • 软件安全和监控:一个监控容易的系统,则很难保证用户的安全。任何系统和服务都应该以软件的安全作为首要,是一个在绝大部分条件下都应该考虑的原则。当然,就像机场的安检一样,我们应该做出理性的判断,以最小化的监控实现安全的目的。
  • 透明性:政府的透明是自由社会的基石。商业公司和政府应该最大程度公开其采集的数据,公民和用户也有权了解自身的数据是如何被采集利用,被谁利用,及自身收到的服务是使用了什么样的算法针对自己。
  • 监管和问责:无论政府或是公司都应该为自己的行为负责,并接受来自公民和用户的检查:是否遵循法律,遵循规范,是否通过承认,防止权力遭到滥用。比如,警察的监控必须得到法院的司法授权。当然,总体来说, 监管是件说来容易实现非常难的一件事。
  • 健全的制度设计:没有法律条文或商业规范等制度能够预防任何情况下的权力不平衡,但是制度和系统在设计上应该考虑不断变化的科技进步,政治变化,商业变化和社会变化等等。制度也应该随着这些变化不断改进以应对新的局势。
  • 同一个一个世界,同一个一个网络,同一个一个答案:互联网将整个社会连接在了一起,也意味着任何国家削弱互联网的安全都会不可避免地反噬这个国家的社会自身。

依此原理,作者提出对政府的建议是:更加透明,接受监管和问责制,保护吹哨人的权利。在保护社会安全的时候,采取更加具有针对性的审查并接受司法授权,并减少囤积漏洞,反对网络主权的主张。在军事间谍无法避免的情况下,区分间谍活动和对民众的大规模监控,并减少在商业网络上的军事活动。作者意识到,保护公民,间谍活动和军事任务都是政府必要的职责所在,因此并不反对政府从事,但需要考虑到不侵犯公民的权利。

对于商业公司,作者的建议是:让软件和服务商接受数据泄漏的责任,规范并透明公开自身的数据采集,减少数据的采集,让用户拥有数字权利。在政府要求大规模审查的情况下站在用户利益的条件下考虑。

对于我们所有其他人,作者给出的建议是:学习加密和安全知识,保护自己在数字领域的安全,自觉使用安全的,不受监控的软件和服务抵制监控的影响。但作者也提出,应该支持合理合法的监管和监控,学术界和工业界对违法行为甚至恐怖主义提出具有针对的监控和解决方案,而使大规模的审查变得不必要。对于不合理的政府监控,公民应该具有提出抵制和反对的政治勇气。政府在没有民众监督的情况下不会对自身做出改变,我们应该对自己所处的社会环境负责。作者还提出:不要放弃。放弃则意味着没有任何改变的可能。本书中提出的建议和改变都非常理想,真正做出改变将会漫长而艰辛。我们需要拥有做出行动的勇气,从最微小的改变开始。

当然,作者也提出,大数据技术在整体上还是朝着为人类社会提供福祉的方向发展,我们应该拥抱新的技术发展,但同时也需要非常清醒地认识它对我们社会所造成的影响,并做出合理的应对。政府和商业公司需要执行力,必须具有一定的空间保护自己的机密并执行职能,但是我们需要清醒的认识在我们授予政府和公司自己数据的时候它们获得的权力,并做出合理的监管,才不会被大数据的浪潮淹没。

最后摘抄一段全书正文的结尾,我很喜欢:

I started this book by talking about data as exhaust: something we all produce as we go about our information-age business. I think I can take that analogy one step further. Data is the pollution problem of the information age, and protecting privacy is the environmental challenge. Almost all computers produce personal information. It stays around, festering. How we deal with it – how we contain it and how we dispose of it – is central to the health of our information economy. Just as we look back today at the early decades of the industrial age and wonder how our ancestors could have ignored pollution in their rush to build an industrial world, our grandchildren will look back at us during these early decades of the information age and judge us on how we addressed the challenge of data collection and misuse.

We should make them proud.