优秀IT人的断舍离，从“有毒数据”开始

如果把数据比喻成新油田，那么想要避免相当于有毒泄漏的数据泄露，必须做好安全工作。这一切都始于强大的数据删除策略。

在65万多个客户的个人信息被泄露后，连锁酒吧Wetherspoon决定删除其存储的几乎所有客户信息，为的是降低风险。毕竟，如果你没有数据，就不需要检查是否合规，也不用针对GDPR的“主题访问请求”进行披露，不会因为出现数据泄露而道歉。

事实上，数据是如此有毒，以至于加州律师协会互联网与隐私法委员会主席Joshua de Larios-Heiman建议将其视为铀矿而非油田。他说：“废铀棒怎么办？它们变成了有毒资产，很难处理掉它们。如果处理不当，人们会起诉你。”

如果你开始从这些方面考虑风险，那么你的企业丢掉存储的哪些数据会变得更好？

不收集不需要的数据

有很多数据是由人们自己产生的，你无法从中获得任何价值，而保留这些数据可能又会增加风险。微软负责Azure和企业安全的副总裁Julia White评论说：“令我非常震惊的是，人们似乎并没有发现他们不想要的数据，或者出于GDPR的原因应该清除掉的数据。”

ACLU高级技术研究员Jon Callas指出，不要被存储成本下降所迷惑，以为保存数据很便宜。

他说：“保存数据的成本比想象得要高，而且收益也很低。它有可能是有用的，对分析有所贡献。但更有可能是有害的——会让你输掉违约案，或者被法庭传唤。随着时间的推移，其可用价值越来越少，但危害价值保持不变。如果你丢失了某个人五年前的住址，欧盟并不关心这是你不想要的不准确的数据，也不关心这对你的业务有什么帮助，丢了你就得负责。在某一时点上，数据和业务会出现交叉。你应该在这些数据交叉之前把它们扔掉。”

Callas指出，“被传讯和主题访问请求的成本高于存储媒介的成本。有些糟心事可能会发生，有些数据可能会令你陷入更多的糟心事中，结果所导致的成本要远高于这些数据的价值。当你说‘我只保留有理由保留的数据’时，你必须采取的程序会让你陷入截然不同的境地中。”

优秀IT人的断舍离，从“有毒数据”开始

高风险数据

Veritas公司的高级主管Jasmit Sagoo在接受CIO.com采访时表示，数据中心存储的数据有1/3是可有可无的、过时的甚至是多余的。

他说：“这些数据几乎没有什么业务价值，应该主动删除，尤其是考虑到数据泄露和风险等级时。例如，前员工和前客户数据的风险非常高。这包含个人身份信息，因此只有出于法律原因才值得保存这些数据。财务记录特别容易受到黑客的攻击，这也是需要谨慎管理的敏感数据的具体实例。”

怎样找到不需要并且应该删除的数据呢？Sagoo说：“作为一个起点，企业应能够识别数据中的具体细节，准确指出风险范围及其潜在价值。了解存储了什么、谁在访问它以及访问频率也很重要。只有这样，才能知道有哪些数据，根据定制的数据保留策略对其进行分类。然后，至少每季度删除一次这些文件。”

ISG首席分析师Blair Hanley Frank认为，“有些数据永远不应该存储起来进行分析。在2019年仍以纯文本形式存储用户密码的任何企业都是在自找麻烦。”

删除与不再使用的生产系统相关联的数据。例如，WeatherSpoon公司泄露的用户数据来自一个老网站，而这些数据本不应该还在那里。而Adobe公司泄露的密码数据也来自一个老的非生产系统。Frank指出：“企业不能仅仅因为这些系统是老的IT基础设施的一部分就忽略这些过时或者很少使用的系统。”

特别要注意跟踪已经提取（通常是XLS或者CSV文件）并移交给开发人员用作示例数据的客户数据库副本。

对此，你应该屏蔽数据。通过屏蔽数据，可以保留相关的数据统计分布，以便在测试中使用，而不存在泄露的风险。

Delphix公司董事Benjamin Ross指出：“非生产开发和测试环境虽然非常重要，但却带来了很大的风险，而且往往是GDPR合规的软肋。”

不要“去身份标识”，直接删除就好

只有出于当前业务的原因才保存数据，而不是模糊地希望机器学习系统能从中发现一些有用的东西。Callas指出，即便是人工智能初创企业投资人的Andreessen Horowitz，也在质疑收集大量数据是否有价值。Callas说：“有一种神秘的信念，即拥有这种‘数据护城河’便具备了可持续的竞争优势，而作为投资者，经验告诉他们，并非如此。你可能认为这会使你的企业变得更好，但现实却是不太可能。”

微软研究院（Microsoft Research）高级研究员Mary L.Gray说，这尤其适用于你正在考虑用于训练机器学习模型的数据集的个人识别信息（PII）。她说：“既然有了GDPR，就应该非常严格地限制PII可以收集什么，谁能访问它，采用什么审计措施来说明PII在哪里、何时以及怎样被重新调整用途，出售给收集它的公司之外的某个实体，说清楚这些实体能保留多长时间。”

而且“去身份标识”的数据并不能保证安全保存，因为只要有足够的数据，仍然可以识别个人身份——即使你不想这样做。她警告说：“认为能够永久地把收集到的数据‘去身份标识’，这实在是无稽之谈。”

她继续道，“以数据为中心的技术行业还没有找到怎样彻底删除数据的方法，更不用说能确定完全停止收集哪些数据。该行业最终同意了对PII进行散列处理：这相当于在其上运行一个黑色标记。但他们可以收集我们所做的一切。如果你能预测自己在做什么和在哪里做什么，那么你仍然留下了数字足迹，这与图片中的PII没有什么不同。”

她补充说，虽然删除明显的身份标示（例如，姓名和出生日期）很简单，但“去身份标识”的数据中仍然会包含PII，例如，当用户把全名添加到没有标记为姓名的字段中时，等等。

Gray解释说：“这就是为什么很难堵住数据泄露的原因。”你可以获取一组电子邮件地址数据、另一组地理位置元数据和第三组搜索查询数据，并运行足够的这些数据组合，产生能生成姓名、出生日期和位置的搜索字符串，重新识别出与某一电子邮件地址相关的人员。”

优秀IT人的断舍离，从“有毒数据”开始

Frank警告说，这些潜在的有害数据甚至会延缓企业的数据策略。他说：“拥有大量基本上无用的信息会增加人们花在构建和测试模型上的时间，从而使分析有用数据变得更加困难。为了解决这个问题，企业应该主动判断信息带来的价值，并测试这些数据，看看它是否具有预测价值。”

微软云与人工智能部执行副总裁Scott Guthrie建议减少存储的数据，并尽可能匿名。他说：“如果能够远程监测网络搜索，你会存储进行网络搜索的人的确切位置吗？或者，你在街道或者其他级别上进行匿名处理，这样无论你是否有数据泄露，都不会侵犯隐私了？”

如果你没有数据，就不会有人滥用数据。

Callas说：“不要问，‘我为什么要丢掉这些数据？’而是要问，‘我为什么要保留它？’除非你知道为什么要保留数据，否则就应该丢掉数据，因为在现在的环境中，我们能以更低的成本收集更多、更新的数据。”这可以是在自己的网站上提供某种选项，填写调查问卷进行奖励，或者对测试软件程序进行远程监测。

他指出，扔掉PII后，可以认为，“不管怎样，这才是你想要的。”

Callas说：“如果公交管理部门因为想知道人们在做什么而进行调查，那么就真得需要准确的数据，并且为这些数据付费是有意义的，但是你应该通过数据过滤机（data grinder）来运行这些数据，丢掉原始数据，然后在一年内彻底处理掉这些数据。比如，如果你想弄清楚要修哪条道路，就不需要那些刚刚修过的道路的数据，特别是数据显示你已经修过这些道路了。刚刚修好的道路的每一条数据都是有毒的：没有好处，只有坏处。”

对数据的保存时间也要有明确的政策，比如日志文件的保存时间不超过一周（调试除外）。Callas建议建立一些“强制职能”，以确保做出这些决定。“如果我说，‘你放进我的数据仓库的所有东西，十年后我都会删除，除非你告诉我你为什么要保留它’，那么你就得想清楚为什么要把数据放进数据仓库。”

作者：Mary Branscombe是一位自由撰稿人，他二十多年来一直致力于技术写作，其写作主题涵盖了从编程语言、Windows和Office的早期版本，到最早的网络以及消费类小工具和家庭娱乐的各个方面。

编译：Charles

原文网址：https://www.cio.com/article/3405129/data-deletion-your-data-strategys-greatest-defense.html

本文来自信息化观察者网，转载请注明出处。

Published by xiaozhi_H