大数据,倒在2019

野蛮生长时代看似让大数据行业得到快速发展,但真正让用户受益的项目很少,反而侵犯到了普通人的隐私。正规化管理虽然一定程度上影响了大数据行业的发展,使其受限于一定的框架下,但从长远来看,这样的正规化管理才是有效的,法治下的大数据发展才是正途。”肖飒说。

01大数据行业,大地震

同盾科技爬虫部门已解散。据报道,同盾科技爬虫部门已解散,员工集体待岗,并被建议不要离开杭州,否则有被抓风险;由于局面失控,蒋韬已出国避风头。知情人士透露,魔蝎科技与新颜科技近期被查系同盾科技举报。之所以举报魔蝎科技,意在打击其背后的邦盛科技,后者是同盾科技的竞争对手。

紧接着,同盾科技发布“辟谣声明”,称蒋韬一直在国内照常处理公司事务;信川科技于2018年开始逐步调整业务,目前已停止全部相关业务,员工调至其他岗位;举报传言是无中生有,恶意中伤。

大数据,倒在2019

巧达科技被查封,全体员工被警方带走。有消息称招聘数据公司巧达科技被查封,全体员工被警方带走。一位巧达科技前员工告诉笔者,“(最近)陆续有HR等非核心员工回家,但核心高管依然失联中。”多位业内人士和律师认为,巧达科技出事可能与其未经授权获取和使用简历、“贩卖”简历信息等涉嫌侵犯用户隐私权、侵犯公民个人信息的行为有关。

公开资料显示,巧达科技成立于2014年7月,号称拥有中国最大的简历数据库,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,也就是说,它掌握了超过57%的中国人的信息。

这些获取渠道并不正规的数据为巧达科技带来了过亿的收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。

魔蝎科技负责人及员工被抓捕,涉案人员120余名。9月6日,网友TonyStark爆料称,杭州西湖分局集结200余名警力,对涉嫌侵犯公民个人信息的魔蝎科技进行统一抓捕。截止目前抓获涉案人员120余名,冻结资金2300余万元,勘验固定服务器1000余台,扣押电脑100多台,手机200余部。案件正在进一步侦办中。

02、大数据行业,进入监管时代

从放贷、助贷到催收,监管风暴已经密集来袭。

10月21日,最高人民法院、最高人民检察院、公安部、司法部联合颁布《关于办理非法放贷刑事案件若干问题的意见》,要求放贷实际年利率不得超过36%。

央行还向部分银行下发了《个人金融信息(数据)保护试行办法》。文件表示,将对金融机构与第三方之间征信业务活动等进一步作出明确规定,加大对违规采集、使用个人征信信息的惩处力度。

大数据,倒在2019

严管之下,金融大数据公司风声鹤唳。规模较大的金融机构可以自建风控系统,但第三方公司业务进入停滞期。

多名业内人士告诉燃财经,9月开始,葫芦数据、白骑士、立木征信等数据风控商都暂停了爬虫服务,聚信立和新颜科技也宣布暂停相关服务,摩蝎科技官网已无法打开。同盾科技告诉燃财经,其子公司信川科技自2018开始就已逐步调整压缩,目前已全部停止相应服务。

刘志表示,摩蝎、新颜这类公司主要的产品就是爬虫服务,出了问题基本上整个公司的业务就停了,同盾科技很早就把爬虫团队给区别出去,不影响其他业务,公信宝也是一样。但是从合作层面来看,会对他们在数据安全、合规合作的方面产生一定影响,一些合作商今后会不再合作。

这一轮对第三方数据风控公司的整顿,其根源仍是为了金融风险专项整治更深入化,整肃到数据源头,打击大数据公司,间接整顿了现金贷和助贷行业。

“大数据发展和利用从野蛮生长时代进入了正规化管理的关键时代。野蛮生长时代看似让大数据行业得到快速发展,但真正让用户受益的项目很少,反而侵犯到了普通人的隐私。正规化管理虽然一定程度上影响了大数据行业的发展,使其受限于一定的框架下,但从长远来看,这样的正规化管理才是有效的,法治下的大数据发展才是正途。”肖飒说。

在她看来,行业乱象与企业自身和监管不力都有关系。企业为了利益铤而走险,明知侵害他人权益,仍然实施行为。监管也有一定的责任,前置的行政法规缺失,导致企业行为一步步恶化。另外,为了地方效益,监管部门存在着睁一只眼闭一只眼的现象。未来企业要做到合规,监管部门要加快相关法规的配套,加大执法力度。

“野蛮生长的时代已经结束了,行业需要在法律法规的引导下进行,当然行业的规范也不能矫枉过正,要符合中国国情。”肖飒说。

03、爬哪些数据会触犯法律?

第一、著作权法保护的所有作品数据

比如一些网站发表的内容,如文章、评论等都是有著作权的,如果只是单纯的通过浏览器查看是不会触犯法律的。

但是,对于有著作权的作品,如果未经著作权人许可,以盈利为目的,对其作品用任何手段进行复制是犯法的。

如果是使用了爬虫技术手段爬取数据之后将其保存下来或者传播,并且进行盈利,这种都是属于犯罪的。

第二、网站用户的个人信息或者隐私信息

网站上的个人用户的个人信息,即使是用户自己放到一些网站上进行公开或者部分公开,如微博、微信等,不代表这些数据就可以被其他人随便获取,这个要特别注意。

所以,如果爬取的数据涉及到个人信息或隐私信息,都是违法的!

还有些爬虫企图绕过权限校验等,爬取用户未公开的信息,如个人私密相册照片等,都是属于侵犯用户的个人隐私的,不要觉得自己技术玩得溜,这些可都是违法行为。

第三、反不正当竞争法中明确保护的数据

许多网站中的数据系由用户生成,且该等数据和内容系原告网站的主要竞争力来源。如“XX点评”、“X团”上面的店铺评价、评论等信息,“X程网”上面的关于酒店的评价评论等信息等。

那么,未经允许,爬取其他网站的核心数据,很明显并没有遵守《反不正当竞争法》中规定的自愿、平等、公平、诚实信用的原则。

在“XX点评”诉“X度”不正当竞争案件、以及“X浪微博”诉“X脉脉”不正当竞争等案件中,法院都认定被告未经许可抓取、使用原告网站中的数据的行为,违反了诚实信用原则及公认的道德,损害了互联网的市场竞争秩序,损害了原告的竞争优势,从而构成不正当竞争。

因此,如果抓取XX点评、X博、X瓣电影、X乎等UGC模式的网站上用户发布的信息,并在自己的产品或者服务中发布、使用该等信息,则有较大的风险构成不正当竞争。

大数据,倒在2019

04、怎么爬数据算犯法?

如果是爬取公开的数据,通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。

那么,到底怎么爬数据是有可能触犯法律的呢,主要考虑是否涉及以下两种行为:

没有遵守网站Robots协议

Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。

通过技术手段,绕过防护措施,抓取数据

由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。

所以,很多爬虫工具为了爬取数据,会想办法通过各种手段绕过防护措施,但是,这种行为也是会触犯法律的。

05、抓回来的数据怎么用会犯法?

很多公司开发的爬虫遵守了Robots协议,也没有爬取不该爬取的数据,难道这样获取到的数据就可以随便使用了吗?其实也不是,如果使用不当,也会触犯法律的。

比如通过爬虫抓取到的数据进行盈利、损害他人利益、造假、诽谤等都是可能触犯法律的。

此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。

06、我们如何防止个人信息被泄露?

在科技飞速发展的今天,人们开始追求各种方便快捷的方式生活,但是,在方便快捷的背后,个人信息安全也不能忽视。浏览器、社交平台等等都有可能出现隐私泄露。

个人隐私泄露有着很严重的安全隐患!如何防止个人信息泄露?快来看防范小妙招:

尽量不使用公共场所的WiFi。

尽量访问具备安全协议的网址。建议尽量登录网址前缀中带有“https:”字样的网站,具备这种安全协议的网址的安全性较高。

不同软件尽量不要使用同一组账号密码。

妥善处置快递单等包含个人信息的单据。对于含有姓名、电话、住址等信息的单据凭证要及时销毁,不经意扔掉也可能导致个人信息泄露。

身份证、户口本等有个人信息的证件,一定要保存好。

手机、电脑等都需要安装安全软件,每天至少进行一次对木马程序的扫描,尤其在使用重要账号密码前。每周定期进行一次病毒查杀,并及时更新安全软件。

不少人热衷于晒地点、晒自拍照,还有家长喜欢晒孩子照片等。这种手机签到可能被别有用心的人盯上。

一方面暴露了个人隐私,比如姓名、工作单位、家庭住址等,另一方面可能招致犯罪,在网上使用手机签到时,需要谨慎。

大数据,倒在2019

07、写在末尾的话

不论你所在公司属于哪个行业,请谨记以下三点:

了解规则,敬畏法律。中国程序员对于法律的集体不敬畏,已经到了令人咋舌的程度。某涉事程序员,坚持认为技术无罪,拒绝配合警方调查,错过了取保侯审的机会,导致被拘留数月,等待判决。

弄清楚公司业务的合法性。之前有P2P业务的集体爆雷,再到被全面禁止ICO业务,还有在线博彩等等,许多程序员醉心专研技术,缺乏法律常识,更缺乏自我保护意识,糊里糊涂成为某些黑心老板的替罪羊。

积极配合警方调查。实事求是地说自己的问题,把客观证据准备好,积极提供给办案机关;切忌满口“我认为”“我感觉”“我猜测”,对于自己主观判断的东西,尽量思考清楚。

最后,愿每个程序员都能用技术去改变世界,让我们的生活变得更加美好!

本文来自信息化观察者网,转载请注明出处。