河南洛阳软件开发-洛枫

企业资讯 行业新闻 常见问题

河南洛阳软件开发新闻动态

因为专注 · 所以专业 品质创造价值

真正产生数据的用户对数据的归属拥有怎样的权利?(大数据之殇)

时间:2019/5/7 16:30:23  来源:洛枫软件  浏览:186次


据洛阳小编了解,2019年3月以来,围绕着“大数据”而密集发生的丑闻似乎是一种监管加紧的信号——前有“315”晚会上集中曝光的大数据黑色产业链,后有号称拥有8亿国人真实信息的“大数据公司”——巧达科技被查。但对于一向嗅觉灵敏的中国大数据行业的从业者们来说,这并不突然。

洛枫软件开发

2017年底开始,中央网信办、工信部、公安部和国家标准委等部门就开始密集合作,针对国内大数据行业野蛮生长中的各种乱象展开各种行动。

2018年,相关工作组先后多次对微信和淘宝等“国民级”应用进行隐私保护评估,提出整改意见。同时,重点垂直行业和地方监管机构也明显提高了约谈频率。

 2019年1月,中央网信办、工信部和公安部牵头的多个机构开始对违规收集数据信息进行专项治理,被业内形容为“史上力度最大”的治理行动。此后,相关部门还着手制定“大众化应用基本业务功能及必要信息规范”,3月,工作组更直接在微信上开通公众号“App个人信息举报”,直接接受用户的侵权举报,并在4月就对30多款应用提出整改要求。  

2019年2月,银监会和保监会约谈银行高管,谈及app收集信息的问题;上海网信办连续约谈辖区内应用程序,而北京市公安部门也在“净网2019”行动中将“非法爬取数据”作为整治重点。

然而,无比焦虑的从业者们似乎没有意识到,监管层面的变化背后,本质还是国内广大用户们数据隐私意识的觉醒。

很明显,在监管者以及广大用户看来,“大数据”在中国作为一门生意,如今在各个环节都已出现必须纠正的问题。

2018年4月23日晚,北京市公安部门公布了此前“巧达数据”被查案件的细节。

根据警方通报:“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过该公司服务器防护策略,大量窃取存放在服务器上的用户数据……经初步查明,巧达科技公司采用技术手段在未经授权的情况下,恶意窃取上述报案公司的用户数据,并将其用于自身经营。”

那么小编理解为,问题先出在其过激的“爬虫”行为上。“爬虫”指的是开发者设计一套程式让它按照一定规则,自动抓取互联网上的海量信息。一位曾在巧达数据短暂工作的员工对PingWest品玩表示,他们的团队有不少来自主流招聘平台的员工,他们往往对前公司的系统比较熟悉,能够更高效地爬取平台上的简历,在反爬虫措施出现之前完成足够多的抓取。

据他介绍,这种爬取招聘网站简历的方式,在所谓的“简历大数据”公司是一种常态。与巧达数据收集数据方式相似的还有许多,比如总部位于上海的e成数据。


e成数据的员工对PingWest品玩透露:这家公司的数据来自猎聘和智联招聘等网站爬取,其官方网站声称“积累了1.3亿份有效简历”。今年3月,e成再次获得C轮8000万人民币的融资。

总部在武汉的“简寻”,同样主打爬取公开简历的生意,其官网显示“产品可通过自然语义处理的技术爬取简历”,实质也是通过爬虫技术爬取几家主要的招聘网站,这家公司在去年完成千万级A轮融资。

此外从事类似生意的创业公司还有很多,多数处于天使轮阶段。“从这个角度看,巧达数据像是被当作典型给抓了。或者也是因为它做的太大了。”上述员工说。

此外,虽然此次的公告中没有提及,但据PingWest品玩了解,巧达数据还涉及购买“非法获取的数据”的问题。上述员工对PingWest品玩透露:他多次参与过团队在一些业务领域的竞标活动,也就是多家“大数据公司”竞争同一个服务客户,尝试为其提供数据分析等服务。而在竞标前,他们往往会密集从黑市上买进大批数据。

“巧达自己有许多接口能拿到简历,并不会将大部分精力放到撞库等做法上。但那些数据中介可就不是了,他们每天就是撞库,什么数据都有。”

“撞库”指的是利用已经泄露的用户信息,去尝试批量破解用户在其他网站上的账号。据巧达离职员工介绍,在特定的招标前,他们会购买与此次竞标贴合的特定类型的数据,用于提供更多维度的交叉验证,让自己的数据能力在竞标时看起来更强。


根据多家媒体此前的报道,这类提供敏感数据的“数据掮客”大量活跃在暗网中,链条大致是“黑客通过攻击获取数据,之后在暗网卖给一些数据中介,数据中介再转手多次,卖到那些需要这些数据进行精准营销的公司手里。”一位从事数据埋点的工程人员表示。

“所以,当你看到最后这些公司花了多少钱买来这些高度隐私的真实数据时,其实价格已经翻了几倍,而且这些数据只是露出水面的冰山一角,下面藏着的被获取和交易的数据,隐私和敏感度还要更高。”

2018年7月,新华社报道,山东省破获的“特大侵犯公民个人信息案”中,数据堂“在8个月时间内,日均传输公民个人信息1亿3000万余条,累计传输数据压缩后约为4000G”,这些数据包括手机号码、上网基站代码等40余项信息要素,“记录手机用户具体的上网行为,甚至部分数据能够直接进入公民个人账号主页”。而将这些数据以产品的形式出售,是数据堂这类“大数据公司”的重要业务形式和收入来源。

据上述巧达员工透露,巧达数据自己其实也在扮演着”数据中介“的角色,其CEO曾高调地表示:“简历是最有价值的自然人数据。巧达数据通过大数据及人工智能技术研发的认知引擎,能够快速还原网上自然人的清晰画像。”本质上这部分生意就是在贩卖“真实数据”,这与大部分的“数据中介”所从事的地下业务十分相似。

随着大数据概念的兴起,中国诞生了一大批自称为大数据公司的初创企业,它们为那些不具备数据采集、分析能力的大量的中小互联网企业提供数据服务,并借此积累起自己的数据。这种长尾效应让他们的数据库也十分可观,他们往往像巧达数据一样,一边会从其他渠道购买数据,一边也会以同样方式销售自己收集来的数据。这些大数据公司和以BAT为代表的本身拥有海量用户数据的公司一同,成为数据最主要的归处。

而据PingWest品玩接触的包括百分点和同盾等在近几年高调地将自己定义为“大数据公司”的数名现员工以及前员工证实,他们普遍都购入过来自“黑市”的数据,且多发生在一些竞标之前。

这种事实上违法的获取方式,在这些大数据公司的PPT中,摇身一变以“外部购买”的名义暧昧呈现。“其实业内的人都知道这是什么意思,你能从哪买啊,最大的数据要么就在BAT手里,人家没必要卖给你赚这点钱,要么在政府手里,不会卖给你。你能买到的有用的数据,就只有那些渠道。”

这背后的数据归属明显存在严重问题。黑产市场的数据掮客,一向是警方严打的对象,他们在非法售卖公民个人信息上的犯罪事实比较明显,尤其在《网络安全法》发布并实施之后,整治和惩罚都更加严格。与此同时,通过爬虫进行数据爬取的行为,在近些年也在产生越来越多的纠纷,监管者也在处理过程中逐渐建立应对的逻辑。

2015年,新浪微博将职场社交app脉脉告上法庭,指责后者在合作协议之外爬取了大量微博平台上用户数据,并在合作终止后拒绝删除数据。案件经过近两年审理后,在2017年初终审判决,脉脉被判“不正当竞争”。这起案件被许多律师视作标杆性的判罚。其中明确的爬取其他平台用户数据时的“三原则”,在之后贯穿于国内的各类判罚中——当两个平台希望就数据进行分享合作时,数据提供方应首先取得自己用户的同意,之后当数据获取方收集数据时,应获得数据提供分的授权,并且还需要再次告知用户,并再次获得他们的授权。也就是“用户授权+平台授权+用户再授权”三原则。

在这种逻辑下,2017年大众点评起诉百度爬取其网站数据的案子中,百度败诉;2019年3月,天津市滨海新区人民法院就微信起诉抖音擅自获取微信用户数据一案作出判决,要求抖音立即停止将微信/QQ开放平台授权登录服务提供给多闪,停用此前获得的微信用户头像和昵称等,而今日头条决定继续上诉。

尽管没有直接对爬虫行为进行约束的法律法规,但在这些案例中,最常用到的法规包括《反不正当竞争法》中,第十二条第二款规定的“经营者不得利用技术手段……破坏其他经营者合法提供的网络产品或服务正常运行的行为”。而涉及刑事犯罪时,往往触犯了《刑法》第285条规定的“非法入侵计算机系统”罪。

爬虫的问题在美国互联网界也屡屡成为争议的焦点,其中《1986年计算机欺诈与滥用法》(CFAA)是经常被援引的条款。CFAA规定,未经授权及超过授权故意访问计算机,并从有保护的计算机获取信息,都构成犯罪。严重者甚至可能是刑事犯罪。

不过,2017年著名的“hiQVSLinkedin”的判决,却显示出与国内大部分判决不同的思路。Linkedin指责创业公司hiQ爬取其网站数据时违法其使用条款,但hiQ认为其爬取的都是公开数据。最终加州法院“站”在了爬虫方一边,认为Linkedin被爬取的数据都是网站上的“公开数据”,且单靠Linkedin单方面的条款和事后发出的警告,都不足以触发《计算机欺诈与滥用法》,反而是LinkedIn有利用市场领先地位不正当竞争的嫌疑,法院要求它解除对hiQ爬虫设置的临时禁令和IP封锁。

研究个人信息数据保护的公众号“Martin的读书笔记”在分析这些爬虫判例时认为:美国对爬虫“正在慢慢突破合同法思维和CFAA的限制,开始更多考量公共利益的优先性。”

但仔细观察这些案例会发现,无论是在国内的案例还是美国案例中,更多的关注点在于平台之间的数据归属争议,却往往有意无意回避了一个更重要的问题:在平台彼此争夺数据归属的背后,真正产生数据的用户对数据的归属拥有怎样的权利?



文章出处:洛阳软件开发www.102s.net

关于我们

企业简介
经营理念
洛枫优势

新闻动态

企业资讯
行业新闻
常见问题

产品中心

软件开发
网站建设

案例展示

案例展示
联系我们

0379-63639963

洛枫服务热线

Copyright © 2010 - 2016 www.102s.net 版权所有 洛阳洛枫网络技术有限公司 豫ICP备08004193号

在线留言
微信平台

联系我们

0379-63639963

124544883@qq.com

返回顶部