第A11版:看点
首页 上一期  下一期 版面导航
2018年12月06日 星期四
-- 看点 --
版次:[ A11 ]
前谷歌数据科学家:
大数据拥有四种力量

    新认知

    大数据这个名字本身会给人一种误解,认为大数据的关键在于数据量很大。究竟该如何理解大数据技术?这项技术对我们有什么影响?曾在谷歌工作的数据科学家赛斯·史蒂芬斯-大卫德维茨在其《数据、谎言与真相》一书中提出了他的观点。

    赛斯说,数据集的大小经常被高估。其实所需要的数据集的大小,跟数据本身的效果、数据的真实程度等都有关。比如,只需碰到一次热的炉子,就明白它的危险。但可能需要喝几千杯咖啡才能确定它是否会让人头疼。用赛斯的话说,“你未必总是需要大数据,才能得出重要见解,你需要正确的数据。” 

    赛斯认为,大数据拥有四种力量,也并不都同数据集本身的大小相关。 

    第一种力量是提供了新类型的数据。比如人们在互联网上搜索和观看色情作品的数据,能够让现在的研究者进入以前只能靠推理和猜测的领域。

    第二种力量是提供了诚实的数据。在数字时代,虽然人们仍然会在现实生活中隐藏起一些真实想法,但是在互联网上,尤其是可以匿名的网站上往往会透露出自己真正想要什么和真正做了什么。

    第三种力量是让人们可以把焦点放在人口中的一个很小的子集去进行研究。比如,要了解某一个球队有多受1978年出生的男性的欢迎,只对几千人进行的小调查,根本不够。而通过大数据研究则可以发现,如果在一个人对运动最痴迷、最容易喜欢上某项运动的时间段,这个球队的表现越好,那它获得这个年龄段的球迷就越多。 

    第四种力量是,允许研究者进行因果关系实验。大数据可以允许研究者进行快速而且可控制的因果关系实验,而不仅仅是相关性。脸书(Facebook)每天能进行上千次所谓的A/B测试,即在同一个时间维度,分别让相似的两组访客随机访问不同的版本,根据所收集的数据来评估出用户更喜欢哪一个。比如,两个标题,哪一个点击量更高;放哪种类型的照片,更能让用户喜欢等等。

    这种大数据测试方法,在互联网公司已经大量使用,而现在和将来,社会科学家也可以使用,从而把以往模糊的研究,变得更科学。   宗合

南京日报社主办南京日报总编辑:丁辉宇国内统一刊号:CN32-0030南京日报广告刊例表南京日报信息热线:4008885998南报网新闻热线:025-84686110
南京日报