1. 链一财经首页
  2. 资讯

大数据(二):理想模型=万物数据化+相对精确+相关性 | 连载八

切比雪夫不等式 相对精确 相关性

我们一说到大数据,它给我们的直观感受就是数据量很大,经常要用一些我们平常使用计算机少有听说的单位来标示(比如ZB)。我们刚刚也已经谈到,早期人类掌握的数据并不多,对其重视程度也不够,很长时间内,数据并没有成为我们研究问题时最为核心的考量。转折开始于20世纪70年代,当时科学界兴起一种数据驱动的研究方法,简单来说就是在解决问题的时候放弃对于精确模型的追求,转而求助于大量数据的获取。

我们以民意调查为例来说明这种方法的应用。以往为了在调查中得到一个理想的统计结果,我们常常会将精力集中在设计一个更好的统计样本。由于向全社会每一个人都发放调查问卷既不现实,成本也极高,最大的难度就在于如何挑选具备代表意义的人群组成样本(抽样),以便用相对少的数据精确地统计出我们想知道的结论。此外,现实中还会经常遇到问卷回复不完全或者无效的问题。

为了解决无法直接获得全部真实信息的情况,人类发明了概率论和统计学,它帮助我们可以大致估计出类似民意调查问题的结论。现在的疑问是这个估计是否真的可信,因为毕竟根据概率进行的抽样有很大的随机性,我们希望能够从理论上证明当观察到的数据量足够多了以后,随机性和噪声的影响可以忽略不计。19世纪俄国数学家切比雪夫对此给出了肯定的证明,他提出了这样一个不等式,也称作切比雪夫不等式:

P(|X-E(X)|>=Ɛ)<ơ^2/n*Ɛ^2

根据该不等式的原理,当调查问卷的样本数据足够时,一个随机变量和它的数学期望值之间的误差可以任意小(小于不等式右边的数值),也就是上述偏差可以在数据达到一定量之后被忽略不计。既然这样,我们可以不必去追求完美的样本模型——因为它未必存在,即使存在找到它也非常不容易,而是可以通过获取更多的数据来提升结果的准确程度。

物理学的现象说明,规模持续增加可以导致质变,比如金属的导电性会随着温度的变化而彻底改变。辩证法同时告诉我们,一方面要关注事物的变化过程,一方面也要根据发展规律,不失时机的促成事物的转化和飞跃。虽然人类很早就已经掌握了相关的理论和研究方法,但由于数据量仍然比较匮乏,数据驱动能够解决的问题即使到了80、90年代仍然十分有限。然而,人类并没有就此停止用数据解决更多问题的尝试,终于在进入2000年之后,伴随着数据量的快速积累,我们很快将多年来总结的经验串联起来,在短期内取得了多项重大的科学突破。

由于相比过去拥有了足够多的数据,我们的问卷调查结果变得越来越准确。我们已经能够精确地预测某些疾病的发生,并向驾驶员实时进行路况信息的推送等等——这些在数据量没有指数级地增长之前都是无法做到的。通过大数据的方式,我们获得了很多以往没有的便利,比如互联网公司有时候会比你更清楚你希望购买的商品,并可以通过数据搜集为你绘制出睡眠质量报告等等。

人类总是不满足于现状,我们又开始马不停蹄的思考,既然大数据有如此多的好处,我们何不将一切物理世界的事物都用镜像表达在虚拟的由数据构成的世界中?甚至是我们以前认为的一些完全和信息、数据不相干的事情比如发动机的振动,房屋里阳光投射的面积,一个人的行走轨迹等,都应该通过量化的方法记载到数据的世界。

在数据大量描述的基础上,任何发动机的振动和散热,都可以通过数学模型判断其状态,甚至能预测其未来发生故障的几率。大数据可以消除误解、增加流动,帮助我们冲破层层阻隔;大数据能够减少不确定性,大大提升决策的质量。之前人类每一轮生产工具和技术的重大发明都推动了繁荣的演进,这一次的主角将会是数据。在此基础上,整个人类社会也会迈上一个崭新的台阶。

人类憧憬着这样的美好蓝图,我们每个人同时也需要尽快做一些思维上的转变,来应对大数据时代出现的新的情况。由于我们有能力通过不断获得数据让结论更加可信,大数据抛弃了过去数据量较小时期对于精准的苛求,可以容忍一定程度的误差;另一方面,因为短期数据量的暴增,我们也可以仅仅通过数据回答过去很多无法解释的问题,这时候大数据会优先将精力集中在问题的相关性上,先借助数据的堆积回答“是什么“,这就替代了我们长久以来习惯的对于因果关系的追求,反而有利于推动事情的发展。

理想状态下的大数据社会,就是最终可以将一切物质、规则数据化,然后全部交给智能的计算机去处理——因为人类依靠现有的智慧已经无力面对如此海量的数据。我们在之前的文章中谈到,人类一直在探寻完美,终于在寻觅了这么久之后,在大数据时代触碰到了它的存在。借助大数据的威力,我们可以按照自己的意愿改造这个世界,将它变成我们希望呈现出的样子。在这个新的世界,一切规则都是清晰透明的,所有共识均可以通过数字来达成。我们将这个理想中的完美世界总结成一个简单的模型:

理想模型=万物数据化+相对精确+相关性

其中第一项主要是指物质层面,二、三项指的是思想上的变化。万物数据化既是驱动力,又是最终追寻的结果,而相对精确和相关性这两个理念,都是为了契合数据化的进程所需要的。数据化之轮已然启动,它要求我们不再拘泥一隅,或是执着于预设观点,而是敞开胸怀,让数据自己在广阔的天地发声。

*文章为作者劫波李凯龙(ID:KalpaTech)原创独立观点。 未经授权, 禁止擅自转载。 

*李凯龙,数字机构劫波科技创始人兼CEO。

李先生就读于清华大学经济管理学院和法学院获得硕士学位,拥有香港中文大学mba及北京外国语大学语言文学学士文凭,并被公派到欧洲多个国家留学。李先生曾供职中美顶级的一/二级市场投资及基金;曾于腾讯从事研究与投资工作,期间在腾讯研究院担任首席研究员;曾出任中国五百强佳兆业金融控股总裁助理职务,负责战略业务规划及金融/科技/消费板块的投融资和运营管理。李先生还是清华-伯克利深圳学院和香港中文大学博士及研究生课程讲授学者,并为清华大学院系校友会之理事。

文章声明:本文为火星财经专栏作者作品,不代表火星财经观点,版权归作者所有,如需转载,请提前联系作者。

根据国家《关于防范代币发行融资风险的公告》,大家应警惕代币发行融资与交易的风险隐患。

本文来自LIANYI转载,不代表链一财经立场,转载请联系原作者。

发表评论

登录后才能评论

联系我们

微信:kkyves

邮件:kefu@lianyi.com

时间:7x24,节假日bu休息

QR code