阿里造假了???寻找数据的真相

昨天双十一,本来大伙兴高采烈地去剁手,结果硬生生的被淘宝上了一堂数学课,淘宝套路太多也遭到了很多人的吐槽,大伙都说淘宝提高了全中国人的数学水平,最后天猫双十一成交2684亿元,比去年增长了25.7%,吐槽归吐槽,钱包还是很老实的。
双十一快要结束时,小组刷到一条很火的微博,有人统计了双十一的销售数据,发现这些销售额可以用一些回归曲线来完美拟合,他推断淘宝对数据进行了修饰,并且预测2019年的销售额为2675亿或者2689亿元,现在看来,这个预测十分接近。那么,我们不禁要发出疑问:这真的是巧合吗?

天猫的公关总监在朋友圈做出了一个回应,并表示:造谣要负法律责任。小组想了想,这样的威胁其实完全没有必要,大家讲讲道理就行了,反正已经被淘宝强制上了一节数学课了,也不介意再多上一节。。。

图片来源:电视剧《巾帼枭雄之义海豪情》

小组回忆了一下以前在学校学的统计学知识,很多数据的分布其实都在客观上符合某些统计规律。
像中国成年人的身高,绝大多数都在平均值1.7米上下,在统计学上符合正态分布的规律,会同时出现姚明、黄晓明和郭敬明,但是不会出现10米巨人或者是七个小矮人这种极端值,“不要你觉得,也不要黄晓明觉得”,这就是客观的统计规律。
反应快的小伙伴可能会立即想到,马云的身家有2701亿,但是大部分的人身家都不够在京沪买一套房,这样的收入分布好像并不符合正态分布啊。没错,收入的分布符合的是另外一种规律——幂律分布
时间回到19世纪,意大利经济学家帕累托在研究个人收入的统计分布时,发现少数人的收入要远多于大多数人的收入,于是他提出了那个著名的二八法则:20%的人占据了80%的社会财富。
类似的现象还有很多,比如全世界国家GDP的分布、视频网站上的视频点击量分布、论文被引用的次数的分布等,在统计学中,这些现象被抽象成了幂律分布,在分布图上,它表现为一条拖着长长尾巴的曲线。我们用股市里面的一些数据,带大伙看看这种规律。
我们先来看看食品饮料行业的96家公司的市值分布,市值最大的茅台就占到了这个行业总市值的39%,前十大公司市值占比接近80%,如果我们用一个幂函数来拟合他们的市值分布,就会发现解释度高达97.88%

我们再来看看财富的分布,将中国富豪前100名的财富值排列在一起,你会发现排名最靠前的那些富豪还是占据了大多数财富,还是符合幂律分布。

这个规律放在全世界的范围内都是成立的,大伙可以看看全球富豪榜前100名的财富分布情况。

说了这么多,就是想告诉大伙,统计规律是普遍存在的,用一个函数去拟合淘宝双十一的销售额,其实并不能证明淘宝的销售数据在造假,我们可以用同样的拟合方法去看看A股的情况。
下面我们就去看看A股市值最大的前1000家公司过去10年的营业收入,是否符合某种规律。我们用简单的二次函数去拟合,过程有点枯燥乏味,就不多陈述,得到的结果根据R2排序,R2越大,意味着函数的拟合效果越好,也就是说这些公司的销售收入在客观上符合某种“巧合”,其中前50家依次是:

我们将其中解释度最高的前五家单独列了出来,并根据拟合的函数简单的预测了一下这些公司2019年销售收入,大伙可以等到年报披露时,来看看这些拟合效果如何:

小伙伴们多探索一下公众号菜单栏,你们买过的课程、财报工具、小组社群,都在那里哦,小姐姐等你来撩~

1)上海电力获长江电力举牌,长江电力今日增持了上海电力,增持后长江电力持有上海电力股份1.31亿股,约占上海电力总股本的5.00%。长江电力在未来12个月内,拟继续增持上海电力股份不低于100万股。
2)针对扇贝又双叒叕去旅游的情况,獐子岛董事长回应表示:扇贝是刚死的。小组印象里,2018年獐子岛因扇贝死亡而巨额亏损,后来证监会查明,獐子岛涉嫌财务造假,内部控制存在重大缺陷。而这位董事长在知道2017年全年业绩与原业绩预测偏差较大的情况下并未及时披露,甚至在年报中进行虚假记载,被处以60万元罚款,并采取终身市场禁入措施。
3)许家印:恒大未来10-15年年产规划500万辆汽车,年生产1000辆超级跑车。许老板还表示,恒大新能源汽车不是要弯道超车,而是要换道超车。如何换道?许家印表示就是五句话:“买买买”、“合合合”、“圈圈圈”、“大大大”、“好好好”。这标语,简单直接粗暴,毕竟许老板曾经作过舞阳钢铁厂车间主任,制造业的底子还是有的。。。
4)最后来看一则新闻:双十一,网联、银联共处理网络支付业务17.79亿笔、金额14820.70亿元,同比分别增长35.49%、162.60%。

小组今天继续给大伙准备了红包,包括66元的大红包和88元的超大红包!只需点击文末“阅读原文”获取红包口令,在公众号菜单栏回复该口就可以参与抽奖啦!抽奖后,再次点击阅读原文,还能一块围观获奖幸运儿名单!领完红包也不要忘记点“在看”哦~
左手红包,右手在看