大数据解决北京问题

城市化的进展给我们带来了现代化的生活,但是也带来很多问题,比如说交通的拥堵、能耗的增加和环境的污染,要解决这些问题在很多年前看似几乎不可能,因为城市的设置过于复杂,牵一发而动全身,环环相扣。但是现在,由于传感器技术的发展和大规模计算基础单元的成熟,产生了大量的大数据,从我们的社交媒体,到我们的气象数据,从我们的地理地图数据,到交通流数据,如果使用得当的话,这些大数据可以帮助我们发现这个城市的问题,并进一步帮助我们去解决这个城市的问题。

基于这个,我们提出了城市计算这个话题,包括四个环节,城市感知、城市数据管理、城市数据挖掘和城市数据提供,把这四个环节形成一个环路,在不干扰人生活的情况下自动改善人、城市、生活,所以简短来说,我们就是要用大数据去解决大城市中的大挑战。

下面看一下这个城市里面到底有什么样的大数据呢?第一个,就是我们的路网数据,其实是北京的一个地图数据,其中红色可以来表示高速公路,蓝色表示环路,如果有多年这样的数据,我们可以知道这个城市的交通网络在如何的扩张。

另外一个数据,就是我们的兴趣点数据。一个兴趣点,包括名字、地址、GPS坐标和类别。比如某个楼就是兴趣点,某个楼显示的是北京酒吧和电影院的分布,其中黄色点表示电影院,蓝色点标志酒吧。如果有多年这样的数据,我们可以知道这个城市在如何的变化、兴盛或者消亡。

举个例子,在过去的5年里面,北京市电影院的数目持续增加,达到了260家,那就说明可能有越来越多的人去电影院看电影,而不是买DVD了,很多故事可以从大数据里面发现。

下一个就是我们很关心的,空气质量数据,通常被定义为优良、有害或者有毒等等,这个数据中国人很关心,我们美国的同事也很关心,只是关心的方面是不一样的。这个数据跟气象相关,包括刮风、下雨、温度、湿度、气压等等。

这也是一个数据,人移性的数据,在什么地方可以怎么样,这个数据反映的是人在城市里面怎么移动的。

最后是一个出租车的轨迹数据,这是三个月的数据,越亮的地方车越多。如果我们把三个月的数据加到一起,总长度是地球到太阳距离的三倍。如下图是反映北京出租车轨迹数据的热度图。

这个数据告诉我们的其实不光是地面的交通流量,因为装GPS的出租车可以感知路面流量,我们知道这个城市里面人是怎么通过出租车出行的,因为我们知道每辆出租车的上车记录和下车记录,这两个不同的就是,根据人乘坐出租车产生的图,左边是工作日,右边是节假日,颜色越深,代表单位时间里面到达这个区越多。基本上北京东北部这个部分,CBD的比较多一点。对比两个图,工作日和非工作日看的话,这个概率高于非工作日,很简单,因为非工作日出去玩了。

基于这个数据我们做了详细的研究,今天讲三个案例,分别关于环境空气质量、能耗和我们的城市规划。

第一个,大家最关心的就是我们的空气质量,中国政府也是非常头疼这个事情。在北京已经建了22个空气质量监测站,图上的每个蓝点就是空气质量监测站,但是这个数量还是非常有限的,因为建一个站点非常昂贵。数目这么有限我们面临的是什么问题呢?一个城市的空气质量是不均匀的,而且是非常不均匀的。我们看这个图,这里面每个图案代表的是已经建好的,它的数字就表示空气质量,在同一时间不同地点的空气质量读数可以差得很远,有的时候即便挨得非常近,但是也可以差几百。因为什么呢?因为一个地方的空气质量有很多复杂因素来决定,包括我们的交通流量、气象条件,以及这个地方的土地使用规划,有多少工厂、公园,都不一样。

另外,不同地方的空气质量随时间变化也是不一样的,我们看这样一个例子,北京的空气质量从好变坏,并不是一瞬间所有地方都变坏、所有地方都变好,可以看到,不同地方随着时间变化是不一样的,有的地方只有几十,有的地方已经几百了。正是因为这样一个原因,我们就不知道如果一个地方他没有建空气质量监测站,他读数是多少,比如现在这个位置空气质量到底是多少,不能根据平均值去看这个读数,也不能简单的用线性差价来计算。

我们还加上5个其他大数据,包括了气象条件,刚刚说刮风、下雨、湿度、气压等等。交通流量数据,还有单位时间里面多少人来、多少人走,有多少餐馆、多少公园、多少广场等等,结合这些数据我们就可以建立一个模型,建立一个地方的数据和这个地方空气质量的模型,以后给定这样的数据即使没有建空气质量监测站,也可以把这个地方的空气质量算出来,这是我们已有的空气质量监测站的数据,可以算出北京任何一个角落一公里乘一公里细粒度的空气质量,我们就知道什么时候去跑步、什么时候让小孩出来,并且这个细粒度也是我们下一步解决空气污染问题的前奏,你知道什么原因导致的污染,必须知道哪个地方总是被污染,才可以去分析。

这个是采用了基于云和端的架构,云实时的得到气象质量数据,通过手机客户端和我们网站提供的用户信息,可以访问任何一个地方的空气质量,这个服务已经发布,是公开的。这个手机应用,如果用Win Phone,点任何一个地方,马上可以告诉你空气质量多少。

这个精度可以做到0.8。中国10个城市做这个应用,并且验证了这个成果,0.8的精度,是用大数据的方法做的,之前传统行业基于空气动力学模型0.6,而且喊了很多很多年行业没有进步,现在环保部已经跟我们签约做这个事情。

第二个,关于城市规划。我们看这个城市的功能区划在什么地方,他们的分布是怎么样的,这个就显示是一个真正的结果,其中红色的是北京的科学和文教区,黑色的表示商业区,但是我要强调一个地区的功能不是单一的,这个地区可能既有商业、也有学校、还有住宅,是一个分布,可能80%是商业、20%是学校,所以具有相同颜色的区域,实际上他们是具有相同功能的分布。

反过来说,即便一个区域被认为是科学文教,也不代表他每个角落都服务于科学文教,就需要进一步确定他某种功能的核心所在,比如右边这个图是表示了北京核心商业区所在,第一,可以帮助我们规划人员做下一步版本的城市规划,因为城市规划一般10年一个版本,但是5年之后就发现这个已经很不一样了,可能因为规划不合理,可能因为政策导向变化了,我们做下一个版本的规划的时候,必须知道当前这个城市的状况是什么样的,哪里是科学文教区,哪里是成熟商业区。

另外,做商业选址的时候可能要考虑这个因素,离其他的商业区多远,都是实实在在的商业价值,这个我们跟北京城市规划研究院的同事有些交流和合作。

这里面是用两部分的数据,为什么不用我们兴趣点数据就够了呢,因为兴趣点数据可以告诉我们一些基本信息,如果看到这个区域里面有很多学校,很可能就是科学文教区。看下面这两个餐馆,数据库里面存储的都是中餐馆,但是他们差别很大,反映的地域功能也是很不一样的,左边可是建立在居民区里面的餐馆,为老百姓服务的,另外一个可能是建在旅游景点为更多人服务的,这个就可以区别代表不同功能的含义。

另外,人的移动性本来反映一个区域的功能,比如发现一个区域,大家早上离开这个区域,晚上回来这个区域,这个区域很可能是住宅区,所以把这两部分数据一结合,就能够把细粒度的功能区划自动出来。

我们在2010年、2011年看到的结果,我们看变化是不是有道理,如果有道理就说明我们做的正确的。第一个区域,A的区域,2010年的时候我们发现浅黄色,代表新兴的住宅区,到2011年变成在建设区,本来觉得挺惊奇的,因为北京第一高楼在这个地方建设了,就是大建设。

另外,就是前门大街这块,之前被认为是自然公园,后边变成熟的商业区,大家知道奥运会前后这个地方重建,现在有上百家的商户饭店在这边,就是成熟的商业区。

还有一些地方是我们不知道的,这是望京的区域规划,本来公布住宅区的,我们结果也是吻合,黄色区域新兴住宅区,但是里面有紫色区域就是新兴商业区,这就要政府知道已经有新兴商业区出现了,下一个版本要考虑。

第三个,关于能耗。谁能告诉我在过去一个小时里面北京到底有多少汽油被加,我相信这个问题可能没有人能回答我,有人说这个很像微软的面试题,实际可以通过一些方法来做,我们用装有GPS传感器的出租车,北京市场有近6万多辆出租车,都装了传感器,利用这种传感器检测出租车在加油站的等待时间,用这个等待时间可以算出排队长度,进而算出队里的车的数量,假设这个车的数量符合正常分布,假如平均下来每个人加4升的油,就可以把加油站的加油量算出来。如果能够把整个城市的加油站都算出来,就可以知道这个小时多少油被车加掉了,但是这里面有很多问题,这里面就不展开了。

这个数据有什么用呢?主要是可以来改进我们能源基础设施,比如说我们发现有的区域加油站可能就不够,人很多,总是排很长队,而且大家排队时间、等待时间很久,这个时候我们是不是旁边要加一些加油站呢,反过来有些加油站可能是过度建设的,这个地区可能没有什么人加油,几乎很多地方空置,或者大量开放我们的加油站。

我们要强调,我们是用出租车传感器去感知整个城市的友好,而不是说只是算出租车的友好,可以看到这四个图对比,上面两个是根据出租车的数据看出租车数量阅读图和出租车花的时间阅读图,跟下面整个城市花的时间和整个城市所有人去加油的数量是不一样的。

到底什么是城市计算,大家记住三个字,是三个B,就是用大数据解决大城市的大挑战。第二个,我们的方法是什么呢?是三个M,继续学习、数据管理和数据挖掘。我们的三个W,就是人、城市、生态系统都要三赢。更短的就是3BMW。

版权所有:北京天地通电信有限责任公司 公司地址: 北京市丰台区杜家坎周公路3号院甲

电话:010-52713196 010-52713168 传真:010-52713196-3131

ICP证:京ICP备11033530号-2 京公网安备11010802012321号