2017-05-08 星期一
日期检索 本期头版  本期内容导航 

数据可以发现城市未来吗

2017年05月08日   11: 解放周一/见识   稿件来源:解放日报  


  ■本报记者 柳森

  近两三年,基于开放数据的各种创新应用大赛非常夺人眼球。与此同时,这把“火”也烧到了城市管理、城市规划利用数据工具辅助决策领域。一时间,类似“城市数据师”、“城市数据侠”、“城市数据派”、“城市数据团”这样的酷炫提法层出不穷。
  大数据变革时代,数据分析和二次开发,可以为“城市变得更美好”贡献哪些价值?
  在去年6月启动的上海开放数据创新应用大赛(SODA)中,由上海对外经贸大学工商管理学院副教授陈瑶博士领衔、基于交通大数据进行价值挖掘的参赛项目“优行地铁”获得优胜奖。她用自己近一年来的亲历告诉《解放周一》记者:数据一定可以发现城市未来,但这个过程,并不容易。

  “数据侠”风行的土壤

  解放周一:这两三年,大数据热也“烧”到了城市管理、城市规划决策领域。这仅仅是因为“大数据”概念受热捧吗?
  陈瑶:基于数据做决策,这在管理科学与工程学领域很早就有了,也是专门的一类研究。原先没有那么大的影响力。这两年能够火起来,跟大数据概念的火绝对有关。但更深层的原因在于,我们整个社会方方面面经过二十余年的信息化,不仅发展迅速,也在这个进程中,尤其是近十年,积累了大量的数据。
  以前没有那么海量数据的时候,大家拿一般的统计模型做一些分析研究。比如研究人流量,你去实地看、去抽样、去数人头,但现在已经不需要了。把数据拉出来分析一下,就能一目了然。接下来的工作在于数据的转化和价值挖掘。再加上“互联网+”概念和创业创新受到高度关注。这种热潮之下,数据会变得更可得,有更多数据被公开,也有更多数据进入流通领域,甚至可购买、可交易。
  解放周一:有数据,就能有有价值的数据挖掘与发现么?
  陈瑶:未必。数据在质量上会有差异,需要去分辨噪音、异常。我们做大数据的第一步,就是数据清理。清理中可以挖掘出很多有意思的问题和现象,然后可以从中寻找原因,或者进一步进行有意义的应用开发。
  目前在大数据行业,发展得最快最多的,也就是业务爆发点,是做顾客人群的分析和标签,然后进行精准营销。以顾客的消费数据、互联网行为数据为基础,不仅能挖掘出什么样的人对什么样的产品感兴趣,还能推测这个顾客背后的人生轨迹和未来消费潜力。因为很有商业价值,变现也快,企业非常重视对这一块的投入。现在在大数据行业走在前列的公司,很多都走了精准营销这条路。
  相较而言,基于数据辅助城市管理决策这块(目前主要是围绕城市治理、安全、环保),就要落后很多。最根本的原因在于市场激励机制没有建立起来。说无利可图或许有些浅薄,但现实就是如此。没有一点情怀,很难把这方面的拓荒坚持下去。毕竟,无论是模型、算法研发还是应用拓展,都需要投入相当大的人力成本。

  给地铁拥堵做一次“体检”

  解放周一:但我们还是看到了你们的作品。一个为了提升市民乘坐地铁出行体验,鼓励“智慧出行”和“绿色出行”,并希望能够有助于提高上海这个超大型城市的人群风险管理能力和运营效率的民生类公益项目——“优行地铁”。基于的数据主要来自SODA大赛提供的公交一卡通乘客刷卡数据(2016年3月、2015年4月,精确到秒)。你们对这些数据感兴趣的原始冲动来自哪里?
  陈瑶:这个冲动其实非常简单。就是我自己早高峰挤地铁挤到想吐的时候,感到能够获得的信息非常不足,有时面对拥挤的人流还是挺害怕的。于是,我一边挤地铁,一边琢磨:这地铁到底有多挤,有没有超载,有没有安全隐患;人流峰值、波谷分别在什么时候,我有没有可能错峰出行;如果地铁本身的客流负荷暂时无法改变,对乘坐舒适度非常敏感的出行者来说,比如老弱病残孕、穿着正式地赶赴面试的、身体不适需要赶去求医问药的,可否改变自己的出行方案,做更聪明的乘客?
  后来,我们看到SODA大赛公布出来的数据,发现正好可以跟上述这些问题的求解匹配起来,我们就投入研究了。说得形象一点,我们想给地铁拥堵做一次比较全面的“体检”。
  解放周一:通过“体检”,有什么新的发现?
  陈瑶:过去有不少针对地铁拥堵问题的研究,但我们发现,这些研究关注的数据比较“粗”,太就数据论数据。主要就是关注多少人进站、多少人出站。事实上,这一次大赛提供的内容记录上也只有进出站时间。那些其实都只是表面数据。如果你真的在乎乘客的出行体验,对这个场景有更深入的感受和体会,就会发现,每一个乘客出入地铁站的路径、在站时间、等待时间、那段时间的站内人流情况、车厢客流负荷,都是非常重要的数据信息。
  有了对这些关键数据的问题意识,我们团队逐条分解了上亿条乘客形成的历史记录,研发算法,估算了地铁全网日内客流等待时间、在站人数和车上人数。有了这个基础,可以实时对站内乘客人数进行分级评估,从而对地铁大客流进行更有效的管理、疏导、预警。
  通过这段时间的数据梳理与分析,有几点发现可以与大家分享——
  比如,每周一到周五,即工作日,上海市民的地铁通勤人流数据非常规律。这提示我们,一条地铁线路的拥堵情况,同其沿途的职住区域分布直接相关。换言之,该区域有没有居民聚居区,有没有职场人士大量出行,直接决定该区域的地铁通行量。这也意味着,我们的城市管理者在进行地铁规划时,应该把常住人口和非常住人口、目前周边出行人流结构和未来的出行需求结构一并考虑。
  不重视目前出行需求面临的主要矛盾,不预测未来潜在出行需求变化,都可能造成各种各样的问题。比如九号线九亭到佘山的三个站,在当初设计时,周边居住区很少,与现在完全不同。
  又如,我们现有的地铁站线路越拉越长,但中间可供车辆调头的车站太少。这带来的问题是,假设客流集中在某段,列车就无法在这段区间内调头,不得不开到很远的地方再倒回来。中间段的超负荷运载加上长距离往返,对车辆的损耗也大。这在未来的地铁线路规划和设计上,是一个非常值得重视的问题。
  这次数据梳理还提示我们,类似松江九号线沿线大型居民社区聚集的情况,应该在城市规划和管理层面,提供给沿线居民和职场人士单线进城外的多种出行选择。未来我们的城市边界会继续不断向外扩张,在此大势下,上述基于历史数据的发现都是值得重视的。

  改变出行生活的关键:需求管理

  解放周一:在发现了上述问题后,你们的建议是什么?
  陈瑶:从运营管理的理论分析来看,由于生产和消费的同时发生,服务系统运营管理中的核心问题,就是供求之间的平衡。当前,在产能供给上,上海地铁已经投资巨大,但面对非常不平衡的高峰期出行需求仍显产能不足。因此,对需求进行管理,就非常必要。
  需求管理的核心是主动影响顾客需求,削峰填谷,平稳需求。那么,我们所做的,就是为市民提供详细的地铁出行信息、拥挤预测和路线优化,帮助乘客做出理性决策,主动错峰出行。
  比如,早十分钟或者晚十分钟坐某段地铁,就可以不那么挤。提示之下,一些愿意提早出行的人,就可以做出调整。
  又如,9号线早高峰是非常挤的。于是,我们在公众号平台上建议松江大学城的大学生:如果你要去虹桥办事或者去虹桥火车站,干脆坐松江南站的高铁,贵一点,但十分钟就可以到。记得有一个学生给我发消息说,“自从看了陈老师的报告以后,我每次进城都坐高铁”。还有同事给我留言,晚十分钟错峰出行提高了她的生活质量。
  这只是一些非常小的改变,但确实能改变你的体验,改善人们的生活质量。很多时候,我们可以有很多种出行选择,只是你没有想到。

  倾听来自数据的声音

  解放周一:你认同“数据可以发现城市未来”这个命题吗?在过往的研发过程中,如果要通过数据发现城市未来,你遇到的最力不从心之处,或者说最大的困难,是什么?
  陈瑶:大数据行业的竞争主要在两个方面:数据和算法,尤其是前者。数据滞后、短期、不完整,都会影响结果。如果没有好的数据、长期稳定的数据来源,再有意义的问题发现、再好的算法都将是巧妇难为无米之炊。
  另一个比较大的困难,来自项目的落地,来自我们通过数据挖掘出来的结果,未必能得到实际使用,得到进一步的调研和核实。特别是,相关领域的城市管理者,未必能理解和充分信任我们所使用的数据处理方法、研究分析所得。而像我们针对市民地铁出行这种城市管理问题提出解决方案的,如果没有政府的支持和推动,很难落地。毕竟我们是外部研究者,真正实际使用的是他们。
  所以,你说数据可以发现城市未来吗,我觉得答案是一定可以。但城市未来的决策权掌握在管理者的手中。数据是矿,算法是铲子,最后挖出的金子要不要用、怎么用,是城市管理者的决定。非常希望我们的城市管理者能更多倾听来自数据的声音。
  解放周一:如何理解你所说的“更多倾听来自数据的声音”?
  陈瑶:对政府部门而言,进行数据应用开发,将基于数据的决策更多应用于城市管理、城市规划中,并不是简单的赶时髦,而是开拓治理思路和治理方法的一种途径。
  简单来说,早前管理者的决策是自下而上地让下级提交各种报表、报告。而进入大数据时代,如果让决策者看到的,是直接经过自动化处理以后得到的数据结果,不仅不再需要通过下级去周转,数据本身的真实性和可靠性也更高。
  未来的决策者不能只看报告,至少要看一张提供全景数据、时间空间维度可以自由拉动的可视化视图,还可以设计算法做中短期预测。如果数据放在那里不去用,不拿来发现问题、解决问题,不用来提高决策效率、决策水平,会很可惜。
  这一次,单从SODA大赛开放的数据就能发掘出那么多有价值的问题,何况是存在于社会生活方方面面的数据。有些数据如果不适合公开,完全可以自建团队做价值挖掘。当然自建团队对技术人才储备要求很高,给出的薪水如果达不到行业平均水准,就很难有吸引力。数据改变城市的未来,需要数据开发者和城市管理者的合作,专业化的效果更好、效率更高。

  ◇链接◇

城市轨迹大数据是个怎样的“富矿”

■本报记者 柳森 整理
  近年来,随着无线通信的广泛应用,车辆GPS、手机信令、交通卡等空间行为大数据,被用来非常精确地揭示人类行为移动模式,从而解释城市的社会经济环境。如今,可利用的空间行为大数据已经包括:移动电话数据、车辆轨迹数据、智能卡数据、Wi-Fi和蓝牙数据、社交媒体用户数据等。
  这些空间行为大数据,为确定人类的生活模式提供了一个非常有前途的来源。由于大数据可以记录连续的空间行为,且随时间和空间精确变化,研究使用这些数据,可以细致揭示城市居民个体不同空间和时间下的交通出行模式。
  近几年,包含交通智能卡和手机运营商数据在内的城市轨迹大数据,正在国内外成为科学研究和商业应用的热点。随着数据处理、模型设计、统计验证方法的不断成熟,大数据正被不断应用到城市生活不同场景的实践中。

  交通智能卡数据

  交通智能卡(Smart card)最初应用于公共交通的自动收费系统,如公共汽车、地铁和停车场。智能卡系统也被引入商店、餐馆和医院。如今,几乎在世界各大城市都有自己的智能卡系统。
  虽然交通智能卡的主要目的是收集收入信息,但同时也产生了大量非常详细的交易数据信息。这些数据既可以帮助公交系统的日常运营,也可以用于相关网络的长期战略规划。可实现三级管理的各种用途:战略(中长期规划)、战术(服务调整和网络发展)和运作(客流统计和绩效指标)。
  一般,智能卡包含信息包括卡ID、交易数据(时间、类型和车费)、旅行数据(出行模式、时间、票价、车站和路线ID)和个人识别数据。因此,智能卡中的数据可以用于出行需求预测或个人出行模式检测。然而,不同于基于距离的票价,智能卡数据没有登记行程,仅有出入站地点。因此,使用智能卡数据的一个主要挑战,是如何识别一个完整的旅行轨迹、估计各种多通道传输的可能。
  曾有学者使用伦敦智能卡数据中的个人旅行信息,揭示城市的结构,提供新的方法来模拟城市系统的流量;基于北京市14个工作日的地铁刷卡客流量数据,将195个地铁站点分为居住导向型、就业导向型、职住错位型、错位偏居住型、错位偏就业型、混合型、综合型及其他型8种不同类型;使用上海申通地铁数据,对世博会期间上海轨道交通客流特征进行统计分析。所有这些实证研究表明,智能卡数据对理解城市系统的动态(各种旅行行为和交通规划)非常有效。
  国内外学者在公共交通中使用智能卡数据进行的研究,主要分为三大类:战略层面上,涉及长期的网络规划、客户行为分析和需求预测;战术层面上,重点是地铁时刻表调整、纵向和个别的出行模式;业务层面,研究相关的供应和需求指标,以及如何完善智能卡系统可操作性。一旦智能卡搭载上持卡人资料,比如采用使用者实名制登记,其所呈现的信息的社会人口属性会更强。

  手机运营商数据

  无论在国内还是国外,移动手机的运营商数据,作为一种轨迹数据,也已被广泛用于各类研究和商业应用。
  手机数据有两种类型:基于信元塔的数据,主要包含小区塔流量和切换信息;基于移动电话的用户数据,通常包含匿名用户ID、小区塔ID,以及电话、位置、日期和时间的信息。目前,出于数据类型和研究目的的不同,用来处理和分析手机数据的方法,包括传统的数据挖掘技术,如聚类方法和基于规则的算法,新技术有可视化工具和复杂的机器学习方法。
  手机数据在出行交通行为研究中最基本的应用是检测逗留(访问)和提取出行次数。通常情况下,结合连续定位数据和历史定位数据、计算个体在每个区域的定位频率,可以检测该用户的停留情况。只需要手机使用的四个时空点,就能定义一个人的活动痕迹。
  用户的交通方式,可以使用蜂窝网络的数据,根据连接信号强度的波动变化率,做较粗略的估计。目前通过这类数据可识别的出行方式,主要包括停止、步行和机动车出行方式。
  范围更广的交通方式,可以使用手机内置的GPS和运动传感器,采集更准确的定位和运动状态信息,判断行驶速度和可能的方式。例如,利用智能手机内置GPS和加速度传感器收集的数据,可以确定五种运输方式,包括步行、跑步、骑自行车、停止、开车;区分八种出行方式,包括汽车、自行车、公共汽车、电车、火车、地铁、步行、摩托车等。应用于上述数据分析的分类技术,包括决策树分类器、隐藏的马尔可夫模型、基于规则的分类器、人工神经网络、贝叶斯分类器等。
  城市动力学研究早已开始大规模使用手机数据。曾有一个名为“移动风景”的项目,使用手机数据可视化展示了米兰城市在时间和空间上的演化。“实时罗马项目”,则使用罗马的手机和出租车数据,描绘了城市脉搏。随着手机运营商数据的部分开放,国内对手机信令的研究近几年开始增多,主要集中在城市规划和交通领域中。比如,基于手机信令,对轨道交通早高峰客流和居民的职住通勤关系、大都市圈规划进行研究。
  传统的出行行为研究很难做到这样几乎覆盖到整个人口的样本。而手机数据最独特、最吸引人的特点,就是它们的普及规模。由于其为研究者提供了纵向和个别的大量细节,因而非常适合用来研究城市管理问题。
  (感谢陈瑶博士为本文提供学术支持)