市政厅|大数据里的“十一”旅游地排行:下个长假你去哪儿

  【编者按】

          假日办撤了,“黄金周长假”到底意味着什么?官方数据可能太宏大,不妨借用新兴社交媒体的大数据,观察和记录2014年“十一”黄金周。看看游客从哪里来,又到哪里去,哪些地方最具吸引力。

          这个“十一黄金周”,人们都去哪儿了?官方数据显示,2014年“十一”黄金周期间全国共接待游客4.75亿人次,实现旅游收入2453亿元,分别比2013年增长了10.9%和15.7%。而纳入国家旅游局直报的124个旅游景区(点)在国庆节期间共接待3169万人次,门票收入超过16亿元。

          但这背后,是频现媒体头条的“看不起”、“挤怕了”等关键词。在快速增长的公众假期旅游市场中,“提升品质”似乎成了最具共鸣却也最难实现的呼声。

          简单依据官方格式化的通报和统计数字,难以探察越发成熟、诉求愈发多样的旅游群体。拥有海量用户的社交媒体也许为我们提供了一条考察途径。

          微博是国内最大的社交网络平台之一。随着移动客户端普及,游客所发的位置微博(基于LBS)比例相应提升。用户在景区一次次拍照、签到、发微博等行为,目的性异常明确,由此产生的位置微博可被认为是一种范围与规模更大、也更精细的记录手段,成为探察游客旅游行为的新脉络。

          那么,从微博的大数据来看,游客都去哪儿了?他们的感受如何?

  数据概览

          通过新浪微博提供的开放平台和应用程序编程接口(Application Programming Interface,API),我们基于全国地理信息网格,采集了“十一”黄金周及前一周(2014年9月24日至10月8日)共计14天公开的位置微博数据,空间范围覆盖整个大陆及港澳台。

  “十一”黄金周位置微博分布热点

          

          发微博和黄金周有啥关系?微博用户对假期旅行经历的分享,显著推动了微博数量增长。从总数看,“十一”黄金周期间,全国位置微博约667万条,最高日约102万条,最低日约86万条。相比节前一周的566万条,总量增长约18%,尤其是照片数量增长明显。在黄金周末期,微博数量逐步回落到节前水平。

          那么,在哪里发微博的人最多?从分布看,全国尺度上微博数量与人口总量的分布非常相似,以爱辉-腾冲线为界,东部地区微博数量远高于西部。其中北上广、各省省会等一、二线城市普遍具有较强的聚集能力,假日期间显著吸引了周边乃至全国的移动人口。        但这一数据或许还不能完全说明旅游地的受欢迎程度。在进一步与当地常住人口(六普)及节前日常水平进行对比后,以人均微博密度为指标,我们发现,额济纳、稻城、丽江等非一线地区作为旅游热点,在县域尺度同样表现出非同一般的吸引力。其中,四川省表现尤为突出,在前十位的热点县区中独占五席。这与官方统计结论相吻合,国家旅游局通报显示, 2014年“十一”黄金周四川省旅游总收入超过200亿元,较前一年增长达到29.1%,是全国旅游收入增长最快的省份。

  

          在微博中,我们还能探知哪里的景区可能更有趣。相关的考察角度,是每帖照片数:因拍照是游客分享旅行经历中最重要的形式之一,每帖照片数从侧面可体现游览景区能在多大程度上激发用户的拍照和分享,可将其视为当地旅游感染力强弱的综合反映。

          从整体统计的意义看,可认为每帖照片数较多的地区,其景观资源品质也相对较高。

          从结果看,西部地区社交网络用户数量虽少,但照片比例远高于东部,与前述微博总量“东高西低”格局呈现出有趣的对称现象。早有学者指出,西部地区是我国旅游资源最丰富的地区,自然景观和人文景观占了全国“半壁江山”,西部十省市也都无一例外地把旅游业当作支柱产业来培育和发展。从游客角度出发,拍照意愿的强弱程度也进一步佐证了这一结论。

          

  从哪里来,到哪里去?

          游客究竟从哪里来?哪些城市更具备全国的吸引力?通过分析每位用户在假期前后不同的发帖位置,并参考其填写的所在地等信息,我们定义了用户在“十一”黄金周期间移动的起止点,在地级市尺度对用户的活动规律进行统计分析,对用户的达到、离开、城市间流量等情况在规模、比例和比值几个维度上进行了研究。

          到达量方面,北京、广州、深圳、成都、上海总量居前五位,五地微博用户到达量占全国总量13%,这与当地移动互联网用户基数较大有一定关系。我们将到达量与官方“十一”黄金周重点旅游城市排行比较,可发现,靠前的几个城市排序相似性较高,但人口较少的城市(青岛、烟台)相似性偏弱,表明现阶段微博数据与官方统计口径之间依然存在一定差异。

  官方统计与微博数据比较。

          

          因此,我们进一步引入节前各地的用户数为基数,分析到达量占基数的比重,以减少数据口径偏差的影响。调整后发现,神农架、阿拉善、海南(青海)等地的排序靠前且均超过100%,对官方统计数据形成较好的补充。

  到达量比重排序。

          

          那么,“十一”黄金周期间的旅游者,又是从哪里来的?我们在离开量方面,主要考察从某地离开与到达该地的比值。该比值越大,当地用户外出的倾向就越高。比值排行靠前的城市有乌鲁木齐、兰州、合肥、北京、澳门等地。将到达量与离开量绘制在一张图上,平均值线上下两部分的城市,可分别被划分为长假人口“外出型”和“涌入型”的地区。

   长假外出型城市和长假涌入型城市。

          

          游客从哪里来,又到哪里去,哪些起讫点之间,游客流量最大?是短途游,还是长途游?

          在城市间流量方面,将用户离开与达到的单次数据通过空间分析进行聚合并分级统计,我们得到“十一”黄金周期间全国微博用户流动的网络图。流量处于第一层级的城市对,包括北京-天津、成都-重庆、广州-深圳等。第二层级前几对的城市则包括厦门-漳州、南充-成都、渭南-西安等。这两个层级的城市间流量合计占了全国总流量的16.6%。

          图上还能直观看到一个由北京、上海、广州、成都所构成的菱形结构,若再加上武汉、西安、山东半岛及福建沿海城市带(厦门-福州-漳州)的话,黄金周期间,微博用户流动所刻画出来的这个菱形,实质上与中国城市化水平最高的地区高度重合。

          在第一和第二层级的城市对当中,除北京与上海、成都、广州、西安之外,其余城市间的相互间距离均未超过300~400公里,用户流动规模与移动距离呈明显负相关关系。而北京则表现出了首都所具有的国家尺度吸引力水平。        在主要城市之外,我们还挑选了部分知名景区,研究其外地游客的主要来源。在这些景区中,乌镇、青海湖和鼓浪屿的主要外地客源,均来自自身所处的地域,而黄山、凤凰和九寨沟的外地客源则具有更大的多样性,景区影响力也更大。

  

  部分景区客源分布。        

  游客在哪里会更多地谈论“爱”和“美”

          社交媒体最具价值的部分,依然是微博消息内容本身。

          以乌镇和九寨沟为例,在自然语言处理工具(Natural Language Processing,NLP)的帮助下,我们进一步对游客在黄金周第一天所发微博的内容进行了语义分析(Sentiment Analysis)。对比两地的高频词后发现,在以周边游为主的乌镇景区内,游客留言相对具体,多次谈及时间(“国庆”、“一天”)、事物(“水乡”、“江南”、“旅游”)等,而九寨沟游客的留言则明显趋向于情感化,以“爱”、“美”、“快乐”等词语为主。

  

  

  

          丰富的数据使我们可以回答诸如“某景区不同来源、不同类型游客在不同时间里都在赞美或吐槽什么”这样的问题。

          

          一点结语

          今年的“十一”黄金周,恰逢我国首部《旅游法》颁布实施一周年。《旅游法》强调了以人为本的出发点,更注重保护旅游者的权力。其中明文规定,各地主管部门应建立旅游公共信息和咨询平台向旅游者提供必要信息和咨询服务。

          旅游作为典型的口碑经济和体验经济,对行业和游客舆论应予关注。从购物到安全、从票价到拥挤,网络舆情中各类关于景区的报道会对游客的消费决策产生明显影响,公众可以“用脚投票”选择目的地。社交媒体上的公开数据进一步完善后,完全可以采集不同时间段、不同来源的游客反馈,进行提炼与分析,做出更有针对性的改善措施,这对旅游业的监管、运营及游客自身都意义重大。

          目前全国纳入旅游局直报系统的城市和景区仅有125处,而我国仅4A、5A级景区就有近千家,官方统计存在明显不足。对整个旅游行业来说,社交媒体等网络舆情信息经过挖掘能对官方数据形成补充,具有极大的科研、管理和商业价值,也是监管者、运营者与游客之间重要的即时互动桥梁。

          故而,在传统旅游公共信息平台基础上,各地还可以建立起一套囊括官方统计、新兴媒体、物联网监控等各类来源的旅游行业数据开放与治理体系,完善旅游开放数据的应用生态圈,集社会合力共同提升整个旅游行业的发展水平。

         [作者系中国城市规划设计研究院高级工程师。作者感谢香港大学规划与设计系助理教授刘行健博士、北京城市规划设计研究院高级工程师龙瀛博士对本文绘图与基础数据的协助,三人均为致力于定量城市研究的虚拟学术网络“北京城市实验室(Beijing City Lab,BCL)”主要成员]