智慧旅游的发展为旅游业带来了深刻的变化, 为更好的提升旅游业的整体服务, 国家旅游 局提出全域旅游的概念, 旨在构建一站式(管理、服务、营销)全域旅游生态圈。 与此同 时, 随着智能手机和4G网络的普及, 运营商积累了来自用户的海量数据, 比如漫游、位置 信令等。
本赛题以中国移动浙江公司用户数据为基础, 而参赛队伍则需要通过大数据和算法构建用户省内游 出行意向和类型的预测模型, 其中出行类型要求细化到具体的景区、餐饮、购物的偏好预 测, 希望参赛队伍能够挖掘数据背后丰富的内涵, 通过模型预测, 让用户能获得精准的旅 游产品推荐, 同时帮助提高旅游管理和服务的质量。
本赛题除了可使用公共数据集外,还提供用户轨迹和出行行为数据。
轨迹数据,表名为DataTech_Travel_Train_Trail,包括如下字段:
user_id | 用户标识 | 抽样&字段脱敏 |
IN_TIME | 进入时间 | 粒度到分钟 |
OUT_TIME | 离开时间 | 粒度到分钟 |
LONGITUDE | 经度(百度) | 字段脱敏,保留小数点后3位 |
LATITUDE | 纬度(百度) | 字段脱敏,保留小数点后3位 |
poi_name | POI位置原始分类 | |
poi_cls1 | POI位置一级分类 | |
poi_cls2 | POI位置二级分类 | |
poi_cls3 | POI位置三级分类 |
用户出行行为数据,表名为DataTech_Travel_Train_User,包括如下字段:
user_id | 用户标识 | 抽样&字段脱敏 |
in_pro | 省内游出行意向 | 0:无出行意向; 1:有出行意向 |
in_jq | 省内景区 | 当in_pro=1,须进一步判断该2个字段中,仅有其中一个为1,其余为0 |
in_cy | 省内餐饮、购物 |
本赛题提供一定量的用户在一个月时间之内的轨迹数据(5.28~6.28),以及未来10天(6.29~7.8)的出行行为数据。
公共数据集提供用户4个月的基础信息,以及在一个月时间之内(5.28~6.28)的通话、轨迹和上网行为数据。
选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。
2017-6-29到2017-7-8日用户的省内游出行意向和类型。
为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。
数据中部分列存在空值或NULL,请参赛者自行处理。
参赛者完成对用户省内游出行意向和出行类型预测之后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:DataTech_Travel_Predict,格式同DataTech_Travel_Train_User,要求去除重复。
初赛阶段提供7000个用户的完整行为数据。
决赛阶段提供20万用户的完整行为数据。
本赛题目标是预测用户省内游出行意向和类型,将使用中国移动浙江公司用户历史出行数据作为评估测试数据,采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

其中PredictionSet为算法预测的出行行为,ReferenceSet为真实的出行行为。我们以F1值作为最终的唯一评测标准。