赛题及数据

模型挑战赛

选题一 用户旅游出行意向和类型预测 报名参赛
一、背景

智慧旅游的发展为旅游业带来了深刻的变化, 为更好的提升旅游业的整体服务, 国家旅游 局提出全域旅游的概念, 旨在构建一站式(管理、服务、营销)全域旅游生态圈。 与此同 时, 随着智能手机和4G网络的普及, 运营商积累了来自用户的海量数据, 比如漫游、位置 信令等。

本赛题以中国移动浙江公司用户数据为基础, 而参赛队伍则需要通过大数据和算法构建用户省内游 出行意向和类型的预测模型, 其中出行类型要求细化到具体的景区、餐饮、购物的偏好预 测, 希望参赛队伍能够挖掘数据背后丰富的内涵, 通过模型预测, 让用户能获得精准的旅 游产品推荐, 同时帮助提高旅游管理和服务的质量。

二、数据描述
1、数据说明

本赛题除了可使用公共数据集外,还提供用户轨迹和出行行为数据。

轨迹数据,表名为DataTech_Travel_Train_Trail,包括如下字段:

user_id 用户标识 抽样&字段脱敏
IN_TIME 进入时间 粒度到分钟
OUT_TIME 离开时间 粒度到分钟
LONGITUDE 经度(百度) 字段脱敏,保留小数点后3位
LATITUDE 纬度(百度) 字段脱敏,保留小数点后3位
poi_name POI位置原始分类
poi_cls1 POI位置一级分类
poi_cls2 POI位置二级分类
poi_cls3 POI位置三级分类

用户出行行为数据,表名为DataTech_Travel_Train_User,包括如下字段:

user_id 用户标识 抽样&字段脱敏
in_pro 省内游出行意向 0:无出行意向;
1:有出行意向
in_jq 省内景区 当in_pro=1,须进一步判断该2个字段中,仅有其中一个为1,其余为0
in_cy 省内餐饮、购物
2、任务描述
训练数据部分:

本赛题提供一定量的用户在一个月时间之内的轨迹数据(5.28~6.28),以及未来10天(6.29~7.8)的出行行为数据。

公共数据集提供用户4个月的基础信息,以及在一个月时间之内(5.28~6.28)的通话、轨迹和上网行为数据。

选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。

预测数据部分:

2017-6-29到2017-7-8日用户的省内游出行意向和类型。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

数据中部分列存在空值或NULL,请参赛者自行处理。

评分数据格式:

参赛者完成对用户省内游出行意向和出行类型预测之后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:DataTech_Travel_Predict,格式同DataTech_Travel_Train_User,要求去除重复。

3、数据文件
初赛数据

初赛阶段提供7000个用户的完整行为数据。

决赛数据

决赛阶段提供20万用户的完整行为数据。

三、评估指标

本赛题目标是预测用户省内游出行意向和类型,将使用中国移动浙江公司用户历史出行数据作为评估测试数据,采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

其中PredictionSet为算法预测的出行行为,ReferenceSet为真实的出行行为。我们以F1值作为最终的唯一评测标准。

选题二 用户购买意向预测 报名参赛
一、背景

据艾瑞咨询统计,2016年网购交易规模将逾5万亿,在庞大的交易额的背后,是数千万的线上线下商家,网络时代也是一个疯狂“买买买”的时代。真正分析并了解客户,在用户有需要的时候,为他找到符合需求的优质优价产品与服务,才是移动电商在抢位大战中致胜的关键。

本赛题以中国移动浙江公司积累的较为完备的上网行为等数据为基础,要求参赛队伍通过大数据分析建模,构建“千人千面”的智能推荐算法。

二、数据描述
1、数据说明

本赛题除了可使用公共数据集外,还提供用户在某投放平台的商品领取记录,表名为DataTech_Recommendation_Train_Item,包括如下字段:

user_id 用户标识 抽样&字段脱敏
Item_id 中奖商品标识 字段脱敏
UNIT_TYPE 商品类型 枚举值,bill:话费;gift:礼包;free-gift:自选礼包;flow:流量
category_1 1级分类
category_2 2级分类
Is_receive 是否领取 0:未领取;1:领取
create_time 创建时间 粒度到天
2、任务描述
训练数据部分:

本赛题提供用户在一个月时间之内(5.28~6.28)在某投放平台的商品领取记录;

公共数据集提供用户4个月的基础信息,以及在一个月时间之内(5.28~6.28)的通话、轨迹和上网行为数据。

选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。

预测数据部分:

预测用户在2017-11-8到2017-11-10期间,在该投放平台对给定5款商品的购买意向。

每个商品给出1000人的用户群,以实际领取率为最终评价标准。

决赛训练数据将在2017-10-30日切换为2017-10-10到2017-10-29的商品领取数据。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

数据中部分列存在空值或NULL,请参赛者自行处理。

评分数据格式:

参赛者完成对用户购买意向预测之后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:DataTech_Recommendation_Predict,包含item_id和user_id两列,要求去除重复。

3、数据文件
初赛数据

初赛阶段提供7000个用户的完整行为数据及大量商品信息。

决赛数据

决赛阶段提供20万用户的完整行为数据及大量商品信息。

三、评估指标

本赛题目标是构建用户购买推荐算法,将使用某投放平台用户领取不同商品代金券的偏好数据作为评估测试数据,评估算法的准确性。

要求:单个item_id的用户群大小固定为1000,小于1000人的用户群视为无效,多于1000人的用户群将随机选取1000个用户。

选题三 通信信用风险评估 报名参赛
一、背景

随着互联网金融的发展,以大数据为依托的征信已经成为互联网行业和金融行业的新兴市场,可以预计,随着电信运营商介入大数据征信,所掌握的海量数据将和一些金融机构的风控能力有效结合,未来个人消费者使用手机的消费数据、通信交往记录、使用业务的情况、位置信息、消费能力等等都将关系到个人信用评价,也会影响到未来个人的银行贷款、就业和商业交往。

中国移动作为全球用户规模、网络规模超前的移动通信运营商,为了提升服务质量和用户体验,不断推出多种组合的人性化的服务,只要你是移动用户,你就不必为紧急情况下欠费停机而担心,移动已经给用户提供不同金额的欠费信用额度。本赛题针对使用运营商信用透支用户,利用海量真实业务数据,从不同的维度对用户的信用等级进行评分。

二、数据描述
1、数据说明

本赛题除了可使用公共数据集外,还提供用户通话和违约行为数据。

通话数据表名为DataTech_Credit_Train_Communication,包括如下字段:

UserI_Id 用户标识 抽样&字段脱敏
R3A_Stop_Days 近三月停机总天数
枚举值:
  1. 无;0
  2. 很少; (0,3]
  3. 一般 ;(3,10]
  4. 较多; (10,20]
  5. 很多;(20,+)
R3A_Stop_Cnt 近三月停机总次数
枚举值:
  1. 无;(0)
  2. 偶尔; (0,3]
  3. 经常;(3,5]
  4. 频繁; (5,+)
Date 数据日期 泛化,截断到月份

违约行为数据表名为DataTech_Credit_Train_User,包括如下字段:

UserI_Id 用户标识 抽样&字段脱敏
RISK_Flag 违约标识 0:未违约;1:违约
2、任务描述
训练数据部分:

本赛题提供2017年3-6月用户的通话数据,以及部分用户在未来一个月(2017年7月)的违约行为数据;

公共数据集提供用户4个月的基础信息,以及在一个月时间之内(5.28~6.28)的通话、轨迹和上网行为数据。

选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。

预测数据部分:

预测透支用户在2017年7月是否会违约不进行缴费。

数据中部分列存在空值或NULL,请参赛者自行处理。

为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。

评分数据格式:

参赛者完成对用户违约行为预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:DataTech_Credit_Predict,格式同DataTech_Credit_Train_User,要求去除重复。

初赛数据

初赛阶段提供7000个用户的完整通话行为数据。

决赛数据

决赛阶段提供50万用户的完整通话行为数据。

三、评估指标

本赛题采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下:

其中PredictionSet为算法预测的购买数据集合,ReferenceSet为真实的答案购买数据集合。我们以F1值作为最终的唯一评测标准。

众智创新赛

赛题背景
  • 无预置赛题,你所关注或解决的大数据有关问题都是大赛的赛题。
  • 众智创新赛除了综合奖项外,另设置供应链金融创新专项奖,专项奖和与综合奖叠加。供应链金融的传统解释是指资方通过核心企业做到对“商流、物流、资金流、信息流”的把控,为整个产业链条供应商、经销商等提供金融服务的支持方式。本专项奖金的设立旨在汇聚不同模式的供应链金融领域创新场景,共同探讨研发供应链金融中的符合产业场景的创新应用。
数据描述

众智创新赛参赛者可以使用脱敏处理的中国移动浙江公司真实用户数据,包括用户基本信息,通话信息,位置信息,DPI信息;数据间使用唯一编号关联。数据采样类型:浙江省全省区县随机采样。本次大赛还提供由四维智城提供的浙江省地理空间数据、全国范围内的气象指数和预警信息,以及浙江省某地市的交通数据,以及由聚合数据提供的生活常用、车辆出行、通讯、金融、娱乐、旅游等各行业数据。

下载附件:脱敏数据包字段口径说明