一、项目背景 对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分布 二、数据来源 https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1 三、提出问题 1.日PV有多少 2.日UV有多少 3.付费率情况如何 4.复购率是多少 5.漏斗流失情况如何 6.用户价值情况 四、理解数据 本数据集共有104万条左右数据,数据为淘宝APP2014年11月18日到2014年12月18日的用户行为数据,共计6列字段,列字段分别是: user_id:用户身份,脱敏 item_id:商品ID,脱敏 behavior_type:用户行为类型(包含点击,收藏,加购物车,支付四种行为,分别用数字1、2、3、4表示) user_geohash:地理位置 item_category:品类ID(商品所属的品类) time:用户行为发生的时间 五、数据清洗 5.1导入python中的包
读取前5行 看看一共有多少行的数据
查看数据类型
5.2缺失值处理
可以看到user_geohash缺失值为8334824,而其他列不缺
这个缺失值,不能删除,因为有其他的关联信息,所以我们这里暂不处理 5.3数据处理。拆数据集 我们把日期和小时拆开,分成两列 拆分日期
拆分小时
可以看到已经拆分成两列了
下面讲解一下,这个re.compile()函数
5.4查看data_user数据集数据类型
发现time列和date列应该转化为日期类数据类型,hour列应该是字符串数据类型
5.5异常值处理