知识屋:更实用的电脑技术知识网站
所在位置:首页 > 科技  > 大数据

数学零基础想入门AI的程序员(三)使用Excel进行数据分析!

发表时间:2022-03-25来源:网络

一、前言

我们常听到的数据分析,具体来说分为以下五大步骤

数据集的属性有:

用户ID:目的是为了辨别用户是谁。商品编号:目的是为了辨别商品是什么。商品一级分类:商品主分类(如:上述有多个28,如家具类)。商品二级分类:商品子分类(如:28底下有其他的分类,如家具类的桌子属一种、家具类的椅子属另一种)。商品属性:品牌、出货地点、产地等。购买数量。购买时间。


婴儿数据集

数据集的属性有:

用户ID:目的是为了辨别用户是谁。 出生日期:用户宝宝的出生日期。 宝宝性别:女(0)、男(1)、未知(2)


这是第二步,初步对数据有个简单的认识

三、数据分析的第三步:数据清洗(核心)

回到婴幼儿商品购买数据集及婴儿数据集,两份数据集现行不需要处理这块,因为一个用户可能同一天购买同样商品的数量N次,用户的婴儿也可能有复数位,这边只需后续去查阅是否有异常值即可。

故本环节不做处理。

(三)缺失值处理:

针对缺失值,常见的处理方式有三种

人工手动补全(适合少量资料) 直接删除缺失值 用平均值代替这个缺失值

首先,透过Excel与其他栏位比较,可以查阅是否有缺失值。


因为婴幼儿商品购买数据集(上图表1购买商品)及婴儿数据集(上图表2婴儿信息)在我的问题中是需要放在一块去进行分析,故我两个数据集合并,最终得到一张全新的表单,如下:


透过excel栏位的项目个数,我发现合并后,缺失值突然一个陡峭式的攀升(红框部分):

女婴用户(区间)购买数量统计男婴用户(区间)购买数量统计

结论:

针对上述分析的结果,我们可透过数据来初步解释一一用户是比较愿意在女婴上投资的。

(二)哪个产品卖得好?购买这项产品用户间的关系是?

关键特征:产品编号、二级分类、购买数量、出生日期、性别

统计结果:

X轴:一级分类,购买数量前五排序:


X轴:一级分类、Y轴婴儿性别,购买数量前五排序:


X轴:一级分类、Y轴婴幼儿出生日期+婴儿性别,购买数量前五排序:


结论:

哪个产品卖得好?根据数据分析,发现一级分类中50014815卖得最好,课题一结论为用户在女婴上更愿意花钱,所以在上述性别统计中,能发现用户家中是女婴的状况(性别为0),他们更愿意买50014815这分类的产品。

从日期维度在看,50014814集中在出生日是2012年的这个时候,而2011跟2013幅度不大,可以推测可能有某些因素原因,造成2012出生在这年的女婴需要大量50014815的产品。

(三)加上时间维度,卖得好与否时间是否是一个重要影响的因素?

关键特征:购买时间、购买数量、出生日期、性别

统计结果:

X轴:购买时间,统计各年度购买数量:

各年度购买数量

X軸:購買時間、Y軸嬰兒出生日期、嬰兒性別,統計各年度購買數量(數量高至低排序):

两岁购买最多

结论:

上述数据分析后,可以从中发现有一个共通的逻辑,首先2012年出生的婴儿中,用户于2014年大量购买;2011年出生的婴儿中,用户于2013年大量购买;2013年出生的婴儿中,用户于2015大量购买。

由这个规律可以结论,出生的婴儿在两岁上下时,用户会来店铺进行大量采购(相较于刚出生及一岁左右的婴儿),并且结合上一课题的结论,可以大胆推测:


2012出生在这年的女婴會在2014年時,購買大量50014815的产品。


最后验证确实也是这样,找到了一个有趣的关联。


回到本课题一一卖得好与时间是否是重要因素不知道,但卖得好与两岁的婴儿确实有极大的关系与影响,尤其是50014815的一级分类值得追踪。

(四)【进阶思考】假设给予一名新的用户、含婴儿日期、性别,我是否可以初步预测他会购买什么样的产品?这能做到吗?

这题我想了想,答案是可以做到。

现实中确实也有例子,例如上电商时,下面都会写「猜你想要什么」,实际上就是透过个人用户数据的收集后,透过特征进行归类,找出彼此间的共通点与关联性,就能达到预测这件事了,像是netflix就知道我想看什么日剧......

五、数据分析的第五步:数据可视化

以上完成了前面四个步骤,接下来这是要将数据进行商业价值转换的时刻了!


祝賀自己本節完结撒花,可视化留至下一章见!

收藏
  • 人气文章
  • 最新文章
  • 下载排行榜
  • 热门排行榜