名奢网 › 名表› 名表日报 › 查看内容

数据分析报告_以Airbnb为案例

2022-11-23 10:21| 发布者: wanhu| 查看: 101| 评论: 20

放大缩小

简介：作为一个低产的创作者，今天偶尔在回看不同内容的数据时，惊奇的发现这篇文章竟然有5.2W的阅读量，同时有着2500多的收藏量。所以我在想，这篇文章应该帮助到了很多人，至少从学习角度，给了更多想做数据分析的同学一 ...

作为一个低产的创作者，今天偶尔在回看不同内容的数据时，惊奇的发现这篇文章竟然有5.2W的阅读量，同时有着2500多的收藏量。
所以我在想，这篇文章应该帮助到了很多人，至少从学习角度，给了更多想做数据分析的同学一些参考。
因此我在今天对文章进行了修改，让他更具有学习价值，至少避免他出现一些误人子弟的内容，同时让读者更加编辑的获取学习资料。
此外，还对数据可视化做了一定的更新，让它更加美观。

前言：

这篇文章最早发布于2019年11月16日，当时的我正在考虑产品经理转行做数据分析，因为当时的我对完整业务的商业模式充满好奇，专门做数据让我更接近去了解整个商业模式。

当时的公司没有机会提供这样一个岗位，加上我在做产品经理的期间，没有一个非常系统的数据分析报告，让我的求职变得有些坎坷，纵然产品工作中有很多用到数据驱动迭代的案例，但他们过于碎片，碎片在面试中是没有竞争力的，面试官更希望听到一个完成的项目。因此我决定做一个完整的数据报告，主要是为了学习，其次希望加在简历里，让他对我的求职有一些帮助。

恰巧在做产品经理期间，当时公司的业务是以海外公寓长租为主。因此结合当时我对房屋租赁业务有浅薄的理解，加上当时airbnb在中国的营销非常激烈。我就对airbnb产生兴趣，并通过网络获取到了一份airbnb对外公开的一个竞赛数据集。

因此我选择拿它来进行一个完整的数据报告的输出。

特别声明：此篇文章所采用的数据源来自一份airbnb公开的竞赛数据集，数据集并且时间较早（airbnb才刚进入中国市场），因此数据不具备驱动业务的指导能力，把它主要当作一个学习的参考资料，或者模版也好，它不具备商业价值。

这是一个非常标准的模版，你的数据报告最好也具备以下5个部分：分析背景或目的、分析维度说明、数据分析验证、结论汇总、业务建议。

如果是职场上的小的专题专题分析，则需要具备关键的两个部分：数据分析验证+结论建议

一、分析背景与目的

1.1、分析背景

Airbnb成立于2008年，短短9年时间成为了短租民宿行业的巨头，并且仍在不断的冲击着传统酒店行业，抢占着这一市场。
目前Airbnb作为一款社区平台类产品，其业务遍布了191个国家，我们的分析主要以探索为主，旨在发现airbnb在做好了产品体验、房源美感、民宿共享服务之后，其务是否存在可以改进的地方。

airbnb目前的市场背景：

短租民宿行业的绝对巨头；业务布局区域极广，和Facebook有的一拼，当时airbnb的业务遍布全球191个国家
产品和业务发展成熟，无论是客户端还是后端供应链系统，其研发的成熟型在当时可谓屈指可数

1.2、提出分析问题

探索airbnb产品的业务存在哪些可以改进的地方？

在实际工作中很少有探索业务改进的项目机会，基本是先发现问题，然后查找原因；如果完成既定工作，则会有一些时间用来探索业务中的数据特征，从而探索发现业务机会

获客：一款产品的发展中必然伴随着不断的迭代。例如在常见的AARRR模型中，第一个A（即获客）至关重要，因此提高新用户获取的数量和质量是不断监测并优化的一个工作，哪些渠道的效果更好，企业就要及时调整和增加此渠道的投入，哪些渠道的效果很差，就要及时查找原因并给出解决。

当时报告中忽略了【获客成本】这一关键指标，获客成本也是非常核心的一个指标，实际工作中，基本上成本和质量成正比（例如在线教育行业，较高成本获取的客户，一般转化率明显高于低成本或客）

转化：转化即商业收益，因此转化漏斗分析也是数据分析中的关键环节，因此需要了解整个产品的业务转化情况，针对哪些流失率较高的漏斗环节进行改进？

针对分析的目的，提出以下三个方向目的：

airbnb的目标用户群体具有什么样的特征，以便于在付费投放获客时，精准的圈定出产品用户画像的人群，使获客的ROI变得更好。
airbnb获客阶段，哪些推广渠道是优质的，优质的条件 = 量大+转化率高。
在转化漏斗中哪里哪一个环节的流失率高，或者说哪一环节存在可提升的潜在机会。

二、分析维度

根据以上设定的三个问题，提出来三个分析维度：

将着重从airbnb的用户画像、推广渠道分析、转化漏斗分析三个方面进行分析，去探索和分析airbnb在产品和业务上有哪些可以改进的地方，并给出实际性的建议，以提升和改进airbnb的渠道推广策略和产品设计。

用户画像分析：用户性别的分布特征、用户年龄的分布特征、用户地区的分布分布、中国地区去国外预定的地区占比。

推广渠道分析：每月新增用户、不同用户端的注册量、不同推广渠道的注册量、不同营销内容的注册量、不同推广渠道的转化率、不同营销内容的转化率

转化漏斗分析：注册用户占比、活跃用户（非僵尸用户）占比、下单用户占比、实际支付用户占比、复购用户占比

三、数据表理解与预处理

3.1、数据集描述

Airbnb顾客预订数据下载（学习tips：下载后导入本地数据库操作，作为数据分析，你需要对数据库有一些最基本的了解）：

数据集介绍：此数据集是kaggle上的一个竞赛项目，官方目的主要是用来制作目的地信息的预测模型。此数据聚集包含两张数据表，其中train_user表中为用户数据，sessions表中为行为数据。

数据集量：

train_user：21w * 15
sessions：104w * 6

3.1、列名称理解

原数据表的字段是英文的（学习tips：几乎所有的企业数据库中的数据表也是这样的，由英文字段组成），所以在分析前，你需要理解每个列名称的含义。

数据表名称：train_users

字段名称
id	用户ID
date_account_created	帐户创建日期
date_first_booking	首次预订日期
gender	性别
age	年龄
signup_method	注册方式
signup_flow	用户注册页面
language	语言偏好
affiliate_channel	营销方式
affiliate_provider	营销来源的供应商
first_affiliate_tracked	注册前第一个营销广告
signup_app	注册来源
first_device_type	注册时设备类型
first_browser	注册浏览器
country_destination	目的地国家

数据表名称：sessions

字段名称	字段含义
user_id	主键；与users表中的“id”列连接
action	埋点名称
action_type	操作事件类型
action_detail	操作事件描述
device_type	设备类型

学习tips：以上两种表通过id = user_id进行关联，在实际的应用，关系型数据就决定了你在数据分析前，你要对多张表进行关联重建，不过目前多数公司有专门的数仓同学来管理这些明细数据，分析师则更专注于数据的应用

3.2、数据预处理

dataframe的来源是对日志的etl的处理，这并不意味着表格数据可以直接用来统计分析，数据分析之前需要对数据进行简单的加工处理，数据预处理是一个必不可少的步骤。

重复值处理

train_users：作为用户信息表，未避免重复用户影响统计，需要检验ID是否有重复值。
sessions ：为用户会话记录表，存在一个用户多条记录，无需处理。

按照业务理解，用户表中的id应当是唯一非重复的，所以只需要排查train_users中是否存在重复值。执行SQL后得出：count_id = 0。说明train_users数据表中不存在重复值。

缺失值处理

数据缺失数量较多，以下为存在缺失值的列及处理办法：

字段	缺失值说明
date_first_booking	首次预定时间：存在缺失值数量124544个
gender	性别：存在缺失值数量95688个
age	年龄：存在缺失值数量87991个
first_affiliate_tracked	注册渠道：存在缺失值数量6065个
first_browser	注册浏览器：存在缺失值数量27266个
action_type	操作类型：存在缺失值数量1126204
action_detail	操作详情：存在缺失值数量1126204个。

缺失原因推测及处理：date_first_booking(首次预定时间)数据如果缺失，在业务上可以理解为此用户为“未预定用户”，也就是没有下单的用户。性别、年龄由于客户端中这部分信息选填，空值为用户未填写。其他四个数据是由于前端统计时数据没有统计到。

处理：多数空值不需要处理；如果使用到字段如果出现空缺，可以简单的在where条件排除掉空数据，再进行分析。

异常值处理

date_account_created异常值处理：date_account_created中最小值为‘0000-00-00 00:00:00’；因为此异常数据只有1条，所以删除此条数据。
age（年龄）异常值处理：age（年龄）的异常数据非常多；0～150之间的数值都有，并且包含了2014、2015等数值。推测这些"脏数据"产生的原因是用户在客户端随意填写造成，分析时需要剔除这些异常数据。

附录3-1：数据清洗中使用的SQL

#检查数据中是否包含重复值
SELECT id, COUNT(id) AS count_id
FROM data.train_users
GROUP BY id
HAVING count_id > 1;

#通过以下SQL对每一列进行查询，通过替换where之后的条件，查询每一列包含的空值数量。
SELECT date_first_booking, COUNT(date_first_booking)
FROM data.train_users
WHERE date_first_booking = '0000-00-00 00:00:00';

#通过查看数据的极值（极大值、极小值）是否符合实际情况，来判断数据中是否存在异常值。
SELECT min(age),max(age) FROM data.train_users;

#异常值处理：对于年龄不在7～75区间的数据删除（设置为0-空值）
SET sql_safe_updates = 1;
UPDATE data.train_users
SET age = 0
WHERE id NOT IN (
SELECT id
FROM (
SELECT id
FROM data.train_users
WHERE age <= 75
AND age >= 7
) a
);

四、用户画像分析

4.1、用户的性别分布特征

女性用户数量=63041、男性用户数量=54440，其中女性用户多于男性用户。

4.2、用户的年龄分布；

不同年龄层用户分布

airbnb的用户主要为“青年群体”（26岁～30岁），其次为36～45岁，然后为21～25岁。

4.3、用户不同地区（根据语言）的分布

不同地区（语言）用户量分布

数据分析报告_以Airbnb为案例

非英语国家_不同地区（语言）用户量分布

SQL执行的结果可以看出：使用最多的语言排名前5的分别是英文、中文、法文、西班牙文、朝鲜文。
airbnb的产品真的很国际化，用户遍布多个地区。
有超过90%的用户是英语国家（欧美）；airbnb是2013年开始进入中国市场的（此数据集止于2014年），所以此时中文用户数量虽然排名第二，但是占比却非常小。

4.4、中国用户去国外预定的地区占比

中国用户目的地国家分布

从SQL执行的结果可以看出（国家=DNF已剔除），中国人去国外预定民宿最主要集中在美国、然后是法国，除了这两个国家外，样本中其他国家的数量非常少。
中国用户去国外预定，占比最多的是美国。其余国家占比很小，总和不到20%。

4.5、本章使用的SQL语句

#用户中女性用户的数量。
SELECT COUNT(id) AS '男性用户数量'
FROM data.train_users
WHERE gender = 'MALE';

#用户中男性用户的数量。
SELECT COUNT(id) AS '女性用户数量'
FROM data.train_users
WHERE gender = 'FEMALE';

#用户不同年龄的数量。
SELECT age, COUNT(id)
FROM data.train_users
GROUP BY age
HAVING age <> 0
ORDER BY age;

#用户不同语言的分布（通过手机系统语言数据）；
SELECT language, COUNT(language) AS lg_num
FROM data.train_users
GROUP BY language
ORDER BY lg_num;

#中国用户去国外预定的地区
SELECT language, country_destination, COUNT(country_destination) AS cd_num
FROM data.train_users
GROUP BY language, country_destination
HAVING language = 'zh'
ORDER BY cd_num DESC;

五、流量渠道分析

5.1、每月新增用户

不同月份注册用户量

airbnb用户增长呈几何倍数，并且从2012年2月之后开始快速增长。
此产品新用户的增加存在季节性规律：每年的7～10月，产品都会迎来用户增长的高峰，推测为夏季（北半球）是旅行的旺季，而短租本身就是旅行消费的一种。

5.2、不同用户端的注册量

此数据为2014年之前的数据，当时智能手机还没有像现在一样普及，用户的注册设备PC大于移动设备。苹果设备数量大于其他设备数量。

5.3、推广渠道分析

不同渠道供应商的注册用户量：

不同渠道注册用户转化率

除direct直接下载之外，google是其主要的下载来源，注册用户量多，但是转化率低。需要针对这一渠道做进一步分拆解：从以下拆解图来看，无论是渠道获客的方式，还是渠道投放的内容（用户注册时首次访问页面）来看，谷歌的获客转化率普遍都比较低。

谷歌不同渠道方式转化率

数据分析报告_以Airbnb为案例

谷歌不同渠道内容转化率

email-marketing、naver虽然注册用户量少，但是转化率高，如果尽可能的扩大规模这两个渠道的获客规模。

特别提示：实际在选择渠道时，不同渠道的ROI（收入/获客成本）也是需要考虑的核心指标，ROI越高则说明此渠道价值越大。

5.5、分析过程使用的SQL

#查询每个月（date_account_created）新增注册用户的数量
SELECT date_format(date_account_created, '%Y-%M') AS year_moth, COUNT(id)
FROM data.train_users
GROUP BY date_format(date_account_created, '%Y-%M')
ORDER BY year_moth;

#查询不同设备来源（first_device_type）注册的数量
SELECT first_device_type, COUNT(id) AS fdt_num
FROM data.train_users
GROUP BY first_device_type
ORDER BY fdt_num DESC;

#不同推广方式+渠道的注册数量
SELECT affiliate_channel, affiliate_provider, COUNT(id) AS ac_num
FROM data.train_users
GROUP BY affiliate_channel, affiliate_provider
ORDER BY ac_num DESC;

#不同推广方式+渠道的转化率
SELECT affiliate_channel, affiliate_provider,
SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) / COUNT(id) AS ac_ratio
FROM data.train_users
GROUP BY affiliate_channel, affiliate_provider
ORDER BY ac_ratio DESC;

#不同营销广告内容的注册数量
SELECT first_affiliate_tracked, COUNT(id) AS fat_num
FROM data.train_users
GROUP BY first_affiliate_tracked
ORDER BY fat_num DESC;

#不同营销广告内容的转化率
SELECT first_affiliate_tracked,
SUM(CASE WHEN date_first_booking <> '0000-00-00 00:00:00' THEN 1 ELSE 0 END) / COUNT(id) AS fat_ratio
FROM data.train_users
GROUP BY first_affiliate_tracked
ORDER BY fat_ratio DESC;

六、转化漏斗分析

转化漏斗

从可视化图表中可以看出：

搜索房源-->申请预定是流失率最高的一个环节
申请预定-->支付有43%的流失率，远高于其他电商类产品

6.4、漏斗分析过程SQL

#用户总数量：对sessions表中的user_id进行group by，再统计数量，得出sessions表中所有的用户数量。
SELECT COUNT(*) AS ‘用户总数量’
FROM (
SELECT user_id
FROM data.sessions
GROUP BY user_id
) new_sessions;

#活跃用户的定义：按照用户的操作总次数，如果用户操作产品大于等于10次，就可以说明用户为偏活跃的用户，另一方面说明此用户不是僵尸用户。
SELECT COUNT(*) AS ‘活跃用户总数量’
FROM (
SELECT user_id
FROM data.sessions
GROUP BY user_id
HAVING COUNT(user_id) >= 10
) active;

#注册用户：通过sessions表中的用户与注册用户表进行内关联，统计出sessions表中已注册用户数量
SELECT COUNT(*) AS ‘注册用户总数量’
FROM (
SELECT user_id
FROM data.sessions
GROUP BY user_id
) new_sessions
INNER JOIN data.train_users tu ON new_sessions.user_id = tu.id;

#下单用户：用户行为中“reservations”为预定（下单）操作，通过统计进行了“reservations”的用户（group by去重），得出下单用户的数量
SELECT COUNT(*) AS ‘下单用户总数量’
FROM (
SELECT user_id
FROM data.sessions
WHERE action_detail = 'reservations'
GROUP BY user_id
) booking;

#实际支付用户：用户行为中“payment_instruments”为支付操作，通过统计进行了“payment_instruments”的用户（group by去重），得出实际支付用户的数量
SELECT COUNT(*) AS ‘实际支付用户总数量’
FROM (
SELECT user_id
FROM data.sessions
WHERE action_detail = 'payment_instruments'
GROUP BY user_id
) payed;

#复购用户：通过统计进行了“payment_instruments”操作次数大于1次的用户（group by去重），得出实际复购用户的数量
SELECT COUNT(*) AS ‘复购支付用户总数量’
FROM (
SELECT user_id
FROM data.sessions
WHERE action_detail = 'reservations'
GROUP BY user_id
HAVING COUNT(user_id) >= 2
) re_booking;

七、分析结论及建议

7.1、用户画像总结

结论：

用户性别中，女性偏多，差距并没有非常大
用户年龄以中青年为主
截止2014年，用户分布地区最多的为欧美地区，其次是中国
中国用户预订的最多的其他国家是美国，占比高达90%以上。

建议：

根据年龄分布特征，建议SEO或者付费广告投放时，投放广告的流量结构要尽可能的接近airbnb的用户人群，例如青年女性群体。

7.2、流量渠道总结

结论：

2012开始快速增长，并且速度很快。
7～10月是旅行旺季、此时也是airbnb用户增长的旺季。
谷歌渠道用户量最大，但转化率低；email-marketing、naver虽然注册用户量少，但是转化率高；需要综合ROI判断选择哪个渠道扩大规模。

建议：

综合考虑ROI表现最好的渠道，同时要结合市场战略和多哥指标综合考虑；email-marketing、naver虽然注册用户量少，但是转化率高，可以尽可能的尝试扩大规模。

7.3、转化漏斗总结

和其他电商产品类似，用户主要在搜索房源-->申请预定中流失，产品和运营需要更多的在此环节投入更大的精力，另外产品申请预定-->支付的流失率远高于其他电商类产品。

声明：文章采用的是kaggle上一份早期的参赛数据集，以上仅作为学习使用，务必不要当作业务指导或者研报使用，我在评论区也看到有小伙伴说了，以上数据和airbnb官方对外的数据差异很大，所以如果转载，这一点一定要声明清楚。

路过

雷人

握手

鲜花

鸡蛋

收藏邀请

已有 20 人参与

会员评论

wanhuLee 2022-11-23 10:34 引用

哈哈哈，学习了，挺厉害
wanhuLee 2022-11-23 10:34 引用

分析，操作细节描述这个字段呀
奢侈品回收 2022-11-23 10:33 引用

请教下如何分析呀
wanhuLee 2022-11-23 10:33 引用

在转化漏斗分析中，其实也是可以从数据中分析得到注册到下单流失率高的原因，以及下单到支付流失客户的原因吧
奢侈品回收 2022-11-23 10:32 引用

分为工作中和练习：
1、工作中：首先需要明确分析目的，然后根据分析目的采集数据，常见的有（企业内部系统数据库、前端产品上埋点采集）；用户调研和商业分析的话，如果资金充裕可以再第三方平台购买，另外可以在开源平台搜寻、或者网站上合法爬取等。
2、日常练习：尽可能字段和数据表的维度要多，因为数据本事就是企业自身的珍贵财产，真实的数据并不多见。推荐：kaggle网；或者国内的“科赛网”
名表鉴定大师 2022-11-23 10:32 引用

请教答主，在数据收集上有什么心得吗？我常常想做产品分析，苦于不懂高效收集数据
奢侈品回收 2022-11-23 10:31 引用

可以试试国内的科赛网，上面可能会有kaggle的数据集
wanhuLee 2022-11-23 10:30 引用

非常感谢分享这个分析报告，受益匪浅！[干杯]
名表鉴定大师 2022-11-23 10:29 引用

怎么感觉ppt做的
wanhuLee 2022-11-23 10:29 引用

很有用值得学习
名表鉴定大师 2022-11-23 10:28 引用

你好，能把数据直接给我吗，kanggle注册不了，下载不了数据集呢[摊手]
wanhuLee 2022-11-23 10:27 引用

和airbnb官方公布的数据差异挺大的，可能是早期数据的关系
奢侈品回收 2022-11-23 10:27 引用

我严重怀疑爱彼迎的大数据杀熟
奢侈品回收 2022-11-23 10:27 引用

哈哈，加油
wanhuLee 2022-11-23 10:26 引用

是的，我是sql查询后导出查询数据，在Tableau作图。你也可以直接Tableau连接mysql作图。
名表鉴定大师 2022-11-23 10:25 引用

是写sql查询数据，然后导出数据链接到Tableau作图吗[吃瓜]
wanhuLee 2022-11-23 10:25 引用

特别棒，我正在学习数据分析中sql，最后也想做出一份数据分析报告！向你学习！
奢侈品回收 2022-11-23 10:24 引用

Tableau可视化做的[酷]
wanhuLee 2022-11-23 10:23 引用

请问图是用什么画的非常好看想学习一下
wanhuLee 2022-11-23 10:22 引用

非常详细