数据分析基础免费入门课程,第二模块
大数据集我将使用一个新的数据集,演示一下如何处理更大的数据集。这是一个被百度收录的排名靠前的知乎问题关键词,多平台搜索pandas中文社区可获取完整数据。
可以看到这个csv文件有六十多兆,知乎有将近四千多万的流量是从百度直接点击进去的,所以拿到了这个数据,也可以说是拿到了流量的入口。
从此再也不愁账号没粉丝,商品卖不出去,品牌没曝光了。手握流量,兴风作浪!
今天演示完整操作流程:
第一步需要import pandas库,然后用read_csv打开文件(注意你数据存放位置)如果打不开的可以参阅我们基础准备这篇文章。
打开数据错误演示!报错了!,怎么办?拉到最下面,看报了什么错。
报错原因
原来是编码错误。这个时候建议你现在离开手机,搜索read_csv,复习一下read_csv的encoding参数。
改变编码参数把encoding改成‘gbk’之后就好了。新的问题却出现了,行列很混乱。
2.1 里面到底有什么?(摘要)
各位是否遇到过这样的情况,想打印关键词四万多条数据时,只显示前面几行?
遇到这种情况不要慌,在pandas0.12至0.13之间,数据的默认行为发生了变化,在0.13之前,它会显示数据框的摘要,包括所有的列,以及列中有多少非空值。
我们用[ :数字]来截片你想要了解的数据即可。下面是截取了20个数据。
2.2 对行列进行重排,让行列标签井然有序
可以看到行列很混乱,这时候不整理行列标签,是根本没办法做后续操作的:
我们在数据集后面直接用.reset_index()方法,充值索引。
然后用.drop()方法抛弃那个列“columns = 'www.zhihu.com_百度移动关键词列表_1593513799’ ”,再抛弃它原有的行。
花一点时间来看看这个数据集,重置行和列索引可以让你接下来的操作顺风顺水。
我们发现还是有点乱,因为列名是level_0这一些我们不常用的数字,不便于我们一目了然的看数据。
于是我们需要用.rename()方法对这些列进行重命名。具体可以拉到最后看代码写法。
直接按照顺序重新将列的顺序重排一下,这样关键词、后面的标题,每天有多少搜索就一目了然了。
顺序重排2.3 筛选关键词
如果我们想知道“燃气热水器”这个关键词,有多少流量,我们就需要对“关键词”这一列里面所有包含“燃气热水器”的全部显示出来。
先把“关键词”这列用.str方法变成字符串,然后用findall把包含“燃气热水器”的行全部找出来,用value_counts()统计出来,然后用count统计有多少个,可以看到有51行关于“燃气热水器”的。把“关键词”这列用.str方法变成字符串后,再用contains方法把所有包含“燃气热水器”的51行都选择出来。
筛选关键词2.4 针对关键词,百度搜索定位到问题,然后进行流量获取
从767行开始,在手机上搜索,看看问题在第几页,再点开看看你回答问题的话,有多少竞争者,你有没有把握能使你回答到前面去。
可以看到搜索林内燃气热水器在百度第三页。
再点开这个问题和回答,看看第一展现的是谁的回答,阅览和回答数是多少?
四十万的浏览,而回答只有45个,赶紧写下你的回答吧!
总之,你的数据分析技能能让你精准找到流量的聚集地,然后把这些涓涓细流吸引到你想让它去的地方。
举报/反馈