数据分析基础免费入门课程，第二模块

时间：2022-12-02

　　大数据集我将使用一个新的数据集，演示一下如何处理更大的数据集。这是一个被百度收录的排名靠前的知乎问题关键词，多平台搜索pandas中文社区可获取完整数据。

　　可以看到这个csv文件有六十多兆，知乎有将近四千多万的流量是从百度直接点击进去的，所以拿到了这个数据，也可以说是拿到了流量的入口。

　　从此再也不愁账号没粉丝，商品卖不出去，品牌没曝光了。手握流量，兴风作浪！

　　今天演示完整操作流程：

　　第一步需要import pandas库，然后用read_csv打开文件（注意你数据存放位置）如果打不开的可以参阅我们基础准备这篇文章。

　　打开数据错误演示！报错了！，怎么办？拉到最下面，看报了什么错。

　　报错原因

　　原来是编码错误。这个时候建议你现在离开手机，搜索read_csv，复习一下read_csv的encoding参数。

　　改变编码参数把encoding改成‘gbk’之后就好了。新的问题却出现了，行列很混乱。

　　2.1 里面到底有什么？（摘要）

　　各位是否遇到过这样的情况，想打印关键词四万多条数据时，只显示前面几行？

　　遇到这种情况不要慌，在pandas0.12至0.13之间，数据的默认行为发生了变化，在0.13之前，它会显示数据框的摘要，包括所有的列，以及列中有多少非空值。

　　我们用[ :数字]来截片你想要了解的数据即可。下面是截取了20个数据。

　　2.2 对行列进行重排，让行列标签井然有序

　　可以看到行列很混乱，这时候不整理行列标签，是根本没办法做后续操作的：

　　我们在数据集后面直接用.reset_index()方法，充值索引。

　　然后用.drop()方法抛弃那个列“columns = 'www.zhihu.com_百度移动关键词列表_1593513799’ ”，再抛弃它原有的行。

　　花一点时间来看看这个数据集，重置行和列索引可以让你接下来的操作顺风顺水。

　　我们发现还是有点乱，因为列名是level_0这一些我们不常用的数字，不便于我们一目了然的看数据。

　　于是我们需要用.rename（）方法对这些列进行重命名。具体可以拉到最后看代码写法。

　　直接按照顺序重新将列的顺序重排一下，这样关键词、后面的标题，每天有多少搜索就一目了然了。

　　顺序重排2.3 筛选关键词

　　如果我们想知道“燃气热水器”这个关键词，有多少流量，我们就需要对“关键词”这一列里面所有包含“燃气热水器”的全部显示出来。

　　先把“关键词”这列用.str方法变成字符串，然后用findall把包含“燃气热水器”的行全部找出来，用value_counts（）统计出来，然后用count统计有多少个，可以看到有51行关于“燃气热水器”的。把“关键词”这列用.str方法变成字符串后，再用contains方法把所有包含“燃气热水器”的51行都选择出来。

　　筛选关键词2.4 针对关键词，百度搜索定位到问题，然后进行流量获取

　　从767行开始，在手机上搜索，看看问题在第几页，再点开看看你回答问题的话，有多少竞争者，你有没有把握能使你回答到前面去。

　　可以看到搜索林内燃气热水器在百度第三页。

　　再点开这个问题和回答，看看第一展现的是谁的回答，阅览和回答数是多少？

　　四十万的浏览，而回答只有45个，赶紧写下你的回答吧！

　　总之，你的数据分析技能能让你精准找到流量的聚集地，然后把这些涓涓细流吸引到你想让它去的地方。

　　举报/反馈