手把手教你用Python爬取百度搜索结果并保存

手把手教你用Python爬取百度搜索结果并保存

2024-11-10 23:16

大家好，我是崔艳飞。众所周知，百度上直接搜索关键字会出来一大堆东西，时常还会伴随有广告出现，不小心就点进去了，还得花时间退出来，有些费劲。

最近群里有个小伙伴提出一个需求，需要获取百度上关于粮食的相关讲话文章标题和链接。正好小编最近在学习爬虫，就想着拿这个需求来练练手。我们都知道，对Python来说，有大量可用的库，实现起来并不难，动手吧。

爬取百度上关键字为“粮食”的搜索结果，并保存，提交给客户，用于进一步分析我国粮食政策。

软件：PyCharm

需要的库：json， requests，etree

利用response库，直接Get网址获得搜索结果。网址如下：

利用etree对原代码进行规范梳理后，通过Xpath定位到文章标题和href，获取标题和文章链接。

新建txt文件，对搜索结果循环写入，保存即可。

1、程序运行结果，如下图所示：

2、保存为txt的文件最终结果如下图所示：

本文介绍了如何利用Python对百度搜索结果进行爬取、保存，是一个小爬虫，这也是Python好玩的地方，有大量免费的库可用，能帮你实现各种需求。工作量大，学会用Python！

最后需要本文项目代码的小伙伴，请在公众号后台回复“粮食”关键字进行获取，如果在运行过程中有遇到任何问题，请随时留言或者加小编好友，小编看到会帮助大家解决bug噢！