qwoar

http://nhjcxspj.xhstdz.com/comqwoar/

相关列表

文章列表

暂无文章

推荐文章

首页 > 文章中心

微信公众号文章的爬虫系统

发布时间：2024-12-21 浏览次数：4 返回列表

差不多俩个星期了吧，一直在调试关于微信公众号的文章爬虫系统，终于一切都好了，但是在这期间碰到了很多问题，今天就来回顾一下，总结一下，希望有用到的小伙伴可以学习学习。

微信公众号文章的爬虫系统

每过80秒执行一个公众号，把每次的执行代码写到hello中，泡的有点远了，收一收哈，说说cron这个包，自动化执行，npm官网上只给了一个例子，但是我这个指桑拿可能是有点压制的厉害，不能够玩却理解他的用法，然后我说理解不了怎么办啊，上网搜呗，百度，cron包的具体用法，一看，嚯，还挺多，于是就看啊看啊，但是仔细以分析就不是那么回事儿了，都是废话，没什么用，网上一般的用法中都带有一个问号，但是我加上问号的时候，就报错了，所以说都是扯淡，最后在同学组的一个前端技术讨论群中说了一声，还真有热心的群友，给我找了一个链接，我进去一看，试了一下，还行，所以呢，非常感谢这个帮助我解惑的同学，再次我把qq群号，和链接附上，方便正在看这篇文章的你学习，QQ群号：435012561，链接：http://www.tuicool.com/articles/yy2Ivmj，这个链接里面说的还行，至少能用，这里我还行到一个问题，就是timezone，我们之前用过一次，用的是洛杉矶时间，但是这次明显不行啊，要用咱们中国的时间啊，但是我试了几次北京的不行，重庆的可以，所以我就用了重庆的。

2、这里要说的是，从地址栏获取参数的问题，我上一个做的没问题，但是这个不知道怎么就不行了，上一个从地址栏得到的是数字，但是这个得到的是字符串，再加上mongodb中的对字段的要求还是挺严格的，所以一个分页功能也困扰了我几个小时吧，最后是怎么解决的呢，是通过我加的一个mongodb的讨论群，在里面问了一句这是怎么了，发了个截图，里面就有一个热心的网友说你这明显是传入的数据格式不对啊，一语惊醒梦中人，我说是啊，然后就把得到的参数，我用Number（）函数处理了一下，让string类型的数字，变成了number类型的数字，就好了，所以说大家在用mongodb的时候一定要注意存储数据的格式，

3、mongodb查询数据语句组织方式：

其实说白了就是limit和skip俩个函数的使用，但是具体的格式可的看好了，还有我这个是接受的参数，不过mongo的参数接受也好弄直接写就好了，不用像sql那样搞什么${""}这种类型的，后面的sort函数说明了排序的方式，这里是设置的以ctime字段为标准，-1表示倒序，1表示正序，

4、在本次代码编写中，我首次使用了try catch 这个补错的方式，事实证明，还行，可以把偶尔的错误正常的打印出来，但是不影响代码的整体执行，或者是说下一次执行，整体感觉非常好，

具体的使用方法，在try中放入你要执行的代码，在最后加上一行，throw Error();

5、这次编码过程中主要用到了anync包，其中的ansyc.each循环，ansyc.waterfall执行完上面的才可以执行下面的，而且撒谎给你下之间还可以从上至下传递参数，这个很重要，因为在本次编程中，每次获取的内容不同，每次代码执行的条件不同，即需要的参数也不同，即有可能下一次代码的执行就需要用到上一次代码执行得到的结果，所以说这个anync包，真的是值得研究，他的每个方法都不同，有时候可以得到意想不到的效果。

6、在mysql中如果想要达到这样一个效果，就是说，如果数据库中已经存在了，那就不予理会，或者说不重复存储，如果数据库中不存在，那么就存储进来，很简单，直接把插入数据的insert 换成 replace 。但是在mongodb中，应该是没有，或者说是我还没有发现，我是这么解决的，定义了一个开关，令这个开关为真，每次存储之前，先把所有的数据循环一遍，看看有没有这条数据，如果有，让开关变为假，如果没有，继续执行，即判断此时开关的真假，如果是真的，那就执行插入操作，如果是假的，就不予理会，这就达到了类似的效果，否则每次都会存储大量的重复数据，

7、本次采集的核心，就是我文件中的common.js了，首先因为要采集，所以需要用到request包，采集到之后，要处理html格式的数据，使之可以使用类jquery的操作，那么久用到了cheerio这个包，然后在循环采集的时候，会用到anync.each这个方法，所以会用到async这个包，

7-1、

通过搜狗微信采集，就要分析搜狗微信的路径，每个公众号的页面的路径是这样的

http://weixin.sogou.com/weixin?type=1&s_from=input&query=%E8%BF%99%E6%89%8D%E6%98%AF%E6%97%A5%E6%9C%AC&ie=utf8&_sug_=n&_sug_type_=

当得到了这个链接，就会发现他有他的加密方式，其实很简单的，就是在链接里面的加了三个amp；把链接里面的这三个amp;替换为空，就好了，这也就是第一步，得到每一个公众号的页面链接，

7-2

得到链接之后，就要进行访问了，即请求，请求每个地址，得到每个地址的内容，但是每个页面显示的内容都不在页面中，即html结构中，在js中藏着，所以要通过正则匹配，得到每篇文章的对象，然后就循环每个公众号的这个对象，得到这个对象中的每篇文章的一些信息，包括title，thumb，abstract，URL，time，五个字段，但是我使用的代码烂透了，尽然当时使用了

对象.属性.foreach（function（item,index）{

}）

这种烂透了的方式，弄的最后好的在写一次循环才可以完全的得到每一个对象，否则只可以得到第一个，在这里应该用async.each,或者async.foreach这俩中方式每种都可以啊，而且都是非常好用的方式。这样的话买就得到了每篇文章的以上基本消息，

7-3、

第三个阶段，就是进入到每篇文章的详情页，获得每篇文章的内容，点赞数，作者，公众号，阅读量等数据，在这里碰到的主要问题是，人家的content直接在在js中，所有的img标签都有问题，他是以<image-src = "...>这种形式存在雨content中，但是这样的话，这样的图片在我们的网页中不能被显示，因为标签存在问题啊，html文档不认识这样的img标签啊，所以这里要进行一些处理，把所有的<image-src = "...>用replace替换为<img src = "...>这样的话就OK了，但是我在编程的时候进行到这儿碰到了一个傻逼问题，我将这样的得到的content，放到html中可以，但是存到mongodb中，每个引号的前面莫名其妙的多了一条杠，每个img标签多了三条杠，这样的话就又不可以显示了，我就一直纠结啊，怎么能存储的时候不要这三条杠呢，经过了一番艰苦卓绝的斗争，最后还是没能解决了，最后加了一个mongodb 的讨论群，我进去问了一下，有一个大神立马说，你知道什么是转义字符吗？我当时很懵逼啊，我自认为我知道啊，人家说，你的群备注还是前端，你做前端的不明白这是转义字符吗？我就更加懵逼了，然后过了一会儿我才明白过来，这个是存储的时候被转义了，但是当从数据库读的时候，就自动有没有了，所以说只有存在数据库中的数据有三条杠，原始数据和读取出来的数据都没有，真是完美啊！

8、最后想说一点，这次是我第一次接触有验证码的网页请求，这里用到了阿里一个服务，识别验证码，

END!

https://www.cnblogs.com/boboweiqi/p/6782300.html

管理入口| 返回顶部

声明：物流园资讯网特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。