将微信公众号内容制作成电子书

微信公众号是个毒瘤,因为它封闭的生态系统阻止了信息的流通。
但是的确有一些不错的公众号。最近一个朋友就推荐了我一个写晚清历史的公众号,从宗教战争的角度看晚清,观点很有趣。
但如果在手机上看完这几十篇文章我的眼睛估计会瞎掉。
所以我就花了点时间写了这样一个脚本,可以把微信公众号在传送门上的镜像抓取下来生成电子书。
之所以选择爬传送门,是因为听说腾讯反爬虫很严厉。

源代码在此: https://github.com/fqx/chuansongme2ebook

这个脚本重用了很多我之前另一个项目的代码,因此明显可以看得出来变量命名规则的改变。
我也尝试着用面向对象的方式来写这个脚本,虽然不是很成功。
比较值得高兴的是,这次完成了对图片的处理,方法比之前预期的要简单一些。
对微信公众号这种图片比较多的平台特别有意义。

解析部分(simplify_html 函数)针对我要抓的那个公众号做了优化,各位可根据自己的实际需求修改。
爬完后用kindlegen可以生成mobi格式的电子书。