Releases: yeximm/Access_wechat_article
Releases · yeximm/Access_wechat_article
Access_wechat_article-v1.0.3
问题详情
- 输入
fiddler抓取的链接后无法正常解析。 - 抓取到无法访问的文章信息,文章链接为空值。
- 部分公众号文章由于一些原因(如被举报,作者删除等)下架,在历史列表中仍会存在文章记录,但是没有链接!
- 文章存储时遇到空值时直接报错退出,无法再展开其他操作。
修复改进
- 优化路由解析方式,一定程度上消除部分路由抓取后无法正常读取的问题。
- 对抓取到空值的文章(只有时间,没有链接)仍然保存到文件,删除或保留由用户自行决定,本次优化数据保存流程。
- 文章正文数据会伴随标题、时间等信息重新添加到
文章内容(article_contents).xlsx的末尾, - 注:使用该数据前请做好数据清洗工作。
- 文章正文数据会伴随标题、时间等信息重新添加到
- 优化保存流程,检测空链接并进行跳过,三、四功能依赖
文章列表(article_list)_直连链接.xlsx,注意不要删除- 列表的原始数据请查看
文章列表(article_list)_原始链接.xlsx,其中包括空元素。
- 列表的原始数据请查看
我该如何使用?
- 项目所需环境包文件在
requirements.txt Access_wechat_article-v1.*.*为项目代码,直接下载即可Source code为项目存储库的快照,包含README等内容
Access_wechat_article-v1.0.2
代码优化
- 核心代码集成在
Access_articles.py中 - 通过调用
main.py实现业务功能
注:
- 项目所需环境包文件在
requirements.txt Access_wechat_article-v1.*.*为项目代码,直接下载即可Source code为项目存储库的快照,包含README等内容