Skip to content

Releases: yeximm/Access_wechat_article

Access_wechat_article-v1.0.3

01 Aug 16:18

Choose a tag to compare

问题详情

  1. 输入fiddler抓取的链接后无法正常解析。
  2. 抓取到无法访问的文章信息,文章链接为空值。
    • 部分公众号文章由于一些原因(如被举报,作者删除等)下架,在历史列表中仍会存在文章记录,但是没有链接!
  3. 文章存储时遇到空值时直接报错退出,无法再展开其他操作。

修复改进

  • 优化路由解析方式,一定程度上消除部分路由抓取后无法正常读取的问题。
  • 对抓取到空值的文章(只有时间,没有链接)仍然保存到文件,删除或保留由用户自行决定,本次优化数据保存流程。
    • 文章正文数据会伴随标题、时间等信息重新添加到文章内容(article_contents).xlsx的末尾,
    • :使用该数据前请做好数据清洗工作。
  • 优化保存流程,检测空链接并进行跳过,三、四功能依赖文章列表(article_list)_直连链接.xlsx,注意不要删除
    • 列表的原始数据请查看文章列表(article_list)_原始链接.xlsx,其中包括空元素

我该如何使用?

  1. 项目所需环境包文件在 requirements.txt
  2. Access_wechat_article-v1.*.* 为项目代码,直接下载即可
  3. Source code 为项目存储库的快照,包含 README 等内容

Access_wechat_article-v1.0.2

08 Jul 09:29

Choose a tag to compare

代码优化

  1. 核心代码集成在 Access_articles.py
  2. 通过调用 main.py 实现业务功能

注:

  1. 项目所需环境包文件在 requirements.txt
  2. Access_wechat_article-v1.*.*项目代码,直接下载即可
  3. Source code项目存储库的快照,包含 README 等内容