天天基金爬虫

简介

    购买基金前，请务必在官方网站上确认爬取的数据无误！
    推荐书籍《解读基金：我的投资观与实践》
    推荐网站 晨星中国：www.morningstar.cn
    2023-04-29对整个代码进行了重写，如有问题，请切换回deprecated分支

因为数据清洗和 http下载分别是计算密集和IO密集的，为了避免GIL和频繁的线程切换影响效率。 AsyncHttpRequestDownloader起了一个新进程，在子进程内通过线程池进行http的爬取，通过队列来交换爬取任务和结果，通过事件来感知爬取结束
目前的爬取瓶颈是网站的反爬策略，可以通过utils.downloader.rate_control.rate_control_analyse.draw_analyse来分析当前网络环境下所能支持的并发任务数
当前的速率控制策略是 1 通过环记录和计算最近几次的任务爬取失败率（避免过于敏感）
2.1 失败率大于0，并发任务数的阈值修改为当前值的一半（在失败率恢复之前，只修改一次），当前的并发任务数修改为0
2.2 失败率等于0，当前值=max(阈值*1/2, 当前并发任务数+步长)，当当前值和阈值的距离越大时，步长越大（尽快恢复原有的爬取速率）当当前值大于阈值时，步长为固定值（缓慢增长，试探是否有进一步加速的空间）