如何完成一个分布式爬虫
URLManager是爬虫系统的核心。负责URL的重要性排序,分发,调度,任务分配。单个的爬虫完成一批URL的爬取任务之后,会找URLManager要一批新的URL。一般来说,一个爬取任务中包含几千到一万个URL,这些URL最好是来自不同的host,这样
如何用Python写一个分布式爬虫
python如何搭建分布式爬虫呀
单机爬虫我已经会弄了 但是分布式不会弄 数据库是postgresql 在我想象中,分布式爬虫是这样的: 一个控制中心,控制所有爬虫,给他们分配任务,并得到爬虫返回的结果 我的疑问是, 问题1: 怎么实现,控制中心给每个爬虫比较平均的分配任务,用什么框... 单机爬虫我已经会弄了
但是分布式不会弄
数据库是postgresql
在我想象中,分布式爬虫是这样的:
一个控制中心,控制所有爬虫,给他们分配任务,并得到爬虫返回的结果
我的疑问是,
问题1: 怎么实现,控制中心给每个爬虫比较平均的分配任务,用什么框架 什么算法 来实现? 展开 问题2: 比如我有60个爬虫,他们怎么和控制中心通信 有什么框架 或者算法来实现吗