Quantcast
Channel: 《htmlparser使用指南》的评论
Viewing all articles
Browse latest Browse all 10

作者:基于python的crawler « LAMP架构网站开发指南|Kenneth@Beijing2010

$
0
0

[…] 基于python的crawler 考虑到垂直爬虫及站内搜索的重要性,重新思考一下项目爬虫的技术架构及实现方案。以前的垂直爬虫曾经使用过heritrix、htmlparser、nutch等,各有优缺点。尤其是要做垂直网站的定向爬取时候,并没有太好的方案,只能够做指定页面的定向解析,因此以前主要还是使用htmlparser的方案。 […]


Viewing all articles
Browse latest Browse all 10