欢迎来到Doc100.Net免费学习资源知识分享平台!
您的位置:首页 > 程序异常 >

nutch跟casperjs的区别

更新时间: 2014-01-05 00:56:35 责任编辑: Author_N1

 

Nutch和CasperJS的区别
http://bingozhao.com/blog/?p=53
研究淘宝产品数据抓取的时候遇到动态内容读取的问题(淘宝上的价格,评论信息是通过JS动态加载的),Nutch在这方面并未考虑。

对应的解决方案是基于Webkit/Geko等浏览器核心创建的Headless Browser Agent,比如casperjs(基于pantomjs),可以灵活实现各种模拟用户操作并动态更新DOM结构已获得动态内容。基本上用户可以看到的信息(文字,图片等等)通过这个代理都可以抓取到,有效解决了动态数据抓取的问题。

casperjs脚本基于Javascript(或者Coffeescript),基本编程风格很适合页面前端编程人员进行DOM遍历,查找,还可以动态扩展额外脚本(比如模拟用户操作的脚本)等,使用起来比较简单。存在的问题是:

1. 相比于Nutch这个高效抓取全文静态页面的好帮手来说,casperjs太慢了。前者基本上是在ms级别,后者为秒级,差了1000倍,当然这是因为强调用户交互的动态性,增加了更多的客户端和服务端连接,更多的数据解析功能,并且JS本身基于解释性语言的缘故,性能自然不能跟Nutch比。
2. casperjs还是不太完善,有比较多的bug需要修正。比如对于selector的选取并没有那么鲁棒性,经常需要调试来调整代码的输出以避免selector耍性子。
Headless Webkit/Geko Agent/Spider应该是适应未来发展的,希望能逐渐改善处理速度,满足实时数据抓取的需求。(按照现在目测casperjs抓取解析的速度,一个中等复杂页面上几个关键字模板抓取内容的时间在5秒左右,这样算下来要抓取100万个页面需要差不多一年,必须使用大规模的分布式集群进行抓取才能取得实际产品环境的效果)
上一篇:上一篇
下一篇:下一篇

 

随机推荐程序问答结果

 

 

如对文章有任何疑问请提交到问题反馈,或者您对内容不满意,请您反馈给我们DOC100.NET论坛发贴求解。
DOC100.NET资源网,机器学习分类整理更新日期::2014-01-05 00:56:35
如需转载,请注明文章出处和来源网址:http://www.doc100.net/bugs/t/1656/
本文WWW.DOC100.NET DOC100.NET版权所有。