`
solonote
  • 浏览: 88993 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

亲测各种java的html解析器 目标:解析成Document并且能使用XPathAPI, Cobra胜出

阅读更多
正在做一个网站分析工具,需要一个html解析器,目标是解析html文档到org.w3c.dom.Document,并且要能使用XPathAPI 进行节点查找。

今天测了很多个开源库,都不满意,只有COBRA的兼容性要好一点。

列一下今天侧过的开源库:
Cobra 很不错,能完成任务
HTML Parser 不能解析成Document
Java HTML Parser 不太记得了,不过也不好用
Java Mozilla Html Parser 使用了本地库,但是居然解析出来的Document不能用XPathAPI查找
NekoHTML 这个是HTMLUnit在用的库,可以解析出Document,但是一部分网页不能用XPath查找
Jericho HTML Parser 可以解析出Document,但是一部分网页不能用XPath查找
JTidy 不能解析出Document
VietSpider HTMLParser 不太记得了,不过也不好用
1
0
分享到:
评论
1 楼 tan8888 2012-05-10  
这些java开源库,太烂,没一个用得上

相关推荐

Global site tag (gtag.js) - Google Analytics