做数据抓取,网络爬虫方面的开发,自然少不了解析HTML源码的操作。那么问题来了,到底.NET如何来解析HTML,有哪些解析HTML源码的好用的,有效的组件呢?
作者在开始做这方面开发的时候就被这些问题困扰着,开始是使用的正则表达式来解析,但用正则的缺点在于你需要对正则表达式相当熟悉,并且解析过程非常烦琐,经过时间和实做的积累,现归纳整合一下.NET下各种可用的HTML解析组件,这其中包括:
- CsQuery
- AngleSharp
- Jumony
- HtmlAgilityPack
- Fizzler
- ScrapySharp
- NSoup
版权声明:本作品系原创,版权归码友网所有,如未经许可,禁止任何形式转载,违者必究。
发表评论
登录用户才能发表评论, 请 登 录 或者 注册