HtmlAgilityPack

摘要:
//若需要抓取的节点有ID,类似“value”这种,那很简单只需调用GetElementbyId方法根据节点ID即可获取所需节点。从而通过HtmlNode中的InnerText或Attribute属性来获取你想要的值。//实例化HtmlAgilityPack.HtmlDocument对象HtmlDocumentdoc=newHtmlDocument();//载入HTMLdoc.LoadHtml;//根据HTML节点NODE的ID获取节点HtmlNodenavNode=doc.GetElementbyId;其他可能有用的技术点:1、获取网页title:doc.DocumentNode.SelectSingleNode.InnerText;解释:XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。
 //若需要抓取的节点有ID,类似“<div id='post_list'>value</div>”这种,那很简单只需调用GetElementbyId方法根据节点ID即可获 取所需节点。从而通过HtmlNode中的InnerText或Attribute属性来获取你想要的值。



                //实例化HtmlAgilityPack.HtmlDocument对象
                HtmlDocument doc = new HtmlDocument();
                //载入HTML
                doc.LoadHtml(str);

                //根据HTML节点NODE的ID获取节点
                HtmlNode navNode = doc.GetElementbyId("post_list");

其他可能有用的技术点:
1、获取网页title:doc.DocumentNode.SelectSingleNode("//title").InnerText;
解释:XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接:doc.DocumentNode.Descendants("a")

3、获取name为kw的input,也就是相当于getElementsByName():
var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

免责声明:文章转载自《HtmlAgilityPack》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇第三十课、Qt中的文本编辑组件------------------狄泰软件学院mac配置git和github下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Revit 二次开发 元素创建与修改练习

学习地址:https://www.bilibili.com/video/BV1mf4y1S72o?p=11 实例练习一 using System; using System.Collections.Generic; using System.Linq; using System.Text; using Autodesk.Revit.UI; using A...

Elasticsearch之索引模板

解决的问题 当索引类型和配置信息都一样,就可以使用索引模板来处理,不然我们就会手动创建索引。 创建索引模板 PUT _template/2019{ "index_patterns": ["20*", "product1*"], "settings":{ "number_of_shards": 2, "number_of_...

关于MongoDB的group用法

之前在看Mongo的书时,看到了聚合这章。其中谈到了group这个功能,其实正如书中所说,MongoDB中的group和SQL中的group by是很相似的,但我自我分析,可能由于Mongo中的group的使用形式不同,而且使用的是js语法,所以导致咋一看上去不明白这个group怎么用。下面通过具体的一个例子来详细说明Mongo的group用法。 我们平常...

(转)Android Studio 增加函数注释模板

此篇文章主要介绍如何在Android Studio中函数如何添加注释,使其和eclipse一样方便的添加注释 Android Studio默认函数注释为 /** * */ 下面方法将要改为如下格式 1 2 3 4 5 /**  *  * @author zony  * @time 15-11-25 下午2:41  */...

C# FreeSpire.Doc 操作word文档

C# FreeSpire.Doc 免费的word文档类库 环境准备 Nuget安装 FreeSpire.Doc 引用 using Spire.Doc; using Spire.Doc.Documents; using System.IO; Html转换为word文档 static void GetHtmlDocument() {...

poi读取word2003(.doc文档)中的表格

poi读取word2003(.doc文档)中的表格 Jakarta POI 是apache的子项目,目标是处理ole2对象。它提供了一组操纵Windows文档的Java API。在网上见到好多通过poi读取excel的文章,读写也很方便,和jxl有的一比。在这里,主要是poi对word中的表格数据读取。 具体见代码 1 import java.io.Fi...