DataTable数据检索的性能分析(转寒江独钓)

摘要:
另一方面,DataTable相对容易使用。一些数据访问接口可以直接采用DataTable结构。在使用DataTable进行数据检索时,需要注意一些问题,这将严重影响数据检索的效率。我需要在最近的工作中拼接大量数据表。2.DataTable查询效率DataTable提供两个查询数据的接口,DataTable.Select和DataTable.Rows.Find方法。查找DataTable.Rows查找第一个匹配项的唯一记录。创建完成后,让我们在几种情况下测试DataTable的检索效率。使用字典而不是DataTable节点

我们知道在.NET平台上有很多种数据存储,检索解决方案-ADO.NET Entity Framework,ASP.NET Dynamic Data,XML, NHibernate,LINQ to SQL 等等,但是由于一些原因,如平台限制,比如说必须基于.NET Framework2.0及以下平台;遗留的或者第三方数据接口采用的就是DataTable等等,仍然需要使用DataTable作为数据存储结构。另一方面DataTable比较容易使用,一些数据访问的接口可能直接采用了DataTable结构。在使用DataTable进行数据检索的时候,有一些需要注意的地方,这些地方会严重的影响对数据的检索效率。

    本人最近工作中需要对大量的DataTable进行拼接。接口的数据是以DataSet然后里面放DataTable的方式提供的,暂不提是否合理,同时进行多个请求的时,服务端会返回一个DataSet,其中包含每个请求的结果DataTable,这些DataTable中有一列相当于”关键字”列。现在需要按照这个关键字,将这些DataTable中的列合并到一个DataTable,然后展现到界面上来。

    最开始,我使用的是DataTable的Select方法来循环遍历拼接实现的,发现很慢,于是总结了一下对DataTable进行查询等操作的一些经验,和大家分享。

一 场景

    为了简化问题,有两张DataTable,名为表A,表B,字段分别为

     表A,存储股票的最高价信息,        表B存储股票最低价信息

     SecurityCode    High                  SecurityCode    Low

     000001.SZ       20                     000001.SZ      18.5

     000002.SZ       26                     000002.SZ       56

    现在需要,将这两张表拼接到一张表中,这张表有三列字段,SecurityCode High Low,之前采用的方法是,新建一张含有这三个字段的DataTable 表C,然后复制Security字段,然后遍历另外两张表,对其采用Select方法查找对应的SecurityCode,然后复制给C中对应字段。发现效率很慢,问题出现在Select方法上,于是需要进行优化。

二 DataTable的查询效率

    DataTable提供了两个查询数据的接口,DataTable.Select和DataTable.Rows.Find方法。

    DataTable的Select方法通过传入一系列条件,然后返回一个DataRow[ ]类型的数据,他需要遍历整个表,然后挨个匹配条件,然后返回所有匹配的值。很显然在策略上,之前的DataTable拼接采用Select方法存在问题,因为我们只需要查找匹配上的一条记录即可。

    DataTable.Rows 的Find查找第一个匹配上的唯一一条记录。在指定了主键的基础上,查找会采用二叉树的方式查找,效率高。要创建主键,需要指定DataTable的PrimaryKey字段如下:

dtA.PrimaryKey = new DataColumn[] { dtA.Columns["SecurityCode"] };

当然,创建主键会增加时间消耗,这也分为在数据填充前创建和数据填充后创建。在数据量大的情况下,创建主键的消耗是需要考虑进去的。下面的图中显示了在填充数据之前创建主键,之后创建主键,以及创建Dictionary所需的时间。可以看到:

ArraySize

PreIndex Creation Time

PostIndex Creation Time

Dictionary Creation Time

10

0

0

0

50

0

0

0

100

1

0

0

500

6

1

0

1000

15

2

0

5000

107

16

2

10000

261

42

5

50000

1727

271

31

100000

3525

544

47

500000

20209

2895

240

1000000

43382

5919

517

    作图如下:

1.DataTable索引的创建时间

从上图可以得到:

  1. 在填充数据之前创建主键,然后填充数据,比填充数据完之后创建主键消耗的时间要多。这是由于,创建主键后,再向其中添加数据,会导致需要重新生成索引,这和数据库中,不适合在频繁变动的字段上创建主键的原理是一样的。在我的笔记本 (Win7 32bit,CPU T6600 2.0GHZ,RAM 2GB)上,为100万条记录的DataTable创建索引大约需要5秒钟,所以在数据量大的情况下,需要考虑索引的创建时间。
  2. 创建DataTable然后创建主键与直接创建和该DataTable相同的Dictionary结构相比,创建Dictionary所需要的时间要少的多,而且几乎不随着记录条数规模的变大而变大。

    创建完成之后,下面来测试几种情况下的DataTable的检索效率。为此,在建立主键和没有建立索引的条件下,测试了在不同规模下 DataTable.Select, DataTable.Rows.Find 的查询速度,由于在DataTable比较小的时候,时间不能很好的显示,所以测试采用的单位是StopWatch的Tick数。每个方法在数据规模不同的情况下,各执行了10次,然后取平均值,结果如下:

ArraySizeDictionary CreateDictionary SearchTable SelectIndexed Table SelectTable Rows FindLINQ
101334025816
502726937827
10051311238939
50021035895111155
1000461411756014328
5000226414841285171540
10000623571680699203354
500002376881501331382615824
1000004913372597941472631525
50000025210351154793518130158317
10000004946479273661620930315716

作图如下:

2.DataTable检索效率

可以看到:

  1. 在没有创建主键的条件下,对DataTable执行Select操作时比较低效的。在建立主键之后,仅对主键所在列执行Select操作,速度提高了很多,这种差距在数据量大的情况下尤其明显,在集合大小规模为1000时,该差异达到了近20倍。
  2. LINQ对DataTable的查询效率比DataTale.Select方法要高,但是仍然比DataTable.Rows.Find方法效率要低。
  3. 在对主键进行唯一性查找时,我们应该使用DataTable.Rows.Find操作,在DataTable建立主键,并且仅对主键进行操作的情况下,Find方法会比Select方法快3-6倍,这可能是由于Select方法需要对里面的过滤字符串进行解析及判断。因为Select方法可以接受多个条件的查询以及以一些比较复杂的表达式,处理及解析可能需要耗费一些时间。并且在一般条件下Select是完全搜索,即查找整个集合找到所有满足条件的记录。而Find方法则仅对主键字段进行检索,如果没有设置主键,那么调用Find方法就会报错。
  4. 采用Dictionary来代替DataTable结构来进行检索,能达到最快的速度,且几乎不受规模的影响,但是在数据量较大的情况下,将DataTable转换为对应的Dictionary结构可能需要花费时间,如果操作频繁,诸如在进行多个DataTable基于关键字进行拼接的情况下,对目标DataTable使用Dictionary<String,DataRow> 的方式进行存储,能够使用ContainsKey的基于Hash的方式对关键字进行查找,这能极大地提高效率。并且在DataTable列有重复字段,不能建立主键的情况下,可以采用Dictionary<string,List<DataRow>>能够解决DataTable无法创建主键,从而导致查找性能下降的问题。
三 实施效果

    基于上面的分析,在实际中的工作中,替换了Select方法,创建了一个类型为Dictionary<String,DataRow>的包含目标合并后DataTable对象的所有行的结构C,其中关键字为SecurityCode,DataRow为包含SecurityCode,High,Low三列数据的行。在合并的时候,直接遍历表A的所有行,然后判断在C中是否包含该行中的SecurityCode,如果包含,取出,直接赋值。然后遍历表B。整个过程使得DataTable合并的效率至少提高了10倍。

四 结语

    本文简要介绍了DataTable中检索数据的两种方法,DataTable.Select 和DataTable.Rows.Find方法。在测试方法的执行效率之前介绍了如何为DataTable设置主键,并比较了在数据填充之前和数据填充之后设置主键花费的时间,结果表明,在数据填充完成之后,设置主键要比在填充数据之前设置主键效率要高的多。设置主键之后,比较了在有无主键的情况下,DataTable.Select 方法在仅对主键字段进行过滤时的性能,结果表明,在仅对主键进行检索时,设置主键之后使用DataTable.Select 方法会比没有主键的情况下的检索速度会快非常多。在相同条件下,如果仅需要查找某一条记录,使用DataTable.Rows.Find会比DataTable.Select快很多。在某些需要频繁操作DataTable查询的时候,要避免在循环体内调用DataTable.Select方法,采用将DataTable转换为等价的Dictionary结构,能够有效解决由于键值重复导致不能创建主键的问题并且Dicitonary的采用哈希表的方式查找能够极大地提高查询效率。

    点击此处下载本文测试用例及代码,希望对您在对DataTable进行检索操作时,如何提高效率能够带来一点儿帮助。

    注:个人认为若DataTable设值主键且仅查找主键,使用后设置主键方式比Dictionary速度要快。

免责声明:文章转载自《DataTable数据检索的性能分析(转寒江独钓)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇View绘制机制Python札记 -- 文件压缩下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

MySQL快速回顾:高级查询操作

8.1 排序数据 检索出的数据并不是以纯粹的随机顺序显示的。如果不排序,数据一般将以它在底层表中出现的顺序显示。这可以是数据最初添加到表中的顺序。但是,如果数据后来进行过更新或删除,则此顺序将会受到MySQL重用回收存储空间的影响。因此,如果不明确控制的话,不能依赖该排序顺序。 关系数据库设计理论认为,如果不明确规定排序顺序,则不应该假定检索出的数据的顺序...

Linq之关键字基本查询

子句 说明 from 指定数据源和范围变量(类似于迭代变量)。 where 根据一个或多个由逻辑“与”和逻辑“或”运算符(&& 或 &#124;&#124;)分隔的布尔表达式筛选源元素。 select 指定当执行查询时返回的序列中的元素将具有的类型和形式。 group 按照指定的键值对查询结果进行分组。...

PHP代码层防护与绕过

0x01 前言   在一些网站通常会在公用文件引入全局防护代码进行SQL注入、XSS跨站脚本等漏洞的防御,在一定程度上对网站安全防护还是比较有效的。   这里讨论一下关键字过滤不完善及常见正则匹配存在的问题,并收集了网络上常见的PHP全局防护代码进行分析。   Bypass思路:只考虑关键字被过滤如何进行Bypass的问题,暂不考虑关键字替换绕过的情况。...

WAF绕过方法

1.大小写绕过 这个大家都很熟悉,对于一些太垃圾的WAF效果显著,比如拦截了union,那就使用Union UnIoN等等绕过。 2.简单编码绕过 比如WAF检测关键字,那么我们让他检测不到就可以了。比如检测union,那么我们就用%55也就是U的16进制编码来代替U,union写成 %55nION,结合大小写也可以绕过一些WAF,你可以随意替换一个或几个...

存储过程中SELECT INTO的使用

在MySQL存储过程中使用SELECT …INTO语句为变量赋值:   用来将查询返回的一行的各个列值保存到局部变量中。 要求:   查询的结果集中只能有1行。 SELECT col_name[,...] INTO var_name[,...] table_expr 使用SELECT …INTO语句在数据库中进行查询,并将得到的结果赋值给变量。   ①co...

[转]Oracle 树操作(select…start with…connect by…prior)

原文地址:https://www.cnblogs.com/colder/p/4838574.html oracle树查询的最重要的就是select…start with…connect by…prior语法了。依托于该语法,我们可以将一个表形结构的以树的顺序列出来。在下面列述了oracle中树型查询的常用查询方式以及经常使用的与树查询相关的oracle特...