phoenix 索引实践

摘要:
数据表的添加、删除和修改将更新相关索引表。创建全局索引CREATENDEXmy_indexONmy_table;查看效果0:jdbc:phoenix:˃selectv3from_tablewherev3='130010030';+---------------+|V3 |+---------------+|113000010030 |+---------------+1 rowselected0:jdbc:phoenix:˃select*from_table,其中V3='13000010030';+---------------+---------------+------------+|ROWKEY | V1 | V2 | V3 |+-----------------+-----------------+----------------+|77a9ede22e169683|aaa|bbb|1300000030|+-----------------++----------------+--------------+1行选择0:jdbc:phoenix:˃CREATEINDEXmy_indexONmy_table;1076190rowsaffected0:jdbc:phoenix:˃select*from_tablewherev3='13000010030';+----------------+----------------+---------------+-------------+|ROWKEY | V1 | V2 | V3 |+-----------------+-----------------+----------------+|77a9ede22e169683|aaa|bbb|13000010030|+-----------------++----------------+--------------+1行selected0:jdbc:phoenix:˃selectv3from_table,其中V3='13000010030';+----------------+|V3 |+-------------------+| 1300010030 |+-------------------+1所选的本地索引本地索引适合于多写少读的情况,或存储空间有限的情况。因为无法提前确定数据位于哪个区域,所以在读取数据时需要检查每个区域中的数据,这会导致一些性能损失。

准备工作

    创建测试表

   

CREATE TABLE my_table (
        rowkey VARCHAR NOT NULL PRIMARY KEY,
        v1 VARCHAR,
         v2 VARCHAR,
         v3 VARCHAR
     );

    UPSERT INTO my_table values('1','value1','value2','value3');
    UPSERT INTO my_table values('2','value1','value2','value3');
    UPSERT INTO my_table values('3','value1','value2','value3');
    UPSERT INTO my_table values('4','value1','value2','value3');
    UPSERT INTO my_table values('5','value1','value2','value3');

    开启索引支持

    HBase --> 配置 --> 高级 --> 搜索 hbase-site.xml。
    在服务端添加下面配置:

    <property>
      <name>hbase.regionserver.wal.codec</name>
      <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
    </property>


    在这里插入图片描述
phoenix 索引实践第1张
创建索引

    全局索引

    全局索引适合读多写少的场景。如果使用全局索引,读数据基本不损耗性能,所有的性能损耗都来源于写数据。数据表的添加、删除和修改都会更新相关的索引表(数据删除了,索引表中的数据也会删除;数据增加了,索引表的数据也会增加)。

    注意:

    对于全局索引在默认情况下,在查询语句中检索的列如果不在索引表中,Phoenix不会使用索引表将,除非使用hint。

    创建全局索引

    CREATE INDEX my_index ON my_table ( v3 );



    查看效果

  

 0: jdbc:phoenix:> select v3 from my_table where v3 = '13000010030';
    +--------------+
    |      V3      |
    +--------------+
    | 13000010030  |
    +--------------+
    1 row selected (2.155 seconds)
    0: jdbc:phoenix:> select * from my_table where v3 = '13000010030';
    +-------------------+------+--------+--------------+
    |      ROWKEY       |  V1  |   V2   |      V3      |
    +-------------------+------+--------+--------------+
    | 77a9ede22e169683  | aaa| bbb| 13000010030  |
    +-------------------+------+--------+--------------+
    1 row selected (2.337 seconds)
    0: jdbc:phoenix:> CREATE INDEX my_index ON my_table ( v3 );
    1,076,190 rows affected (33.875 seconds)
    0: jdbc:phoenix:> select * from my_table where v3 = '13000010030';
    +-------------------+------+--------+--------------+
    |      ROWKEY       |  V1  |   V2   |      V3      |
    +-------------------+------+--------+--------------+
    | 77a9ede22e169683  | aaa| bbb| 13000010030  |
    +-------------------+------+--------+--------------+
    1 row selected (3.296 seconds)
    0: jdbc:phoenix:> select v3 from my_table where v3 = '13000010030';
    +--------------+
    |      V3      |
    +--------------+
    | 13000010030  |
    +--------------+
    1 row selected (0.02 seconds)


    本地索引

    本地索引适合写多读少的场景,或者存储空间有限的场景。和全局索引一样,Phoenix也会在查询的时候自动选择是否使用本地索引。本地索引因为索引数据和原数据存储在同一台机器上,避免网络数据传输的开销,所以更适合写多的场景。由于无法提前确定数据在哪个Region上,所以在读数据的时候,需要检查每个Region上的数据从而带来一些性能损耗。

    注意:

    对于本地索引,查询中无论是否指定hint或者是查询的列是否都在索引表中,都会使用索引表。

    创建本地索引

    CREATE LOCAL INDEX LOCAL_IDEX ON my_table(v3);

    查看效果

   

0: jdbc:phoenix:> select * from my_table where v3 = '13000010030';
    +-------------------+------+--------+--------------+
    |      ROWKEY       |  V1  |   V2   |      V3      |
    +-------------------+------+--------+--------------+
    | 77a9ede22e169683  | aaa| bbb| 13000010030  |
    +-------------------+------+--------+--------------+
    1 row selected (3.545 seconds)
    0: jdbc:phoenix:> select v3 from my_table where v3 = '13000010030';
    +--------------+
    |      V3      |
    +--------------+
    | 13000010030  |
    +--------------+
    1 row selected (2.946 seconds)
    0: jdbc:phoenix:> CREATE LOCAL INDEX LOCAL_IDEX ON my_table(v3);
    1,076,190 rows affected (24.67 seconds)
    0: jdbc:phoenix:> select * from my_table where v3 = '13000010030';
    +-------------------+------+--------+--------------+
    |      ROWKEY       |  V1  |   V2   |      V3      |
    +-------------------+------+--------+--------------+
    | 77a9ede22e169683  | aaa| bbb| 13000010030  |
    +-------------------+------+--------+--------------+
    1 row selected (0.055 seconds)
    0: jdbc:phoenix:> select v3 from my_table where v3 = '13000010030';
    +--------------+
    |      V3      |
    +--------------+
    | 13000010030  |
    +--------------+
    1 row selected (0.013 seconds)

    覆盖索引

    覆盖索引是把原数据存储在索引数据表中,这样在查询时不需要再去HBase的原表获取数据就,直接返回查询结果。

    注意:

    查询是 select 的列和 where 的列都需要在索引中出现。

    创建覆盖索引

    CREATE INDEX my_index ON my_table ( v2,v3 ) INCLUDE ( v1 );


    添加索引后提升到毫秒级

   

0: jdbc:phoenix:> select * from my_table where v3 = '13308117837' and v2 = '北京顺义';
    +-------------------+-----+-------+--------------+
    |      ROWKEY       | V1  |  V2   |      V3      |
    +-------------------+-----+-------+--------------+
    | 3f65283ed7553909  | wenyuan  | ccc| 13308117837  |
    +-------------------+-----+-------+--------------+
    1 row selected (2.42 seconds)
    0: jdbc:phoenix:> CREATE INDEX my_index ON my_table (v2,v3) INCLUDE ( v1 );
    1,076,190 rows affected (47.432 seconds)
    0: jdbc:phoenix:> select * from my_table where v3 = '13308117837' and v2 = '北京顺义';
    +-------------------+-----+-------+--------------+
    |      ROWKEY       | V1  |  V2   |      V3      |
    +-------------------+-----+-------+--------------+
    | 3f65283ed7553909  | wenyuan| ccc| 13308117837  |
    +-------------------+-----+-------+--------------+
    1 row selected (0.031 seconds)



    函数索引

    从Phoenix4.3版本就有函数索引,特点是索引的内容不局限于列,能根据表达式创建索引。适用于对查询表时过滤条件是表达式。如果你使用的表达式正好就是索引的话,数据也可以直接从这个索引获取,而不需要从数据库获取。

    创建索引

    CREATE INDEX my_index ON my_table(substr(v3,1,9)) INCLUDE ( v1 );

    查看效果

   

0: jdbc:phoenix:> select v1,substr(v3,1,9) from my_table where substr(v3,1,9) = '130000109';
    +-----+-------------------+
    | V1  | SUBSTR(V3, 1, 9)  |
    +-----+-------------------+
    | wenyuan| 130000109         |
    +-----+-------------------+
    1 row selected (3.656 seconds)
    0: jdbc:phoenix:> select v1,v3 from my_table where substr(v3,1,9) = '130000109';
    +-----+--------------+
    | V1  |      V3      |
    +-----+--------------+
    | wenyuan| 13000010979  |
    +-----+--------------+
    1 row selected (3.969 seconds)
    0: jdbc:phoenix:> CREATE INDEX my_index ON my_table(substr(v3,1,9)) INCLUDE ( v1 );
    1,076,190 rows affected (45.833 seconds)

    0: jdbc:phoenix:> select v1,v3 from my_table where substr(v3,1,9) = '130000109';
    +-----+--------------+
    | V1  |      V3      |
    +-----+--------------+
    | wenyuan| 13000010979  |
    +-----+--------------+
    1 row selected (3.44 seconds)
    0: jdbc:phoenix:> select v1,v3,substr(v3,1,9) from my_table where substr(v3,1,9) = '130000109';
    +-----+--------------+-------------------+
    | V1  |      V3      | SUBSTR(V3, 1, 9)  |
    +-----+--------------+-------------------+
    | wenyuan| 13000010979  | 130000109         |
    +-----+--------------+-------------------+
    1 row selected (3.327 seconds)
    0: jdbc:phoenix:> select v1,substr(v3,1,9) from my_table where substr(v3,1,9) = '130000109';
    +-----+--------------------+
    | V1  | " SUBSTR(V3,1,9)"  |
    +-----+--------------------+
    | wenyuan  | 130000109          |
    +-----+--------------------+
    1 row selected (0.013 seconds)
    0: jdbc:phoenix:> select v1 from my_table where substr(v3,1,9) = '130000109';
    +-----+
    | V1  |
    +-----+
    | wenyuan|
    +-----+
    1 row selected (0.011 seconds)



索引Building

    同步索引

    CREATE INDEX ASYNC_IDX ON SCHEMA_NAME.TABLE_NAME(BASICINFO."s1",BASICINFO."s2") ;


    创建同步索引超时怎么办?

    在客户端配置文件hbase-site.xml中,把超时参数设置大一些,足够 Build 索引数据的时间。

  

 <property>
        <name>hbase.rpc.timeout</name>
        <value>60000000</value>
    </property>
    <property>
        <name>hbase.client.scanner.timeout.period</name>
        <value>60000000</value>
    </property>
    <property>
        <name>phoenix.query.timeoutMs</name>
        <value>60000000</value>
    </property>


    异步索引

    异步Build索引需要借助MapReduce,创建异步索引语法和同步索引相差一个关键字:ASYNC。

        创建异步索引

        CREATE INDEX ASYNC_IDX ON SCHEMA_NAME.TABLE_NAME ( BASICINFO."s1", BASICINFO."s2" ) ASYNC;
    

        运行MapReduce

        执行MapReduce

        hbase org.apache.phoenix.mapreduce.index.IndexTool 
        --schema SCHEMA_NAME
        --data-table TABLE_NAME
        --index-table ASYNC_IDX 
        --output-path ASYNC_IDX_HFILES

       日志:

Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be removed in a future release
        SLF4J: Class path contains multiple SLF4J bindings.
        SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/jars/phoenix-4.14.0-cdh5.12.2-client.jar!/org/slf4j/impl/StaticLoggerBinder.class]
        SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/jars/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
        SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
        SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
        19/05/22 15:38:41 INFO log.QueryLoggerDisruptor: Starting  QueryLoggerDisruptor for with ringbufferSize=8192, waitStrategy=BlockingWaitStrategy, exceptionHandler=org.apache.phoenix.log.QueryLoggerDefaultExceptionHandler@dd0c991...
        19/05/22 15:38:41 INFO query.ConnectionQueryServicesImpl: An instance of ConnectionQueryServices was created.

        ...

        19/05/22 15:41:19 INFO index.IndexTool: Loading HFiles from INDEX_PERSONAS_TAG_HFILES/MY_SCHEMA.INDEX_PERSONAS_TAG
        19/05/22 15:41:19 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://bigdata-dev-41:8020/user/root/INDEX_PERSONAS_TAG_HFILES/MY_SCHEMA.INDEX_PERSONAS_TAG/_SUCCESS
        19/05/22 15:41:19 INFO hfile.CacheConfig: CacheConfig:disabled
        19/05/22 15:41:19 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://bigdata-dev-41:8020/user/root/INDEX_PERSONAS_TAG_HFILES/MY_SCHEMA.INDEX_PERSONAS_TAG/0/e1f766365b4f4c7cb6cfc6e0d18328b8 first=0x0010x00xE4xB8x9AxE4xB8xBBx000x000x0010x000x00xE6xADxA3xE5xB8xB8xE4xB8x9AxE4xB8xBBx001001.99x000x001x003x00xE8x80x81xE5xAExA2xE6x88xB7x00xE6x9CxAAxE7x9FxA5x0042471415705946377 last=2x009x00xE7xA7x9FxE5xAExA2x002x002x009x002x00xE9x95xBFxE6x9Cx9FxE4xB8x8DxE4xBAxA4xE7x89xA9xE4xB8x9AxE7xAExA1xE7x90x86xE8xB4xB9x00988.56x000x001x004x00xE6x9CxAAxE7x9FxA5x00xE5x9Cx9FxE8xB1xAAx0044ff3613003558171
        19/05/22 15:41:20 INFO index.IndexToolUtil:  Updated the status of the index INDEX_PERSONAS_TAG to ACTIVE


    

        遇到问题

        Error: Could not find or load main class org.apache.phoenix.mapreduce.index.IndexTool

        解决办法

        将 phoenix-4.14.0-cdh5.12.2-client.jar 包复制到 hbase 的 lib 目录下

        [root@node00 ~]# cd /opt/cloudera/parcels/
        [root@node00 parcels]# cd APACHE_PHOENIX/lib/phoenix
        [root@node00 phoenix]# cp phoenix-4.14.0-cdh5.12.2-client.jar /opt/cloudera/parcels/CDH/jars/
        [root@node00 phoenix]# cd /opt/cloudera/parcels/CDH/lib/hbase/lib/
        [root@node00 lib]# ln -s ../../../jars/phoenix-4.14.0-cdh5.12.2-client.jar phoenix-4.14.0-cdh5.12.2-client.jar

索引用法总结

Phoenix 的二级索引主要有两种,即全局索引和本地索引。
全局索引适合读多写少的场景,如果使用全局索引,读数据基本不损耗性能,所有的性能损耗都来源于写数据。
本地索引适合写多读少的场景,或者存储空间有限的场景。

索引定义完之后,一般来说,Phoenix自己会判定使用哪个索引更加有效。
但是,全局索引必须是查询语句中所有列都包含在全局索引中,它才会生效。

索引为:

create index my_index on my_table (v3);

select v1 from my_table where v3 = '13406157616';


上面语句怎样才能使用索引呢?

有以下三种方法使它使用索引:

    使用覆盖索引

    CREATE INDEX cover_index ON my_table(v3) INCLUDE (v1);


    查看效果

    0: jdbc:phoenix:> select v1 from my_table where v3 = '13406157616';
    +------+
    |  V1  |
    +------+
    | wenyuan|
    +------+
    1 row selected (0.01 seconds)



    使用 Hint 强制索引

   

SELECT /*+ INDEX(my_table my_index) */ v1 FROM my_table WHERE v3 = '13406157616';


    查看效果

    0: jdbc:phoenix:> SELECT /*+ INDEX(my_table my_index) */ v1 FROM my_table WHERE v3 = '13406157616';
    +------+
    |  V1  |
    +------+
    | wenyuan|
    +------+
    1 row selected (0.044 seconds)


    使用本地索引

    CREATE LOCAL INDEX local_index on my_table (v3);


    查看效果

   

0: jdbc:phoenix:> select v1 from my_table where v3 = '13406157616';
    +------+
    |  V1  |
    +------+
    | wenyuan|
    +------+
    1 row selected (0.025 seconds)



免责声明:文章转载自《phoenix 索引实践》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇搭建elk+logstash+kafka+filebeat日志收集平台Github团队开发示例(一)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

对ElasticSearch主副分片的理解

ES索引中主副分片的分布: 1:当新建一个索引库时,可以预先设置其会被分为N个分片(主分片),同时可以为每个主分片产生N个备份分片(副分片)。 2:N个主分片随机分布在集群的多个节点中;N个副分片也是随机的分布在集群的多个节点中,但是副分片和其主分片不会在一个节点上。 ES索引中主副分片的作用: 1:当在该索引库中新增一个文档时,会通过计算该文档ID的哈希...

使用ElasticSearch服务从MySQL同步数据实现搜索即时提示与全文搜索功能

最近用了几天时间为公司项目集成了全文搜索引擎,项目初步目标是用于搜索框的即时提示。数据需要从MySQL中同步过来,因为数据不小,因此需要考虑初次同步后进行持续的增量同步。这里用到的开源服务就是ElasticSearch。 ElasticSearch是一个非常好用的开源全文搜索引擎服务,同事推荐之前我并没有了解过,但是看到亚马逊专门提供该服务的实例,没有...

MySql连接字符串的说明

MySql连接字符串的说明 下文对MySql连接字符串的相关参数及格式进行了详细的说明,供您参考,如果对您MySql连接字符串感兴趣的话,不妨一看。 mysql JDBC 驱动常用的有两个,一个是gjt(Giant Java Tree)组织提供的mysql驱动,其JDBC Driver名称(JAVA类名)为:org.gjt.mm.mysql.Drive...

MyBatis模糊查询不报错但查不出数据的一种解决方案

今天在用MyBatis写一个模糊查询的时候,程序没有报错,但查不出来数据,随即做了一个测试,部分代码如下: [html] view plain copy  @Test   public void findByNameTest() throws IOException {       String resource = "SqlMapConfig.x...

HBase 学习(一) Python操作Hbase

一,前言 二,包安装 三,表操作DDL 四,数据操作DML 正文 一,前言   上节讲到我们可以用JavaAPI进行Hbase的操作,但是很明显,Java的API很底层,用起来会很不方便,如果你们学习过Python,可以用Python来对Hbase进行操作。   happybase使用:https://happybase.readthedocs.io/e...

JDBC操纵数据库的步骤(以SQLServer为例)

JDBC的简介 JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC为工具/数据库开发人员提供了一个标准的API,据此可以构建更高级的工具和接口,使数据库开发人员能够用纯 Java API 编写数...