1.介绍
Hbase是用Java写的,它原生地提供了Java接口,对非Java程序人员,它也提供了thrift接口,因此也可以采用其他语言来编写Hbase的客户端,本文即介绍了python通过thrift接口访问HBase数据库的方法。
目前Hbase有两套thrift接口(thrift和thrift2),它们并不兼容。根据官方文档,thrift很可能被抛弃,但网上的文章基本是介绍thrift的,我们这里采用的也是thrift。
2.启动thrift-server
要使用Hbase的thrift接口,必须将它的服务启动,启动Hbase的thrift-server进程如下:
cd /home/hbase-1.2.9/ ./hbase-daemon.sh start thrift 执行jps命令检查: 34533 ThriftServer |
thrift默认端口是9090,启动成功后可以查看端口是否起来。
3.安装thrift-client
3.1安装依赖
yum -y install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel zlib-devel python-devel ruby-devel openssl-devel |
3.2安装boost
wget http://sourceforge.net/projects/boost/files/boost/1.53.0/boost_1_53_0.tar.gz tar xvf boost_1_53_0.tar.gz cd boost_1_53_0 ./bootstrap.sh ./b2 install |
3.3安装thrift客户端
get http://mirrors.hust.edu.cn/apache/thrift/0.11.0/thrift-0.11.0.tar.gz tar xzvf thrift-0.11.0.tar.gz cd thrift-0.11.0 ./configure --with-cpp --with-boost --with-python --without-csharp --with-java --without-erlang --without-perl --with-php --without-php_extension --without-ruby --without-haskell --without-go make && make install |
make可能报错如下:
g++: error: /usr/lib64/libboost_unit_test_framework.a: No such file or directory |
解决办法:
find / -name libboost_unit_test_framework.* cp /usr/local/lib/libboost_unit_test_framework.a /usr/lib64/ |
4.使用python3连接Hbase(hbase-thrift)
安装所需包。
pip install thrift pip install hbase-thrift |
python 脚本如下:
from thrift.transport import TSocket from hbase import Hbase from hbase.ttypes import * transport = TSocket.TSocket('192.168.18.150', 9090) protocol = TBinaryProtocol.TBinaryProtocol(transport) client = Hbase.Client(protocol) transport.open() print(client.getTableNames()) |
脚本报错
File "<ipython-input-1-e17848ba7457>", line 1, in <module> import hbase.Hbase File "D:\software\Anaconda3\Lib\site-packages\hbase\Hbase.py", line 2066 except IOError, io: ^ |
AttributeError: 'dict' object has no attribute 'iteritems' |
原因:python版本带来的语法不兼容问题
解决如下:
替换原来Hbase.py和ttypes.py文件 |
5.常用方法介绍
createTable(tbaleName,columnFamilies):创建表,无返回值
column1 = ColumnDescriptor('meta') column2 = ColumnDescriptor('data') client.createTable('test4', [column1, column2]) |
enabledTable(tbaleName):启用表,无返回值
# 启用表,若表之前未被禁用将会引发IOError错误 client.enableTable('test4') |
disableTable(tbaleName):禁用表,无返回值
# 禁用表,若表之前未被启用将会引发IOError错误 client.disableTable('test4') |
isTableEnabled(tbaleName):验证表是否被启用,返回一个bool值
print(client.isTableEnabled('test4')) |
getTableNames(tbaleName):获取表名列表,返回一个str列表
print(client.getTableNames()) |
getColumnDescriptors(tbaleName):获取所有列族信息,返回一个字典
a = client.getTableRegions('test4') for i in a: print("序号:%s 值:%s" % (a.index(i) + 1, i)) |
deleteTable(tbaleName):删除表,无返回值
client.deleteTable('test4') |
get(tableName,row,column):获取数据列表,返回一个hbase.ttypes.TCell对象列表
getRow(tableName,row):获取表中指定行在最新时间戳上的数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
getRowWithColumns(tableName,row,columns):获取表中指定行与指定列在最新时间戳上的数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
getRowTs(tableName,row,timestamp):获取表中指定行并且小于这个时间戳的所有数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
getRowWithColumnsTs(tableName,row,columns,timestamp):获取指定行与指定列,并且小于这个时间戳的所有数据。返回一个hbase.ttypes.TRowResult对象列表,如果行号不存在返回一个空列表
deleteAll(tableName,row,column):删除指定表指定行与指定列的所有数据,无返回值
deleteAllTs(tableName,row,column,timestamp):删除指定表指定行与指定列中,小于等于指定时间戳的所有数据,无返回值
deleteAllRow(tableName,row):删除整行数据,无返回值
deleteAllRowTs(tableName,row,timestamp):删除指定表指定行中,小于等于此时间戳的所有数据,无返回值
本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理