数据库水平切分的两个思路

上一篇 / 下一篇  2012-03-29 09:11:07 / 个人分类:数据库

在大中型项目中,在数据库设计的时候,考虑到数据库最大承受数据量,通常会把数据库或者数据表水平切分,以降低单个库,单个表的压力。这里介绍两个项目中常用的数据表切分方法。当然这些方法都是在程序中?使用一定的技巧来路由到具体的表的。首先我们要确认根据什么来水平切分?在我们的系统(SNS)中,用户的UID贯穿系统,唯一自增长,根据这个字段分表,再好不过。

?}9x.i^6C.? R0  方法一:使用MD5哈希51Testing软件测试网^#b;?KGwWv*d

51Testing软件测试网 ^?8R1oc'},us

  做法是对UID进行md5加密,然后取前几位(我们这里取前两位),然后就可以将不同的UID哈希到不同的用户表(user_xx)中了。51Testing软件测试网0[?}/IV8~.fo'P

51Testing软件测试网 EN_UY^(f

+m t.c g lu0
function getTable( $uid ){51Testing软件测试网gyj`}'fY W
  $ext =  substr ( md5($uid) ,0 ,2 );
]zkG!dL:aX0  return "user_".$ext;51Testing软件测试网@~([{2K vq:XgWs%iK
}
51Testing软件测试网X`1G8a Y Z/TpY

51Testing软件测试网!i CJI]v p;n

51Testing软件测试网0S_1J4TFI

  通过这个技巧,我们可以将不同的UID分散到256中用户表中,分别是user_00,user_01 ...... user_ff。因为UID是数字且递增,根据md5的算法,可以将用户数据几乎很均匀的分别到不同的user表中。

ib:U^SR?6IW0

g-N-O6O;{G1Z E0  但是这里有个问题是,如果我们的系统的用户越来越多,势必单张表的数据量越来越大,而且根据这种算法无法扩展表,这又会回到文章开头出现的问题了。51Testing软件测试网e%G8J0R+Qp

51Testing软件测试网 Mru.oL6Z

  方法二:使用移位

r ]ke5QU7K0

};Dx7h4MC'~3h0  具体方法是:

dYy p1R\G-e J051Testing软件测试网%@k0D|0O!dh&s

wix Pr0
public function getTable( $uid ) {
wf/j |W.u&d0 return "user_" . sprintf( "d", ($uid >> 20) );51Testing软件测试网)\NY B!r{F4k;P.V.E
}
51Testing软件测试网:S#F` ~.h o

|j)|3n*[1Rs0

n'{!k Q&wq$j0  这里,我们将uid向右移动20位,这样我们就可以把大约前100万的用户数据放在第一个表user_0000,第二个100万的用户数据放在第二个表user_0001中,这样一直下去,如果我们的用户越来越多,直接添加用户表就行了。由于我们保留的表后缀是四位,这里我们可以添加1万张用户表,即user_0000,user_0001 ...... user_9999。一万张表,每张表100万数据,我们可以存100亿条用户记录。当然,如果你的用户数据比这还多,也不要紧,你只要改变保留表后缀来增加可以扩展的表就行了,如如果有1000亿条数据,每个表存100万,那么你需要10万张表,我们只要保留表后缀为6位即可。51Testing软件测试网ZkVa)n

51Testing软件测试网6_#pf&yupX4G

  上面的算法还可以写的灵活点:51Testing软件测试网W7G ~OKuc D

51Testing软件测试网t)v0zg U.{

7gA9f#Q:z8{ J ?$AiC0
/**51Testing软件测试网/qx IE4~Lh
 * 根据UID分表算法51Testing软件测试网7iNGc!t/E
 *51Testing软件测试网/xa)E8G+zS%r
 * @param int $uid  //用户ID51Testing软件测试网GI pVS
 * @param int $bit    //表后缀保留几位51Testing软件测试网dU&s%@\8@6x\)T jeJ%_n
 * @param int $seed //向右移动位数51Testing软件测试网rSf_[7vu#Wp
 */51Testing软件测试网T8r;P#t \
function getTable( $uid , $bit , $seed ){51Testing软件测试网_ O*K!lq
  return "user_" . sprintf( "%0{$bit}d" , ($uid >> $seed) );51Testing软件测试网-OD;? A U^h
}

W@WN%T051Testing软件测试网m\.ip~Uf

51Testing软件测试网-@pfE+E@Fw `

  总结51Testing软件测试网T5Z`v2O:EVy

*iPf Ve[%c0  上面两种方法,都要对我们当前系统的用户数据量做出可能最大的预估,并且对数据库单个表的最大承受量做出预估。51Testing软件测试网 l/K_!r}#}K I2C

Yj7_"k8^ `B0  比如第二种方案,如果我们预估我们系统的用户是100亿,单张表的最优数据量是100万,那么我们就需要将UID移动20来确保每个表是100万的数据,保留用户表(user_xxxx)四位来扩展1万张表。51Testing软件测试网#v McI%~m

?'`;C,d!zJ0  又如第一种方案,每张表100万,md5后取前两位,就只能有256张表了,系统总数据库就是:256*100万;如果你系统的总数据量的比这还多,那你实现肯定要MD5取前三位或者四位甚至更多位了。

w"sU!~bD0

,c3i#QI#t}*c0  两种方法都是将数据水平切分到不同的表中,相对第一种方法,第二种方法更具扩展性。

g/IprN7M0

TAG:

 

评分:0

我来说两句

Open Toolbar