博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据库分表算法
阅读量:5921 次
发布时间:2019-06-19

本文共 2271 字,大约阅读时间需要 7 分钟。

在大中型项目中,在数据库设计的时候,考虑到数据库最大承受数据量,通常会把数据库或者数据表水平切分,以降低单个库,单个表的压力。这里介绍两个项目中 常用的数据表切分方法。当然这些方法都是在程序中?使用一定的技巧来路由到具体的表的。首先我们要确认根据什么来水平切分?在我们的系统(SNS)中,用 户的UID贯穿系统,唯一自增长,根据这个字段分表,再好不过。

function getTable( $uid ){  $ext =  substr ( md5($uid) ,0 ,2 );  return "user_".$ext;}/* * 参    数:$project 字符串	项目 *			 $group 数组	待进行分表的字段及值 *			 &$tables	数组	目前已经分的表,以值址方式传参 *			 $length 整型	截取字符串前几位,此项与分表的数据密切相关,默认为2 * 功    能:分表引擎 */function engineSplitTable($project, $group, &$tables, $length = MD5_PREFIX_LENGTH) {	$keys = array_keys($group);	$values = array_values($group);	$sequence = substr(md5(implode('', $values)), 0, $length);		$table = $project.'_'.implode('_', $keys).'_'.$sequence;		if(isset($tables[$table])) {	} else {		$tables[$table] = array('textFile' => '', 'fields' => '', 'counter' => 0);	}	return $table;}

 注意:md5出来的字串仅包含0~9a~f,你可以把每位看成一个16进制的数字。那么 substr ( md5($uid) ,0 ,2 ) 出来的范围就是16进制的 00~ff,转成10进制就是 0~16*16

md5后的各位实际上是: 10个数字 + 6个字符的组合  = 16

md5后的值要么全是小写字母,要么全是大写字母,不会出现混合的情况,所以字母就只有 a-f || A-F 这两种之一

 

通过这个技巧,我们可以将不同的UID分散到256中用户表中,分别是user_00,user_01 ...... user_ff。因为UID是数字且递增,根据md5的算法,可以将用户数据几乎很均匀的分别到不同的user表中。

但是这里有个问题是,如果我们的系统的用户越来越多,势必单张表的数据量越来越大,而且根据这种算法无法扩展表,这又会回到文章开头出现的问题了。

一般情况下:设计分表之初就应该考虑到该表能达到的最大数据量,选择分多少张表,如果真的超过了预估,可以考虑集群。

方法二:使用移位

public function getTable( $uid ) { return "user_" . sprintf( "d", ($uid >> 20) );}

 这里,我们将uid向右移动20位,这样我们就可以把大约前100万的用户数据放在第一个表user_0000,第二个100万的用户数据放在第二个表 user_0001中,这样一直下去,如果我们的用户越来越多,直接添加用户表就行了。由于我们保留的表后缀是四位,这里我们可以添加1万张用户表,即 user_0000,user_0001 ...... user_9999。一万张表,每张表100万数据,我们可以存100亿条用户记录。当然,如果你的用户数据比这还多,也不要紧,你只要改变保留表后缀来 增加可以扩展的表就行了,如如果有1000亿条数据,每个表存100万,那么你需要10万张表,我们只要保留表后缀为6位即可。

/** * 根据UID分表算法 *  * @param int $uid  //用户ID * @param int $bit    //表后缀保留几位 * @param int $seed //向右移动位数 */function getTable( $uid , $bit , $seed ){  return "user_" . sprintf( "%0{$bit}d" , ($uid >> $seed) );}

 

总结

上面两种方法,都要对我们当前系统的用户数据量做出可能最大的预估,并且对数据库单个表的最大承受量做出预估。

比如第二种方案,如果我们预估我们系统的用户是100亿,单张表的最优数据量是100万,那么我们就需要将UID移动20来确保每个表是100万的数据,保留用户表(user_xxxx)四位来扩展1万张表。

又如第一种方案,每张表100万,md5后取前两位,就只能有256张表了,系统总数据库就是:256*100万;如果你系统的总数据量的比这还多,那你实现肯定要MD5取前三位或者四位甚至更多位了。

两种方法都是将数据水平切分到不同的表中,相对第一种方法,第二种方法更具扩展性。

 

参考:http://www.nowamagic.net/librarys/veda/detail/1528

http://lampblog.org/285.html

http://blog.csdn.net/hhq163/article/details/6219221

你可能感兴趣的文章
Reflected File Download Attack
查看>>
RAC的使用心得
查看>>
「译」内存管理碰撞课程
查看>>
数据结构系列全集
查看>>
使用jupyter(IPython)开发opencv
查看>>
写一个最简陋的node框架(2)
查看>>
并非 Null Object 这么简单
查看>>
聊聊rocketmq的RequestTask
查看>>
聊聊springcloud的featuresEndpoint
查看>>
十、performSelector延时调用内存泄漏的问题
查看>>
如何使用__block 与 __weak
查看>>
iOS传感器:使用陀螺仪完成一个小球撞壁的小游戏
查看>>
理解JVM(二):垃圾收集算法
查看>>
多迪技术部带你看看什么叫程序员的桌面人生
查看>>
使用MLeaksFinder检测项目内存泄露总结
查看>>
一条咸鱼的校招之路
查看>>
SystemServer启动流程
查看>>
Regular进阶: 跨组件通信
查看>>
filter some
查看>>
手把手教你发布一个vue组件到npm上
查看>>