有人能说清分库分表、MPP和分布式数据库的区别?
一、分库分表、MPP和分布式数据库的区别
1)分库分表做法,主要是因为早期单机数据库(主要还是MySQL这种低成本场景)下无法在一个库一张表来承载同一业务表下所有的数据,因而将数据划分到不同的物理库表中去,从业务视角来形成一个大的逻辑表。这样的话能够充分利用水平拆分能力,来存储超大的数据集。一般拆分逻辑依赖业务给出相关的字段,配合分表规则,来做hash、range的拆分。这种方式一般通过一些富客户端来支持用户sql,好处很直观,针对点查询效率很高,插入数据效率高,但问题点很多,也不太好解决,主要在于涉及到不同分库的sql操作,比如怎么支持跨库表join,怎么支持分布式事务来更新,如果sql中不带分区键导致全逻辑表查询等等。另外,数据量越来越大时有热点问题怎么办,数据怎么重分布,宕机怎么恢复,路由表变更怎么办,怎么做多个实例的服务发现,怎么做读写分离,等等。最终就是让业务上做妥协,最终一致性,不支持join,允许局部节点故障,等等。
2)本质上,分库分表中间件相当于把数据库解决不了的问题推到业务侧,让业务参与解决或者妥协。随着云计算平台分布式数据库越来越强大,分库分表的技术会慢慢的退出历史舞台。简单来说,分布式数据库把上面的问题尽量的在数据系统内部解决掉,给客户的接口非常简单,统一的endpoint,标准的数据库协议,完整的sql支持能力,等等,但内部一样有各种数据分区逻辑。分布式数据库从广义上来说,就是实现数据库语义的分布式架构下的系统,像云上各种OLTP和OLAP产品,应该都可以称之为分布式数据库。分布式数据库中最重要的就是数据怎么摆放,数据在多个机器上平均分摊持有一份数据做sharding,还是多个节点相互复制一份数据做主备,还是利用底层共享存储共享一份完整数据集,衍生出不一样的系统架构和能力。
3)mpp数据库主要区别于smp数据库。后者一般是单机架构,而单机能力毕竟有限,在OLAP计算数据量非常大的时候,单机数据库的分析能力非常有限。mpp数据库构建一套分布式计算集群(mpp数据库肯定是分布式系统,但狭义上应该不算那些只考虑数据切片的分布式数据库),增强计算能力,在计算中再针对数据集做切片调度执行等,最终希望能实现计算力的水平扩展。
总结一下,这些概念本身不是完全无关的,相互有关系。我接触过的发展过程:
单机数据库,到主备分布式数据库(解决高可用和数据高可靠),到分库分表(sharding解决横向扩展)+主备分布式数据库(解决部分数据的可用和数据可靠性,全局数据无强一致保障),再到主备+内部自动分区和复杂分布式计算的分布式数据库(数据,语义,能力,免运维都很强),再到数据层共享存储、计算层横向弹性扩缩容的分布式数据库架构(能力越来越强,成本、弹性、故障恢复速度、灾备等),等等。
无论上单机还是分布式数据库,针对单个sql,最终只会在一个节点上执行完成,而mpp数据库会对这个sql执行计算任务分解,靠整个集群的算力分布式调度计算,最后整体完成sql。这个可能是与分布式数据库的差异。但分布式数据库与mpp数据库不是一个差异化很大的概念,技术实现上也会有很多重叠的。
延伸阅读:
二、全文索引
FULLTEXT(全文)索引,仅可用于MyISAM和InnoDB,针对较大的数据,生成全文索引非常的消耗时间和空间。对于文本的大对象,或者较大的CHAR类型的数据,如果使用普通索引,那么匹配文本前几个字符还是可行的,但是想要匹配文本中间的几个单词,那么就要使用LIKE %word%来匹配,这样需要很长的时间来处理,响应时间会大大增加,这种情况,就可使用时FULLTEXT索引了,在生成FULLTEXT索引时,会为文本生成一份单词的清单,在索引时及根据这个单词的清单来索引。FULLTEXT可以在创建表的时候创建,也可以在需要的时候用ALTER或者CREATE INDEX来添加。

猜你喜欢LIKE
相关推荐HOT
更多>>
dbvisualizer怎么导出整个数据库?
一、dbvisualizer导出整个数据库的步骤1、连接要导出的数据库打开DBVisualizer,连接要导出的数据库,通过导航器选择要导出的数据库对象,如表...详情>>
2023-10-15 19:00:46
不能在具有少数索引“CNO”的对象“dbo.STUDENT”中插入重复键的行?
一、不能在具有少数索引“CNO”的对象“dbo.STUDENT”中插入重复键的行不能在具有少数索引“CNO”的对象“dbo.STUDENT”中插入重复键的行,这是...详情>>
2023-10-15 18:20:59
微博feed系统的推模式和拉模式的架构是怎样的?
一、微博feed系统的推模式架构1、发布服务负责生成用户的消息,将消息推送到数据发布中心。2、推送服务在接收到新消息后,根据消息的类型和内容...详情>>
2023-10-15 16:40:01
Mycat分表分库的原理是什么?
一、Mycat分表分库的原理1、数据分片(Sharding)Mycat将数据按照某种规则(如基于哈希、范围、一致性哈希等)进行分片。每个分片包含数据的一...详情>>
2023-10-15 14:30:54热门推荐
PSC文件是什么文件,要用什么软件打开?
沸定制开发app有哪些优势?
热怎么向VFP数据表中一次加入多条记录?
热怎么分析判断一个网站的后台数据库管理系统是什么?
新access数据库中的round函数是什么意思?
交易所基于内存的撮合一般使用什么数据库?
PostgreSQL为什么删除了数据库以后里面的表还在?
删除SQL server2012出现重新启动计算机――失败,是什么原因?
既然MySQL有事物隔离性,那为什么还会产生脏读?
dbvisualizer怎么导出整个数据库?
不能在具有少数索引“CNO”的对象“dbo.STUDENT”中插入重复键的行?
redis和mongoDB相比分别有什么优缺点?
怎样建立一个数据库,然后利用C语言调用数据库的数据来进行运算得到运算结果?
微博feed系统的推模式和拉模式的架构是怎样的?
技术干货






