有人能说清分库分表、MPP和分布式数据库的区别?

来源：千锋教育

发布人：xqq

时间： 2023-10-15 09:02:36

一、分库分表、MPP和分布式数据库的区别

1）分库分表做法，主要是因为早期单机数据库（主要还是MySQL这种低成本场景）下无法在一个库一张表来承载同一业务表下所有的数据，因而将数据划分到不同的物理库表中去，从业务视角来形成一个大的逻辑表。这样的话能够充分利用水平拆分能力，来存储超大的数据集。一般拆分逻辑依赖业务给出相关的字段，配合分表规则，来做hash、range的拆分。这种方式一般通过一些富客户端来支持用户sql，好处很直观，针对点查询效率很高，插入数据效率高，但问题点很多，也不太好解决，主要在于涉及到不同分库的sql操作，比如怎么支持跨库表join，怎么支持分布式事务来更新，如果sql中不带分区键导致全逻辑表查询等等。另外，数据量越来越大时有热点问题怎么办，数据怎么重分布，宕机怎么恢复，路由表变更怎么办，怎么做多个实例的服务发现，怎么做读写分离，等等。最终就是让业务上做妥协，最终一致性，不支持join，允许局部节点故障，等等。

2）本质上，分库分表中间件相当于把数据库解决不了的问题推到业务侧，让业务参与解决或者妥协。随着云计算平台分布式数据库越来越强大，分库分表的技术会慢慢的退出历史舞台。简单来说，分布式数据库把上面的问题尽量的在数据系统内部解决掉，给客户的接口非常简单，统一的endpoint，标准的数据库协议，完整的sql支持能力，等等，但内部一样有各种数据分区逻辑。分布式数据库从广义上来说，就是实现数据库语义的分布式架构下的系统，像云上各种OLTP和OLAP产品，应该都可以称之为分布式数据库。分布式数据库中最重要的就是数据怎么摆放，数据在多个机器上平均分摊持有一份数据做sharding，还是多个节点相互复制一份数据做主备，还是利用底层共享存储共享一份完整数据集，衍生出不一样的系统架构和能力。

3）mpp数据库主要区别于smp数据库。后者一般是单机架构，而单机能力毕竟有限，在OLAP计算数据量非常大的时候，单机数据库的分析能力非常有限。mpp数据库构建一套分布式计算集群（mpp数据库肯定是分布式系统，但狭义上应该不算那些只考虑数据切片的分布式数据库），增强计算能力，在计算中再针对数据集做切片调度执行等，最终希望能实现计算力的水平扩展。

总结一下，这些概念本身不是完全无关的，相互有关系。我接触过的发展过程：

单机数据库，到主备分布式数据库（解决高可用和数据高可靠），到分库分表（sharding解决横向扩展）+主备分布式数据库（解决部分数据的可用和数据可靠性，全局数据无强一致保障），再到主备+内部自动分区和复杂分布式计算的分布式数据库（数据，语义，能力，免运维都很强），再到数据层共享存储、计算层横向弹性扩缩容的分布式数据库架构（能力越来越强，成本、弹性、故障恢复速度、灾备等），等等。

无论上单机还是分布式数据库，针对单个sql，最终只会在一个节点上执行完成，而mpp数据库会对这个sql执行计算任务分解，靠整个集群的算力分布式调度计算，最后整体完成sql。这个可能是与分布式数据库的差异。但分布式数据库与mpp数据库不是一个差异化很大的概念，技术实现上也会有很多重叠的。

延伸阅读：

二、全文索引

FULLTEXT（全文）索引，仅可用于MyISAM和InnoDB，针对较大的数据，生成全文索引非常的消耗时间和空间。对于文本的大对象，或者较大的CHAR类型的数据，如果使用普通索引，那么匹配文本前几个字符还是可行的，但是想要匹配文本中间的几个单词，那么就要使用LIKE %word%来匹配，这样需要很长的时间来处理，响应时间会大大增加，这种情况，就可使用时FULLTEXT索引了，在生成FULLTEXT索引时，会为文本生成一份单词的清单，在索引时及根据这个单词的清单来索引。FULLTEXT可以在创建表的时候创建，也可以在需要的时候用ALTER或者CREATE INDEX来添加。

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。