数据库 Linux下Mongodb分片集群的搭建与使用

1 准备工作

1.1 为什么需要分片

存储容量需求超出单机磁盘容量。活跃的数据集超出单机内存容量，导致很多请求都要从磁盘读取数据，影响性能。写IOPS超出单个mongoDB节点的写服务能力。mongoDB支持自动分片以及手动分片，分片的基本单位是集合。

1.2 准备三台机器

shnode1: 192.168.1.111 shnode2: 192.168.1.112 shnode3: 192.168.1.113

1.3 分片集群规划

服务器说明：

**mongos，**数据库集群请求的入口，所有的请求都通过mongos进行协调，不需要在应用程序添加一个路由选择器，mongos自己就是一个请求分发中心，它负责把对应的数据请求请求转发到对应的shard服务器上。在生产环境通常有多mongos作为请求的入口，防止其中一个挂掉所有的mongodb请求都没有办法操作。 config server，顾名思义为配置服务器，存储所有数据库元信息（路由、分片）的配置。mongos本身没有物理存储分片服务器和数据路由信息，只是缓存在内存里，配置服务器则实际存储这些数据。mongos第一次启动或者关掉重启就会从 config server 加载配置信息，以后如果配置服务器信息变化会通知到所有的 mongos 更新自己的状态，这样 mongos 就能继续准确路由。在生产环境通常有多个 config server 配置服务器，因为它存储了分片路由的元数据，防止数据丢失！ shard，分片（sharding）是指将数据库拆分，将其分散在不同的机器上的过程。将数据分散到不同的机器上，不需要功能强大的服务器就可以存储更多的数据和处理更大的负载。基本思想就是将集合切成小块，这些块分散到若干片里，每个片只负责总数据的一部分，最后通过一个均衡器来对各个分片进行均衡（数据迁移）。

replica set，副本集，其实就是shard的备份，防止shard挂掉之后数据丢失。复制提供了数据的冗余备份，并在多个服务器上存储数据副本，提高了数据的可用性，并可以保证数据的安全性。

仲裁者（Arbiter），是复制集中的一个MongoDB实例，它并不保存数据。仲裁节点使用最小的资源并且不要求硬件设备，不能将Arbiter部署在同一个数据集节点中，可以部署在其他应用服务器或者监视服务器中，也可部署在单独的虚拟机中。为了确保复制集中有奇数的投票成员（包括primary），需要添加仲裁节点做为投票，否则primary不能运行时不会自动切换primary。

1.4 服务器端口分配

1.5 创建用于文件存储目录

以shnode1为例进行目录创建，其他结点操作相同。

创建主目录: /usr/local/shardcluster mkdir -p /usr/lcoal/shardcluster

下载mongodb，并解压到shardcluster目录下（跟单机配置一样，略）创建配置文件目录 mkdir -p /usr/local/shardcluster/configserver/configfile #存储配置服务器的配置文件

mkdir -p /usr/lcoal/shardcluster/configserver/data #存储配置服务器的数据文件

mkdir -p /usr/lcoal/shardcluster/configserver/logs #存储配置服务器的日志文件

创建分片存储的目录 mkdir -p /usr/local/shardcluster/shard/configfile #存储分片服务器的配置文件

mkdir -p /usr/lcoal/shardcluster/shard/shard1_data #存储分片服务器shnode1的数据文件

mkdir -p /usr/lcoal/shardcluster/shard/shard2_data #存储分片服务器shnode2的数据文件

mkdir -p /usr/lcoal/shardcluster/shard/shard2_data #存储分片服务器shnode3的数据文件

mkdir -p /usr/lcoal/shardcluster/shard/logs #存储分片服务器的日志文件

创建路由文件目录 mkdir -p /usr/local/shardcluster/mongos/configfile #存储路由服务器的配置文件

mkdir -p /usr/lcoal/shardcluster/mongos/logs #存储路由服务器的日志文件

ps: 路由服务器不需要存储数据，因此不需要配置数据文件夹创建用于存储各服务器的日志文件 touch /usr/lcoal/shardcluster/configserver/logs/config_server.log #配置服务器的日志文件

touch /usr/lcoal/shardcluster/shard/logs/shard1.log #分片服务器1的日志文件

touch /usr/lcoal/shardcluster/shard/logs/shard2.log #分片服务器2的日志文件

touch /usr/lcoal/shardcluster/shard/logs/shard3.log #分片服务器3的日志文件

touch /usr/lcoal/shardcluster/mongos/logs/mongos.log #路由服务器的日志文件

集群服务器文件目录结构：

2. 部署mongodb

跟单机一样操作，略

3. 部署配置服务器

3.1 创建并编辑配置文件

创建文件

touch /usr/lcoal/shardcluster/configserver/configfile/mongodb_config.conf

编辑该文件

vi /usr/local/shardcluster/configserver/configfile/mongodb_config.conf

3. mongodb_config.conf文件内容

3.2 同步文件到集群中的服务器

使用scp同步文件

scp /usr/local/shardcluster/configserver/configfile/mongodb_config.conf 192.168.1.112:/usr/local/shardcluster/configserver/configfile/mongodb_config.conf

scp /usr/local/shardcluster/configserver/configfile/mongodb_config.conf 192.168.1.113:/usr/local/shardcluster/configserver/configfile/mongodb_config.conf

分别在shnode2和shnode3服务器中修改配置文件，将ip修改成对应的ip地址

shnode2中mongodb_config.conf文件内容 shnode3中mongodb_config.conf文件内容

3.3 启动配置服务器

分别在shnode1, shnode2, shnode3三台机器上启动配置服务器进入到mongodb/bin目录

./mongod -f /usr/local/shardcluster/configserver/configfile/mongodb_config.conf

提示successfully, 启动成功。三台机器都如此。

3.4 配置配置服务器的副本集

选择任一台服务器进行登录。 ./mongo --host 192.168.1.111 --port 27022

初始化副本集rs.initiate()

rs.add('192.168.1.112:27022')

rs.add('192.168.1.113:27022')

查看副本集状态

rs.status()

到此配置服务器副本集配置完成。

4. 部署分片服务器

4.1 创建和编辑配置文件

创建配置文件

在shnode1服务器下分配创建用于三个分片配置文件，分别为mongodb_shard1.conf, mongodb_shard2.conf, mongodb_shard3.conf,

通过三个配置文件启动副本集模式。

touch /usr/lcoal/shardcluster/shard/configfile/mongodb_shard1.conf

touch /usr/lcoal/shardcluster/shard/configfile/mongodb_shard2.conf

touch /usr/lcoal/shardcluster/shard/configfile/mongodb_shard3.conf

分别编辑三个配置文件

mongodb_shard1.conf文件内容如下： mongodb_shard2.conf文件内容如下： mongodb_shard3.conf文件内容如下： 3. 在shnode2中配置三个分片配置文件

mongodb_shard1.conf文件内容如下： mongodb_shard2.conf文件内容如下： mongodb_shard3.conf文件内容如下： 4. 在shnode3中配置三个分片配置文件

mongodb_shard1.conf文件内容如下： mongodb_shard2.conf文件内容如下： mongodb_shard3.conf文件内容如下：

4.2 带配置文件启动分片集群

分别在三台服务器中启动三个分片服务，这里以shnode1为例

./mongod --config /usr/local/shardcluster/shard/configfile/mongodb_shard1.conf

./mongod --config /usr/local/shardcluster/shard/configfile/mongodb_shard2.conf

./mongod --config /usr/local/shardcluster/shard/configfile/mongodb_shard3.conf

登录服务并配置副本集在shnode1中登录服务./mongo --host 192.168.1.111 --port 27018

配置副本集在shnode2中登录服务

./mongo --host 192.168.1.112 --port 27018

在shnode3中登录服务

./mongo --host 192.168.1.113 --port 27018

到此分片副本集配置完成。

5. 部署路由服务器

5.1 创建和编辑配置文件

在shnode1中创建配置文件mongodb_mongos.conf touch /usr/local/shardcluster/mongos/configfile/mongodb_mongos.conf

编辑mongodb_mongos.conf vi /usr/local/shardcluster/mongos/configfile/mongodb_mongos.conf

文件内容如下：将该文件同步到shnode2服务器中 scp mongodb_mongos.conf 192.168.1.112:/usr/local/shardcluster/mongos/configfile/mongodb_mongos.conf

编辑并修改绑定的ip

5.2 启动mongos服务

分别在shnode1,和shnode2中启动mongos服务./mongos -f /usr/local/shardcluster/mongos/configfile/mongodb_mongos.conf

启动成功，说明路由配置服务成功。到此，分片集群搭建成功。

6. 启动分片功能

6.1 登录mongos的客户端

在服务器shnode1中登录mongos的客户端

./mongo --host 192.168.1.111 --port 27021

6.2 向集群中添加分片

向集群中添加分片shard1,shard2和shard3

6.3 查看分片集群状态

sh.status()

或在config数据库中查看shards集合数据

7. 分片的基本操作

7.1 登录mongodb服务

分片集群中的对数据进行操作时，都会通过路由服务器进行分配，因而登录的服务器应该为路由服务器。

./mongo --host 192.168.1.111 27021

7.2 设置分片

指定分片生效

use admin

db.runCommand({enablesharding:"dbname"})

指定数据库需要的分片的集合和片键

db.runCommand({shardcollection:"dbname.collectionname",key:{fieldname:1}})

#要求先要在fieldname字段上建立索引

或者

sh.enableSharding("dbname")

sh.shardCollection("dbname.collectionname",{fieldname:1})

7.3 指定分片的片键

1. 片键的两种模式

hash模式，range模式

2. 使用hash模式分片

记录在各片上的分布比较平均

mongos> sh.shardCollection( "dbname.collectionname", { "fieldname": "hashed" } )

3. 使用range模式分片

mongos> sh.shardCollection( "dbname.collectionname", { "fieldname": 1 } )

要分片的库原来有数据的情况下，先建index，然后再指定片键

mongos> sh.enableSharding("dbname")

mongos> use dbname

mongos> db.collectionname.createIndex( { "fieldname": 1 } )

mongos> sh.shardCollection( "dbname.collectionname", { "fieldname": 1 } )

语法：

sh.shardCollection(namespace, key, unique, options)

设置唯一性主键

mongos> sh.shardCollection( "dbname.collectionname", { "fieldname": 1 } ,{unique:true})

例：设置允许数据库books分片

mongos> sh.enableSharding("books")

mongos> use books

mongos> db.users.createIndex({name:"hashed"})

mongos> use admin

mongos> db.runCommand({"shardcollection":"books.users","key":{"name":"hashed"}})

7.4 生成测试数据集

mongos> use books

mongos> for (var i= 1;i<=100;i++){db.users.insert({"name":"test"+i,"price":i});}

mongos> db.users.count()

mongos> db.users.stats() #查看当前集合下的分片数据

7.5 查看集合是否分片

use dbname

db.collection_name.stats().sharded #返回true表示已分片，false表示未分片

或查看分片数据分布

db.collection_name.getShardDistribution() #可以查看数据分布

或在config库中查询分片信息

db.collections.find({'dropped':{$ne:true},"_id":"dbname.collectionsname"})

7.6 查看分片状态

use dbname

sh.status()

sh.status({"verbose":1})

查看集群状态

mongos>sh.status()

7.6 设置chunk

设置分片chunk块的大小。需要在config数据库中设置

use config

db.settings.save({"_id":"chunksize","value":64})

7.7 开户自动分片

sh.enableAutoSplit() #自动分片

sh.disableAutoSplit()

sh.settings.save({_id:"autosplit","enable":true})

7.8 开户均衡器

sh.startBalancer()

sh.stopBalancer()

sh.isBalancerRunning()

7.9 分片后的数据访问

同单机访问，只是所有的访问操作都是通过mongos完成。

8 分片集群维护

8.1 集群的启停

停止集群服务（1）关闭mongos服务（2）关闭Shard服务在另外两台机器上重复执行上述操作。（3）关闭config server服务三台机器依次关闭config server服务启动集群服务

写在最后

mongodb分片的实质是将数据分散到不同的物理机器，以分散IO，提供并发与吞吐量。 mongodb分片依赖于片键，即任意一个需要开启的集合都需要创建索引。开启分片的集合需要首先在DB级别启用库级分片。 mongodb的分片有分片服务器，配置服务器、路由服务器组成。基于分片可以结合副本集（replicate set）来实现高可用。

金钥匙

数据库 Linux下Mongodb分片集群的搭建与使用

数据库 nosql Python爬虫之使用MongoDB存储数据

数据库 nosql MongoDB下载安装

发表评论取消回复

金钥匙

数据库 Linux下Mongodb分片集群的搭建与使用

数据库 nosql Python爬虫之使用MongoDB存储数据

数据库 nosql MongoDB下载安装

相关文章

发表评论取消回复