MinIO对象存储介绍 - Golang教程网

Minio是GlusterFS创始人之一Anand Babu Periasamy发布新的开源项目。基于Apache License v2.0开源协议的对象存储项目，采用Golang实现，客户端支Java,Python,Javacript, Golang语言。

其设计的主要目标是作为私有云对象存储的标准方案。主要用于存储海量的图片，视频，文档等。非常适合于存储大容量非结构化的数据，例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等，而一个对象文件可以是任意大小，从几kb到最大5T不等。

对象存储的元数据

在对象存储里，元数据包括 account（用户）， bucket， bucket index等信息。Minio没有独立的元数据服务器，这个和GlusterFs的架构设计很类似，在minio里都保存在底层的本地文件系统里。

在本地文件系统里，一个bucket对应本地文件系统中的一个目录。一个对象对应bucket目录下的一个目录（在EC的情况下对应多个part文件）。目录下保存者对象相关的数据和元数据。

如上图所示：在Erasure Set中有4个磁盘：Disk1，Disk2，Disk3，Disk4，四个磁盘组成一个Erasure Set。每个bucket对应一个相应桶名称的目录，每个对象对应bucket的一个目录：目录里保存着对应的数据和元数据文件。

创建bucket的元数据操作：对于Erasure Set(2+2)为例：创建一个bucket，对应底层文件系统的4次目录创建。创建一个文件，需要对应底层4次目录创建，8次文件创建操作。对于小文件，数据和元数据都保存在meta文件中，也需要4次文件创建操作。由此可知，minio对应大量小文件的性能非常差。

数据存储EC

Minio目前数据仅支持EC的数据读写模式，不支持副本模式，也不支持一个集群内的扩容。在Minio的设计里，一个独立的集群中的节点数量和磁盘的数量是都是固定的，后续不能增加。只能以Federation的方式整个集群为单位扩容。

Minio把4~16个磁盘组成一个Erasure Set，每个Erasure Set包含4~16个磁盘，最少4个磁盘，最大16个磁盘，最小需要4个节点。磁盘均匀分布在所有的节点上。

例如：4个节点，每个节点8个磁盘。每个Erasure Set 最大16个磁盘，总共32个磁盘的集群创建2个Erasure Set。每个节点取4块磁盘构成一个独立的Erasure Set中。

例如：5个节点，每个节点10个磁盘：组成了5个Erasure Set，每个节点2个磁盘组成一个Erasure Set。

对象在Erasure Set 中通过Hash均匀分布在所有的Erasure Set中。在Minio中用格式（EC：N），其中N表示EC（M+N），M为数据块的数量，N为校验块parity的数量。Minio的读操作，需要的磁盘数量为：Erasure Set中M个磁盘，写操作需要M+1个磁盘。

EC Set的配置：

对于小文件，数据和元数据都同时保存在对应的xl.meta的文件中。对应大文件的写入，会创建相应的目录，该目录下是对应的part的数据文件和元数据。

由图3可知：当前集群中有2个bucket：test1和test2。 test1中有3个对象：分别是x，y，wget-log三个对象。x是30M的大文件，通过multipart上传到集群中，有2个part，分别为part.1和part.2文件。wget-log文件是一个小文件，大小为357.9KB.

通过图4：可以清晰的看到，每个bucket对应一个同名本地目录，每个对象也对应一个同名的目录，下面存数据和元数据。对应小文件，数据和元数据都保存在 xl.meta的元数据文件中。

故障恢复

Minio的EC的实现逻辑是在客户端实现的。故障分为临时故障和永久故障：

临时故障：客户端会在队列中不断的重试。如果客户端crash，那么就只能依赖读修复或者后台扫描修复了。
永久性故障：如果磁盘故障和节点故障，这时候需要管理员去主动恢复节点（节点重启）或者添加新的磁盘，替换旧的磁盘。替换完成后，Minio的EC Set会主动监测EC set 的所有磁盘的状态，并主动的修复数据。

读恢复：读操作首先读数据，如果数据不完整，会通过parity块来主动修复损坏的EC data block。
后台扫描：Minio后台会不断的扫描数据和校验块是否完整，如果不完整，会在后台启动修复。
手动触发修复：Minio提供命令管理员也可以主动触发修复。

minio扩容

Mino不支持单个集群的扩容。Minio通过Federation模式来实现整个集群扩容。

传统的扩展方式是：通过增加节点来扩展单集群，一般需要处理数据寻址和数据均衡。minio 不支持对单个集群进行扩展。这种设计使得系统的很多模块更加简单（比如一个对象转换到它所在的纠删组，运用简单的哈希即可），降低了整个系统出错的概率，使得MinIO对象存储系统更加可靠、稳定。但是这就需要部署前规划好集群的大小和部署方式，相对不够灵活。

Federation 依赖2个组件：

etcd (用于存储桶DNS服务记录)
CoreDNS (用于基于填充的桶式DNS服务记录的DNS管理，可选)

Minio的Federation模式的扩容：只能用于新的bucket模式。Etcd 用于记录bucket 和集群的映射关系。CoreDNS 用于域名解析。

如图5所示：每个minio cluster把自己的信息注册到etcd里。一个bucket 只能存储在一个集群中。Application通过coreDNS来调度bucket对应的集群，coreDNS通过各种负载均衡的算法来分配bucket访问的集群。读取时，通过etcd来获取bucket对应的集群信息。

对象存储的其它功能

Bucket and Object tag

支持给bucket和对象打标签。目前Buceket 和 Object 的 tag 保存在对应的元数据文件中。

minio gateway

minio gateway功能可用不使用自带的Erasure Code Set存储系统，可以直接对接第三方的对象存储（AWS，GCS，Azure等其他公有云），NAS，HDFS等存储系统，从而通过s3直接访问上述系统。这个功能为已有的NAS，HDFS等系统提供S3接口提供了极大的方便。

多租户

每个租户可以有一套独立的minio server集群，部署在相关的节点和磁盘上。不同租户Server的端口不同，对应的磁盘的数据目录不同。

支持Bucket Quota

minio 支持bucket级别的配额管理。

Bucket replication

Minio支持bucket之间同步或异步的复制。支持两种模式：server side 和 client side，也支持 active-passive 和 active-active模式。

Server-sidde Bucket Replication 支持后端相同的MinIO Cluster之间的同一个集群或者远程集群之间的数据复
Client-side Bucket Replication通过mc mirror进程实现桶的数据在 S3接口兼容的集群之间完成数据复制。client-side的复制模式有两种：同步和异步两种复制模式。同步的模式就是当数据完全复制到2个集群中，才给客户端完成上传成功的应答。Minio模式为异步复制模式。

Storage Class

Minio目前支持两种模式的存储级别：STANDARD 和 REDUCED_REDUNDANCY，其区别仅仅是 EC 模式下 parity block 数量的不同。REDUCED_REDUNDANCY的parity小于等于STANDARD的parity的数量。STANDARD默认EC:4，REDUCED_REDUNDANCY默认 EC:2模式。

Disk Cache

Minio 可用用本地磁盘做Cache：实现的是 Write-Through 和 Write-Back两种模式。

DiskCache主要的应用场景是：Edge Server做为Gateway Cache，通过在application 和 public cloud 设置一个writethrough缓存。所有的upload操作都是 write through模式，同时写cache 和 public cloud存储。download操作可用就近访问本地的Cache。对于WriteBack，本地缓存可能有数据丢失的风险，如果应用场景可以接受，也可以使用这种缓存模式。

MINIO_CACHE_QUOTA 设置缓存容量大小。通过LRU算法来实现缓存淘汰。MINIO_CACHE_WATERMARK_LOW和 MINIO_CACHE_WATERMARK_HIGH 用来控制缓存空间的低位和高位。MINIO_CACHE_AFTER设置一个对象缓存需要的最小访问次数。MINIO_CACHE_RANGE可以设置对象的rang 访问是否要缓存。MINIO_CACHE_COMMIT设置缓存的模式：writeback 或者writethrough模式。MINIO_CACHE_EXCLUDE可用设置某些模式的文件名不缓存。

Bucket notifications机制：当mino中有bucket或者对象相关的创建，删除等事件，可以同步到外部到系统。目前支持如下列表的外部系统：

生命周期

Minio支持对象生命周期的管理。

WORM

支持WORM数据保护的功能

多版本

Minio支持对象的多版本。

压缩加密

支持压缩和加密

桶策略

支持bucket policy功能

s3 select

支持部分S3 Select功能

总结

Minio的类似于glusterfs是一个无中心元数据服务器的设计。其index还是依赖底层本地文件系统，导致当bucket 保存大量对象时， bucket list操作很慢。
Minio目前只支持EC的模式。

针对大文件的场景比较合适，由于设计简单，能发挥出磁盘等硬件的性能。目前看到的minio的应用场景也主要是替代HDFS的大数据的场景。
EC默认推荐的配置是EC（M+N），其中M=N的模式，也就是数据盘和冗余盘相等的模式。例如 EC(4+4),EC(8+8)等模式，这种配置磁盘空间的利用率只有50%左右。对于大文件，大容量的情况，似乎空间浪费还是比较严重。社区后续也支持自己设置EC的模式，考虑到可靠性，目前官方不推荐使用。
针对海量小文件场景，EC显然不合适，无论是元数据还是数据存储模式都不合适，性能比较差，空间利用率比较差。

Minio的扩容也只支持集群扩容。并且新的集群只能存储新创建的bucket的数据。这对应用来说很不友好。
故障恢复：在单个集群里，节点或者磁盘都是固定的，不能动态的增加。所以磁盘或者节点失效后需要管理员人工介入，及时更换新的磁盘或者修改未能成功启动的磁盘，然后管理员通过命令才能在后台恢复数据。
其它对象存储的功能支持的比较全: 存储分级，生命周期，WORM，压缩加密，多版本，桶策略，桶复制等功能。

综上所述：Minio对象存储系统适用于大文件场景，海量小文件的场景下并不适合。通过Federation扩容的方式适用于新创建的bucket的场景。 对于Minio的架构设和设计，笔者并不特别看好，其和glusterfs类似，适合特定的场景，对于Minio的未来，笔者也不看好。

参考：