ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
**1.优点** * 高容错性 * 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 * 某一个副本丢失以后,它可以自动恢复。 * 适合大数据处理 * 数据规模:能够处理数据规模达到 GB、TB、甚至 PB 级别的数据。 * 文件规模:能够处理百万规模以上的文件数量,数量相当之大。 * 流式数据访问,它能保证数据的一致性。 * 一次写入,多次读取。文件一旦写入不能修改,只能追加。 * 它能保证数据的一致性。 * 可构建在廉价机器上,通过多副本机制,提高可靠性。 **2.缺点** * 不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。 * 无法高效的对大量小文件进行存储。 * <mark>存储大量小文件的话,它会占用 NameNode 大量的内存来存储文件的目录和块信息</mark>。这样是不可取的,因为 NameNode 的内存总是有限的。 * <mark>小文件存储的寻址时间会超过读取时间</mark>,它违反了 HDFS 的设计目标。 * 不支持并发写入、文件随机修改。 * 一个文件只能有一个线程写,不允许多个线程同时写。 * 仅支持数据 append(追加),不支持文件的随机修改。