NIUCLOUD是一款SaaS管理后台框架多应用插件+云编译。上千名开发者、服务商正在积极拥抱开发者生态。欢迎开发者们免费入驻。一起助力发展! 广告
数据量小的时候无所谓,数据量大的情况下,由于于`COUNT DISTINCT`操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般`COUNT DISTINCT`使用先`GROUP BY`再`COUNT`的方式替换。 ```sql hive (default)> select count(distinct id) from bigtable; 优化如下: hive (default)> select count(id) from (select id from bigtable group by id) a; ```