## 一、storm简介
Storm是Twitter开源的一个分布式的实时计算系统,用于数据实时分析,持续计算,分布式RPC等等
## 二、storm指标
低延迟:都说了是实时计算系统了,延迟是一定要低的
高性能:可以使用几台普通的服务器建立环境,结余成本。
分布式:storm 非常适合于分布式场景,大数据的实时计算,你的数据和计算单机就能搞定,那么
不用考虑复杂的问题了。我们所说的单机搞定的情况
可扩展:
容错
可靠性
快速
本地模式
## 三、storm
首先我们拿Hadoop和Storm进行一个简单的对比
Hadoop Storm
系统角色 JobTracker Nimbus
TaskTracker Supervisor
Child Worker
应用名称 Job Topology
组件接口 Mapper/Reducer Spout/Bolt
storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。
storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL
等等。storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度
很快(在一个小集群,每个节点每秒可以处理数以百万计的消息)。Storm的部署和运维
都很快捷。
## 四、Storm集群环境搭建
1、关闭防火墙,修改/etc/host/配置(3台机器的ip可以互相通信)
2、下载jdk
3、搭建zk集群
4、安装python(最好是2.6.6版本以上)
地址:wget
解压:tar zxvf
进行:cd
命令:./configure --prefix =/usr/local/Python2.6.6
命令:make
命令:sudo make install
5、下载并解压Storm发布版本
config
6、修改storm.yaml配置文件
添加zookeeper的节点
storm.zookeeper.server:
- "ip"
- "ip"
- "ip"
nimbus.host: 主节点
storm.local.dir: 存放的目录 data文件夹
ui.port: 18080 端口号 storm 管控台
supervisor.slots.ports:
- 6700
- 6701
- 6702
- 6703
7、启动storm各位后台进程、
8、最后分别进行 source /etc/profile
9、首先启动zookeeper集群,然后分别启动运行storm
主机器 (nimbus运行) storm nimbus &
从机器supervisor运行 storm supervisor &
主机器 ui运行 storm ui & 查看ui
主机器 logviewer运行 storm logviewer & (查看工作日志)
然后在中输入主机器的ip,端口默认8080 这样可以看到storm的一些集群配置
10、