从Strata+Hadoop World 2016 Beijing 看 Alluxio 和 Hadoop
主要看的讲师幻灯片 http://strata.oreilly.com.cn/hadoop-big-data-cn/public/schedule/proceedings
Alluxio(Tachyon) 依然是亮眼的新秀,大概由于是国人主导开发的,在国内接受度越来越高了。从去年开始关注这个项目,还给社区贡献了一小段时间的代码,对 alluxio 还是比较熟悉的,目前来看 alluxio 代码的健壮程度慢慢提高,用于生产环境的部署和维护没什么太大的问题,但 alluxio 还没有一个比较明确的中长期规划,有点看不到未来主要的发展方向或者什么特别的 feature list,而现有代码里比如 lineage API 的功能还很弱,实际上不是很容易利用现有代码去复现 Haoyuan 当年论文中关于 lineage 这一块的东西。目前 alluxio 的亮点除了兼容 HDFS 的 memory layer 存储,就是可接多个底层存储接口的统一视图了吧,把能接的存储都接了之后,再往下怎么扩展呢?另外既然有了分层存储的功能,不考虑自己实现一套可靠的底层分布式存储自己管理?
Hadoop 3.0 的发展展望也有点意思,除去 YARN 以外,erasure coding 大概某些企业内部早都有实现了吧。。存储虚拟化这个概念简直就是和 alluxio 抢生意嘛。。一模一样的统一文件命名空间概念,下面接多个存储接口,真的是有向 alluxio 学习的味道。长远来看,不如 Hadoop 把 alluxio 收编得了,技术架构上比较相似,也都是 java 开发的。从某些实现细节来看,alluxio 其实就是在做类似的重复工作,经典的单 master 多 slave 结构,thrift 用于 rpc 通信,master 使用 zookeeper 来 fail-over 等等。如果 HDFS 朝着 alluxio 的方向演进,变成 memory 为主的多级分层存储结构,这样就真的可以称得上 HDFS 3.0 了,以 Hadoop 的影响力,一统天下指日可待啊。。。
Spark 在数据计算处理框架领域基本上已经成业内标准了,当然流处理方面还是有不少竞争对手的,最近还听说 Google 又搞了个新项目叫 Apache Beam,又想在 Spark、Flink 什么的之上再封装一套统一的编程接口,也是爱折腾。
这世界变化太快,Big Data 在国内还没炒熟捞够项目资金呢,那边厢人家已经热热闹闹的开始喊 Fast Data 的号子了。这浪啊也是一波接着一波,赶紧接着游吧。