Hadoop和Cassandra基准testing

我最近build了一个HadoopCloudera clusterCassandra集群,有2个节点。 我想现在做一些基准testing,收集一些关于资源使用情况的数据。 我search了很多,findHiBenchCassandra压力工具。 我不想和其他系统比较,我想自己摸索一下,但很难想象,我怎么才能得到真正正确的价值。 集群由2个虚拟机组成,由KVM创build。 CassandraDocker容器中。 很难解释,如何分析这个系统,没有得到错误的结果。

一些言论

集群由2个虚拟机组成,由KVM创build

如果要基准testing性能,请不要使用虚拟机。 的确,Cassandra在磁盘上执行顺序写入来优化扫描操作。 通过使用虚拟机和共享磁盘,连续写入的好处将会丢失,因为pipe理程序可以重新sorting和分配不同磁盘扇区上的连续数据,从而破坏先前的顺序扫描优化

另一种方法是确保每个虚拟机都有一个专用磁盘

如果您没有执行性能基准testing,请忽略上述评论

第二个build议,使用真正的数据集,例如不适合内存的大数据集,以便您可以看到每种技术的行为。 阅读这个更多的细节: http : //www.nextplatform.com/2016/02/19/the-myth-of-in-memory-computing/

您可以使用雅虎云服务基准testing您的Cassandra群集。 下面是它的链接和相应的git仓库。

https://research.yahoo.com/news/yahoo-cloud-serving-benchmark/ https://github.com/brianfrankcooper/YCSB

该基准非常灵活,并且可以更改很多参数以充分了解群集的行为和属性。 但是,这个框架的一个关键缺点是它默认使用随机数据。 但是,您可以调整代码以将其用于自己的数据,然后,它可能适合您的需要。