Hadoop和Cassandra基准testing

我最近build了一个Hadoop – Cloudera cluster和Cassandra集群，有2个节点。我想现在做一些基准testing，收集一些关于资源使用情况的数据。我search了很多，findHiBench和Cassandra压力工具。我不想和其他系统比较，我想自己摸索一下，但很难想象，我怎么才能得到真正正确的价值。集群由2个虚拟机组成，由KVM创build。 Cassandra在Docker容器中。很难解释，如何分析这个系统，没有得到错误的结果。

一些言论

集群由2个虚拟机组成，由KVM创build

如果要基准testing性能，请不要使用虚拟机。的确，Cassandra在磁盘上执行顺序写入来优化扫描操作。通过使用虚拟机和共享磁盘，连续写入的好处将会丢失，因为pipe理程序可以重新sorting和分配不同磁盘扇区上的连续数据，从而破坏先前的顺序扫描优化

另一种方法是确保每个虚拟机都有一个专用磁盘 。

如果您没有执行性能基准testing，请忽略上述评论

第二个build议，使用真正的数据集，例如不适合内存的大数据集，以便您可以看到每种技术的行为。阅读这个更多的细节： http : //www.nextplatform.com/2016/02/19/the-myth-of-in-memory-computing/

您可以使用雅虎云服务基准testing您的Cassandra群集。下面是它的链接和相应的git仓库。

https://research.yahoo.com/news/yahoo-cloud-serving-benchmark/ https://github.com/brianfrankcooper/YCSB

该基准非常灵活，并且可以更改很多参数以充分了解群集的行为和属性。但是，这个框架的一个关键缺点是它默认使用随机数据。但是，您可以调整代码以将其用于自己的数据，然后，它可能适合您的需要。

Hadoop和Cassandra基准testing

当我的应用程序中的性能退步基准testing中，我可以使用虚拟化来控制主机性能的差异吗？

fio：数据集的块大小太大

在云中进行基准testing

Docker和OpenStack基准testing