概述

新闻: 我们在数据管理领域顶级会议VLDB 2014上组织了大数据基准测试程序,性能优化和新型硬件研讨会,欢迎投稿.由LNCS 出版

敬请关注. 我们近期会升级数据分析基准测试程序,并报告Shark, Impala和Hive性能数据.

BigDataBench是一个抽取Internet典型服务构建的大数据基准测试程序集[细节见HPCA 2014录用的总结论文PDF 和口头报告 (.ppt) ]。BigDataBench 覆盖了微基准测试(micro benchmarks)、Cloud OLTP、关系查询、搜索引擎、社交网络和电子商务六种典型应用场景,包含十九种不同类型的负载和六种不同类型的数据集。在抽象的操作和模式集合基础上,BigDataBench 构建了代表性和多样性的大数据负载(参见我们的DASFAA 2014 论文)。此外还提供了数据生成工具–BDGS。该工具能在保留原始数据特性的基础上以小规模真实数据生成大规模数据。目前BDGS支持代表性文本数据、图数据和(数据库)表数据。BigDataBench为相同的负载提供不同的实现。例如,目前我们和其他实现者为离线负载提供了MapReduce, MPI, Spark和 DataMPI实现。已有不少用户在使用BigDataBench进行各种研究, 如负载特征的刻画,硬件系统的评测等。

使用许可

BigDataBench的组件可作为开源软件使用,并遵循Aapche 2.0的开源许可条例。同时对于BigDataBench中集成的其他开源软件组件,请有意使用者充分了解并遵守各组件相应的许可条款。

基准测试程序

BigDataBench 2.2覆盖了六类应用场景,包含了19种不同的负载程序和6个典型数据集。

1: 数据集概述

序号 数据集 数据规模

1

维基百科条目

4,300,000篇英文文章

2

亚马逊电影评论

7,911,684条评论

3

谷歌网页图数据

875,713个节点,5,105,039条边

4

Facebook社交网络

4,039个节点,88,234条边

5

电子商务事务数据

表1:4列,38,658行

表2:6列,242,735行

6

ProfSearch个人简历数据

278,956 份简历

2:负载概述

应用场景

操作与算法

数据类型

数据源

软件栈

应用程序类型

微基准测试(Micro Benchmarks)

Sort

非结构化

文本数据

MapReduce, Spark, MPI

离线分析

Grep

非结构化

文本数据

MapReduce, Spark, MPI

离线分析

WordCount

非结构化

文本数据

MapReduce, Spark, MPI

离线分析

BFS

非结构化

图数据

MapReduce, Spark, MPI

离线分析

Cloud OLTP

Read

半结构化

表数据

Hbase, Cassandra, MongoDB, MySQL

在线服务

Write

半结构化

表数据

Hbase, Cassandra, MongoDB, MySQL

在线服务

Scan

半结构化

表数据

Hbase, Cassandra, MongoDB, MySQL

在线服务

关系查询

Select Query

结构化

表数据

Impala, Shark, MySQL, Hive

实时分析

Aggregate Query

结构化

表数据

Impala, Shark, MySQL, Hive

实时分析

Join Query

结构化

表数据

Impala, Shark, MySQL, Hive

实时分析

搜索引擎

Nutch Server

结构化

表数据

Hadoop

在线服务

PageRank

非结构化

图数据

Hadoop, MPI, Spark

离线分析

Index

非结构化

文本数据

Hadoop, MPI, Spark

离线分析

社交网络

Olio Server

结构化

表数据

MySQL

在线服务

Kmeans

非结构化

图数据

Hadoop, MPI, Spark

离线分析

Connected Com-ponents

非结构化

图数据

Hadoop, MPI, Spark

离线分析

电子商务

Rubis Server

结构化

表数据

MySQL

在线服务

Collaborative Filtering

非结构化

文本数据

Hadoop, MPI, Spark

离线分析

Naive Bayes

非结构化

文本数据

Hadoop, MPI, Spark

离线分析

下载

下载用户手册

Big Data Bench 2.2的用户手册:[Doc]

下载原始数据集

No.

数据集

描述信息

1

Wikipedia Entries

Wiki.bz2

Size:[9.8GB]

2

Amazon Movie Reviews

AMR.tar.gz

Size:[3.1GB]

3

Google Web Graph

GWG.bz2

Size:[23MB]

4

Facebook Social Network

FSN.bz2

Size:[220KB]

5

E-commerce Transaction Data

ECT.tar.gz

(Available soon)

6

ProfSearch Person Resumes

PPR.tar.gz

(Available soon)

下载软件包

我们提供两种下载方式:一次全部下载或者一个组件一个组件地逐步下载。请注意在使用每个基准测试程序之前,请下载它所依赖的软件, 详情参见用户手册。

以下为推荐的依赖软件包集合, 运行平台均为Linux平台。

Software Version Download
Hadoop 1.0.2 http://hadoop.apache.org/#Download+Hadoop
HBase 0.94.5 http://www.apache.org/dyn/closer.cgi/hbase/
Cassandra 1.2.3 http://cassandra.apache.org/download/
MongoDB 2.4.1 http://www.mongodb.org/downloads
Mahout 0.8 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads
Hive 0.9.0 https://cwiki.apache.org/confluence/display/Hive/GettingStarted #GettingStarted-InstallationandConfiguration
Spark 0.8.0 http://spark.incubator.apache.org/
Impala 1.1.1 http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_install.html
MPICH 2.0 http://www.mpich.org/downloads/
Boost 1_43_0 http://www.boost.org/doc/libs/1_43_0/more/getting_started/unix-variants.html
Scala 2.9.3 http://www.scala-lang.org/download/2.9.3.html
GCC 4.8.2 http://gcc.gnu.org/releases.html
GSL 1.16 http://www.gnu.org/software/gsl/

安装包下载

Hadoop+Hive 版本: BigDataBench_V2.2.tar.gz

MPI 版本: BigDataBench_MPI_V2.2.tar

Spark 版本: BigDataBench_Sprak_V2.2.tar

DataMPI 版本: BigDataBench_DataMPI (即将发布)

按负载单独下载

你可以根据表的内容一个部件一个部件地逐步下载BigDataBench

表3:BigDataBench 数据集和数据生成工具下载

工具名称

描述信息

数据生成工具

(基于六个原始数据集生成大数据)

Text

BigDataGeneratorSuite.tar.gz

Size: 9.82MB

Graph

Table

 

表4:BigDataBench负载下载(包括数据生成和负载运行脚本)

负载

名称

描述信息

Micro Benchmarks

Sort

MicroBenchmarks

Hadoop , MPI, Spark

Size: 10KB

Grep

WordCount

BFS

MPI版本: BFS_MPI.tar.gz;

Size: 4.7MB

Basic Datastore Operations (“Cloud OLTP”)

Read

BasicDatastoreOperations.tar.gz

Size: 93.7MB

Write

Scan

Relational Query

Select Query

Hive 版本: RelationalQuery.tar.gz;

Size: 1.9KB

Aggregate Query
Join Query

Search Engine

Nutch Server

Nutch 版本: Nutch_Server.tar.gz Size: 178MB

用户手册: [PDF]

索引和快照数据: [Data] Size: 4.98GB

Indexing

SearchEngine.tar.gz

Hadoop, MPI, Spark

Size: 177.9MB

PageRank

SNS

Olio Server

Olio.tar.gz

Size: 237MB

Kmeans

SNS.tar.gz

Hadoop, MPI, Spark

Connected component

E-commerce

Rubis Server

Rubis.tar.gz (即将发布)

Collaborative Filtering

E-commerce.tar.gz

Hadoop, MPI, Spark

Size: 4.32MB

Naive Bayes

论文与报告

引用

如果您需要引用BigDataBench, 请引用以下与你的研究直接相关的工作:

BigDataBench: a Big Data Benchmark Suite from Internet Services. [PDF]

Lei Wang, Jianfeng Zhan, Chunjie Luo, Yuqing Zhu, Qiang Yang, Yongqiang He, Wanling Gao, Zhen Jia, Yingjie Shi, Shujie Zhang, Cheng Zhen, Gang Lu, Kent Zhan, Xiaona Li, and Bizhu Qiu. The 20th IEEE International Symposium On High Performance Computer Architecture (HPCA-2014), February 15-19, 2014, Orlando, Florida, USA.

BigOP: generating comprehensive big data workloads as a benchmarking framework. [PDF]

Yuqing Zhu, Jianfeng Zhan, ChuliangWeng, Raghunath Nambiar, Jingchao Zhang, Xingzhen Chen, and Lei Wang. The 19th International Conference on Database Systems for Advanced Applications (DASFAA 2014), 2014.

BDGS: A Scalable Big Data Generator Suite in Big Data Benchmarking. [PDF]

Zijian Ming, Chunjie Luo, Wanling Gao, Rui Han, Qiang Yang, Lei Wang, and Jianfeng Zhan. Lecture note in computer sciences, Extended for The fourth workshop on Big Data Benchmarking, 2014.

BigDataBench: a Big Data Benchmark Suite from Web Search Engines

Wanling Gao, Yuqing Zhu, Zhen Jia, Chunjie Luo, Lei Wang, Jianfeng Zhan, Yongqiang He, Shiming Gong, Xiaona Li, Shujie Zhang, and Bizhu Qiu. Third Workshop on Architectures and Systems for Big Data(ASBD 2013) in conjunction with The 40th International Symposium on Computer Architecture, May 2013.

报告:

BigDataBench: A big data benchmark suite

Jianfeng Zhan, Professor, invited talk at Third Workshop on Big Data Benchmarking. 2013.

Research Highlights of BPOE

Jianfeng Zhan, Professor, invited talk at Forth Workshop on Big Data Benchmarking 2013. [PPT]

BigDataBench: Benchmarking Big Data Systems

Yingjie Shi, Assistant professor, invited talk at First Workshop on Big Data Benchmarks, Performance Optimization, and Emerging Hardware, In conjunction with IEEE Big Data 2013.[PPT]

Benchmarking Datacenter and Big Data Systems

Jianfeng Zhan, professor, invited talk at Third Workshop on Big Data Benchmarking 2013 [PPT]

BigDataBench: a Big Data Benchmark Suite from Web Search Engines

Jianfeng Zhan, professor, Third Workshop on Architectures and Systems for Big Data(ASBD 2013) in conjunction with The 40th ISCA 2013. [PPT]

BigDataBench: a Benchmark Suite for Big Data Application

WanlingGao, Ph.D candidate, the 19th IEEE International Symposium on High Performance Computer Architecture (HPCA 2013) Tutorial [PPT]

The Implications of Diverse and Scalable Data Sets in Benchmarking Big Data Systems

Zhen Jia, Ph.D candidate, Second Workshop on Big Data Benchmarking 2012 [PPT]

 

新闻

2014-1-14, 我们另外一篇有关BigDataBench论文被数据管理领域会议DASFAA 2014 (CCF B类)接收.

2014-1-4, 我们有关BigDataBench 的论文被系统结构顶级会议HPCA 2014接收[PDF]

2013-11-22,詹剑锋研究员访问IBM Austin Research Laboratory,并做有关BigDataBench的报告。

2013-10-9, 詹剑锋研究员在第四届WBDB workshop做受邀报告。

2013-10-8, BigDatabench 2.0发布。

2013-10-8,史英杰助理研究员在与IEEE Big Data 大会联合举办的第一届BPOE workshop上做受邀报告。

2013-6-25, 詹剑锋研究员在与第四十届ISCA大会联合举办的ASBD workshop上做BigDataBench报告。[PPT]

2013-6-25, BigDatabench 1.0 发布

2013-6-16, 詹剑锋研究员在第三届WBDB workshop做受邀报告。[PPT]

2013-2-24, 高婉玲博士生在HPCA 2013 做Tutorial报告。[PPT]

 

BigDataBench 用户

(如果你希望将和BigDataBench相关的项目和论文放到这里,请给zhanjianfeng@ict.ac.cn 写信)

有关BigDataBench的评论

(1) 李国杰 (中国工程院院士), 大数据对计算机系统的挑战, 《中国计算机学会通讯》第9卷第12期 2013年12月刊。

(2) Nicole Hemsoth (HPCWire Editor), Toward Comprehensive Big Data Benchmarking. 2014.1.3

使用BigDataBench的项目

(1) DataMPI, 徐志伟研究员, 梁帆 (中科院计算所), 鲁小亿博士(俄亥俄州立大学),

使用BigDataBench的研究论文

1. 负载 Characterization

Zhen Jia, Lei Wang, Jianfeng Zhan, Lixin Zhang, Chunjie Luo.Characterizing data analysis workloads in data centers. [PDF] [Slides]. 2013 IEEE International Symposium on Workload Characterization (IISWC 2013)Best paper award

Xiong, W., Yu, Z., Bei, Z., Zhao, J., Zhang, F., Zou, Y., … & Xu, C. (2013, October). A characterization of big data benchmarks. In Big Data, 2013 IEEE International Conference on (pp. 118-125). IEEE.

2. 评测大数据硬件系统

Quan, J., Shi, Y., Zhao, M., & Yang, W. (2013, October). The implications from benchmarking three big data systems. [PDF]. In Big Data, 2013 IEEE International Conference on (pp. 31-38). IEEE.

3. 大数据系统性能诊断与优化

Chen, P., Qi, Y., Li, X., & Su, L. (2013, October). An ensemble MIC-based approach for performance diagnosis in big data platform. [PDF]. In Big Data, 2013 IEEE International Conference on (pp. 78-85). IEEE.

4. 评估与优化大数据系统能耗效率

Zhou, R., Shi, Y., & Zhu, C. (2013, October). AxPUE: Application level metrics for power usage effectiveness in data centers. [PDF]. In Big Data, 2013 IEEE International Conference on (pp. 110-117). IEEE.

5. 评测与优化虚拟化系统

Ning, F., Weng, C., & Luo, Y. (2013, October). Virtualization I/O optimization based on shared memory. [PDF]. In Big Data, 2013 IEEE International Conference on (pp. 70-77). IEEE.

引用BigDataBench的其他论文

1. 数据中心资源管理

Jianfeng Zhan; Lei Wang; Xiaona Li; Weisong Shi; Chuliang Weng; Wenyao Zhang; Xiutao Zang, “Cost-Aware Cooperative Resource Provisioning for Heterogeneous Workloads in Data Centers,” Computers, IEEE Transactions on , vol.62, no.11, pp.2155,2168, Nov. 2013

2. Hadoop系统评测与优化

Liu, S., Xu, J., Liu, Z., & Liu, X. (2013, October). Evaluating task scheduling in hadoop-based cloud systems. In Big Data, 2013 IEEE International Conference on (pp. 47-53). IEEE.

 

参与人员名单

联系方式

Email:

zhanjianfeng@ict.ac.cn

wl@ncic.ac.cn

ICTBench

http://prof.ict.ac.cn/ICTBench

大数据基准测试程序研讨会

http://prof.ict.ac.cn/bpoe