Intel王道远安利如何拥抱大数据云服务-网络安全专区

Intel王道远安利如何拥抱大数据云服务

作者：高博编辑：高博 2017-05-13 17:05 IT168网站原创

　　【IT168 评论】随着云计算和大数据时代的来临，数据正在以前所未有的速度成为各个领域价值创造的核心驱动力。在此背景下，国内最受关注的数据库技术盛会——2017第八届中国数据库技术大会(DTCC2017)在2017年5月11-13日如约而至。

　　大会第二日，我们为大家带来了大数据云专场，将云和大数据有机的结合在一起时一个比较大的话题，论坛中我们邀请到了Intel亚太研发工程师王道远先生进行分享，接下来让我们走进大数据云服务，共同感受下大数据云服务的独特魅力：

▲Intel亚太研发工程师王道远

　　首先王道远向我们简单的介绍了Spark SQL，他认为随着Spark的广泛应用，在数据仓库中用Spark SQL进行批量查询已经较为常见。尽管Spark SQL已经能支持对丰富的数据源进行高效的数据处理，但对于秒级的查询需求，Spark SQL还有不足之处，而很多企业对此也有很大需求。并对相关的优化意见进行了简单的介绍：

　　他认为大规模数据集上的数据查询还不够快，以及定时任务式的作业更新结果不够及时。他提到Spark是为通用计算而设计的分布式计算引擎，针对即席查询，还可以进一步优化。

Intel王道远安利如何拥抱大数据云服务

　　此外还向我们介绍了基于Spark SQL开发的开源解决方案：Spinach，他提到Spinach正是为了满足秒级甚至更高要求的即席查询需求。他提到了Spinach的几大优势：

　　成本低：能够充分利用现有硬件环境，开源软件。

　　效果好：能够类似传统数据库的索引，实测5倍性能提升。

　　简单易用：部署简单、维护方便、符合用户使用习惯。

　　具体来说，Spinach以Fiber为基本单位提供了一套细粒度的分层缓存机制，将数据缓存在堆外内存中，可以有效加速数据的加载。同时，Spinach拓展了Spark SQL的DDL，允许用户自定义索引，目前支持B+树索引和布隆过滤器，可以让用户根据数据特点定义高效的索引，进一步减少IO操作，提升查询效率。Spinach运行时与Spark SQL共享同一个进程，不会引入额外的维护成本。

　　数据驱动·价值发现

　　本届DTCC大会为第八届，本届大会以“数据驱动·价值发现”为主题，汇集来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的120多位技术专家，共同探讨Oracle、MySQL、NoSQL、云端数据库、智能数据平台、区块链、数据可视化、深度学习等领域的前瞻性热点话题与技术。大会共设定2大主场和20个技术专场，吸引了5000多名IT人士参会，为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。

关注我们

Intel王道远安利 如何拥抱大数据云服务

Intel王道远安利如何拥抱大数据云服务