网络安全 频道

京东朱健谈大数据实时处理架构的是与非

  【IT168 评论】随着云计算和大数据时代的来临,数据正在以前所未有的速度成为各个领域价值创造的核心驱动力。在此背景下,国内最受关注的数据库技术盛会——2017第八届中国数据库技术大会(DTCC2017)在2017年5月11-13日如约而至。

京东朱建谈大数据实时处理架构的是与非
▲京东大数据技术专家朱健发表精彩演讲

  DTCC2017大会首日,就吸引了众多业内人士到场参加,其中实时计算技术作为首日的主要分论坛之一,给大家带来了诸多干货,赢得了大家的一致好评。其中来自京东的大数据技术专家朱健为我们带来了名为《大数据实时处理架构实践》的技术分享,他认为在当今互联网早已不是蛮荒生长的时代,各大公司也在自己的领域深耕细作,伴随着市场的成熟,如何提供更好的服务、更快的数据决策,成为竞争的关键点。实时计算技术作为其中的一项关键技术,开始在业界广泛流行。如何依据自己的业务,在众多的实时计算技术中做出选择,以及如何处理实时计算中遇到的各种问题,保证数据的效率和正确,成为所有人都要面对的极具挑战的工作。

  在演讲中,朱健首先从三个方面向大家简单了介绍了一下他眼中的实时计算:他认为实时计算是对数据进行实时的流式处理,是业务发展和技术进步的必然需求,其关键点是分布式流式大数据和实时的处理。此外他提到和离线计算相比,实时计算和离线计算基本上一样,只不过更快,其不擅长处理历史数据的缺点正好能互相补充。而因为实时计算的地位和个性到共性的抽象的原因导致其比离线计算出现的晚。

  随后朱健对实时计算的要求进行了简单的介绍,他认为实时计算在功能性上要至少具备MapRed。性能上要具有高吞吐、低延迟的特点,其结果应该可信并具有高可靠性。并举例进行了相关说明。

  最后,朱健对实时计算的选择方面提出了几条建议,首先用户要考虑的是是否真的需要实时计算,要考虑到实时计算的复杂性和价格昂贵的特点。功能性上要考虑多数据流的支持、高阶API。低延时和吞吐量方面,大数据、秒级延迟不建议选用spark,可以考虑storm和flink。而在数据的准确性方面,用户需要确定实时计算框架本身是够支持exactly-once,输入源手否支持exactly-once以及输出组件是否支持exactly-once;此外在程序状态管理上要依靠计算框架,会有加载延迟和升级风险,朱健还建议用户自己实现外部状态管理。在面对程序异常处理和恢复方面,实时系统需要仔细设计和编码,考虑程序如何处理异常程序,如果不能很好地处理,要做出相应的人工预案。

  最后,朱健对实时计算的未来进行了展望并提出了需要改进的建议。他对为什么实时框架已经做过的事情,我们实现的时候还需要再做提出质疑,并认为目前内置状态管理方案不够完美,在异常检测和恢复方面没有标准定义,也没有程序接口,这些都是目前面临且有待解决的问题。

  数据驱动·价值发现

  本届DTCC大会为第八届,本届大会以“数据驱动·价值发现”为主题,汇集来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的120多位技术专家,共同探讨Oracle、MySQL、NoSQL、云端数据库、智能数据平台、区块链、数据可视化、深度学习等领域的前瞻性热点话题与技术。大会共设定2大主场和20个技术专场,吸引了5000多名IT人士参会,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。

0
相关文章