eBay:将Hadoop架构延伸到在线业务系统

本届大会上,诸多hadoop领域的知名人士以及权威专家都亲临现场,分享在Hadoop方面的研究成果与尝试,包括Apache软件基金会主席 Doug Cutting先生、威斯康星大学教授Miron Livny以及google、Facebook、EMC、eBuy、IBM、淘宝、华为、支付宝、奇虎、新浪、中兴、曙光、腾讯、人人网、清华大学、英特尔以及百度等学术机构、国际知名公司的资深工程师。IT168编辑在现场有幸采访了ebay公司自动化架构总监Juhan Lee,以下是采访实录。

  问:参加本次hadoop云计算大会,您有何感想?

  Juhan Lee:令人印象深刻,在本次大会上有如此多的对hadoop感兴趣的技术爱好者,非常令人鼓舞。昨天的日程中也有非常多的有意思的环节。

  问:您如何看待Hadoop技术在中国市场的发展潜力?

  Juhan Lee:我认为是非常令人乐观的,我知道中国市场上有很多的专业的参与者,像淘宝、百度等,我知道这些公司实际上也在Hadoop方面做了和ebay类似的尝试,他们也像ebay一样,从开源的技术起步,并在此基础上进行开发,使之能为业务系统服务达成业务目标。因此,我非常看好Hadoop在中国市场的前景。

  问:从您上午的演讲中我们已经知道,ebay已经部署了一个大规模的Hadoop集群,我想问一下,ebay的hadoop之旅从何开始?为什么ebay会选择hadoop技术?

  Juhan Lee:我们的变迁可以说是从一种昂贵的数据管理系统迁移到可扩展、更经济的存储系统,并允许更灵活的管理功能的这样一个过程,在开始的时候,我们也非常谨慎,但渐渐的后来我们开始用Hadoop堆栈支撑业务系统,并取得了良好的效果,这鼓励我们继续在Hadoop方面持续我们的尝试。

  问:能给我们一些数据说明ebay业务系统遇到的挑战吗?例如工作负载?数据规模大小?

  Juhan Lee:数据规模非常大,大概有数十PB。出于一些原因,我可能不方便透露太多的业务数据细节,但我们很有可能是全球最大的Hadoop系统之一。

  问:那么哪些用户应该选择Hadoop系统?是否需要用户规模大到了一定程度才需要Hadoop?

  Juhan Lee:处理数据、并分析其价值在今天已经非常的普遍,我们可以将数据存储在各种纵向扩展的存储或者DBMS(数据管理系统)系统中,而如果你知道应该如何处理和分析你的业务数据,你会根据数据分析的需要把数据结构化,问题在于,一旦你根据某种分析的需要转换数据了之后,当你遇到另一个分析的需求,你需要把所有的工作重新做一遍。用Hadoop这样的系统,我们就能在分析和转换前把所有的数据归档处理,可以根据分析的需要自由的调用。举一个例子,当你去一个卖场的时候,你会试一试鞋子,试一试夹克,也许最后你会买一双鞋子。在传统的数据管理系统中,你必须明确的知道你进到商店是希望买一双鞋,但我们希望实现的是,也许你不知道你到底买什么,你会希望了解更多的信息,试一试夹克或者其他的东西,最后你买了鞋子。内部数据存储是非常重要的,能在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop系统则能够让你不断的尝试。

  问:除了Hadoop,ebay是否有考虑过别的解决方案来解决面临业务压力?

  Juhan Lee:是的,我们可以讨论一些其他的解决方案,但是我们不能离开我们自己的业务背景,我们更多的考虑的是自身的业务挑战,对我们的系统来说,应用传统的会存在一些问题,第一,你需要花费很长的时间来构建你的系统;第二,我们认为是时候搭建一个更为成熟的系统了,应用Hadoop给了我们一个很好的开始,同时能从社区的得到支持,与此同时我们也能给社区带来利益,并且与社区形成双赢。

  问:下一步您会考虑如何继续优化您的系统?

  Juhan Lee:这一点在演讲中略有提及,我们计划延伸我们的Hadoop系统,不仅仅只用于离线的数据系统,还将延伸到在线的业务系统,为此我们需要解决系统延时的问题,使之为实时的在线业务服务。这是我们即将要做的事情。

  问:最后一个问题,Hadoop最早是开源的技术,意味着成本低甚至是免费的,随着越来越多的厂商加入这个阵营,Hadoop开始变得越来越商业化?您如何看待Hadoop的商业化趋势?

  Juhan Lee:我认为这并不是一件坏事情,因为将开源的技术产品化并不是一件容易的事情,如果一个供应商能够以较低的成本提供较为成熟的Hadoop方案,对用户来说也是值得的,问题在于,这项技术和社区发展很紧密,当厂商介入进来后,也许会监控、引导社区的一些观点,会影响社区的发展。