来源:Gitee 封面人物 丨 2022-08-11
本期嘉宾:
代立冬: DataOps 平台「白鲸开源」联合创始人,Apache 顶级项目 Apache DolphinScheduler PMC Chair, Apache SeaTunnel Mentor(孵化器导师)。创业者、开源人、孵化器导师......多元身份集于一身。
Apache DolphinScheduler :2021 年 4 月 9 日, DolphinScheduler 正式成为 Apache 顶级项目,这是首个由国人主导并贡献到 Apache 基金会的大数据工作流领域的顶级项目。2022 年 8 月 10 日,在经过 3.0.0 alpha、3.0.0-beta-1、3.0.0-beta-2 不断验证之后,Apache DolphinScheduler 正式发布第三个大版本。
目前 Apache DolphinScheduler 已经被阿里、腾讯、华为等 1000+ 家公司在生产环境上使用,同时社区有超过万实名认证用户群,以及来自 200 多家公司的 360+ 贡献者,并获得了2021 中国开源云联盟优秀开源项目奖、2021 OSC 最受欢迎项目等奖项,入选可信开源社区共同体预备成员。
「代立冬」: 大家好,我是云原生 DataOps 平台开发商「白鲸开源」联合创始人代立冬,也是大数据工作流调度 Apache DolphinScheduler PMC Chair(项目管理委员会主席,通常是项目发起者或是领军人物) & 新一代云原生数据集成平台 Apache SeaTunnel Mentor (孵化导师),还是 Apache Foundation Member 和 Apache 孵化器导师。我目前的精力主要放在做大数据调度和数据集成方向。
「代立冬」: 「白鲸开源」是一家依托 Apache 开源项目孵化的开源商业化公司,致力于打造下一代云原生 DataOps 平台,为企业提供整体 DataOps 解决方案,助力企业在大数据和云时代,智能化地完成海量数据的处理、调度和治理。
我们也是全球拥有最多 Apache Foundation Member 的创业公司,已经主导了 2 个十分主流的 Apache 开源项目,其中作为 DataOps 核心与灵魂的 DolphinScheduler 已有 1000+ 家公司使用,作为DataOps 关键组成的 SeaTunnel 也已有 100+ 家公司使用。除此之外,DataOps 与开源关系十分密切,我们对开源的理解、对开源文化的认同是刻在公司的 DNA 里的,未来有一个小目标是希望企业能走向全球化。
「代立冬」: DataOps 能在数字化转型和数智化升级中,提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力,它是基于敏捷、DevOps 和统计过程控制等软件开发思想所构建。实际上,DataOps 里的「Ops」确实是从 DevOps 概念发展引申而来。
具体地说,DataOps 拥有以下优势:
1.缩短部署分析解决方案的周期时间
2.降低数据缺陷
3.减少解决数据缺陷所需的时间
4.最大限度地减少数据孤岛
用一句话总结 DataOps 是: DataOps 构建了一套能够降低大家使用、分析数据门槛的数据体系,让数据能力变得平民化。
「代立冬」: 我比较同意前一种说法,一直以来大家对数据中台没有统一的概念,一百个人眼中有一百种中台,而 DataOps 是数据中台的最佳实践,由一套完整的方法论和技术产品栈来支撑数据中台的落地。
「代立冬」: 2009 年,我开始编程时就接触了开源。一开始是因为使用开源项目过程中发现了一些“小 Bug” 顺手就修复了,后来自己也逐渐开始“造轮子”。
我认为,踏上软件开发这条路比较适合我这种 “草根”, 只要技术实力够强就可以找到挺好的工作 ,这样看软件开发算是个比较纯粹的职业!
「代立冬」: 开源在发展到一定程度上必须进行商业化才能更好的、长期的发展。开源和商业化可以相互作用形成飞轮效应,通过开源做成事实标准,然后将标准应用到商业化就水到渠成了,这样也会有更多资源再投入到开源建设中。去年 DolphinScheduler 孵化结束正式成为 Apache 顶级项目,彼时开源商业化浪潮刚好兴起,所以说我成为创业者属于“顺势而为”吧。
其实选择创业并真正成立公司是没有后悔药吃的,而且身上的担子,手头的事情相比之前更多了。不过能有不一样的经历不仅丰富自己的阅历,也是很有成就感的,尤其是看到有更多资源投入到 DolphinScheduler 、SeaTunnel 上,让我更加坚定了中国开源走向世界大舞台的初衷。
「代立冬」: 开源项目踏上商业化的路程说明国内开源商业化氛围越来越好了,“百花齐放百家争鸣”是我乐意看到的景象,而且我相信未来几年一定有开源做的非常棒的项目能登上国际舞台。
开源项目商业化最难的其实是评估产品是否真的有商业化价值,产品的调性决定了发展的上限,商业化产品从 0 到 1 的阶段包含产品的打磨,产品和市场需求的匹配度(Product Market Fit)等等。换句话说,只有解决真实痛点的商业化产品才有客户愿意买单。
「代立冬」: DolphinScheduler 最早是为了解决数据处理过程存在的诸多痛点而诞生的。如果你用过 Oozie、用过 Azkaban、也用过 Airflow,就会发现没有一款简单易用且稳定的工作流调度系统,经常需要半夜起来修调度,这是非常痛苦的。因此, DolphinScheduler 的 Slogan 就是:工具选的好,下班回家早;调度用的对,半夜安心睡。
我们希望不只是工程师才能用上调度,更多的比如分析师和数据科学家也可以十分轻松地使用 DolphinScheduler,DolphinScheduler 最早的名字叫 “EasyScheduler”,也可以看出我们的初衷。DolphinScheduler 的中文名是“海豚调度”,海豚是左右脑换班工作的,终生不用睡觉,这像极了调度需要的稳定高可用特性,所以就起名为海豚调度了。
「代立冬」: 首先 Apache 大数据项目一般是围绕动物起名字,比如 Kylin、Hive、Dolphin 等都是动物就挺好,但我们把商业化产品叫“鲸鱼(Whale)”是因为产品体积更大,象征着商业产品的品质。另外考虑到鲸油曾经是极其重要的能源,在工业文明发展中扮演了非常重要的角色,这也是我们的期望。
「代立冬」: DolphinScheduler 进入 Apache 孵化器是一个比较曲折的故事。当时国内能带项目的 Apache Foundation Member 不超过 5 个,他们都非常忙,但进入孵化器需要一个 Champion(领路人)加 3 位孵化器 Mentor(导师)才可以,因为孵化过程需要花 Mentor 大量时间和精力指导项目的规范性发展。那时我们也是十分幸运,Apache Kylin 社区的 Luke 和史少锋老师引荐了 Skywalking 社区的吴晟老师作为我们的 Champion,DolphinScheduler 才得以进孵化器。
我觉得进入这种世界顶级的孵化器是不容易的,有一个不算恰当的比喻:进孵化器比考清华等要难。毕竟中国一年有那么多新生的开源项目,但能进 Apache 孵化器的寥寥无几。重要的是 DolphinScheduler 在 Apache 基金会经历了脱胎换骨的孵化过程,我有时会感叹进孵化器前尽管我们“玩”的也是不亦乐乎,但充其量也就是个开源小白。
「代立冬」: DolphinScheduler 与 SeaTunnel 致力于解决的问题虽然不同,但二者其实可以很好地结合形成组合拳产品,经历过 DolphinScheduler 的完整孵化过程,可以说我们对如何做好开源更加如鱼得水了,对 SeaTunnel 的孵化会更容易一些,不过 SeaTunnel 还在孵化中,需要更多贡献者参与一起开源共建。
「代立冬」: 其实没有统一标准,不过大原则是开源项目需要有原创性创新、有一定的开源社区用户基础,而且项目作者以及所在公司愿意遵循 Apache 基金会的贡献协议,当然也会看项目潜力,孵化终究是希望毕业成为顶级项目的!
「代立冬」: 首先要想好自己产品的调性,这是天花板。其次是找到第一个愿意使用的种子用户,这可能需要“汤匙喂养”,通常找种子用户是很困难的。过了这一关,就开始尝试找第一个贡献者,有种子用户,有第一个贡献者参与共建基本说明开源项目开始闭环了,之后就能像滚雪球一样慢慢发展壮大!
「代立冬」: 最重要的差异是公司化运作后,会有更多的资源投入,能更体系化考虑,更好地保证开源项目的长期繁荣。个人维护开源项目其实非常不容易,像我先前还需要写各种文章,组织 Meetup,发展贡献伙伴,还有编码及代码 Review,时不时还需要制作个海报啥的,完全是多面手的角色,但个人开源项目能有毅力长期维护也真的难能可贵,做开源贵在坚持!
「代立冬」: 社区是一帮人为了一个共同目标而聚集到一起的,人,尤其是贡献者对开源项目有着极其深远的影响。
在 Apache 基金会里,“社区大于代码”是最为崇尚的开源文化理念,这里面所体现出来的是精英治理文化,一个充满了精英的社区即便面对一堆烂代码,只要他们愿意,这个项目代码质量还是能变好的;反之,一个好项目也会因为没有好的贡献者变得越来越糟糕。
「代立冬」: Apache 基金会拥有沉淀了 20 多年成功经验的开源文化—— Apache Way(Apache 之道)。DolphinScheduler 严格按照 Apache Way 的原则来发展,除了前面提到的 “社区大于代码”,还有精英治理、同侪社区、共识决策、开放沟通、责任监督等。
「代立冬」: 目前国内的开源社区发展很快,但整体上良莠不齐,很多开源社区缺乏对开源文化的基本了解,认为代码即是一切,代码牛就是 everything,还有甚者认为 Star 多、Fork 多就是好项目,岂不知 Star、Fork 都是虚荣指标。
实际上,一个开源项目被广泛使用还需要很多条件,比如如何找到用户、如何找到贡献者等等。开源的繁荣是一个极其需要时间与耐心去打磨“好项目”的过程,国内目前十分缺布道师来指导大家如何更好的发展开源项目。不过我相信随着更多的优秀项目进入国内外一流的基金会孵化,会有更多的能人掌握开源发展的诀窍。
从长期来看,我还是十分看好国内开源生态的。因为国内的数据场景相比海外更加丰富,而且国内的贡献者是世界上最勤奋的贡献者,国内的开源土壤也是肥沃的,比如有很多公司明确在招聘要求里写明“开源项目贡献者优先”,也是为贡献者提供了很好的参与开源贡献的大环境。
「代立冬」: 比较关注云原生、MLOps,也会数据方向新动向感兴趣。
「代立冬」: 不管是开发者还是开源创业,我内心始终希望一些诞生自中国的作品/项目能站在世界的舞台上,让海外的数据从业者知道中国也有很棒的作品/项目。
「代立冬」: “平衡”其实是很难的一件事,应该说是“取舍”吧。技术上,我现在比较关注于架构和部分实现的 Review;管理这块,我更多关注人员梯队的建设以及考虑如何激励让每位伙伴的付出有回报,打个比方,目前我也在调整适合公司现阶段的研发节奏。
「代立冬」: 我认为商业化思维对程序员绝对是很有挑战的事儿,我也不太认为程序员都需要商业化思维,或者说这需要一个长期的过程。
以我个人经历来看,在我从业的前 5 年,我认为掌握一流的技术和技能是十分必要的,这是生存之本;随着从业经历的丰富,我意识到可以做一些促进数据行业发展的事情,当然在做 DolphinScheduler 之前我是考虑了我们能做哪些事情,能否让一些贡献者靠 DolphinScheduler 找到更好的工作,让更多人用上 DolphinScheduler,再后来 DolphinScheduler 越来越流行了,我才想如何让开源更长期的发展,这就需要考虑到是否可以有商业上的助力,让开源能长期繁荣。
「代立冬」: Gitee 是中国十分优秀和良心的代码托管平台,上面有许多优秀且顶级的开源项目。我们的 DolphinScheduler 和 SeaTunnel 也可以在上面找到,同时也欢迎更多开源项目加入到 Gitee 大家庭中来!
封面人物小档案