来源:Gitee 封面人物 丨 2019-12-25
本期嘉宾
朱小杰 :硕士,毕业于北京航空航天大学计算机系。2013年加入中国科学院计算机网络信息中心,主要研究方向大数据处理,大数据流水线。 国家重点研发计划-云计算和大数据专项“面向智能制造的供应链流程管控软件平台”项目子课题负责人。PiFlow 项目技术负责人。
PiFlow :混合型科学大数据流水线系统,包含丰富的处理器组件,是一个简单易用,功能强大的大数据流水线系统。2019 年 3 月入选 GVP—Gitee 最有价值开源项目。
在大数据的时代背景下,大数据正在影响我们的社会、生产、生活方式。但在产业落地的过程中,存在专业技术门槛高、专业人员少、落地困难的问题。而中国科学院计算机网络信息中心在大数据方面有多年的技术积累,为了能让大数据技术更多地普惠产业,让技术走进生产生活,结合国家大数据的战略计划,PiFlow 项目应运而生了。
PiFlow 是一个大数据处理流水线系统,在项目最初阶段,我们并没有一个很好听的名字,而是本着解决大数据处理过程中的实际问题的初心,启动了这个科研项目。在项目初期,部门领导给予了充分支持和鼓励,我们曾一度有8人投入在这个项目中。而后,有越来越多的 PiFlow 可以解决的问题作为实际需求被提出,我们也发现业界对大数据流水线技术的追逐越来越热,而市面上并没有完全满足相关技术需求的产品,基于我们对专业性和其价值的判断,我们决定将其开源。
PiFlow 团队由产品经理、架构师、后端核心开发人员、前端核心开发人员组成。最多的时候有 1 个产品经理、1 个架构师、2 个前端,3 个后端人员在投入。其中博士 2 名,硕士 3 名,和本科生 3 名。人员男女比在3:1。
PiFlow 是一款基于分布式计算 Spark 开发的大数据处理系统,以所见即所得的简洁方式,实现大数据采集、处理、存储与分析流程化配置、运行与智能监控,提供了 100+ 的标准化组件, 包括 Hadoop 、Spark、MLlib、Hive、Solr、Redis 等,更支持面向领域、灵活的二次组件开发。PiFlow 未来将会在系统的功能性、稳定性、可靠性等方面进一步完善。
PiFlow 在项目开发的后期,团队成员由于工期等各方面原因都被借调参与其他项目,曾经很长一段时间,Gitee 上只有我一个人在提交代码,导致 PiFlow 的开发进度不是很理想,一度想过要放弃。不过想到当初做 PiFlow 的初心,部门领导也调动资源大力支持,我在这个过程中也备受鼓舞,最终我们坚持下来了,并取得了非常不错的成绩。不忘初心方得始终!
2016 年,由我们所——中国科学院计算机网络信息中心联合中科院计算所、清华大学、北京大学、西安交通大学等十多家院所与高校,共同承担了国家科技部重点研发计划“科学大数据管理系统”,主动提出构建科学大数据开源社区构想,旨在将项目所产生的科学大数据软件开放出来,服务更多的科研工作者和企事业单位。PiFlow 开源项目是该重点研发项目众多开源软件中的一个,相较于其他开源软件,它针对科学大数据处理的流程化组织、设计与实现可能与企事业用户在互联网、业务大数据中的共性会更大些,因此得到公众的关注多些。
未来会有越来越多的我们国内的研究团队研发的软件贡献到国际、国内开源社区,PiFlow 项目研发团队也希望将它推送到更大的平台,服务更多的用户。
要坚定地认为大数据的价值非常大。首先大数据自身能够创造出更多的价值,并且数据本身将为整个信息化社会赋能。大数据的发展正在推动科技领域的发展进程,大数据的影响不仅仅体现在互联网领域,也体现在金融、教育、医疗等诸多领域。在人工智能研发领域,大数据也起到了重要的作用,尤其在机器学习、计算机视觉和自然语言处理等方面,大数据正在成为智能化社会的基础。
产业互联网将推动大数据落地。当前互联网正在经历从消费互联网向产业互联网过渡,产业互联网将利用大数据、物联网、人工智能等技术来赋能广大的传统产业,可以说产业互联网的发展空间非常大,而大数据则是产业互联网发展的一个重点。
首先可以看看大数据相关的书籍,对大数据概念有一个整体的了解。大数据的相关技术栈还是比较丰富的。然而,从事大数据相关工作,并不仅仅是完善个人对大数据相关的技术框架和知识体系的构建。更重要的是不断学习、探索和思考大数据的应用场景,这时需要更多地开阔眼界,从程序世界中走出来,多看产业难题,并利用自身的大数据技术知识重建对问题的理解,寻求大数据时代下的解决方案。
我从小就很喜欢数学,对数字感兴趣。大学毕业后,很多同学去了各行各业,也有改行做销售的。但我一直选择从事我喜欢的工作内容,兴趣是最大的驱动力。开始接触大数据也是跟部门的发展方向紧密相关的,我们部门是大数据部,主要的一个研究方向是知识图谱。而知识图谱构建会涉及到海量多源异构大数据处理,我们在这个过程中通过需求的提炼,形成了大数据流水线系统 PiFlow。
在中科院计算机网络信息中心工作可以接触有很多有挑战的前沿理论和科研项目,这些往往需要投入大量时间去做。用技术和产出说话,大家都很自驱,工作可以很纯粹。而且周围很多人都是高校毕业的高材生、博士生,跟优秀的人一起工作,是件很开心的事。
内部开发流程也非常规范,每个项目都会配备专门的项目经理,从项目的需求阶段开始,到设计、开发、测试,全程协调。
应该说所有的软件研发都是需求驱动的,PiFlow也不例外。我们团队在与领域科学家的合作过程中,需要面向不同学科领域的数据特征,进行数据的抽取、清洗与分析工作,科学家们提出的组件化需求、复用性需求、可装卸需求、可监控需求以及大规模处理能力需求,是我们的直接且有效的需求来源。
产品研发难免有遇到困难的时候,通常的方法一是查阅最新的文献是否有前沿的理论方法,二是借鉴开源社区是否有相同的问题以及技术实现路径。
前沿的新技术研究是必不可少的,是国家科技的核心竞争力。目前大数据在更高效的存储、计算、分析的理论、模型和算法上都在开展前沿性的研究,如果公众能够及时了解到最新的研究成果并应用到各自的行业中,就可产生巨大的社会与经济效益,当然这也离不开像 Gitee 这样的开源社区的积极宣传与推广作用。
开源的本质是共享技术,作为程序员,需要不断学习编码的最新趋势,需要不断练习以进一步磨炼自己的技能,开源是攀登这两座高峰的阶梯。因为我对大数据技术非常感兴趣,同时本身工作也是与大数据相关,平时会关注大数据开源项目多一些,比如 Spark、Hadoop、Neo4j,Ambari 等。
就整个开源社区而言,科学家群体一直是一支积极的参与和贡献力量,比如现在大家耳熟能详的大数据计算框架 Spark,就是 2010 年伯克利大学的 AMPLab 实验室贡献给开源社区的。事实上,科学家群体在天文、物理、生物等各学科领域里,都是积极的开源倡导者与实践者,公众对学科领域比较陌生,因此对学科领域内的开源社区与软件了解会相对少些。科研界对开源一直持开放与支持的态度,科研工作者们将一如既往地积极参与社区、贡献社区。
我喜欢自律一些的生活,通常到单位的时间比较早,当然也不喜欢工作得很晚,我喜欢高效有计划性地工作。科研工作需要有清醒的头脑,累了就换换脑筋。每周我都会跟同事们一起做做健身操,从运动中感受快乐。
业余时间我也喜欢看看影视综艺,逛逛淘宝,但更多的时间是在教育孩子。工作与生活并不是很容易平衡,尤其是在项目紧张的阶段,难免需要有时间的倾向,也特别感谢我的家人的支持和理解。
封面人物小档案