logo
people
本期封面人物:翁家翌

OpenAI 翁家翌:ChatGPT 训练师之路

来源:Gitee 封面人物 丨 2023-10-08

OpenAI 研发工程师,强化学习算法库 Tianshou 核心开发者

自从ChatGPT横空出世以来,人工智能领域发生了翻天覆地的变革。这款由OpenAI研发的自然语言处理模型,在问世后引起了广泛的关注和热议。ChatGPT的出现不仅改变了人与计算机之间的互动方式,还为无数领域带来了新的机遇和挑战。

今天,我们有幸邀请到 OpenAI 的研发工程师翁家翌(Trinkle),他是 ChatGPT 背后的「训练师」之一,我们将和他一起聊聊他与 ChatGPT 的过去、当下和未来。

聚焦当下

欢迎翁家翌(Trinkle)来到《Gitee 封面人物》,你参与过 ChatGPT 训练全程,也是开源项目「天授」的核心开发者,但 Gitee 上的小伙伴或许对你还不太熟悉,先请你做个自我介绍吧。

翁家翌: 我是翁家翌,本科毕业于清华大学计算机系,硕士去卡内基梅隆大学(CMU)读了两年,然后就去OpenAI工作了。在此期间曾创立了天授项目,现在在 GitHub 上骗了六千多颗星星,还搞过 EnvPool,在 GitHub 上骗了 900 颗星星,这两个都是关于强化学习(RL)的项目,然后就因为这个原因被招进去了。

你是 OpenAI 近两年第一位硕士应届毕业生员工,也是团队年纪最小的研发工程师之一,当初你是如何进入 AI 领域的?

翁家翌: 主要是大二的时候系里有个学术新星计划,然后可以自己选导师。我本来当时最想报图形学,其次AI,最后网络安全,但是图形学和网安都没老师在上面招人;于是问了下学长报哪个老师好,学长推荐朱军老师,于是就进去了;进去说有三个方向,对抗生成网络(GAN)、强化学习(RL)和贝叶斯,我开始以为 RL 是搞 GAN 的东西于是就稀里糊涂的选了 RL。

作为 ChatGPT 的「训练师」, 能和我们分享一下 ChatGPT 是如何训练出来的?你认为目前其不足是什么?

翁家翌: 就直接 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),没啥特殊的玄学技巧。肉眼可见的问题还很多,性能还没见顶,以及个人觉得算法层面还有很大的优化空间。

据了解,参与 ChatGPT 核心训练的只有十几位员工,面对如此如此高质量、大规模的训练工作,你们是如何应对的呢?

翁家翌: 主要是 Barret、Luke、Liam 的加入,他们把整个 pipeline 搞起来了之后花了很大力气去开始缩短迭代时间。获取反馈是整个模型训练很重要的一部分,因为项目、工作和整个人生其实就是许许多多的 RL 的过程,如果迭代速度越快,开发者就越能快速获取反馈来调整开发策略和重心。

你在国内学习计算机,在新加坡 Sea AI Lab 工作过,现在又在美国做程序员,面对不同国家与地区的开发者,你有什么有趣的发现和启发?不同国度的工作体验又给你带来什么变化?

翁家翌: 我觉得美国这边相比国内而言,工作环境更友好一些;这边文化上而言就是各种夸夸,其实可以看作一个正的 reward;RL 有个实验结论是长期给负的 reward 是训不出好的策略的,可能他们很早就意识到了这点吧。

回忆过去

你是什么时候开始接触编程,是否可以分享一些过去的学习或工作经历呢?

翁家翌: 初一入学前的暑假报了学校的编程入门班,当时是教 Pascal,后面到高中就搞 NOIP(全国青少年信息学奥林匹克联赛)、省选、NOI(全国青少年信息学奥林匹克竞赛)、降分蹭进清华。

聊聊留学生们都会用到的签证信息交流平台「tuixue」吧,当初是为何会想要做这个网站呢?你的技术追求/理想是什么?

翁家翌: 就是自己当时有需求,然后就写了一个,之后发现留学党都有需求,然后就往微信群里面发,形成了自传播效应。

做技术是为了能让自己能够影响到更多的人,做更有意义的事情,技术只是手段而不是目的

你的个人博客写着「Open-source projects are my favourite」,你是如何与开源结缘的呢,这背后有什么契机吗?

翁家翌: 我那个时候主要把开源当作搭建个人品牌的一部分,能够增加自己的影响力,被更多的人认识,以及能为整个社区做一些力所能及的事情的时候自己也很自豪。

来聊聊开源强化学习算法库「Tianshou」这个项目吧,以你现在的技术视角来看,目前 Tianshou 的优缺点分别在哪里?开源社区应该怎样帮助其不断壮大?

翁家翌: 优点在于现在还能用,不差,很容易魔改来实现某些强化学习算法研究需要的功能;缺点是有一些历史遗留问题还没解决。现在找了一个德国的小哥来维护。

你曾说过:「开源项目必须得在生态营造的地方下功夫才不至于会死」,你认为应当如何打造开源生态才能做到生生不息,持续发展的生态?

翁家翌: 代码层面就是兼容性,能够兼容各种上下游的项目、软件,有完善的测试和高覆盖率,文档层面就是有入门指南、API文档、能跑的示例。

社区层面分两部分:第一部分是用户,提出的issue需要及时回复和跟进(我最近不太跟了因为还有别的工作的事情……十分抱歉);第二部分是开发者,项目创立者需要放权(这个是陈天奇老师给的建议),让有能力、有激情的开发者上,不然就只是一个人,不能 scale up上 去;code review 得做好,大家在 code review 的过程中相互交流和学习。

畅谈未来

在你看来,当前的 AI 技术发展状态如何?未来哪些应用领域可能会受到最大影响?

翁家翌: 我觉得场景还没真正出来,现在类比于 iPhone 还只是一开始的那阵子,在 iPhone 第一年的时候 App Store 还不是很流行,因为当时人们还没有那个概念,很多之后的火遍全网的 App 是后面几年才出来的,所以现在很难说。

你认为开源是否有助于推动大模型的发展?

翁家翌: 肯定的,大家一起来做实验才能有更多可能性带来技术上的突破。可以把点科技树类比做一个 RL 的过程,大家做实验其实是 random exploration,explore 的次数越多,采到 large reward 的概率就更高。

现在,越来越多的创作者禁止 AI 公司抓取其创作内容来训练 AI 模型,称这类生成式 AI 大模型侵犯了创作者的生存之本。对此,你怎么看待与评价?

翁家翌: 我觉得和上个世纪马车夫上街抗议汽车一样。

你如何看待 AI 大模型的未来?

翁家翌: 感觉可能会成为网络基础设施的一部分。

在推动 AI 技术的同时,伦理和责任考虑非常重要,OpenAI 在这方面有什么措施或原则吗?

翁家翌: 加了安全限制,从训练数据、算法、和部署这几个方面都搞了。

在你看来,AI 研究者和开发者应该如何更好地确保他们的工作不会造成负面影响,或被用于有害目的?

翁家翌: 我觉得这是两码事,即使再好的 AI 研究和 AI 开发也可以变成有害的,需要监管的重点是人。

关于自己

在 AI 领域深耕的至今,有没有产生一些特别的感想呢?

翁家翌: 就说这一年来的一些感想,其实 AI 和非 AI 领域的差别不是想象中那么大:

  • 软件工程很重要,没有好的工程规范,写出来的代码一堆 tech debt,research 再好也没用;
  • 迭代反馈很重要,工作也好,产品也好,生活也好,需要迈出第一步然后去不断打磨迭代;
  • 生产力正比于信息流的传递速度,所以为什么人们总是更喜欢创建一个小的项目而不喜欢在屎山上面堆屎,因为人的 context length 是有限的,但是假如一个人的 context length 是无限的话,他就能完全的掌控整个项目,从而做出更精准的决策。同理,公司管理也是这样,人员过多会导致信息流通不畅,导致决策变形;
  • 生产力还反比于一个流程中的人力成本,提升生产力等价于自动化之前需要人力的步骤,很多创业的机会都是这么来的。

工作之余,你还有什么别的兴趣爱好?

翁家翌: 之前上学的时候搞过摄影,因为大二在商汤实习的时候做了一个学期的计算摄影学(手机成像),虽然啥都没搞出来。

现在主要是周末在家躺着,累。

对于与那些想要进入 AI 领域的年轻人或初学者,你有什么建议?应当关注哪些技能和领域?

翁家翌: 提升自己的工程水平很重要。我觉得今后是工程为主的 AI research,Ilya Kostrikov坐在我旁边的时候和我说过,教育一个 engineer 做 research 要远比教育一个 researcher 做好 engineering work 要简单(可能是抽样偏差,但是我确实认同这个看法)。

你本打算读清华计算机系但却去了清华自动化,但最终也成功转入计算机系;你毕业申博“全聚德”,秋招与最理想的 Offer 失之交臂,后来也顺利进入 OpenAI 做推动人工智能新发展的工作,有些人说你是“运气之子”,但我们很好奇即便事情并非如你预期发展,是什么驱使着你总能坚持下来并收获一个好的结果呢?

翁家翌: 世事难料吧,我经常和别人说「你总是想不到将来会发生什么事情」,以及局部最优不等价于全局最优——当前可能一些人风光无限,一些人平平无奇,可能过一段时间就是相反的情况,我们能做的就是体验这个过程。

文章内容为受采访者独立观点,不代表官方立场。
本文版权属Gitee.com 所有,转载或内容合作请联系 [email protected] , 未经授权不得转载、摘编或利用其它方式使用本文内容。违反上述声明者,将追究其相关法律责任。
bg

你可能感兴趣的封面人物

查看全部
发布评论前,请先 登录
精彩评论 ( 3 )

搜索帮助