来源:Gitee 封面人物 丨 2023-10-08
自从ChatGPT横空出世以来,人工智能领域发生了翻天覆地的变革。这款由OpenAI研发的自然语言处理模型,在问世后引起了广泛的关注和热议。ChatGPT的出现不仅改变了人与计算机之间的互动方式,还为无数领域带来了新的机遇和挑战。
今天,我们有幸邀请到 OpenAI 的研发工程师翁家翌(Trinkle),他是 ChatGPT 背后的「训练师」之一,我们将和他一起聊聊他与 ChatGPT 的过去、当下和未来。
翁家翌: 我是翁家翌,本科毕业于清华大学计算机系,硕士去卡内基梅隆大学(CMU)读了两年,然后就去OpenAI工作了。在此期间曾创立了天授项目,现在在 GitHub 上骗了六千多颗星星,还搞过 EnvPool,在 GitHub 上骗了 900 颗星星,这两个都是关于强化学习(RL)的项目,然后就因为这个原因被招进去了。
翁家翌: 主要是大二的时候系里有个学术新星计划,然后可以自己选导师。我本来当时最想报图形学,其次AI,最后网络安全,但是图形学和网安都没老师在上面招人;于是问了下学长报哪个老师好,学长推荐朱军老师,于是就进去了;进去说有三个方向,对抗生成网络(GAN)、强化学习(RL)和贝叶斯,我开始以为 RL 是搞 GAN 的东西于是就稀里糊涂的选了 RL。
翁家翌: 就直接 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),没啥特殊的玄学技巧。肉眼可见的问题还很多,性能还没见顶,以及个人觉得算法层面还有很大的优化空间。
翁家翌: 主要是 Barret、Luke、Liam 的加入,他们把整个 pipeline 搞起来了之后花了很大力气去开始缩短迭代时间。获取反馈是整个模型训练很重要的一部分,因为项目、工作和整个人生其实就是许许多多的 RL 的过程,如果迭代速度越快,开发者就越能快速获取反馈来调整开发策略和重心。
翁家翌: 我觉得美国这边相比国内而言,工作环境更友好一些;这边文化上而言就是各种夸夸,其实可以看作一个正的 reward;RL 有个实验结论是长期给负的 reward 是训不出好的策略的,可能他们很早就意识到了这点吧。
翁家翌: 初一入学前的暑假报了学校的编程入门班,当时是教 Pascal,后面到高中就搞 NOIP(全国青少年信息学奥林匹克联赛)、省选、NOI(全国青少年信息学奥林匹克竞赛)、降分蹭进清华。
翁家翌: 就是自己当时有需求,然后就写了一个,之后发现留学党都有需求,然后就往微信群里面发,形成了自传播效应。
做技术是为了能让自己能够影响到更多的人,做更有意义的事情,技术只是手段而不是目的
翁家翌: 我那个时候主要把开源当作搭建个人品牌的一部分,能够增加自己的影响力,被更多的人认识,以及能为整个社区做一些力所能及的事情的时候自己也很自豪。
翁家翌: 优点在于现在还能用,不差,很容易魔改来实现某些强化学习算法研究需要的功能;缺点是有一些历史遗留问题还没解决。现在找了一个德国的小哥来维护。
翁家翌: 代码层面就是兼容性,能够兼容各种上下游的项目、软件,有完善的测试和高覆盖率,文档层面就是有入门指南、API文档、能跑的示例。
社区层面分两部分:第一部分是用户,提出的issue需要及时回复和跟进(我最近不太跟了因为还有别的工作的事情……十分抱歉);第二部分是开发者,项目创立者需要放权(这个是陈天奇老师给的建议),让有能力、有激情的开发者上,不然就只是一个人,不能 scale up上 去;code review 得做好,大家在 code review 的过程中相互交流和学习。
翁家翌: 我觉得场景还没真正出来,现在类比于 iPhone 还只是一开始的那阵子,在 iPhone 第一年的时候 App Store 还不是很流行,因为当时人们还没有那个概念,很多之后的火遍全网的 App 是后面几年才出来的,所以现在很难说。
翁家翌: 肯定的,大家一起来做实验才能有更多可能性带来技术上的突破。可以把点科技树类比做一个 RL 的过程,大家做实验其实是 random exploration,explore 的次数越多,采到 large reward 的概率就更高。
翁家翌: 我觉得和上个世纪马车夫上街抗议汽车一样。
翁家翌: 感觉可能会成为网络基础设施的一部分。
翁家翌: 加了安全限制,从训练数据、算法、和部署这几个方面都搞了。
翁家翌: 我觉得这是两码事,即使再好的 AI 研究和 AI 开发也可以变成有害的,需要监管的重点是人。
翁家翌: 就说这一年来的一些感想,其实 AI 和非 AI 领域的差别不是想象中那么大:
翁家翌: 之前上学的时候搞过摄影,因为大二在商汤实习的时候做了一个学期的计算摄影学(手机成像),虽然啥都没搞出来。
现在主要是周末在家躺着,累。
翁家翌: 提升自己的工程水平很重要。我觉得今后是工程为主的 AI research,Ilya Kostrikov坐在我旁边的时候和我说过,教育一个 engineer 做 research 要远比教育一个 researcher 做好 engineering work 要简单(可能是抽样偏差,但是我确实认同这个看法)。
翁家翌: 世事难料吧,我经常和别人说「你总是想不到将来会发生什么事情」,以及局部最优不等价于全局最优——当前可能一些人风光无限,一些人平平无奇,可能过一段时间就是相反的情况,我们能做的就是体验这个过程。