ChatGPT的横空出世让人们认识到了语言模型的强大,其功能也会随着版本的迭代而进一步完善,也必将更深入地参与到人们的工作与生活之中。然而,我们并不能完全理解这些模型是如何运作的。最近一些研究让人们厘清了小规模模型的机理,但要完全理解语言模型,则需要分析数百万个神经元。
OpenAI的研究团队尝试使用GPT-4自动编写大型语言模型中神经元行为的解释,并对这些解释进行评分。他们研究的对象是早一代模型GPT-2,研究为GPT-2中的每个神经元给出了(或许不完美的)解释和评分。
▷图源:OpenAI官网
(资料图片)
运作过程
在这项研究中,科学家旨在解释文本中的哪些模式会导致神经元激活。这具体包括解释、仿真、评分三个步骤。
1. 解释:使用GPT-4解释神经元的激活
给出一个GPT-2神经元,通过向GPT-4展示相关文本序列和GPT-2神经元的激活来生成对其行为的解释。
▷在这个例子中,研究者研究了神经元“Marvel comics vibes”。研究者将其展示给GPT-4,GPT-4对此给出的解释是“references to movies, characters, and entertainment.”
2. 仿真:以上一步的解释为条件,使用GPT-4模拟神经元激活
再次使用GPT-4进行仿真模拟,以解释被激活的神经元会做什么。
3. 评分:通过对比神经元的仿真激活和真实激活来对第一步解释进行评分
▷比较仿真激活(左)和真实激活(右)以查看二者的匹配程度,上面例子的“解释得分”为0.34
上述方法让研究者可以利用GPT-4来定义定量描述可解释性的指标(即“解释得分”)并自动测算,藉此研究者就可以衡量语言模型使用自然语言压缩和重建神经元激活的能力。使用上述定量评分框架,研究者可以衡量其方法在神经网络不同部分的工作情况,并针对目前无法充分解释的部分的方法进行改进。例如,研究者发现现有技术对于较大的模型效果不佳,可能是因为难以对更深层神经网络进行解释。
尽管研究中绝大多数解释的得分很低,但研究者相信现在可以利用机器学习技术来进一步提高其产生解释的能力。例如,他们发现可以通过以下方式提高解释分数:
· 迭代解释。研究者要求GPT-4提出可能的反例,然后据此修改解释。
· 使用更有效的模型来给出解释。解释得分的平均值随着解释器模型能力的提高而上升,其中GPT-4获得的分数最高。然而,即使是GPT-4给出的解释尚不及人类的表现,这也说明模型还有改进的余地。
· 更改已解释模型的架构。训练具有不同激活函数的模型可以提高解释得分。
研究者们将开源他们的数据集和可视化工具,这些工具可以利用GPT-4对GPT-2中所有的307200个神经元给出解释,同时将开源解释和评分所使用的代码,这些部分使用的是OpenAI API上公开的模型。研究者希望学界能够开发出新的技术来生成得分更高的解释,以及可以更好地利用对神经元的解释来探索GPT-2。
研究人员还发现,超过1000个神经元的解释得分至少为0.8,这意味着根据GPT-4,它们解释了神经元的大部分上层激活行为。大多数能被上述方法很好解释的神经元都不是很有趣。然而,研究人员们也发现了许多GPT-4不理解的有趣神经元。他们希望随着解释工作的进一步改进,能够快速发现对模型计算而言更为有趣的定性理解。
不过值得一提的是,上面的方法目前还有很多局限性:
首先,当前的研究专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,无法进行简洁的描述。例如,神经元可能是高度多义的(代表许多不同的概念),或者可以代表人类不理解或无法用语言表达的某一概念。
其次,研究者希望最终可以实现自动找寻并解释包括神经元和多头注意力机制*在内的实现复杂行为的整个神经回路。当前的方法仅仅是将神经元行为解释为原始文本输入的函数,而没有说明其下游影响。例如,一个在句号上激活的神经元可能指示下一个单词应该以大写字母开头,或者递增某个语句计数器。
*注意力机制是一种模仿人类视觉和认知系统的方法,可帮助神经网络集中注意力于相关的部分,从而提高模型的性能和泛化能力。多头注意力机制使用多个独立的注意力头,分别计算注意力权重,并将它们的结果进行拼接或加权求和,从而获得更丰富的表示。
第三,上述研究解释了神经元的行为,但没有试图解释产生这种行为的机制。这意味着即使是高分解释在分布外的文本上也可能表现得很差,因为得分本质上只是一种相关性的描述。
此外,整个过程是计算密集型的,需要有强大的算力作为支撑。
未来展望
虽然有以上所述的种种局限性,但研究人员仍然相信这项工作可以大大改进并与其他现有方法进行有效的集成。比如,将常见可解释性技术(例如多头注意力机制、消融实验*等)集成到上述自动化方法中。
*消融实验类似于“控制变量法”,通过破坏或消除某个特定的组织或结构,以研究其功能、作用或重要性。
从长远来看,研究者设想解释器模型可以生成、测试和迭代素材丰富的有关主题模型的假设空间,其作用类似于今天进行可解释性研究的科研人员所做的工作。这种模型将包括关于神经网络回路功能和分布外行为的假设。解释器模型的工作环境可能包括访问代码执行、主题模型可视化以及与研究人员交互等。
研究人员相信,上述研究有助于我们建立起高层次的视角,来理解转换器语言模型内部正在发生的一切。通过可访问解释性数据库的用户界面,我们可以开启一种更宏观的方法,帮助研究人员可视化成千上万个神经元,进而查看它们之间相互作用的高级模式。
总而言之,科学家希望从使用较小且可信赖的辅助工具出发,扩展到实现完整的可解释性审核;或者在将这些辅助工具用于可解释性研究的过程中充分了解模型的工作原理,从而帮助我们开发更强大的审核方法。毕竟,如果我们不知道辅助工具本身是否值得信赖,那么使用强大的辅助工具也可能会使问题变得更加复杂。
参考资料:
[1] Chughtai, B., Chan, L., & Nanda, N. (2023). A toy model of universality: Reverse engineering how networks learn group operations. arXiv preprint arXiv:2302.03025.[2] Wang, K., Variengien, A., Conmy, A., Shlegeris, B., & Steinhardt, J. (2022). Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small. arXiv preprint arXiv:2211.00593.[3] Bills, et al. (2023). Language models can explain neurons in language models. https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html.[4] Zhong, R., Snell, C., Klein, D., & Steinhardt, J. (2022, June). Describing differences between text distributions with natural language. In International Conference on Machine Learning (pp. 27099-27116). PMLR.[5] Singh, C., Morris, J. X., Aneja, J., Rush, A. M., & Gao, J. (2022). Explaining patterns in data with language models via interpretable autoprompting. arXiv preprint arXiv:2210.01848.[6] OpenAI (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.[7] Bau, D., Zhou, B., Khosla, A., Oliva, A., & Torralba, A. (2017). Network dissection: Quantifying interpretability of deep visual representations. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6541-6549).[8] Chan, L., Garriga-Alonso, A., Goldowsky-Dill, N., Greenblatt, R., Nitishinskaya, J., Radhakrishnan, A., ... & Thomas, N. (2022, December). Causal scrubbing: A method for rigorously testing interpretability hypotheses. In Alignment Forum.[9] Hernandez, E., Schwettmann, S., Bau, D., Bagashvili, T., Torralba, A., & Andreas, J. (2022, January). Natural language descriptions of deep visual features. In International Conference on Learning Representations.[10] Hubinger, E. (2021). Automating auditing: An ambitious concrete technical research proposal.[11] Shah, R., Varma, V., Kumar, R., Phuong, M., Krakovna, V., Uesato, J., & Kenton, Z. (2022). Goal misgeneralization: Why correct specifications aren"t enough for correct goals. arXiv preprint arXiv:2210.01790.[12] Ngo, R. (2022). The alignment problem from a deep learning perspective. arXiv preprint arXiv:2209.00626.[13] Hubinger, E., van Merwijk, C., Mikulik, V., Skalse, J., & Garrabrant, S. (2019). Risks from learned optimization in advanced machine learning systems. arXiv preprint arXiv:1906.01820.