在上一篇专门讨论整行代码补全的文章中,我们探讨了整行补全插件的神经网络用于 Python 的词汇表。 然而,仅仅 16384 个词例,如 self.、or、s.append(、return value 和文章中描述的其他词例,甚至不足以生成一行。 我们需要一种能够将这些词例组合起来编写代码块的方式。 本文将讨论算法如何使用词汇表的元素构造更长的短语。
首先是自回归。
自回归
文本(和代码)生成基于多个概念,自回归是其中之一。 机器学习算法将现有文本或其中的一部分作为输入,预测词汇表中各个词例成为文本中下一个词例的概率。
这些概率的预测由基于 Transform…