北京实体建模软件有中文版吗发表时间:2023-07-15 18:43
选自arxiv.org机械之心编译介入:李泽南摘要今朝措辞建模的首要编制都是基于轮回神经汇集的。在本研究中,我们提出了一种操作卷积编制措置的措辞建模编制。我们引入了一种新的门控机制,可以缓和梯度传布,它的默示比 LSTM 编制的门控(Oord 等人,)加倍优良。我们的编制在 WikiText- 上创作发现了新的记实,同时我们也在 Google Billion Word 基准长进行了单 GPU 测试,功能创作发现了新的最快记实。因为可以并走运算,在对延迟敏感的使射中,我们的模子的速度相较其他模子晋升了一个数目级。今朝为止,这是次闪现非训话编制在此类使射中超出了轮回编制。用于措辞建模的门控卷积汇集架构引言:统计措辞模子被用于估算词序列的概率分布。这相当于给定一个词,对下一个词的概率进行建模,例如:其中 wi 是词汇表中的离散字索引。措辞模子是语音识别系统(YuDeng,)和机械翻译系统的关头组成部门(Koehn,)。比来几年来,神经汇集在此类使命的默示超越了 n 元语法模子(Kneser Ney,;Chen Goodman,)。经典的措辞模子面临数据欠缺的问题,没法切确表征长段语句,窘蹙分化长规模隶属关系的能力。神经措辞模子经由过程在操作神经汇集的延续空间中嵌入单词来解决这个问题。措辞建模的当前手艺水平基于长短时辰记忆汇集(LSTM Hochreiter 等人,),理论上可以建模肆意长的隶属关系。在本文中,我们介绍了门控卷积汇集(gated convolutional networks)并将其操作于措辞建模。卷积汇集可以被堆叠以暗示除夜的上下文尺寸,而且在具有在更除夜的上下文规模内提取分层更抽象的特点(LeCun&Bengio,)。这类特点准予我们经由过程在巨细 N 和内核宽度 k 的上下文上操作 O(N k)运算来建模持久隶属关系。相反,轮收受领受集将输入视为链结构,是以需要线性数目 O(N)的操作。输入分层的分化与近似于经典语法形式的组织近似,其构建了距离增除夜的句法树结构。例如,由包含复杂内部结构的名词短语和动词短语组成的句子(Manning&Schutze¨,;Steedman,)。此外,分层结构也简化了进修,因为相较于链结构,给定上下文巨细的非线性的数目削减,从而减轻了磨灭踪梯度问题(Glorot&Bengio,)。现代计较机硬件很是合适运行高度并行化的模子。在轮收受领受集中,下一个输出取决于前一个的潜匿状况,它不启用对序列元素的并行化。卷积汇集很是合适于此类计较,因为所有输入字的计较可以同时履行。门控已显示出超出轮回神经汇集最快默示的潜力(Jozefowicz 等人,)。我们的门控线性单元经由过程为梯度供给线性路径,同时保留非线机能力,削减了深层架构的磨灭踪梯度问题。我们在单个 GPU 系统中进行了考试考试,证实了操作门控卷积汇集的措辞建模优于其他比来发布的措辞模子,如在 Google Billion 上近似设置操练的 LSTM Word 基准(Chelba 等人,)。我们还评估了我们的模子分化 WikiText- 基准中长距离隶属关系的能力,其中该模子以全数段落而不是单个句子为前提进行措置,而且我们在此根底上实现了新的最快记实(Merity 等人,)。,我们揭示了门控线性单元可以实现更高的精度和收敛,比 OST 等人的 LSTM 门控更快。
|
在线QQ
13102029636