论文笔记 StructCoder: Structure-Aware Transformer for Code Generation|电子爱好者

admin管理员组
文章数量:1531226

简单介绍

摘要

简单介绍

这篇文章介绍提出了一个具有代码结构感知能力的Transformer模型用来处理代码翻译（基于某种程序语言生成另一种程序语言）和代码生成任务（基于自然语言描述生成程序语言）。

原文链接

摘要

Transformer在处理自然语言任务上取得了不错的效果，由于代码语言（PL）和自然语言（NL）

之间存在一定的共同性，因此近年来有很多的组织开始使用Transformer来处理PL任务。

但是相比于自然语言，程序语言具有更强的语义和句法逻辑，基于此，开发者改进Transformer提出StructCoder模型，使模型的编码器可以很好的学到source code的语法和数据流向（data flow），模型的解码器可以很好的学到target code的语法和数据流。此模型在CodeXGLUE 集上是目前的SOTA模型。

目前已有的两种代码句法表征方法是将以下两种结构编码进模型：

AST(Abstract Syntax Tree ,抽象语法树）:生成AST的中序遍历，AST的生成规则，使用RNN 编码AST的路径，在序列模型中使用基于AST的attention机制；
- DFG（Data Flow Graph 数据流向图）：含有的信息比AST更多，却没有AST复杂。

int add1 ( int a ) { s= a + 1 ; return s ; }

基于以上代码生成的AST与DFG分别如下图所示：

本文的贡献

改进Transformer模型使编码器解码器都具有结构感知能力，提出StructCoder：
1. 编码器使用结构感知自注意力机制（structure-aware self-attention）；
2. 解码器加入两项附加任务：APP（AST路径预测），DFP（数据流向预测）；
预训练，使输入的代码、AST和DFG中部分失去意义，以此训练生成原始代码并且进行APP和DFP两项训练任务；

3. StructCoder是目前基于CodeXGLUE 数据集的SOTA模型。

StructCoder模型与设计

符号表示

Code

Source Code tokens ；

Target Code tokens 。

AST

N代表AST中所有节点的集合;

代表所有AST中的叶子节点;

r代表AST的根结点;

p(n)表示的节点n的父节点;

，当且仅当token 是叶节点一部分时 ;

n.type代表是一个节点的类型。

DFG

代表了Code S中的所有变量;

是两个变量之间的邻接矩阵，当且仅当来源于时;

，当且仅当变量是token 的一部分时，。

编码器Encoder

输入编码Input emdedding

输入序列由源代码tokens，对应的AST叶节点，对应的DFG变量构成：

token:通过单词表来编码；

DFG变量：use a default emdedding（原文是这么写的，还不是很理解）；

AST叶节点：需要按照以下公式编码叶节点的路径信息：

其中为根结点到该叶节点的路径上的节点；

为节点类型的编码函数；

为节点顺序编码函数。

具有结构感知力的自注意力机制structure-aware self-attention

代码之间Code-code：和传统注意力计算方式一致

其中代表的lookup emdedding函数，用来存储两个token之间的相对位置信息。

叶节点之间Leaf-leaf：除了计算两个叶节点之间的自注意力之外还需要计算两节点之间的相似度

变量之间Variable-variable：两个变量之间有联系才会计算注意力

代码与叶节点或者变量之间Code-leaf/variable:两者相互之间有联系才会计算注意力

特殊符号<CLS>和<SEP>被视作代码并且和其他所有的变量与叶节点有联系。

上图就代表了输入编码和注意力机制的可视化表示。

解码器Decoder

在解码器的输出需要完成三个任务：基于以输出序列的下一个token的预测，根叶节点路径预测和DFG变量之间联系预测。

语言模型Token预测

和传统的语言模型一样。

概率：

为解码器第i个时刻隐藏层的输出向量；

为第i个时刻各个token的预测概率。

损失:

为第i个时刻输出的在正确token上面的预测概率。

AST路径预测APP

时刻i，根叶路径中第k个节点的概率分布：

损失：

DFG关系预测DFP

第i个时刻的token来自于第j个时刻的token的概率：

cond判断在ground truth中两个token有联系（一个来源于另一个）：

存在两个有联系的变量即,使得与token 有联系即，并且和token 有联系即。

损失：

decoder总损失

预训练

增加噪声：掩盖或者去除原始输入的35%的token，AST叶节点与DFG变量，和35%的叶节点路径；

模型参数初始化：使用CodeT5模型中的参数来初始化本次预训练的参数，与AST，DFG有关的参数随机初始化；

数据集：CodeSearchNet

实验结果

PL-PL

NL-PL

从上述数据可以看出CodeT5是一个有力的竞争对手，而StructCoder是在CodeXGLUE上实现代码翻译和代码生成的SOTA模型。

案例对比

说明StructCoder可以很好学习到代码中的语义与数据流向。

消融实验

去除StructCoder中的某一个组件，观察StructCoder中的表现，发现去除任意一个组件都会降低StructCoder的评价表现，尤其是去除AST输入之后。

模型的限制与更深思考

由于在输入序列中加入了AST与DFG信息，处理起来复杂度增加尤其是在算注意力时复杂度二次增长
存在少数bad case，需要二次加工
代码的生成有多种正确答案，而在训练时数据集只有一个ground truth，因此需要制定合适的评价标准
生成的代码缺少安全性，有效性，模块化方面的思考
只有大企业才适合训练此巨大规模的模型

以上就是我认为论文中值得学习的内容，更多的训练细节与超参设置推荐去阅读原文！

本文标签：笔记论文 StructCoder Structure Generation

版权声明：本文标题：论文笔记 StructCoder: Structure-Aware Transformer for Code Generation 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1725839263a1044834.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

网络知识：光猫光纤宽带故障排查笔记

2天前

目录现象一：不能上网（网络中断）现象二：上网速度慢现象三：网页打不开现象四：上网经常断线家庭路由器常见故障处理方法现象一：WAN口不亮的情况(路由器上连光猫的接口) 现象二：LAN口不亮的情况（路由器下连有线终端的接口）现象三

[论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树（AST）提取

2天前

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座，并分享给大家，希望您喜欢。由于作者的英文水平和学术能力不高，需要不断提升，所以还请大家批

狂神说docker(最全笔记）

2天前

笔记来源于 Docker https:www.bilibilivideoBV1og4y1q7M4 视频整理一.Docker入门 1. Docker 为什么会出现 2. Docker的历史 3. Docker最新超详细版教程通

计算机组成原理笔记一

2天前

带着问题去阅读: 高级程序语言是如何翻译为机器语言?硬件是如何执行软件的?硬件和软件之间的接口是什么?程序的性能是如何定义的,影响性能的因素有哪些?本节要解决的重点问题: 计算机设计架构的八点设计思想计算机性能八问Eight great i

【哈佛积极心理学笔记】第6讲乐观主义

2天前

第6讲乐观主义 How can we create consciously and subconsciously a positive environment, where we actually can take out the mo

centos7安装笔记

2天前

40g足够了根据自己电脑配置自行修改这里要选择我们操作系统的镜像然后开启此虚拟机移动光标选择第一项 install centos7 这里选择gnome桌面和开发工具就基本够使用了打开网络连接开始安装安装过程中我们先创建

实操笔记——笔记本加内存及清灰

2天前

实操笔记——笔记本加内存及清灰写在前面一、加内存1 如何确定能否增加1）当前电脑内存2）系统是否支持3）当前电脑支持的最大内存4）内存条插槽数 2 如

APMCM（亚太地区数模竞赛）2014年-A题：Routine Scheme for UAVs Surveillance（附获奖论文）

2天前

目录 Abstract 1. Introduction 1.1 Background 1.2 Our work 2. Assumption 3. Terms, Definitions and Symbols 4. Normal

android 卡片切换印象笔记,挖掘iPhone版印象笔记的 13 个高效率操作技巧

2天前

在这里跟大家分享一篇印象笔记超资深用户、来自宝岛著名的「电脑玩物」的站长的一篇文章，向大家介绍iPhone 版印象笔记的操作技巧，祝阅读愉快！ – – – – – – – –

RK3288android 7.1 调试笔记解决出现“There’s an internal problem with your device. Contact your manufacturer”

2天前

开机过程中系统会检测systembuild.prop 和 vendorbuild.prop，如果发现不一致的地方，就会提示报错，实际不影响使用，

探索高效学习利器：Competition_notebook - 竞赛笔记与代码管理神器

1天前

探索高效学习利器：Competition_notebook - 竞赛笔记与代码管理神器在数据科学和机器学习的世界中，有效地组织和分享你的竞赛笔记、代码及学习过程是至关重要的。这就是项目应运而生

不用再找了，吐血整理ChatGPT 论文指令手册~

1天前

今天给大家分享下论文润色、降重、写作的GPT指令提示词，按论文步骤整理让你的文章更加有逻辑且通顺，助力快速完成论文，相信对你有帮助~ 一、论文写作润色指令 1、写作选题

不用再找了，吐血整理ChatGPT 新手使用手册~ (论文润色、降重指令)

1天前

本以为遥遥领先的GPT早就普及了，但小伙伴寻找使用的热度一直高居不下，其实现在很简单了！ 国产大模型快200家了，还有很多成熟的国内AI产品&

QQ邮箱登录PC布局实战笔记四

1天前

本文说明: 经过几次的努力，一个完整的QQ邮箱静态页面已经搭建完成，自己的确在一些细节方面并没有很好地和人家百分百一致，但是也是通过自己的方法，得到了功能的实现。老实来讲，HTML和CSS的布局是一件很繁琐的事情，当然这是在你完全不依靠框架

JUC笔记

16小时前

线程是最小的调度单位，进程是最小的资源分配单位，在win中进程是不活动的。继承Thread类重写run方法，start方法使用了多态直接调用重写过的run方法。实现r

Linux 学习包括但不限于linux使用问题笔记

15小时前

刚开始学习计算机在很多方面，目前主要是系统的使用，包括linux，遇到了很多问题，这些操作平时不会遇到，但是如果不记下来以后肯定会

超详细的免费下载论文方法

11小时前

作为一名大四生必然逃不过论文的刁难，一般学校都是买了中国知网、万维网等版权，但是回到家的同学没有校园网可以用这些免费的网站。推荐网站： 1.iData https:www-ki 2.谷歌学术 https:en.ehn3

Tortoise-tts Better speech synthesis through scaling——TTS论文阅读

10小时前

笔记地址：https:flowussharea79f6286-b48f-42be-8425-2b5d0880c648 【FlowUs 息流】tortoise 论文地址： Better

[笔记] 移动的Linux——Android随心root配置与找回遗忘的wifi密码

3小时前

这几天数着回家的日子，也便思考着如何摆弄HTC。网上成片的刷机的帖子，ROOT的帖子，倦了，找找这些东西的原理吧。于是便有了这篇小文&#

新手玩荔枝派 f1c100s nano折腾笔记（三）

1小时前

应用开发篇： minimal_f1c100s-framebuffer.zip荔枝派 nano引脚图使用OTG功能没办法挂载U盘，插入TF卡，开机自动TF卡启动，开机后插入TF有提示，但找不到盘。将wifi模块插入

电子爱好者 - 最新技术资讯及电子产品介绍！

论文笔记 StructCoder: Structure-Aware Transformer for Code Generation

简单介绍

摘要

相关模型结构的比较

本文的贡献

StructCoder模型与设计

符号表示

Code

AST

DFG

编码器Encoder

输入编码Input emdedding

具有结构感知力的自注意力机制structure-aware self-attention

解码器Decoder

语言模型Token预测

AST路径预测APP

DFG关系预测DFP

decoder总损失

预训练

实验结果

PL-PL

NL-PL

案例对比

消融实验

模型的限制与更深思考

更多相关文章

网络知识：光猫光纤宽带故障排查笔记

[论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树（AST）提取

狂神说docker(最全笔记）

计算机组成原理笔记一

【哈佛积极心理学笔记】第6讲 乐观主义

centos7安装笔记

实操笔记——笔记本加内存及清灰

APMCM（亚太地区数模竞赛）2014年-A题：Routine Scheme for UAVs Surveillance（附获奖论文）

android 卡片切换 印象笔记,挖掘iPhone版印象笔记的 13 个高效率操作技巧

RK3288android 7.1 调试笔记 解决出现“There’s an internal problem with your device. Contact your manufacturer”

探索高效学习利器：Competition_notebook - 竞赛笔记与代码管理神器

不用再找了，吐血整理ChatGPT 论文指令手册~

不用再找了，吐血整理ChatGPT 新手使用手册~ (论文润色、降重指令)

QQ邮箱登录PC布局实战笔记四

JUC笔记

Linux 学习包括但不限于linux使用问题笔记

超详细的免费下载论文方法

Tortoise-tts Better speech synthesis through scaling——TTS论文阅读

[笔记] 移动的Linux——Android随心root配置与找回遗忘的wifi密码

新手玩荔枝派 f1c100s nano折腾笔记（三）

发表评论

推荐文章

matlab ground,Intelligent Ground Vehicle Competition

OpenAI ChatGPT 视觉API

Python Selenium无法打开Chrome浏览器处理自定义浏览器路径

无线路由器连接已有路由器扩充局域网

关于家里的宽带和无线wifi路由器的一些选择和配置

热门文章

ChatGPT之图像生成

腾讯免费企业邮箱服务器,怎样使用免费的腾讯企业邮箱

win10计算机的数字小键盘,如何设置Win10开机默认开启数字小键盘？

上网被阻断未经pppoe认证_路由器PPPoE拨不上号，该怎么办-百度经验

【Linux工具】：软件包管理器yum | 编辑器vim | 编译器gccg++ | 调试器gdb | 自动化构建工具makeMakefile | Linux小程序：进度条 | git命令行

Java学习笔记

非华为电脑装华为电脑管家蓝屏和协同起不来的解决方案

amd r7 2700u linux,AMD锐龙7 2700U四核八线程性能到底有多强悍？实测揭晓

Win11显示麦克风未插上怎么办？Win11显示麦克风未插上的解决方法

如何让移动硬盘在Mac和Windows上通用使用

最新文章

centos7 识别移动硬盘

vmware虚拟机不能识别u盘移动硬盘原因之一

插上硬盘计算机无法启动,插入USB磁盘后如果无法打开计算机，如何修复

移动硬盘文件在mac电脑上（不显示、无法删除、不能重命名）等读取权限问题，该如何解决...

通过虚拟机安装Ubuntu系统到移动硬盘

ubuntu 挂载硬盘只能读取文件不能写入

ESXI挂载移动（机械）硬盘详细教程

mac用完移动硬盘后 windows识别不出 解决方案

linux 移动硬盘文件无法改变权限

移动硬盘插到电脑后显示在设备和打印机解决办法

VM linux U盘，移动硬盘无法识别

Ubuntu挂载移动硬盘方式

Linux下往移动硬盘拷贝数据步骤方式

Mac 笔记本电脑扩展坞无法识别超过 2TB 容量外置存储的解决

【哈佛积极心理学笔记】第6讲乐观主义

android 卡片切换印象笔记,挖掘iPhone版印象笔记的 13 个高效率操作技巧

RK3288android 7.1 调试笔记解决出现“There’s an internal problem with your device. Contact your manufacturer”

mac用完移动硬盘后 windows识别不出解决方案

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载