Contribute to ML4Code

Publications by Tag

The following tags appear in the publications listed in the review:

adversarial API autocomplete benchmark benchmarking bimodal Binary Code clone code completion code generation code similarity compilation completion cybersecurity dataset decompilation defect deobfuscation documentation dynamic edit editing education evaluation execution feature location fuzzing generalizability generation GNN grammar human evaluation information extraction instruction tuning interpretability language model large language models LLM logging memorization metrics migration naming natural language generation natural language processing notebook optimization pattern mining plagiarism detection pretraining program analysis program synthesis question answering refactoring repair representation retrieval Reverse Engineering review search static static analysis style summarization survey synthesis test generation tool topic modeling topic modelling traceability Transformer Transformers translation types variable misuse verification vulnerability

Tags

See below a list of all tags and the related papers

🏷 adversarial

Adversarial Examples for Models of Code Noam Yefet, Uri Alon, Eran Yahav
Generating Adversarial Examples for Holding Robustness of Source Code Processing Models Huangzhao Zhang, Zhuo Li, Ge Li, Lei Ma, Yang Liu, Zhi Jin
Adversarial Robustness for Code Pavol Bielik, Martin Vechev
Embedding Java Classes with code2vec: Improvements from Variable Obfuscation Rhys Compton, Eibe Frank, Panos Patros, Abigail Koay
On the Generalizability of Neural Program Models with respect to Semantic-Preserving Program Transformations Md Rafiqul Islam Rabin, Nghi D. Q. Bui, Ke Wang, Yijun Yu, Lingxiao Jiang, Mohammad Amin Alipour
You Autocomplete Me: Poisoning Vulnerabilities in Neural Code Completion Roei Schuster, Congzheng Song, Eran Tromer, Vitaly Shmatikov
Syntax-Guided Program Reduction for Understanding Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour
Semantic Robustness of Models of Source Code Jordan Henkel, Goutham Ramakrishnan, Zi Wang, Aws Albarghouthi, Somesh Jha, Thomas Reps
Backdoors in Neural Models of Source Code Goutham Ramakrishnan, Aws Albarghouthi

🏷 API

Lexical Statistical Machine Translation for Language Migration Anh Tuan Nguyen, Tung Thanh Nguyen, Tien N. Nguyen
Statistical Learning Approach for Mining API Usage Mappings for Code Migration Anh Tuan Nguyen, Hoan Anh Nguyen, Tung Thanh Nguyen, Tien N. Nguyen
Parameter-Free Probabilistic API Mining across GitHub Jaroslav Fowkes, Charles Sutton
Learning API Usages from Bytecode: A Statistical Approach Tam The Nguyen, Hung Viet Pham, Phong Minh Vu, Tung Thanh Nguyen
Deep API Learning Xiaodong Gu, Hongyu Zhang, Dongmei Zhang, Sunghun Kim.
Mapping API Elements for Code Migration with Vector Representations Trong Duc Nguyen, Anh Tuan Nguyen, Tien N. Nguyen
DeepAM: Migrate APIs with Multi-modal Sequence to Sequence Learning Xiaodong Gu, Hongyu Zhang, Dongmei Zhang, Sunghun Kim
Function Assistant: A Tool for NL Querying of APIs Kyle Richardson, Jonas Kuhn
Learning Technical Correspondences in Technical Documentation Kyle Richardson, Jonas Kuhn
Exploring API Embedding for API Usages and Applications Trong Duc Nguyen, Anh Tuan Nguyen, Hung Dang Phan, Tien N. Nguyen
Finding Likely Errors with Bayesian Specifications Vijayaraghavan Murali, Swarat Chaudhuri, Chris Jermaine
Bayesian Sketch Learning for Program Synthesis Vijayaraghavan Murali, Letao Qi, Swarat Chaudhuri, Chris Jermaine
Polyglot Semantic Parsing in APIs Kyle Richardson, Jonathan Berant, Jonas Kuhn
Unsupervised Learning of API Aliasing Specifications Jan Eberhardt, Samuel Steffen, Veselin Raychev, Martin Vechev
SAR: Learning Cross-Language API Mappings with Little Knowledge N. D. Q. Bui, Y. Yu, L. Jiang
Mining Likely Analogical APIs across Third-Party Libraries via Large-Scale Unsupervised API Semantics Embedding Chunyang Chen, Zhenchang Xing, Yang Liu, Kent Ong Long Xiong
AutoPandas: neural-backed generators for program synthesis Rohan Bavishi, Caroline Lemieux, Roy Fox, Koushik Sen, Ion Stoica

🏷 autocomplete

Learning from Examples to Improve Code Completion Systems Marcel Bruch, Martin Monperrus, Mira Mezini.
On the Naturalness of Software Abram Hindle, Earl T. Barr, Mark Gabel, Zhendong Su, Premkumar Devanbu
Code Completion with Statistical Language Models Veselin Raychev, Martin Vechev, Eran Yahav
Graph-based Statistical Language Model for Code Anh Tuan Nguyen, Tien N. Nguyen
Intelligent Code Completion with Bayesian Networks Sebastian Proksch, Johannes Lerch, Mira Mezini
Learning Python Code Suggestion with a Sparse Pointer Network Avishkar Bhoopchand, Tim Rocktaschel, Earl Barr, Sebastian Riedel
Neural Code Completion Chang Liu, Xin Wang, Richard Shin, Joseph E. Gonzalez, Dawn Song
Code Completion with Neural Attention and Pointer Networks Jian Li, Yue Wang, Michael R. Lyu, Irwin King
Pythia: AI-assisted Code Completion System Alexey Svyatkovskiy, Ying Zhao, Shengyu Fu, Neel Sundaresan
Learning Autocompletion from Real-World Datasets Gareth Ari Aye, Seohyun Kim, Hongyu Li
Sequence Model Design for Code Completion in the Modern IDE Gareth Ari Aye, Gail E. Kaiser
Code Prediction by Feeding Trees to Transformers Seohyun Kim, Jinman Zhao, Yuchi Tian, Satish Chandra
A Structural Model for Contextual Code Changes Shaked Brody, Uri Alon, Eran Yahav
IntelliCode Compose: Code Generation Using Transformer Alexey Svyatkovskiy, Shao Kun Deng, Shengyu Fu, Neel Sundaresan
Fast and Memory-Efficient Neural Code Completion Alexey Svyatkovskiy, Sebastian Lee, Anna Hadjitofi, Maik Riechert, Juliana Franco, Miltiadis Allamanis
On-the-Fly Adaptation of Source Code Models using Meta-Learning Disha Shrivastava, Hugo Larochelle, Daniel Tarlow
Suggesting Comment Completions for Python using Neural Language Models Adelina Ciurumelea; Sebastian Proksch; Harald C. Gall
Toward Less Hidden Cost of Code Completion with Acceptance and Ranking Models Jingxuan Li, Rui Huang, Wei Li, Kai Yao, Weiguo Tan
Learning to Extend Program Graphs to Work-in-Progress Code Xuechen Li, Chris J. Maddison, Daniel Tarlow
Improving Code Autocompletion with Transfer Learning Wen Zhou, Seohyun Kim, Vijayaraghavan Murali, Gareth Ari Aye
You Autocomplete Me: Poisoning Vulnerabilities in Neural Code Completion Roei Schuster, Congzheng Song, Eran Tromer, Vitaly Shmatikov
On the Embeddings of Variables in Recurrent Neural Networks for Source Code Nadezhda Chirkova
ReACC: A Retrieval-Augmented Code Completion Framework Shuai Lu, Nan Duan, Hojae Han, Daya Guo, Seung-won Hwang, Alexey Svyatkovskiy
All You Need Is Logs: Improving Code Completion by Learning from Anonymous IDE Usage Logs Vitaliy Bibaev, Alexey Kalina, Vadim Lomshakov, Yaroslav Golubev, Alexander Bezzubov, Nikita Povarov, Timofey Bryksin
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani

🏷 benchmark

ConTest: A Unit Test Completion Benchmark featuring Context Johannes Villmow, Jonas Depoix, Adrian Ulges
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu
Exploring Dimensions of Generalizability and Few-shot Transfer for Text-to-SQL Semantic Parsing Rajaswa Patil, Manasi Patwardhan, Shirish Karande, Lovekesh Vig, Gautam Shroff
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani

🏷 benchmarking

PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models Simin Chen, Xiaoning Feng, Xiaohong Han, Cong Liu, Wei Yang

🏷 bimodal

Natural Language Models for Predicting Programming Comments Dana Movshovitz-Attias, William W. Cohen
Using Semantic Unification to Generate Regular Expressions from Natural Language Nate Kushman, Regina Barzilay
NLyze: Interactive Programming by Natural Language for SpreadSheet Data Analysis and Manipulation Sumit Gulwani, Mark Marron
Synthesizing Java expressions from free-form queries Tihomir Gvero, Viktor Kuncak
Learning to Generate Pseudo-code from Source Code using Statistical Machine Translation Yusuke Oda, Hiroyuki Fudaba, Graham Neubig, Hideaki Hata, Sakriani Sakti, Tomoki Toda, Satoshi Nakamura
A Bimodal Modelling of Source Code and Natural Language Miltiadis Allamanis, Daniel Tarlow, Andrew Gordon, Yi Wei
Summarizing Source Code using a Neural Attention Model Srinivasan Iyer, Ioannis Konstas, Alvin Cheung, Luke Zettlemoyer
Latent Predictor Networks for Code Generation Wang Ling, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiský, Andrew Senior, Fumin Wang, Phil Blunsom
CodeSum: Translate Program Language to Natural Language Xing Hu, Yuhan Wei, Ge Li, Zhi Jin
Automatically Generating Commit Messages from Diffs using Neural Machine Translation Siyuan Jiang, Ameer Armaly, Collin McMillan
Program Synthesis from Natural Language Using Recurrent Neural Networks Xi Victoria Lin, Chenglong Wang, Deric Pang, Kevin Vu, Michael D. Ernst
pix2code: Generating Code from a Graphical User Interface Screenshot Tony Beltramelli
Function Assistant: A Tool for NL Querying of APIs Kyle Richardson, Jonas Kuhn
The Code2Text Challenge: Text Generation in Source Code Libraries Kyle Richardson, Sina Zarrieß, Jonas Kuhn
A Syntactic Neural Model for General-Purpose Code Generation Pengcheng Yin, Graham Neubig
Learning Technical Correspondences in Technical Documentation Kyle Richardson, Jonas Kuhn
Generating Regular Expressions from Natural Language Specifications: Are We There Yet? Zexuan Zhong, Jiaqi Guo, Wei Yang, Tao Xie, Jian-Guang Lou, Ting Liu, Dongmei Zhang
Mapping Language to Code in Programmatic Context Srinivasan Iyer, Ioannis Konstas, Alvin Cheung, Luke Zettlemoyer
Deep Learning to Detect Redundant Method Comments Annie Louis, Santanu Kumar Dash, Earl T. Barr, Charles Sutton
NL2Bash: A Corpus and Semantic Parser for Natural Language Interface to the Linux Operating System Xi Victoria Lin, Chenglong Wang, Luke Zettlemoyer, Michael D. Ernst
Polyglot Semantic Parsing in APIs Kyle Richardson, Jonathan Berant, Jonas Kuhn
A Retrieve-and-Edit Framework for Predicting Structured Outputs Tatsunori B. Hashimoto, Kelvin Guu, Yonatan Oren, Percy S. Liang
TypeWriter: Neural Type Prediction with Search-based Validation Michael Pradel, Georgios Gousios, Jason Liu, Satish Chandra.
SPoC: Search-based Pseudocode to Code Sumith Kulal, Panupong Pasupat, Kartik Chandra, Mina Lee, Oded Padon, Alex Aiken, Percy S. Liang
JuICe: A Large Scale Distantly Supervised Dataset for Open Domain Context-based Code Generation Rajas Agashe, Srinivasan Iyer, Luke Zettlemoyer
Learning Uniform Semantic Features for Natural Language and Programming Language Globally, Locally and Sequentially Yudong Zhang, Wenhao Zheng, Ming Li
NL2Type: Inferring JavaScript Function Types from Natural Language Information Rabee Sohail Malik, Jibesh Patra, Michael Pradel
OptTyper: Probabilistic Type Inference by Optimising Logical and Natural Constraints Irene Vlassi Pandi, Earl T. Barr, Andrew D. Gordon, Charles Sutton
Incorporating External Knowledge through Pre-training for Natural Language to Code Generation Frank F. Xu, Zhengbao Jiang, Pengcheng Yin, Bogdan Vasilescu, Graham Neubig
Associating Natural Language Comment and Source Code Entities Sheena Panthaplackel, Milos Gligoric, Raymond J. Mooney, Junyi Jessy Li
TAG : Type Auxiliary Guiding for Code Comment Generation Ruichu Cai, Zhihao Liang, Boyan Xu, Zijian Li, Yuexing Hao, Yao Chen
Deep Just-In-Time Inconsistency Detection Between Comments and Source Code Sheena Panthaplackel, Junyi Jessy Li, Milos Gligoric, Raymond J. Mooney
Code to Comment "Translation": Data, Metrics, Baselining & Evaluation David Gros, Hariharan Sezhiyan, Premkumar Devanbu, Zhou Yu
Learning to Update Natural Language Comments Based on Code Changes Sheena Panthaplackel, Pengyu Nie, Milos Gligoric, Raymond J. Mooney, Junyi Jessy Li
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement, Dawn Drain, Jonathan Timcheck, Alexey Svyatkovskiy, Neel Sundaresan
Where should I comment my code? A dataset and model for predicting locations that need comments Annie Louis, Santanu Kumar Dash, Earl T. Barr, Charles Sutton
Suggesting Comment Completions for Python using Neural Language Models Adelina Ciurumelea; Sebastian Proksch; Harald C. Gall
Co-Training for Commit Classification Jian Yi, David Lee, Hai Leong Chieu

🏷 Binary Code

Learning to Reverse DNNs from AI Programs Automatically Simin Chen, Hamed Khanpour, Cong Liu, Wei Yang

🏷 clone

Deep Learning Code Fragments for Code Clone Detection Martin White, Michele Tufano, Christopher Vendome, Denys Poshyvanyk.
Oreo: detection of clones in the twilight zone Vaibhav Saini, Farima Farmahinifarahani, Yadong Lu, Pierre Baldi, Cristina Lopes
Deep Learning Similarities from Different Representations of Source Code Michele Tufano, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Martin White, Denys Poshyvanyk
Asm2Vec: Boosting Static Representation Robustness for Binary Clone Search against Code Obfuscation and Compiler Optimization Steven H. H. Ding, Benjamin C. M. Fung, Philippe Charland
Learning-based Recursive Aggregation of Abstract Syntax Trees for Code Clone Detection Lutz Büch, Artur Andrzejak
funcGNN: A Graph Neural Network Approach to Program Similarity Aravind Nair, Avijit Roy, Karl Meinke
Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree Wenhan Wang, Ge Li, Bo Ma, Xin Xia, Zhi Jin
Modeling Functional Similarity in Source Code with Graph-Based Siamese Networks Nikita Mehrotra, Navdha Agarwal, Piyush Gupta, Saket Anand, David Lo, Rahul Purandare
Cross-Language Binary-Source Code Matching with Intermediate Representations Yi Gui, Yao Wan, Hongyu Zhang, Huifang Huang, Yulei Sui, Guandong Xu, Zhiyuan Shao, Hai Jin
An Exploratory Study on Code Attention in BERT Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard, David Lo

🏷 code completion

Repository-Level Prompt Generation for Large Language Models of Code Disha Shrivastava, Hugo Larochelle, Daniel Tarlow
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani

🏷 code generation

A Machine Learning Framework for Programming by Example Aditya Menon, Omer Tamuz, Sumit Gulwani, Butler Lampson, Adam Kalai
Using Semantic Unification to Generate Regular Expressions from Natural Language Nate Kushman, Regina Barzilay
Structured Generative Models of Natural Source Code Chris J. Maddison, Daniel Tarlow
Code Completion with Statistical Language Models Veselin Raychev, Martin Vechev, Eran Yahav
NLyze: Interactive Programming by Natural Language for SpreadSheet Data Analysis and Manipulation Sumit Gulwani, Mark Marron
Phrase-Based Statistical Translation of Programming Languages S. Karaivanov, Veselin Raychev, Martin Vechev
Synthesizing Java expressions from free-form queries Tihomir Gvero, Viktor Kuncak
Visualizing and Understanding Recurrent Networks Andrej Karpathy, Justin Johnson, Li Fei-Fei
A deep language model for software code Hoa Khanh Dam, Truyen Tran, Trang Pham
Learning Programs from Noisy Data Veselin Raychev, Pavol lBielik, Martin Vechev, Andreas Krause
PHOG: Probabilistic Model for Code Pavol Bielik, Veselin Raychev, Martin Vechev
Latent Predictor Networks for Code Generation Wang Ling, Edward Grefenstette, Karl Moritz Hermann, Tomáš Kočiský, Andrew Senior, Fumin Wang, Phil Blunsom
Program Synthesis from Natural Language Using Recurrent Neural Networks Xi Victoria Lin, Chenglong Wang, Deric Pang, Kevin Vu, Michael D. Ernst
pix2code: Generating Code from a Graphical User Interface Screenshot Tony Beltramelli
A Syntactic Neural Model for General-Purpose Code Generation Pengcheng Yin, Graham Neubig
Neural Attribute Machines for Program Generation Matthew Amodio, Swarat Chaudhuri, Thomas W. Reps
Abstract Syntax Networks for Code Generation and Semantic Parsing Maxim Rabinovich, Mitchell Stern, Dan Klein
Synthesizing benchmarks for predictive modeling Chris Cummins, Pavlos Petoumenos, Zheng Wang, Hugh Leather
DeepFix: Fixing Common C Language Errors by Deep Learning Rahul Gupta, Soham Pal, Aditya Kanade, Shirish Shevade
Deep Reinforcement Learning for Programming Language Correction Rahul Gupta, Aditya Kanade, Shirish Shevade
Bayesian Sketch Learning for Program Synthesis Vijayaraghavan Murali, Letao Qi, Swarat Chaudhuri, Chris Jermaine
Compiler Fuzzing through Deep Learning Chris Cummins, Pavlos Petoumenos, Alastair Murray, Hugh Leather
Generating Regular Expressions from Natural Language Specifications: Are We There Yet? Zexuan Zhong, Jiaqi Guo, Wei Yang, Tao Xie, Jian-Guang Lou, Ting Liu, Dongmei Zhang
Mapping Language to Code in Programmatic Context Srinivasan Iyer, Ioannis Konstas, Alvin Cheung, Luke Zettlemoyer
NL2Bash: A Corpus and Semantic Parser for Natural Language Interface to the Linux Operating System Xi Victoria Lin, Chenglong Wang, Luke Zettlemoyer, Michael D. Ernst
CODIT: Code Editing with Tree-Based Neural Machine Translation Saikat Chakraborty, Miltiadis Allamanis, Baishakhi Ray
A Retrieve-and-Edit Framework for Predicting Structured Outputs Tatsunori B. Hashimoto, Kelvin Guu, Yonatan Oren, Percy S. Liang
Learning to Generate Corrective Patches using Neural Machine Translation Hideaki Hata, Emad Shihab, Graham Neubig
Learning to Repair Software Vulnerabilities with Generative Adversarial Networks Jacob Harer, Onur Ozdemir, Tomo Lazovich, Christopher P. Reale, Rebecca L. Russell, Louis Y. Kim, Peter Chin
SampleFix: Learning to Correct Programs by Sampling Diverse Fixes Hossein Hajipour, Apratim Bhattacharyya, Cristian-Alexandru Staicu, Mario Fritz
A Grammar-Based Structural CNN Decoder for Code Generation Zeyu Sun, Qihao Zhu, Lili Mou, Yingfei Xiong, Ge Li, Lu Zhang
SequenceR: Sequence-to-Sequence Learning for End-to-End Program Repair Zimin Chen, Steve Kommrusch, Michele Tufano, Louis-Noël Pouchet, Denys Poshyvanyk, Martin Monperrus
Generative Code Modeling with Graphs Marc Brockschmidt, Miltiadis Allamanis, Alexander L. Gaunt, Oleksandr Polozov
Structural Language Models for Any-Code Generation Uri Alon, Roy Sadaka, Omer Levy, Eran Yahav
Code Generation as a Dual Task of Code Summarization Bolin Wei, Ge Li, Xin Xia, Zhiyi Fu, Zhi Jin
DeepFuzz: Automatic Generation of Syntax Valid C Programs for Fuzz Testing Xiao Liu, Xiaoting Li, Rupesh Prajapati, Dinghao Wu
A case study on machine learning for synthesizing benchmarks Andrés Goens, Alexander Brauckmann, Sebastian Ertel, Chris Cummins, Hugh Leather, Jeronimo Castrillon
Learning Programmatic Idioms for Scalable Semantic Parsing Srinivasan Iyer, Alvin Cheung, Luke Zettlemoyer
Incorporating External Knowledge through Pre-training for Natural Language to Code Generation Frank F. Xu, Zhengbao Jiang, Pengcheng Yin, Bogdan Vasilescu, Graham Neubig
Semantic Scaffolds for Pseudocode-to-Code Generation Ruiqi Zhong, Mitchell Stern, Dan Klein
Unit Test Case Generation with Transformers Michele Tufano, Dawn Drain, Alexey Svyatkovskiy, Shao Kun Deng, Neel Sundaresan
Generating Accurate Assert Statements for Unit Test Cases using Pretrained Transformers Michele Tufano, Dawn Drain, Alexey Svyatkovskiy, Shao Kun Deng, Neel Sundaresan
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement, Dawn Drain, Jonathan Timcheck, Alexey Svyatkovskiy, Neel Sundaresan
IntelliCode Compose: Code Generation Using Transformer Alexey Svyatkovskiy, Shao Kun Deng, Shengyu Fu, Neel Sundaresan
Retrieval Augmented Code Generation and Summarization Md Rizwan Parvez, Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
Energy-Based Models for Code Generation under Compilability Constraints Tomasz Korbak, Hady Elsahar, Marc Dymetman, Germán Kruszewski
Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain, Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy
Time-Efficient Code Completion Model for the R Programming Language Artem Popov, Dmitrii Orekhov, Denis Litvinov, Nikolay Korolev, Gleb Morgachev
Shellcode_IA32: A Dataset for Automatic Shellcode Generation Pietro Liguori, Erfan Al-Hossami, Domenico Cotroneo, Roberto Natella, Bojan Cukic, Samira Shaikh
TOGA: A Neural Method for Test Oracle Generation Elizabeth Dinella, Gabriel Ryan, Todd Mytkowicz, Shuvendu K. Lahiri
InCoder: A Generative Model for Code Infilling and Synthesis Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen-tau Yih, Luke Zettlemoyer, Mike Lewis
DocCoder: Generating Code by Retrieving and Reading Docs Shuyan Zhou, Uri Alon, Frank F. Xu, Zhengbao JIang, Graham Neubig
Human perceiving behavior modeling in evaluation of code generation models S. Kovalchuk, V. Lomshakov, A. Aliev
Expectation vs. Experience: Evaluating the Usability of Code Generation Tools Powered by Large Language Models Priyan Vaithilingam, Tianyi Zhang, Elena Glassman
Open-ended Knowledge Tracing Naiming Liu, Zichao Wang, Richard G. Baraniuk, Andrew Lan
Test-based and metric-based evaluation of code generation models for practical question answering S. Kovalchuk, D. Fedrushkov, V. Lomshakov, A. Aliev
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani

🏷 code similarity

MISIM: An End-to-End Neural Code Similarity System Fangke Ye, Shengtian Zhou, Anand Venkat, Ryan Marcus, Nesime Tatbul, Jesmin Jahan Tithi, Paul Petersen, Timothy Mattson, Tim Kraska, Pradeep Dubey, Vivek Sarkar, Justin Gottschlich
Senatus - A Fast and Accurate Code-to-Code Recommendation Engine Fran Silavong, Sean Moran, Antonios Georgiadis, Rohan Saphal, Robert Otter
Cross-Language Binary-Source Code Matching with Intermediate Representations Yi Gui, Yao Wan, Hongyu Zhang, Huifang Huang, Yulei Sui, Guandong Xu, Zhiyuan Shao, Hai Jin
CV4Code: Sourcecode Understanding via Visual Code Representations Ruibo Shi, Lili Tao, Rohan Saphal, Fran Silavong, Sean J. Moran
Can Large Language Model Detect Plagiarism in Source Code? William Brach, Kristián Košťál, Michal Ries

🏷 compilation

DeepDelta: Learning to Repair Compilation Errors Ali Mesbah, Andrew Rice, Emily Johnston, Nick Glorioso, Edward Aftandilian.
A Neural Approach to Decompiled Identifier Renaming Jeremy Lacomis, Pengcheng Yin, Edward J. Schwartz, Miltiadis Allamanis, Claire Le Goues, Graham Neubig, Bogdan Vasilescu
Static Neural Compiler Optimization via Deep Reinforcement Learning Rahim Mammadli, Ali Jannesari, Felix Wolf
ComPy-Learn: A toolbox for exploring machine learning representations for compilers Alexander Brauckmann, Andrés Goens, Jeronimo Castrillon
Compiler-based graph representations for deep learning models of code Alexander Brauckmann, Andres Goens, Sebastian Ertel, Jeronimo Castrillon
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani

🏷 completion

Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation Fengji Zhang, Bei Chen, Yue Zhang, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen
RepoFusion: Training Code Models to Understand Your Repository Disha Shrivastava, Denis Kocetkov, Harm de Vries, Dzmitry Bahdanau, Torsten Scholak

🏷 cybersecurity

A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks Beatrice Casey, Joanna C. S. Santos, George Perry

🏷 dataset

A parallel corpus of Python functions and documentation strings for automated code documentation and code generation Antonio Valerio Miceli Barone, Rico Sennrich
StaQC: A Systematically Mined Question-Code Dataset from Stack Overflow Ziyu Yao, Daniel S. Weld, Wei-Peng Chen, Huan Sun
Learning to Mine Aligned Code and Natural Language Pairs from Stack Overflow Pengcheng Yin, B. Deng, E. Chen, B. Vasilescu, Graham Neubig
Public Git Archive: a Big Code dataset for all Vadim Markovtsev, Waren Long
CodeSearchNet Challenge: Evaluating the State of Semantic Code Search Hamel Husain, Ho-Hsiang Wu, Tiferet Gazit, Miltiadis Allamanis, Marc Brockschmidt
JuICe: A Large Scale Distantly Supervised Dataset for Open Domain Context-based Code Generation Rajas Agashe, Srinivasan Iyer, Luke Zettlemoyer
Neural Code Search Evaluation Dataset Hongyu Li, Seohyun Kim, Satish Chandra
Recommendations for Datasets for Source Code Summarization Alexander LeClair, Collin McMillan
The Adverse Effects of Code Duplication in Machine Learning Models of Code Miltiadis Allamanis
Graph4Code: A Machine Interpretable Knowledge Graph for Code Ibrahim Abdelaziz, Julian Dolby, James P. McCusker, Kavitha Srinivas
Associating Natural Language Comment and Source Code Entities Sheena Panthaplackel, Milos Gligoric, Raymond J. Mooney, Junyi Jessy Li
Code and Named Entity Recognition in StackOverflow Jeniya Tabassum, Mounica Maddela, Wei Xu, Alan Ritter
ProGraML: Graph-based Deep Learning for Program Optimization and Analysis Chris Cummins, Zacharias V. Fisches, Tal Ben-Nun, Torsten Hoefler, Hugh Leather
Megadiff: A Dataset of 600k Java Source Code Changes Categorized by Diff Size Martin Monperrus, Matias Martinez, He Ye, Fernanda Madeiral, Thomas Durieux, Zhongxing Yu
CommitBERT: Commit Message Generation Using Pre-Trained Programming Language Model Tae Hwan Jung
CoSQA: 20,000+ Web Queries for Code Search and Question Answering Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang, Ming Zhou, Nan Duan
ConTest: A Unit Test Completion Benchmark featuring Context Johannes Villmow, Jonas Depoix, Adrian Ulges
A large-scale benchmark for few-shot program induction and synthesis Ferran Alet, Javier Lopez-Contreras, James Koppel, Maxwell Nye, Armando Solar-Lezama, Tomas Lozano-Perez, Leslie Kaelbling, Joshua Tenenbaum
Reading StackOverflow Encourages Cheating: Adding Question Text Improves Extractive Code Generation Gabriel Orlanski, Alex Gittens
Time-Efficient Code Completion Model for the R Programming Language Artem Popov, Dmitrii Orekhov, Denis Litvinov, Nikolay Korolev, Gleb Morgachev
ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type Inference Amir M. Mir, Evaldas Latoskinas, Georgios Gousios
Project CodeNet: A Large-Scale AI for Code Dataset for Learning a Diversity of Coding Tasks Ruchir Puri, David S. Kung, Geert Janssen, Wei Zhang, Giacomo Domeniconi, Vladmir Zolotov, Julian Dolby, Jie Chen, Mihir Choudhury, Lindsey Decker, Veronika Thost, Luca Buratti, Saurabh Pujar, Ulrich Finkler
Shellcode_IA32: A Dataset for Automatic Shellcode Generation Pietro Liguori, Erfan Al-Hossami, Domenico Cotroneo, Roberto Natella, Bojan Cukic, Samira Shaikh
Impact of Evaluation Methodologies on Code Summarization Pengyu Nie, Jiyang Zhang, Junyi Jessy Li, Raymond J. Mooney, Milos Gligoric
Text-to-SQL in the Wild: A Naturally-Occurring Dataset Based on Stack Exchange Data Moshe Hazoom, Vibhor Malik, Ben Bogin
The Stack: 3TB of permissively licensed source code Denis Kocetkov, Raymond Li, Loubna Ben Allal, Jia Li, Chenghao Mou, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Dzmitry Bahdanau, Leandro von Werra, Harm de Vries
Static Prediction of Runtime Errors by Learning to Execute Programs with External Resource Descriptions David Bieber, Rishab Goel, Daniel Zheng, Hugo Larochelle, Daniel Tarlow
Exploring Dimensions of Generalizability and Few-shot Transfer for Text-to-SQL Semantic Parsing Rajaswa Patil, Manasi Patwardhan, Shirish Karande, Lovekesh Vig, Gautam Shroff
JEMMA: An Extensible Java Dataset for ML4Code Applications Anjan Karmakar, Miltiadis Allamanis, Romain Robbes
OctoPack: Instruction Tuning Code Large Language Models Niklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui, Terry Yue Zhuo, Swayam Singh, Xiangru Tang, Leandro von Werra, Shayne Longpre
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani
DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection Yizheng Chen, Zhoujie Ding, Xinyun Chen, David Wagner

🏷 decompilation

Learning to Align the Source Code to the Compiled Object Code Dor Levy, Lior Wolf
Towards Neural Decompilation Omer Katz, Yuval Olshaker, Yoav Goldberg, Eran Yahav
Coda: An End-to-End Neural Program Decompiler Cheng Fu, Huili Chen, Haolan Liu, Xinyun Chen, Yuandong Tian, Farinaz Koushanfar, Jishen Zhao
DIRECT : A Transformer-based Model for Decompiled Identifier Renaming Vikram Nitin, Anthony Saieva, Baishakhi Ray, Gail Kaiser
Code Translation with Compiler Representations Marc Szafraniec, Baptiste Roziere, Hugh Leather, Francois Charton, Patrick Labatut, Gabriel Synnaeve
LLM4Decompile: Decompiling Binary Code with Large Language Models Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang

🏷 defect

Using Web Corpus Statistics for Program Analysis Chun-Hung Hsiao, Michael Cafarella, Satish Narayanasamy
On the “Naturalness” of Buggy Code Baishakhi Ray, Vincent Hellendoorn, Saheel Godhane, Zhaopeng Tu, Alberto Bacchelli, Premkumar Devanbu
Bugram: bug detection with n-gram language models Song Wang, Devin Chollak, Dana Movshovitz-Attias, Lin Tan
Automatically Learning Semantic Features for Defect Prediction Song Wang, Taiyue Liu, Lin Tan
Software Defect Prediction via Convolutional Neural Network Jian Li, Pinjia He, Jieming Zhu, Michael R. Lyu
Deep Learning to Find Bugs Michael Pradel, Koushik Sen
Open Vocabulary Learning on Source Code with a Graph-Structured Cache Milan Cvitkovic, Badal Singh, Anima Anandkumar
Learning to Represent Programs with Graphs Miltiadis Allamanis, Marc Brockschmidt, Mahmoud Khademi
Exploring the Naturalness of Buggy Code with Recurrent Neural Network Jack Lanchantin, Ji Gao
Improving Bug Detection via Context-Based Code Representation Learning and Attention-Based Neural Networks Yi Li, Shaohua Wang, Tien N. Nguyen, Son Van Nguyen
Scalable Taint Specification Inference with Big Code V. Chibotaru, B. Bichsel, Veselin Raychev, Martin Vechev
Neural Attribution for Semantic Bug-Localization in Student Programs Rahul Gupta, Aditya Kanade, Shirish Shevade
Learning Semantic Program Embeddings with Graph Interval Neural Network Yu Wang, Fengjuan Gao, Linzhang Wang, Ke Wang
Global Relational Models of Source Code Vincent J. Hellendoorn, Charles Sutton, Rishab Singh, Petros Maniatis, David Bieber
OffSide: Learning to Identify Mistakes in Boundary Conditions Jón Arnar Briem, Jordi Smit, Hendrig Sellik, Pavel Rapoport, Georgios Gousios, Maurício Aniche.
SCELMo: Source Code Embeddings from Language Models Rafael-Michael Karampatsis, Charles Sutton
Self-Supervised Bug Detection and Repair Miltiadis Allamanis, Henry Jackson-Flux, Marc Brockschmidt
Co-Training for Commit Classification Jian Yi, David Lee, Hai Leong Chieu
Deep Learning based Vulnerability Detection: Are We There Yet? Saikat Chakraborty, Rahul Krishna, Yangruibo Ding, Baishakhi Ray
On Distribution Shift in Learning-based Bug Detectors Jingxuan He, Luca Beurer-Kellner, Martin Vechev
Static Prediction of Runtime Errors by Learning to Execute Programs with External Resource Descriptions David Bieber, Rishab Goel, Daniel Zheng, Hugo Larochelle, Daniel Tarlow
Can we learn from developer mistakes? Learning to localize and repair real bugs from real bug fixes Cedric Richter, Heike Wehrheim
Large Language Models and Simple, Stupid Bugs Kevin Jesse, Toufique Ahmed, Premkumar T. Devanbu, Emily Morgan

🏷 deobfuscation

Predicting Program Properties from “Big Code” Veselin Raychev, Martin Vechev, Andreas Krause
Statistical Deobfuscation of Android Applications Benjamin Bichsel, Veselin Raychev, Petar Tsankov, Martin Vechev
Towards Better Program Obfuscation: Optimization via Language Models Han Liu
Recovering Clear, Natural Identifiers from Obfuscated JS Names Bogdan Vasilescu, Casey Casalnuovo, Premkumar Devanbu
Recovering Variable Names for Minified Code with Usage Contexts Hieu Tran, Ngoc Tran, Son Nguyen, Hoan Nguyen, Tien N. Nguyen
Neural Reverse Engineering of Stripped Binaries Yaniv David, Uri Alon, Eran Yahav
A Neural Approach to Decompiled Identifier Renaming Jeremy Lacomis, Pengcheng Yin, Edward J. Schwartz, Miltiadis Allamanis, Claire Le Goues, Graham Neubig, Bogdan Vasilescu

🏷 documentation

Natural Language Models for Predicting Programming Comments Dana Movshovitz-Attias, William W. Cohen
A parallel corpus of Python functions and documentation strings for automated code documentation and code generation Antonio Valerio Miceli Barone, Rico Sennrich
Learning Technical Correspondences in Technical Documentation Kyle Richardson, Jonas Kuhn
Deep Learning to Detect Redundant Method Comments Annie Louis, Santanu Kumar Dash, Earl T. Barr, Charles Sutton
Improving Automatic Source Code Summarization via Deep Reinforcement Learning Yao Wan, Zhou Zhao, Min Yang, Guandong Xu, Haochao Ying, Jian Wu, Philip S. Yu
Structured Neural Summarization Patrick Fernandes, Miltiadis Allamanis, Marc Brockschmidt
A Neural Model for Generating Natural Language Summaries of Program Subroutines Alexander LeClair, Siyuan Jiang, Collin McMillan
TAG : Type Auxiliary Guiding for Code Comment Generation Ruichu Cai, Zhihao Liang, Boyan Xu, Zijian Li, Yuexing Hao, Yao Chen
TranS^3: A Transformer-based Framework for Unifying Code Summarization and Code Search Wenhua Wang, Yuqun Zhang, Zhengran Zeng, Guandong Xu
Deep Just-In-Time Inconsistency Detection Between Comments and Source Code Sheena Panthaplackel, Junyi Jessy Li, Milos Gligoric, Raymond J. Mooney
Code to Comment "Translation": Data, Metrics, Baselining & Evaluation David Gros, Hariharan Sezhiyan, Premkumar Devanbu, Zhou Yu
Learning to Update Natural Language Comments Based on Code Changes Sheena Panthaplackel, Pengyu Nie, Milos Gligoric, Raymond J. Mooney, Junyi Jessy Li
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement, Dawn Drain, Jonathan Timcheck, Alexey Svyatkovskiy, Neel Sundaresan
NaturalCC: A Toolkit to Naturalize the Source Code Corpus Yao Wan, Yang He, Jian-Guo Zhang, Yulei Sui, Hai Jin, Guandong Xu, Caiming Xiong, Philip S. Yu
Where should I comment my code? A dataset and model for predicting locations that need comments Annie Louis, Santanu Kumar Dash, Earl T. Barr, Charles Sutton
Suggesting Comment Completions for Python using Neural Language Models Adelina Ciurumelea; Sebastian Proksch; Harald C. Gall
Automating Just-In-Time Comment Updating Zhongxin Liu, Xin Xia, Meng Yan, Shanping Li
Learning to Describe Solutions for Bug Reports Based on Developer Discussions Sheena Panthaplackel, Junyi Jessy Li, Milos Gligoric, Raymond J. Mooney
Assemble Foundation Models for Automatic Code Summarization Jian Gu, Pasquale Salza, Harald C. Gall
LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard

🏷 dynamic

Learning Scalable and Precise Representation of Program Semantics Ke Wang
Blended, precise semantic program embeddings Ke Wang, Zhendong Su
Learning to Execute Programs with Instruction Pointer Attention Graph Neural Networks David Bieber, Charles Sutton, Hugo Larochelle, Daniel Tarlow
TraceFixer: Execution Trace-Driven Program Repair Islem Bouzenia, Yangruibo Ding, Kexin Pei, Baishakhi Ray, Michael Pradel
Predictive Program Slicing via Execution Knowledge-Guided Dynamic Dependence Learning Aashish Yadavally, Yi Li, Tien N. Nguyen

🏷 edit

A Study of Repetitiveness of Code Changes in Software Evolution Hoan Anh Nguyen, Anh Tuan Nguyen, Tung Thanh Nguyen, Tien N. Nguyen, and Hridesh Rajan
Automatically Generating Commit Messages from Diffs using Neural Machine Translation Siyuan Jiang, Ameer Armaly, Collin McMillan
A Neural Architecture for Generating Natural Language Descriptions from Source Code Changes Pablo Loyola, Edison Marrese-Taylor, Yutaka Matsuo
Content Aware Source Code Change Description Generation Pablo Loyola, Edison Marrese-Taylor, Jorge Balazs, Yutaka Matsuo, Fumiko Satoh
Learning How to Mutate Source Code from Bug-Fixes Michele Tufano, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Martin White, Denys Poshyvanyk
Neural-Machine-Translation-Based Commit Message Generation: How Far Are We? Zhongxin Liu, Xin Xia, Ahmed E. Hassan, David Lo, Zhenchang Xing, Xinyu Wang
Graph-based Mining of In-the-Wild, Fine-grained, Semantic Code Change Patterns Hoan Anh Nguyen, Tien N. Nguyen, Danny Dig, Son Nguyen, Hieu Tran, and Michael Hilton
On Learning Meaningful Code Changes via Neural Machine Translation Michele Tufano, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Martin White, Denys Poshyvanyk
Learning to Fix Build Errors with Graph2Diff Neural Networks Daniel Tarlow, Subhodeep Moitra, Andrew Rice, Zimin Chen, Pierre-Antoine Manzagol, Charles Sutton, Edward Aftandilian
Generating commit messages from diffs using pointer-generator network Qin Liu, Zihe Liu, Hongming Zhu, Hongfei Fan, Bowen Du, Yu Qian.
Commit Message Generation for Source Code Changes Shengbin Xu, Yuan Yao, Feng Xu, Tianxiao Gu, Hanghang Tong, Jian Lu
DeepDelta: Learning to Repair Compilation Errors Ali Mesbah, Andrew Rice, Emily Johnston, Nick Glorioso, Edward Aftandilian.
Commit2Vec: Learning Distributed Representations of Code Changes Adelina Ciurumelea; Sebastian Proksch; Harald C. Gall
Learning to Represent Edits Pengcheng Yin, Graham Neubig, Miltiadis Allamanis, Marc Brockschmidt, Alexander L. Gaunt
Neural Networks for Modeling Source Code Edits Rui Zhao, David Bieber, Kevin Swersky, Daniel Tarlow
DLFix: Context-based Code Transformation Learning for Automated Program Repair Yi Li, Shaohua Wang, Tien N. Nguyen
Hoppity: Learning Bug Detection and Repair Elizabeth Dinella, Hanjun Dai, Ziyang Li, Mayur Naik, Le Song, Ke Wang
CC2Vec: Distributed Representations of Code Changes Thong Hoang, Hong Jin Kang, Julia Lawall, David Lo
Graph-based, Self-Supervised Program Repair from Diagnostic Feedback Michihiro Yasunaga, Percy Liang
Copy that! Editing Sequences by Copying Spans Sheena Panthaplackel, Miltiadis Allamanis, Marc Brockschmidt
Deep Just-In-Time Inconsistency Detection Between Comments and Source Code Sheena Panthaplackel, Junyi Jessy Li, Milos Gligoric, Raymond J. Mooney
A Structural Model for Contextual Code Changes Shaked Brody, Uri Alon, Eran Yahav
Learning to Update Natural Language Comments Based on Code Changes Sheena Panthaplackel, Pengyu Nie, Milos Gligoric, Raymond J. Mooney, Junyi Jessy Li
Unsupervised Learning of General-Purpose Embeddings for Code Changes Mikhail Pravilov, Egor Bogomolov, Yaroslav Golubev, Timofey Bryksin
Megadiff: A Dataset of 600k Java Source Code Changes Categorized by Diff Size Martin Monperrus, Matias Martinez, He Ye, Fernanda Madeiral, Thomas Durieux, Zhongxing Yu
A Semantic Bug Seeding: A Learning-Based Approach for Creating Realistic Bugs Jibesh Patra, Michael Pradel
Jointly Learning to Repair Code and Generate Commit Message Jiaqi Bai, Long Zhou, Ambrosio Blanco, Shujie Liu, Furu Wei, Ming Zhou, Zhoujun Li
DeepMerge: Learning to Merge Programs Elizabeth Dinella, Todd Mytkowicz, Alexey Svyatkovskiy, Christian Bird, Mayur Naik, Shuvendu K. Lahiri
On Multi-Modal Learning of Editing Source Code Saikat Chakraborty, Baishakhi Ray
A Syntax-Guided Edit Decoder for Neural Program Repair Qihao Zhu, Zeyu Sun, Yuan-an Xiao, Wenjie Zhang, Kang Yuan, Yingfei Xiong, Lu Zhang
Learning to Model Editing Processes Machel Reid, Graham Neubig
CoditT5: Pretraining for Source Code and Natural Language Editing Jiyang Zhang, Sheena Panthaplackel, Pengyu Nie, Junyi Jessy Li, Milos Gligoric

🏷 editing

Grace: Language Models Meet Code Edits Priyanshu Gupta, Avishree Khare, Yasharth Bajpai, Saikat Chakraborty, Sumit Gulwani, Aditya Kanade, Arjun Radhakrishna, Gustavo Soares, Ashish Tiwari
Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions Federico Cassano, Luisa Li, Akul Sethi, Noah Shinn, Abby Brennan-Jones, Jacob Ginesin, Edward Berman, George Chakhnashvili, Anton Lozhkov, Carolyn Jane Anderson, Arjun Guha

🏷 education

A system to grade computer programming skills using machine learning Shashank Srikant, Varun Aggarwal
Learning Program Embeddings to Propagate Feedback on Student Code Chris Piech, Jonathan Huang, Andy Nguyen, Mike Phulsuksombati, Mehran Sahami, Leonidas Guibas
Question Independent Grading using Machine Learning: The Case of Computer Program Grading Gursimran Singh, Shashank Srikant, Varun Aggarwal
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback Mike Wu, Noah D. Goodman, Chris Piech, Chelsea Finn
Open-ended Knowledge Tracing Naiming Liu, Zichao Wang, Richard G. Baraniuk, Andrew Lan

🏷 evaluation

Testing Neural Program Analyzers Md Rafiqul Islam Rabin, Ke Wang, Mohammad Amin Alipour
The Adverse Effects of Code Duplication in Machine Learning Models of Code Miltiadis Allamanis
Towards Demystifying Dimensions of Source Code Embeddings Md Rafiqul Islam Rabin, Arjun Mukherjee, Omprakash Gnawali, Mohammad Amin Alipour
CodeBLEU: a Method for Automatic Evaluation of Code Synthesis Shuo Ren, Daya Guo, Shuai Lu, Long Zhou, Shujie Liu, Duyu Tang, Neel Sundaresan, Ming Zhou, Ambrosio Blanco, Shuai Ma
On the Generalizability of Neural Program Models with respect to Semantic-Preserving Program Transformations Md Rafiqul Islam Rabin, Nghi D. Q. Bui, Ke Wang, Yijun Yu, Lingxiao Jiang, Mohammad Amin Alipour
Impact of Evaluation Methodologies on Code Summarization Pengyu Nie, Jiyang Zhang, Junyi Jessy Li, Raymond J. Mooney, Milos Gligoric
Memorization and Generalization in Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour, Vincent J. Hellendoorn
An Extensive Study on Pre-trained Models for Program Understanding and Generation Zhengran Zeng, Hanzhuo Tan, Haotian Zhang, Jing Li, Yuqun Zhang, Lingming Zhang
Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis Shounak Naik, Rajaswa Patil, Swati Agarwal, Veeky Baths
Semantic Similarity Metrics for Evaluating Source Code Summarization Sakib Haque, Zachary Eberhart, Aakash Bansal, Collin McMillan
Human perceiving behavior modeling in evaluation of code generation models S. Kovalchuk, V. Lomshakov, A. Aliev
Exploring Dimensions of Generalizability and Few-shot Transfer for Text-to-SQL Semantic Parsing Rajaswa Patil, Manasi Patwardhan, Shirish Karande, Lovekesh Vig, Gautam Shroff
Natural Language to Code Generation in Interactive Data Science Notebooks Pengcheng Yin, Wen-Ding Li, Kefan Xiao, Abhishek Rao, Yeming Wen, Kensen Shi, Joshua Howland, Paige Bailey, Michele Catasta, Henryk Michalewski, Alex Polozov, Charles Sutton
CrystalBLEU: Precisely and Efficiently Measuring the Similarity of Code Aryaz Eghbali, Michael Pradel
Productivity Assessment of Neural Code Completion Albert Ziegler, Eirini Kalliamvakou, Shawn Simister, Ganesh Sittampalam, Alice Li, Andrew Rice, Devon Rifkin, Edward Aftandilian
CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code Shuyan Zhou, Uri Alon, Sumit Agarwal, Graham Neubig
Test-based and metric-based evaluation of code generation models for practical question answering S. Kovalchuk, D. Fedrushkov, V. Lomshakov, A. Aliev
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani
CodeScore: Evaluating Code Generation by Learning Code Execution Yihong Dong, Jiazheng Ding, Xue Jiang, Zhuo Li, Ge Li, Zhi Jin
PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models Simin Chen, Xiaoning Feng, Xiaohong Han, Cong Liu, Wei Yang
LLM4Decompile: Decompiling Binary Code with Large Language Models Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang

🏷 execution

Learning to Execute Wojciech Zaremba, Ilya Sutskever
Show Your Work: Scratchpads for Intermediate Computation with Language Models Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, Augustus Odena
SelfAPR: Self-supervised Program Repair with Test Execution Diagnostics He Ye, Matias Martinez, Xiapu Luo, Tao Zhang, Martin Monperrus
CodeT: Code Generation with Generated Tests Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, Weizhu Chen
Code Execution with Pre-trained Language Models Chenxiao Liu, Shuai Lu, Weizhu Chen, Daxin Jiang, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan, Nan Duan
LExecutor: Learning-Guided Execution Beatriz Souza, Michael Pradel

🏷 feature location

Exploring the Use of Deep Learning for Feature Location Christopher S. Corley, Kostadin Damevski, Nicholas A. Kraft

🏷 fuzzing

Learning to Fuzz: Application-Independent Fuzz Testing with Probabilistic, Generative Models of Input Data Jibesh Patra, Michael Pradel
Compiler Fuzzing through Deep Learning Chris Cummins, Pavlos Petoumenos, Alastair Murray, Hugh Leather
NEUZZ: Efficient Fuzzing with Neural Program Smoothing Dongdong She, Kexin Pei, Dave Epstein, Junfeng Yang, Baishakhi Ray, Suman Jana
DeepFuzz: Automatic Generation of Syntax Valid C Programs for Fuzz Testing Xiao Liu, Xiaoting Li, Rupesh Prajapati, Dinghao Wu
Learning to Fuzz from Symbolic Execution with Application to Smart Contracts Jingxuan He, Mislav Balunović, Nodar Ambroladze, Petar Tsankov, Martin Vechev
Montage: A Neural Network Language Model-Guided JavaScript Engine Fuzzer Suyoung Lee, HyungSeok Han, Sang Kil Cha, Sooel Son
Universal Fuzzing via Large Language Models Chunqiu Steven Xia, Matteo Paltenghi, Jia Le Tian, Michael Pradel, Lingming Zhang

🏷 generalizability

On the Generalizability of Neural Program Models with respect to Semantic-Preserving Program Transformations Md Rafiqul Islam Rabin, Nghi D. Q. Bui, Ke Wang, Yijun Yu, Lingxiao Jiang, Mohammad Amin Alipour
Memorization and Generalization in Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour, Vincent J. Hellendoorn
Exploring Dimensions of Generalizability and Few-shot Transfer for Text-to-SQL Semantic Parsing Rajaswa Patil, Manasi Patwardhan, Shirish Karande, Lovekesh Vig, Gautam Shroff

🏷 generation

Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation Xin-Ye Li, Jiang-Tian Xue, Zheng Xie, Ming Li

🏷 GNN

Gated Graph Sequence Neural Networks Yujia Li, Daniel Tarlow, Marc Brockschmidt, Richard Zemel
Open Vocabulary Learning on Source Code with a Graph-Structured Cache Milan Cvitkovic, Badal Singh, Anima Anandkumar
Learning to Represent Programs with Graphs Miltiadis Allamanis, Marc Brockschmidt, Mahmoud Khademi
Simulating Execution Time of Tensor Programs using Graph Neural Networks Jakub M. Tomczak, Romain Lepert, Auke Wiggers
Generative Code Modeling with Graphs Marc Brockschmidt, Miltiadis Allamanis, Alexander L. Gaunt, Oleksandr Polozov
Structured Neural Summarization Patrick Fernandes, Miltiadis Allamanis, Marc Brockschmidt
Neural Reverse Engineering of Stripped Binaries Yaniv David, Uri Alon, Eran Yahav
Using GGNN to recommend log statement level Mingzhe Li, Jianrui Pei, Jin He, Kevin Song, Frank Che, Yongfeng Huang, Chitai Wang
Program Classification Using Gated Graph Attention Neural Network for Online Programming Service Mingming Lu, Dingwu Tan, Naixue Xiong, Zailiang Chen, Haifeng Li
AutoPandas: neural-backed generators for program synthesis Rohan Bavishi, Caroline Lemieux, Roy Fox, Koushik Sen, Ion Stoica
Learning to Fuzz from Symbolic Execution with Application to Smart Contracts Jingxuan He, Mislav Balunović, Nodar Ambroladze, Petar Tsankov, Martin Vechev
Inferring Javascript types using Graph Neural Networks Jessica Schrouff, Kai Wohlfahrt, Bruno Marnette, Liam Atkinson
Learning Semantic Program Embeddings with Graph Interval Neural Network Yu Wang, Fengjuan Gao, Linzhang Wang, Ke Wang
Global Relational Models of Source Code Vincent J. Hellendoorn, Charles Sutton, Rishab Singh, Petros Maniatis, David Bieber
Devign: Effective Vulnerability Identification by Learning Comprehensive Program Semantics via Graph Neural Networks Yaqin Zhou, Shangqing Liu, Jingkai Siow, Xiaoning Du, Yang Liu
LambdaNet: Probabilistic Type Inference using Graph Neural Networks Jiayi Wei, Maruth Goyal, Greg Durrett, Isil Dillig
Graph-based, Self-Supervised Program Repair from Diagnostic Feedback Michihiro Yasunaga, Percy Liang
Typilus: Neural Type Hints Miltiadis Allamanis, Earl T. Barr, Soline Ducousso, Zheng Gao
Learning Graph Structure With A Finite-State Automaton Layer Daniel D. Johnson, Hugo Larochelle, Daniel Tarlow
ProGraML: Graph-based Deep Learning for Program Optimization and Analysis Chris Cummins, Zacharias V. Fisches, Tal Ben-Nun, Torsten Hoefler, Hugh Leather
Towards Learning Representations of Binary Executable Files for Security Tasks Shushan Arakelyan, Sima Arasteh, Christophe Hauser, Erik Kline, Aram Galstyan
funcGNN: A Graph Neural Network Approach to Program Similarity Aravind Nair, Avijit Roy, Karl Meinke
Deep Graph Matching and Searching for Semantic Code Retrieval Xiang Ling, Lingfei Wu, Saizhuo Wang, Gaoning Pan, Tengfei Ma, Fangli Xu, Alex X. Liu, Chunming Wu, Shouling Ji
ComPy-Learn: A toolbox for exploring machine learning representations for compilers Alexander Brauckmann, Andrés Goens, Jeronimo Castrillon
Compiler-based graph representations for deep learning models of code Alexander Brauckmann, Andres Goens, Sebastian Ertel, Jeronimo Castrillon
Detecting Code Clones with Graph Neural Network and Flow-Augmented Abstract Syntax Tree Wenhan Wang, Ge Li, Bo Ma, Xin Xia, Zhi Jin
Modeling Functional Similarity in Source Code with Graph-Based Siamese Networks Nikita Mehrotra, Navdha Agarwal, Piyush Gupta, Saket Anand, David Lo, Rahul Purandare
Learning to Represent Programs with Heterogeneous Graphs Wenhan Wang, Kechi Zhang, Ge Li, Zhi Jin
Self-Supervised Bug Detection and Repair Miltiadis Allamanis, Henry Jackson-Flux, Marc Brockschmidt

🏷 grammar

Structured Statistical Syntax Tree Prediction Cyrus Omar
Building Program Vector Representations for Deep Learning Hao Peng, Lili Mou, Ge Li, Yuxuan Liu, Lu Zhang, Zhi Jin.
Structured Generative Models of Natural Source Code Chris J. Maddison, Daniel Tarlow
Mining Idioms from Source Code Miltiadis Allamanis, Charles Sutton
Learning to Generate Pseudo-code from Source Code using Statistical Machine Translation Yusuke Oda, Hiroyuki Fudaba, Graham Neubig, Hideaki Hata, Sakriani Sakti, Tomoki Toda, Satoshi Nakamura
A Bimodal Modelling of Source Code and Natural Language Miltiadis Allamanis, Daniel Tarlow, Andrew Gordon, Yi Wei
Learning Programs from Noisy Data Veselin Raychev, Pavol lBielik, Martin Vechev, Andreas Krause
PHOG: Probabilistic Model for Code Pavol Bielik, Veselin Raychev, Martin Vechev
Convolutional Neural Networks over Tree Structures for Programming Language Processing Lili Mou, Ge Li, Lu Zhang, Tao Wang, Zhi Jin
A Syntactic Neural Model for General-Purpose Code Generation Pengcheng Yin, Graham Neubig
Neural Attribute Machines for Program Generation Matthew Amodio, Swarat Chaudhuri, Thomas W. Reps
Abstract Syntax Networks for Code Generation and Semantic Parsing Maxim Rabinovich, Mitchell Stern, Dan Klein
Mining Semantic Loop Idioms from Big Code Miltiadis Allamanis, Earl T. Barr, Christian Bird, Mark Marron, Charles Sutton
Cross-Language Learning for Program Classification using Bilateral Tree-Based Convolutional Neural Networks Nghi D. Q. Bui, Lingxiao Jiang, Yijun Yu
CODIT: Code Editing with Tree-Based Neural Machine Translation Saikat Chakraborty, Miltiadis Allamanis, Baishakhi Ray
A Grammar-Based Structural CNN Decoder for Code Generation Zeyu Sun, Qihao Zhu, Lili Mou, Yingfei Xiong, Ge Li, Lu Zhang
Capturing source code semantics via tree-based convolution over API-enhanced AST Long Chen, Wei Ye, Shikun Zhang
Generative Code Modeling with Graphs Marc Brockschmidt, Miltiadis Allamanis, Alexander L. Gaunt, Oleksandr Polozov
PathMiner : A Library for Mining of Path-Based Representations of Code Vladimir Kovalenko, Egor Bogomolov, Timofey Bryksin, Alberto Bacchelli.
Learning Programmatic Idioms for Scalable Semantic Parsing Srinivasan Iyer, Alvin Cheung, Luke Zettlemoyer
Automatic Source Code Summarization with Extended Tree-LSTM Yusuke Shido, Yasuaki Kobayashi, Akihiro Yamamoto, Atsushi Miyamoto, Tadayuki Matsumura
Learning-based Recursive Aggregation of Abstract Syntax Trees for Code Clone Detection Lutz Büch, Artur Andrzejak
A Novel Neural Source Code Representation based on Abstract Syntax Tree Jian Zhang, Xu Wang, Hongyu Zhang, Hailong Sun, Kaixuan Wang, Xudong Liu
Neural-Network Guided Expression Transformation Romain Edelmann, Viktor Kunčak
DLFix: Context-based Code Transformation Learning for Automated Program Repair Yi Li, Shaohua Wang, Tien N. Nguyen
Modular Tree Network for Source Code Representation Learning Wenhan Wang, Ge Li, Sijie Shen, Xin Xia, Zhi Jin
PSCS: A Path-based Neural Model for Semantic Code Search Zhensu Sun, Yan Liu, Chen Yang, Yu Qian
A Structural Model for Contextual Code Changes Shaked Brody, Uri Alon, Eran Yahav
Predicting Vulnerability in Large Codebases With Deep Code Representation Anshul Tanwar, Krishna Sundaresan, Parmesh Ashwath, Prasanna Ganesan, Sathish Kumar Chandrasekaran, Sriram Ravi
TreeBERT: A Tree-Based Pre-Trained Model for Programming Language Xue Jiang, Zhuoran Zheng, Chen Lyu, Liang Li, Lei Lyu
Learning to Complete Code with Sketches Daya Guo, Alexey Svyatkovskiy, Jian Yin, Nan Duan, Marc Brockschmidt, Miltiadis Allamanis

🏷 human evaluation

Grounded Copilot: How Programmers Interact with Code-Generating Models Shraddha Barke, Michael B. James, Nadia Polikarpova
Semantic Similarity Metrics for Evaluating Source Code Summarization Sakib Haque, Zachary Eberhart, Aakash Bansal, Collin McMillan
Human perceiving behavior modeling in evaluation of code generation models S. Kovalchuk, V. Lomshakov, A. Aliev
Expectation vs. Experience: Evaluating the Usability of Code Generation Tools Powered by Large Language Models Priyan Vaithilingam, Tianyi Zhang, Elena Glassman
What is it like to program with artificial intelligence? Advait Sarkar, Andrew D. Gordon, Carina Negreanu, Christian Poelitz, Sruti Srinivasa Ragavan, Ben Zorn
Productivity Assessment of Neural Code Completion Albert Ziegler, Eirini Kalliamvakou, Shawn Simister, Ganesh Sittampalam, Alice Li, Andrew Rice, Devon Rifkin, Edward Aftandilian

🏷 information extraction

A Hidden Markov Model to Detect Coded Information Islands in Free Text Luigi Cerulo, Michele Ceccarelli, Massimiliano Di Penta, Gerardo Canfora
Irish: A Hidden Markov Model to detect coded information islands in free text Luigi Cerulo, Michele Ceccarelli, Massimiliano Di Penta, Gerardo Canfora
NIRMAL: Automatic Identification of Software Relevant Tweets Leveraging Language Model Abhishek Sharma, Yuan Tian, David Lo
Extracting Code from Programming Tutorial Videos Shir Yadid, Eran Yahav
A Deep Learning Approach to Identifying Source Code in Images and Video Jordan Ott, Abigail Atchison, Paul Harnack, Adrienne Bergh, Erik Linstead.
Evaluation of Type Inference with Textual Cues Amirreza A. Shirani, A. Pastor Lopez-Monroy, Fabio Gonzalez, Thamar Solorio, Mohammad Amin Alipour
Code and Named Entity Recognition in StackOverflow Jeniya Tabassum, Mounica Maddela, Wei Xu, Alan Ritter
Understanding Neural Code Intelligence Through Program Simplification Md Rafiqul Islam Rabin, Vincent J. Hellendoorn, Mohammad Amin Alipour

🏷 instruction tuning

OctoPack: Instruction Tuning Code Large Language Models Niklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui, Terry Yue Zhuo, Swayam Singh, Xiangru Tang, Leandro von Werra, Shayne Longpre

🏷 interpretability

Towards Demystifying Dimensions of Source Code Embeddings Md Rafiqul Islam Rabin, Arjun Mukherjee, Omprakash Gnawali, Mohammad Amin Alipour
Understanding Neural Code Intelligence Through Program Simplification Md Rafiqul Islam Rabin, Vincent J. Hellendoorn, Mohammad Amin Alipour
Syntax-Guided Program Reduction for Understanding Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour
Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis Shounak Naik, Rajaswa Patil, Swati Agarwal, Veeky Baths
An Exploratory Study on Code Attention in BERT Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard, David Lo

🏷 language model

On the Naturalness of Software Abram Hindle, Earl T. Barr, Mark Gabel, Zhendong Su, Premkumar Devanbu
A Statistical Semantic Language Model for Source Code Tung Thanh Nguyen, Anh Tuan Nguyen, Hoan Anh Nguyen, Tien N. Nguyen
Mining Source Code Repositories at Massive Scale Using Language Modeling Miltiadis Allamanis, Charles Sutton
Structured Statistical Syntax Tree Prediction Cyrus Omar
Learning Natural Coding Conventions Miltiadis Allamanis, Earl T. Barr, Christian Bird, Charles Sutton
Structured Generative Models of Natural Source Code Chris J. Maddison, Daniel Tarlow
Code Completion with Statistical Language Models Veselin Raychev, Martin Vechev, Eran Yahav
On the Localness of Software Zhaopeng Tu, Zhendong Su, Premkumar Devanbu
Syntax Errors Just Aren’t Natural: Improving Error Reporting with Language Models Joshua Charles Campbell, Abram Hindle, José Nelson Amaral
Will they like this? Evaluating Code Contributions With Language Models Vincent J. Hellendoorn, Premkumar Devanbu, Alberto Bacchelli
Graph-based Statistical Language Model for Code Anh Tuan Nguyen, Tien N. Nguyen
Products, Developers, and Milestones: How Should I Build My N-Gram Language Model Juliana Saraiva, Christian Bird, Thomas Zimmermann
Visualizing and Understanding Recurrent Networks Andrej Karpathy, Justin Johnson, Li Fei-Fei
CACHECA: A Cache Language Model Based Code Suggestion Tool Christine Franks, Zhaopeng Tu, Premkumar Devanbu, Vincent Hellendoorn
A deep language model for software code Hoa Khanh Dam, Truyen Tran, Trang Pham
PHOG: Probabilistic Model for Code Pavol Bielik, Veselin Raychev, Martin Vechev
Learning Python Code Suggestion with a Sparse Pointer Network Avishkar Bhoopchand, Tim Rocktaschel, Earl Barr, Sebastian Riedel
A Language Model for Statements of Software Code Yixiao Yang, Yu Jiang, Ming Gu, Jiaguang Sun, Jian Gao, Han Liu
Are Deep Neural Networks the Best Choice for Modeling Source Code? Vincent J. Hellendoorn, Premkumar Devanbu
Code Completion with Neural Attention and Pointer Networks Jian Li, Yue Wang, Michael R. Lyu, Irwin King
Building Language Models for Text with Named Entities M.R. Parvez, Saikat Chakraborty, Baishakhi Ray, KW Chang
Exploring the Naturalness of Buggy Code with Recurrent Neural Network Jack Lanchantin, Ji Gao
Syntax and Sensibility: Using language models to detect and correct syntax errors Eddie Antonio Santos, Joshua Charles Campbell, Dhvani Patel, Abram Hindle, José Nelson Amaral
On the Impact of Refactoring Operations on Code Naturalness Bin Lin, Csaba Nagy, Gabriele Bavota, Michele Lanza
Pythia: AI-assisted Code Completion System Alexey Svyatkovskiy, Ying Zhao, Shengyu Fu, Neel Sundaresan
Maybe Deep Neural Networks are the Best Choice for Modeling Source Code Rafael-Michael Karampatsis, Charles Sutton
Big Code != Big Vocabulary: Open-Vocabulary Models for Source Code Rafael-Michael Karampatsis, Hlib Babii, Romain Robbes Charles Sutton, Andrea Janes
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement, Dawn Drain, Jonathan Timcheck, Alexey Svyatkovskiy, Neel Sundaresan
Montage: A Neural Network Language Model-Guided JavaScript Engine Fuzzer Suyoung Lee, HyungSeok Han, Sang Kil Cha, Sooel Son
IntelliCode Compose: Code Generation Using Transformer Alexey Svyatkovskiy, Shao Kun Deng, Shengyu Fu, Neel Sundaresan
On-the-Fly Adaptation of Source Code Models using Meta-Learning Disha Shrivastava, Hugo Larochelle, Daniel Tarlow
CommitBERT: Commit Message Generation Using Pre-Trained Programming Language Model Tae Hwan Jung
Evaluating Large Language Models Trained on Code Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde, Jared Kaplan, Harri Edwards, Yura Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, Will Guss, Alex Nichol, Igor Babuschkin, Suchir Balaji, Shantanu Jain, Andrew Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, Wojciech Zaremba
Toward Less Hidden Cost of Code Completion with Acceptance and Ranking Models Jingxuan Li, Rui Huang, Wei Li, Kai Yao, Weiguo Tan
An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri
Capturing Structural Locality in Non-parametric Language Models Frank F. Xu, Junxian He, Graham Neubig, Vincent J. Hellendoorn
Exploration of Convolutional Neural Network models for source code classification Francesco Barchi, Emanuele Parisi, Gianvito Urgese, Elisa Ficarra, Andrea Acquaviva
Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain, Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy
Time-Efficient Code Completion Model for the R Programming Language Artem Popov, Dmitrii Orekhov, Denis Litvinov, Nikolay Korolev, Gleb Morgachev
On the Naturalness and Localness of Software Logs Sina Gholamian, Paul A. S. Ward
Neural Program Generation Modulo Static Analysis Rohan Mukherjee, Yeming Wen, Dipak Chaudhari, Thomas W. Reps, Swarat Chaudhuri, Chris Jermaine
Memorization and Generalization in Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour, Vincent J. Hellendoorn
Efficient Training of Language Models to Fill in the Middle Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey, Jerry Tworek, Mark Chen
Assemble Foundation Models for Automatic Code Summarization Jian Gu, Pasquale Salza, Harald C. Gall
A Systematic Evaluation of Large Language Models of Code Frank F. Xu, Uri Alon, Graham Neubig, Vincent J. Hellendoorn
Synchromesh: Reliable code generation from pre-trained language models Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek, Sumit Gulwani
Making the Most of Scarce Input Data in Deep Learning-Based Source Code Classification for Heterogeneous Device Mapping Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Andrea Acquaviva
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding Deze Wang, Zhouyang Jia, Shanshan Li, Yue Yu, Yun Xiong, Wei Dong, Xiangke Liao
Learning to Complete Code with Sketches Daya Guo, Alexey Svyatkovskiy, Jian Yin, Nan Duan, Marc Brockschmidt, Miltiadis Allamanis
Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis Shounak Naik, Rajaswa Patil, Swati Agarwal, Veeky Baths
LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard
An Exploratory Study on Code Attention in BERT Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard, David Lo
Expectation vs. Experience: Evaluating the Usability of Code Generation Tools Powered by Large Language Models Priyan Vaithilingam, Tianyi Zhang, Elena Glassman
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani

🏷 large language models

Fine-Tuning Large Language Models for Answering Programming Questions with Code Snippets V. Lomshakov, S. Kovalchuk, M. Omelchenko, S. Nikolenko, A. Aliev
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani
(Partial) Program Dependence Learning Aashish Yadavally, Wenbo Wang, Shaohua Wang, Tien N. Nguyen
Can Large Language Model Detect Plagiarism in Source Code? William Brach, Kristián Košťál, Michal Ries
LLM4Decompile: Decompiling Binary Code with Large Language Models Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search Haochen Li, Xin Zhou, Zhiqi Shen
A Learning-Based Approach to Static Program Slicing Aashish Yadavally, Yi Li, Shaohua Wang, Tien N. Nguyen
Predictive Program Slicing via Execution Knowledge-Guided Dynamic Dependence Learning Aashish Yadavally, Yi Li, Tien N. Nguyen

🏷 LLM

A Static Evaluation of Code Completion by Large Language Models Hantian Ding, Varun Kumar, Yuchen Tian, Zijian Wang, Rob Kwiatkowski, Xiaopeng Li, Murali Krishna Ramanathan, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang
Can Large Language Model Detect Plagiarism in Source Code? William Brach, Kristián Košťál, Michal Ries
LLM4Decompile: Decompiling Binary Code with Large Language Models Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang

🏷 logging

Using GGNN to recommend log statement level Mingzhe Li, Jianrui Pei, Jin He, Kevin Song, Frank Che, Yongfeng Huang, Chitai Wang
On the Naturalness and Localness of Software Logs Sina Gholamian, Paul A. S. Ward
Using Deep Learning to Generate Complete Log Statements Antonio Mastropaolo, Luca Pascarella, Gabriele Bavota

🏷 memorization

Memorization and Generalization in Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour, Vincent J. Hellendoorn

🏷 metrics

Test-based and metric-based evaluation of code generation models for practical question answering S. Kovalchuk, D. Fedrushkov, V. Lomshakov, A. Aliev
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search Haochen Li, Xin Zhou, Zhiqi Shen

🏷 migration

Lexical Statistical Machine Translation for Language Migration Anh Tuan Nguyen, Tung Thanh Nguyen, Tien N. Nguyen
Statistical Learning Approach for Mining API Usage Mappings for Code Migration Anh Tuan Nguyen, Hoan Anh Nguyen, Tung Thanh Nguyen, Tien N. Nguyen
Divide-and-Conquer Approach for Multi-phase Statistical Migration for Source Code Anh Tuan Nguyen, Tung Thanh Nguyen, Tien N. Nguyen
Phrase-Based Statistical Translation of Programming Languages S. Karaivanov, Veselin Raychev, Martin Vechev
Using Machine Translation for Converting Python 2 to Python 3 Code Karan Aggarwal, Mohammad Salameh, Abram Hindle
Mapping API Elements for Code Migration with Vector Representations Trong Duc Nguyen, Anh Tuan Nguyen, Tien N. Nguyen
Unsupervised Translation of Programming Languages Marie-Anne Lachaux, Baptiste Roziere, Lowik Chanussot, Guillaume Lample
Leveraging Automated Unit Tests for Unsupervised Code Translation Baptiste Roziere, Jie M. Zhang, Francois Charton, Mark Harman, Gabriel Synnaeve, Guillaume Lample
Code Translation with Compiler Representations Marc Szafraniec, Baptiste Roziere, Hugh Leather, Francois Charton, Patrick Labatut, Gabriel Synnaeve

🏷 naming

Learning Natural Coding Conventions Miltiadis Allamanis, Earl T. Barr, Christian Bird, Charles Sutton
Predicting Program Properties from “Big Code” Veselin Raychev, Martin Vechev, Andreas Krause
Suggesting Accurate Method and Class Names Miltiadis Allamanis, Earl T. Barr, Christian Bird, Charles Sutton
A Convolutional Attention Network for Extreme Summarization of Source Code Miltiadis Allamanis, Hao Peng, Charles Sutton
Statistical Deobfuscation of Android Applications Benjamin Bichsel, Veselin Raychev, Petar Tsankov, Martin Vechev
Recovering Clear, Natural Identifiers from Obfuscated JS Names Bogdan Vasilescu, Casey Casalnuovo, Premkumar Devanbu
Context2Name: A Deep Learning-Based Approach to Infer Natural Variable Names from Usage Contexts Rohan Bavishi, Michael Pradel, Koushik Sen
Learning to Represent Programs with Graphs Miltiadis Allamanis, Marc Brockschmidt, Mahmoud Khademi
A General Path-Based Representation for Predicting Program Properties Uri Alon, Meital Zilberstein, Omer Levy, Eran Yahav
code2vec: Learning Distributed Representations of Code Uri Alon, Omer Levy, Eran Yahav
A Neural Model for Method Name Generation from Functional Description Sa Gao, Chunyang Chen, Zhenchang Xing, Yukun Ma, Wen Song, Shang-Wei Lin
Recovering Variable Names for Minified Code with Usage Contexts Hieu Tran, Ngoc Tran, Son Nguyen, Hoan Nguyen, Tien N. Nguyen
Mercem: Method Name Recommendation Based on Call Graph Embedding Hiroshi Yonai, Yasuhiro Hayase, Hiroyuki Kitagawa
Learning to Sport and Refactor Inconsistent Method Names Kui Liu, Dongsun Kim, Tegawendé F. Bissyandé, Taeyoung Kim, Kisub Kim, Anil Koyuncu, Suntae Kim, Yves Le Traon
code2seq: Generating Sequences from Structured Representations of Code Uri Alon, Omer Levy, Eran Yahav
Method name suggestion with hierarchical attention networks Sihan Xu, Sen Zhang, Weijing Wang, Xinya Cao, Chenkai Guo, Jing Xu.
Neural Reverse Engineering of Stripped Binaries Yaniv David, Uri Alon, Eran Yahav
A Neural Approach to Decompiled Identifier Renaming Jeremy Lacomis, Pengcheng Yin, Edward J. Schwartz, Miltiadis Allamanis, Claire Le Goues, Graham Neubig, Bogdan Vasilescu
Suggesting Natural Method Names to Check Name Consistencies Son Nguyen, Hung Phan, Trinh Le, Tien N. Nguyen
Towards Demystifying Dimensions of Source Code Embeddings Md Rafiqul Islam Rabin, Arjun Mukherjee, Omprakash Gnawali, Mohammad Amin Alipour
Embedding Java Classes with code2vec: Improvements from Variable Obfuscation Rhys Compton, Eibe Frank, Panos Patros, Abigail Koay
Semantic Robustness of Models of Source Code Jordan Henkel, Goutham Ramakrishnan, Zi Wang, Aws Albarghouthi, Somesh Jha, Thomas Reps
InCoder: A Generative Model for Code Infilling and Synthesis Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen-tau Yih, Luke Zettlemoyer, Mike Lewis

🏷 natural language generation

Test-based and metric-based evaluation of code generation models for practical question answering S. Kovalchuk, D. Fedrushkov, V. Lomshakov, A. Aliev

🏷 natural language processing

Code Mapping in Heterogeneous Platforms Using Deep Learning and LLVM-IR Francesco Barchi, Gianvito Urgese, Enrico Macii, Andrea Acquaviva
Test-based and metric-based evaluation of code generation models for practical question answering S. Kovalchuk, D. Fedrushkov, V. Lomshakov, A. Aliev
Can Large Language Model Detect Plagiarism in Source Code? William Brach, Kristián Košťál, Michal Ries

🏷 notebook

Natural Language to Code Generation in Interactive Data Science Notebooks Pengcheng Yin, Wen-Ding Li, Kefan Xiao, Abhishek Rao, Yeming Wen, Kensen Shi, Joshua Howland, Paige Bailey, Michele Catasta, Henryk Michalewski, Alex Polozov, Charles Sutton

🏷 optimization

End-to-end Deep Learning of Optimization Heuristics Chris Cummins, Pavlos Petoumenos, Zheng Wang, Hugh Leather
Synthesizing benchmarks for predictive modeling Chris Cummins, Pavlos Petoumenos, Zheng Wang, Hugh Leather
Code Mapping in Heterogeneous Platforms Using Deep Learning and LLVM-IR Francesco Barchi, Gianvito Urgese, Enrico Macii, Andrea Acquaviva
Neural-Network Guided Expression Transformation Romain Edelmann, Viktor Kunčak
ComPy-Learn: A toolbox for exploring machine learning representations for compilers Alexander Brauckmann, Andrés Goens, Jeronimo Castrillon
Compiler-based graph representations for deep learning models of code Alexander Brauckmann, Andres Goens, Sebastian Ertel, Jeronimo Castrillon
Toward Less Hidden Cost of Code Completion with Acceptance and Ranking Models Jingxuan Li, Rui Huang, Wei Li, Kai Yao, Weiguo Tan
Exploration of Convolutional Neural Network models for source code classification Francesco Barchi, Emanuele Parisi, Gianvito Urgese, Elisa Ficarra, Andrea Acquaviva
Source Code Classification for Energy Efficiency in Parallel Ultra Low-Power Microcontrollers Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Giuseppe Tagliavini, Andrea Acquaviva
Deep Learning Approaches to Source Code Analysis for Optimization of Heterogeneous Systems: Recent Results, Challenges and Opportunities Francesco Barchi, Emanuele Parisi, Andrea Bartolini, Andrea Acquaviva
Making the Most of Scarce Input Data in Deep Learning-Based Source Code Classification for Heterogeneous Device Mapping Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Andrea Acquaviva
DeepPERF: A Deep Learning-Based Approach For Improving Software Performance Spandan Garg, Roshanak Zilouchian Moghaddam, Colin B. Clement, Neel Sundaresan, Chen Wu
Supersonic: Learning to Generate Source Code Optimizations in C/C++ Zimin Chen, Sen Fang, Martin Monperrus
Rethinking Negative Pairs in Code Search Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao

🏷 pattern mining

Mining Idioms from Source Code Miltiadis Allamanis, Charles Sutton
KB-LDA: Jointly Learning a Knowledge Base of Hierarchy, Relations, and Facts Dana Movshovitz-Attias, William W. Cohen
Parameter-Free Probabilistic API Mining across GitHub Jaroslav Fowkes, Charles Sutton
Mining Semantic Loop Idioms from Big Code Miltiadis Allamanis, Earl T. Barr, Christian Bird, Mark Marron, Charles Sutton
Topic modeling of public repositories at scale using names in source code Vadim Markovtsev, Eiso Kant
Graph-based Mining of In-the-Wild, Fine-grained, Semantic Code Change Patterns Hoan Anh Nguyen, Tien N. Nguyen, Danny Dig, Son Nguyen, Hieu Tran, and Michael Hilton
Learning Programmatic Idioms for Scalable Semantic Parsing Srinivasan Iyer, Alvin Cheung, Luke Zettlemoyer
Mining Idioms in the Wild Aishwarya Sivaraman, Rui Abreu, Andrew Scott, Tobi Akomolede, Satish Chandra

🏷 plagiarism detection

Can Large Language Model Detect Plagiarism in Source Code? William Brach, Kristián Košťál, Michal Ries

🏷 pretraining

Deep Transfer Learning for Source Code Modeling Yasir Hussain, Zhiqiu Huang, Yu Zhou, Senzhang Wang
GraphCodeBERT: Pre-training Code Representations with Data Flow Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Jian Yin, Daxin Jiang, Ming Zhou
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement, Dawn Drain, Jonathan Timcheck, Alexey Svyatkovskiy, Neel Sundaresan
IntelliCode Compose: Code Generation Using Transformer Alexey Svyatkovskiy, Shao Kun Deng, Shengyu Fu, Neel Sundaresan
Pre-trained Contextual Embedding of Source Code Aditya Kanade, Petros Maniatis, Gogul Balakrishnan, Kensen Shi
CodeBERT: A Pre-Trained Model for Programming and Natural Languages Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, Ming Zhou
Contrastive Code Representation Learning Paras Jain, Ajay Jain, Tianjun Zhang, Pieter Abbeel, Joseph E. Gonzalez, Ion Stoica
SCELMo: Source Code Embeddings from Language Models Rafael-Michael Karampatsis, Charles Sutton
Contrastive Learning for Source Code with Structural and Functional Properties Yangruibo Ding, Luca Buratti, Saurabh Pujar, Alessandro Morari, Baishakhi Ray, Saikat Chakraborty
DOBF: A Deobfuscation Pre-Training Objective for Programming Languages Baptiste Roziere, Marie-Anne Lachaux, Marc Szafraniec, Guillaume Lample
SynCoBERT: Syntax-Guided Multi-Modal Contrastive Pre-Training for Code Representation Xin Wang, Yasheng Wang, Fei Mi, Pingyi Zhou, Yao Wan, Xiao Liu, Li Li, Hao Wu, Jin Liu, Xin Jiang
Unified Pre-training for Program Understanding and Generation Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
Self-Supervised Contrastive Learning for Code Retrieval and Summarization via Semantic-Preserving Transformations Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang
An Exploratory Study on Code Attention in BERT Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard, David Lo
What Do They Capture? -- A Structural Analysis of Pre-Trained Language Models for Source Code Yao Wan, Wei Zhao, Hongyu Zhang, Yulei Sui, Guandong Xu, Hai Jin

🏷 program analysis

A Factor Graph Model for Software Bug Finding Ted Kremenek, Andrew Y. Ng, Dawson R. Engler.
Predicting Program Properties from “Big Code” Veselin Raychev, Martin Vechev, Andreas Krause
A User-Guided Approach to Program Analysis Ravi Mangal, Xin Zhang, Aditya V. Nori, Mayur Naik
Learning a Strategy for Adapting a Program Analysis via Bayesian Optimisation Hakjoo Oh, Hongseok Yang, Kwangkeun Yi.
Gated Graph Sequence Neural Networks Yujia Li, Daniel Tarlow, Marc Brockschmidt, Richard Zemel
Deep Learning to Find Bugs Michael Pradel, Koushik Sen
Finding Likely Errors with Bayesian Specifications Vijayaraghavan Murali, Swarat Chaudhuri, Chris Jermaine
User-guided program reasoning using Bayesian inference Mukund Raghothaman, Sulekha Kulkarni, Kihong Heo, Mayur Naik
Path-Based Function Embedding and its Application to Specification Mining Daniel DeFreez, Aditya V. Thakur, Cindy Rubio-González
Neural-Augumented Static Analysis of Android Communication Jinman Zhao, Aws Albarghouthi, Vaibhav Rastogi, Somesh Jha, Damien Octeau
Learning Loop Invariants for Program Verification Xujie Si, Hanjun Dai, Mukund Raghothaman, Mayur Naik, Le Song
RefiNym: Using Names to Refine Types Santanu Dash, Miltiadis Allamanis, Earl T. Barr
Automated Vulnerability Detection in Source Code Using Deep Representation Learning Rebecca L. Russell, Louis Kim, Lei H. Hamilton, Tomo Lazovich, Jacob A. Harer, Onur Ozdemir, Paul M. Ellingwood, Marc W. McConley
Code Mapping in Heterogeneous Platforms Using Deep Learning and LLVM-IR Francesco Barchi, Gianvito Urgese, Enrico Macii, Andrea Acquaviva
On the Feasibility of Transfer-learning Code Smells using Deep Learning Tushar Sharma, Vasiliki Efstathiou, Panos Louridas, Diomidis Spinellis
Unsupervised Learning of API Aliasing Specifications Jan Eberhardt, Samuel Steffen, Veselin Raychev, Martin Vechev
Scalable Taint Specification Inference with Big Code V. Chibotaru, B. Bichsel, Veselin Raychev, Martin Vechev
Neural Bug Finding: A Study of Opportunities and Challenges Andrew Habib, Michael Pradel
Neural Program Repair by Jointly Learning to Localize and Repair Marko Vasic, Aditya Kanade, Petros Maniatis, David Bieber, Rishabh Singh
Inferring Javascript types using Graph Neural Networks Jessica Schrouff, Kai Wohlfahrt, Bruno Marnette, Liam Atkinson
Neural Software Analysis Michael Pradel, Satish Chandra
Learning Graph Structure With A Finite-State Automaton Layer Daniel D. Johnson, Hugo Larochelle, Daniel Tarlow
Predicting Vulnerability in Large Codebases With Deep Code Representation Anshul Tanwar, Krishna Sundaresan, Parmesh Ashwath, Prasanna Ganesan, Sathish Kumar Chandrasekaran, Sriram Ravi
SinkFinder: harvesting hundreds of unknown interesting function pairs with just one seed Pan Bian, Bin Liang, Jianjun Huang, Wenchang Shi, Xidong Wang, Jian Zhang
Exploration of Convolutional Neural Network models for source code classification Francesco Barchi, Emanuele Parisi, Gianvito Urgese, Elisa Ficarra, Andrea Acquaviva
Source Code Classification for Energy Efficiency in Parallel Ultra Low-Power Microcontrollers Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Giuseppe Tagliavini, Andrea Acquaviva
Making the Most of Scarce Input Data in Deep Learning-Based Source Code Classification for Heterogeneous Device Mapping Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Andrea Acquaviva
What Do They Capture? -- A Structural Analysis of Pre-Trained Language Models for Source Code Yao Wan, Wei Zhao, Hongyu Zhang, Yulei Sui, Guandong Xu, Hai Jin
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani
(Partial) Program Dependence Learning Aashish Yadavally, Wenbo Wang, Shaohua Wang, Tien N. Nguyen
A Learning-Based Approach to Static Program Slicing Aashish Yadavally, Yi Li, Shaohua Wang, Tien N. Nguyen
Predictive Program Slicing via Execution Knowledge-Guided Dynamic Dependence Learning Aashish Yadavally, Yi Li, Tien N. Nguyen

🏷 program synthesis

Fine-Tuning Large Language Models for Answering Programming Questions with Code Snippets V. Lomshakov, S. Kovalchuk, M. Omelchenko, S. Nikolenko, A. Aliev

🏷 question answering

Fine-Tuning Large Language Models for Answering Programming Questions with Code Snippets V. Lomshakov, S. Kovalchuk, M. Omelchenko, S. Nikolenko, A. Aliev

🏷 refactoring

Testing Neural Program Analyzers Md Rafiqul Islam Rabin, Ke Wang, Mohammad Amin Alipour
Mercem: Method Name Recommendation Based on Call Graph Embedding Hiroshi Yonai, Yasuhiro Hayase, Hiroyuki Kitagawa
On the Impact of Refactoring Operations on Code Naturalness Bin Lin, Csaba Nagy, Gabriele Bavota, Michele Lanza
Recommendation of Move Method Refactoring Using Path-Based Representation of Code Zarina Kurbatova, Ivan Veselov, Yaroslav Golubev, Timofey Bryksin
Understanding Neural Code Intelligence Through Program Simplification Md Rafiqul Islam Rabin, Vincent J. Hellendoorn, Mohammad Amin Alipour
On the Generalizability of Neural Program Models with respect to Semantic-Preserving Program Transformations Md Rafiqul Islam Rabin, Nghi D. Q. Bui, Ke Wang, Yijun Yu, Lingxiao Jiang, Mohammad Amin Alipour
Mining Idioms in the Wild Aishwarya Sivaraman, Rui Abreu, Andrew Scott, Tobi Akomolede, Satish Chandra
Syntax-Guided Program Reduction for Understanding Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour
Memorization and Generalization in Neural Code Intelligence Models Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour, Vincent J. Hellendoorn

🏷 repair

Syntax Errors Just Aren’t Natural: Improving Error Reporting with Language Models Joshua Charles Campbell, Abram Hindle, José Nelson Amaral
Learning Program Embeddings to Propagate Feedback on Student Code Chris Piech, Jonathan Huang, Andy Nguyen, Mike Phulsuksombati, Mehran Sahami, Leonidas Guibas
OverCode: visualizing variation in student solutions to programming problems at scale Elena L. Glassman, Jeremy Scott, Rishabh Singh, Philip J. Guo, Robert C. Miller
Automated Correction for Syntax Errors in Programming Assignments using Recurrent Neural Networks Sahil Bhatia, Rishabh Singh
sk_p: a neural program corrector for MOOCs Yewen Pu, Karthik Narasimhan, Armando Solar-Lezama, Regina Barzilay
Semantic Code Repair using Neuro-Symbolic Transformation Networks Jacob Devlin, Jonathan Uesato, Rishabh Singh, Pushmeet Kohli
DeepFix: Fixing Common C Language Errors by Deep Learning Rahul Gupta, Soham Pal, Aditya Kanade, Shirish Shevade
Sorting and Transforming Program Repair Ingredients via Deep Learning Code Similarities Martin White, Michele Tufano, Matias Martinez, Martin Monperrus, Denys Poshyvanyk
An Empirical Study on Learning Bug-Fixing Patches in the Wild via Neural Machine Translation Michele Tufano, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Martin White, Denys Poshyvanyk
Deep Reinforcement Learning for Programming Language Correction Rahul Gupta, Aditya Kanade, Shirish Shevade
Learning How to Mutate Source Code from Bug-Fixes Michele Tufano, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Martin White, Denys Poshyvanyk
CODIT: Code Editing with Tree-Based Neural Machine Translation Saikat Chakraborty, Miltiadis Allamanis, Baishakhi Ray
Learning to Generate Corrective Patches using Neural Machine Translation Hideaki Hata, Emad Shihab, Graham Neubig
Learning to Repair Software Vulnerabilities with Generative Adversarial Networks Jacob Harer, Onur Ozdemir, Tomo Lazovich, Christopher P. Reale, Rebecca L. Russell, Louis Y. Kim, Peter Chin
Neuro-symbolic program corrector for introductory programming assignments Sahil Bhatia, Pushmeet Kohli, Rishabh Singh
Syntax and Sensibility: Using language models to detect and correct syntax errors Eddie Antonio Santos, Joshua Charles Campbell, Dhvani Patel, Abram Hindle, José Nelson Amaral
SampleFix: Learning to Correct Programs by Sampling Diverse Fixes Hossein Hajipour, Apratim Bhattacharyya, Cristian-Alexandru Staicu, Mario Fritz
On Learning Meaningful Code Changes via Neural Machine Translation Michele Tufano, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Martin White, Denys Poshyvanyk
SequenceR: Sequence-to-Sequence Learning for End-to-End Program Repair Zimin Chen, Steve Kommrusch, Michele Tufano, Louis-Noël Pouchet, Denys Poshyvanyk, Martin Monperrus
Learning to Fix Build Errors with Graph2Diff Neural Networks Daniel Tarlow, Subhodeep Moitra, Andrew Rice, Zimin Chen, Pierre-Antoine Manzagol, Charles Sutton, Edward Aftandilian
DeepDelta: Learning to Repair Compilation Errors Ali Mesbah, Andrew Rice, Emily Johnston, Nick Glorioso, Edward Aftandilian.
Neural Program Repair by Jointly Learning to Localize and Repair Marko Vasic, Aditya Kanade, Petros Maniatis, David Bieber, Rishabh Singh
Evaluating Representation Learning of Code Changes for Predicting Patch Correctness in Program Repair Haoye Tian, Kui Liu, Abdoul Kader Kaboreé, Anil Koyuncu, Li Li, Jacques Klein, Tegawendé F. Bissyandé
DLFix: Context-based Code Transformation Learning for Automated Program Repair Yi Li, Shaohua Wang, Tien N. Nguyen
Hoppity: Learning Bug Detection and Repair Elizabeth Dinella, Hanjun Dai, Ziyang Li, Mayur Naik, Le Song, Ke Wang
Graph-based, Self-Supervised Program Repair from Diagnostic Feedback Michihiro Yasunaga, Percy Liang
Self-Supervised Bug Detection and Repair Miltiadis Allamanis, Henry Jackson-Flux, Marc Brockschmidt
Learning to Find Naming Issues with Big Code and Small Supervision Jingxuan He, Cheng-Chun Lee, Veselin Raychev, Martin Vechev
A Semantic Bug Seeding: A Learning-Based Approach for Creating Realistic Bugs Jibesh Patra, Michael Pradel
Neural Program Repair with Execution-based Backpropagation He Ye, Matias Martinez, Monperrus Martin
Fix-Filter-Fix: Intuitively Connect Any Models for Effective Bug Fixing Haiwen Hong, Jingfeng Zhang, Yin Zhang, Yao Wan, Yulei Sui
DeepMerge: Learning to Merge Programs Elizabeth Dinella, Todd Mytkowicz, Alexey Svyatkovskiy, Christian Bird, Mayur Naik, Shuvendu K. Lahiri
Learning to Extend Program Graphs to Work-in-Progress Code Xuechen Li, Chris J. Maddison, Daniel Tarlow
DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons Dawn Drain, Colin B. Clement, Guillermo Serrato, Neel Sundaresan
Generating Bug-Fixes Using Pretrained Transformers Dawn Drain, Chen Wu, Alexey Svyatkovskiy, Neel Sundaresan
TFix: Learning to Fix Coding Errors with a Text-to-Text Transformer Berkay Berabi, Jingxuan He, Veselin Raychev, Martin Vechev
PLUR: A Unifying, Graph-Based View of Program Learning, Understanding, and Repair Zimin Chen, Vincent J Hellendoorn, Pascal Lamblin, Petros Maniatis, Pierre-Antoine Manzagol, Daniel Tarlow, Subhodeep Moitra
SelfAPR: Self-supervised Program Repair with Test Execution Diagnostics He Ye, Matias Martinez, Xiapu Luo, Tao Zhang, Martin Monperrus
Can we learn from developer mistakes? Learning to localize and repair real bugs from real bug fixes Cedric Richter, Heike Wehrheim
Using Developer Discussions to Guide Fixing Bugs in Software Sheena Panthaplackel, Milos Gligoric, Junyi Jessy Li, Raymond J. Mooney
Demystifying GPT Self-Repair for Code Generation Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama
TraceFixer: Execution Trace-Driven Program Repair Islem Bouzenia, Yangruibo Ding, Kexin Pei, Baishakhi Ray, Michael Pradel
Model-Agnostic Syntactical Information for Pre-Trained Programming Language Models Iman Saberi, Fateme H. Fard
SkipAnalyzer: A Tool for Static Code Analysis with Large Language Models Mohammad Mahdi Mohajer, Reem Aleithan, Nima Shiri Harzevili, Moshi Wei, Alvine Boaye Belle, Hung Viet Pham, Song Wang
RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair André Silva, Sen Fang, Martin Monperrus
DebugBench: Evaluating Debugging Capability of Large Language Models Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Yinxu Pan, Yesai Wu, Zhiyuan Liu, Maosong Sun
T5APR: Empowering Automated Program Repair across Languages through Checkpoint Ensemble Reza Gharibi, Mohammad Hadi Sadreddini, Seyed Mostafa Fakhrahmad
RepairAgent: An Autonomous, LLM-Based Agent for Program Repair Islem Bouzenia, Premkumar Devanbu, Michael Pradel
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models Berkay Berabi, Alexey Gronskiy, Veselin Raychev, Gishor Sivanrupan, Victor Chibotaru, Martin Vechev

🏷 representation

Building Program Vector Representations for Deep Learning Hao Peng, Lili Mou, Ge Li, Yuxuan Liu, Lu Zhang, Zhi Jin.
Learning to Execute Wojciech Zaremba, Ilya Sutskever
Exploring the Use of Deep Learning for Feature Location Christopher S. Corley, Kostadin Damevski, Nicholas A. Kraft
Learning Program Embeddings to Propagate Feedback on Student Code Chris Piech, Jonathan Huang, Andy Nguyen, Mike Phulsuksombati, Mehran Sahami, Leonidas Guibas
Toward Deep Learning Software Repositories Martin White, Christopher Vendome, Mario Linares-Vasquez, Denys Poshyvanyk
Graph-based Statistical Language Model for Code Anh Tuan Nguyen, Tien N. Nguyen
Learning to Generate Pseudo-code from Source Code using Statistical Machine Translation Yusuke Oda, Hiroyuki Fudaba, Graham Neubig, Hideaki Hata, Sakriani Sakti, Tomoki Toda, Satoshi Nakamura
Learning API Usages from Bytecode: A Statistical Approach Tam The Nguyen, Hung Viet Pham, Phong Minh Vu, Tung Thanh Nguyen
Convolutional Neural Networks over Tree Structures for Programming Language Processing Lili Mou, Ge Li, Lu Zhang, Tao Wang, Zhi Jin
Bugram: bug detection with n-gram language models Song Wang, Devin Chollak, Dana Movshovitz-Attias, Lin Tan
Automatically Learning Semantic Features for Defect Prediction Song Wang, Taiyue Liu, Lin Tan
Automatically generating features for learning program analysis heuristics Kwonsoo Chae, Hakjoo Oh, Kihong Heo, Hongseok Yang
Semantically enhanced software traceability using deep learning techniques Jin Guo, Jinghui Cheng, Jane Cleland-Huang
SmartPaste: Learning to Adapt Source Code Miltiadis Allamanis, Marc Brockschmidt
Neural Attribute Machines for Program Generation Matthew Amodio, Swarat Chaudhuri, Thomas W. Reps
Exploring API Embedding for API Usages and Applications Trong Duc Nguyen, Anh Tuan Nguyen, Hung Dang Phan, Tien N. Nguyen
Hierarchical Learning of Cross-Language Mappings through Distributed Vector Representations for Code Nghi D. Q. Bui, Lingxiao Jiang
Bilateral Dependency Neural Networks for Cross-Language Algorithm Classification Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang
Path-Based Function Embedding and its Application to Specification Mining Daniel DeFreez, Aditya V. Thakur, Cindy Rubio-González
Cross-Language Learning for Program Classification using Bilateral Tree-Based Convolutional Neural Networks Nghi D. Q. Bui, Lingxiao Jiang, Yijun Yu
Open Vocabulary Learning on Source Code with a Graph-Structured Cache Milan Cvitkovic, Badal Singh, Anima Anandkumar
Learning to Represent Programs with Graphs Miltiadis Allamanis, Marc Brockschmidt, Mahmoud Khademi
Deep Learning Similarities from Different Representations of Source Code Michele Tufano, Cody Watson, Gabriele Bavota, Massimiliano Di Penta, Martin White, Denys Poshyvanyk
Neural Code Comprehension: A Learnable Representation of Code Semantics Tal Ben-Nun, Alice Shoshana Jakobovits, Torsten Hoefler
Intelligent code reviews using deep learning Anshul Gupta, Neel Sundaresan
A General Path-Based Representation for Predicting Program Properties Uri Alon, Meital Zilberstein, Omer Levy, Eran Yahav
Deep Learning Type Inference V. J. Hellendoorn, Christian Bird, Earl T. Barr, Miltiadis Allamanis
code2vec: Learning Distributed Representations of Code Uri Alon, Omer Levy, Eran Yahav
On the Feasibility of Transfer-learning Code Smells using Deep Learning Tushar Sharma, Vasiliki Efstathiou, Panos Louridas, Diomidis Spinellis
Mercem: Method Name Recommendation Based on Call Graph Embedding Hiroshi Yonai, Yasuhiro Hayase, Hiroyuki Kitagawa
Learning Execution through Neural Code Fusion Zhan Shi, Kevin Swersky, Daniel Tarlow, Parthasarathy Ranganathan, Milad Hashemi
Improving Bug Detection via Context-Based Code Representation Learning and Attention-Based Neural Networks Yi Li, Shaohua Wang, Tien N. Nguyen, Son Van Nguyen
Capturing source code semantics via tree-based convolution over API-enhanced AST Long Chen, Wei Ye, Shikun Zhang
Learning Uniform Semantic Features for Natural Language and Programming Language Globally, Locally and Sequentially Yudong Zhang, Wenhao Zheng, Ming Li
A Literature Study of Embeddings on Source Code Zimin Chen, Martin Monperrus
code2seq: Generating Sequences from Structured Representations of Code Uri Alon, Omer Levy, Eran Yahav
SAR: Learning Cross-Language API Mappings with Little Knowledge N. D. Q. Bui, Y. Yu, L. Jiang
Mining Likely Analogical APIs across Third-Party Libraries via Large-Scale Unsupervised API Semantics Embedding Chunyang Chen, Zhenchang Xing, Yang Liu, Kent Ong Long Xiong
PathMiner : A Library for Mining of Path-Based Representations of Code Vladimir Kovalenko, Egor Bogomolov, Timofey Bryksin, Alberto Bacchelli.
Import2vec - Learning Embeddings for Software Libraries Bart Theeten, Frederik Vandeputte, Tom Van Cutsem
Semantic Source Code Models Using Identifier Embeddings Vasiliki Efstathiou, Diomidis Spinellis
Asm2Vec: Boosting Static Representation Robustness for Binary Clone Search against Code Obfuscation and Compiler Optimization Steven H. H. Ding, Benjamin C. M. Fung, Philippe Charland
Learning Scalable and Precise Representation of Program Semantics Ke Wang
Program Classification Using Gated Graph Attention Neural Network for Online Programming Service Mingming Lu, Dingwu Tan, Naixue Xiong, Zailiang Chen, Haifeng Li
Neural Attribution for Semantic Bug-Localization in Student Programs Rahul Gupta, Aditya Kanade, Shirish Shevade
TreeCaps: Tree-Structured Capsule Networks for Program Source Code Processing Srinivasan Iyer, Ioannis Konstas, Alvin Cheung, Luke Zettlemoyer
A Novel Neural Source Code Representation based on Abstract Syntax Tree Jian Zhang, Xu Wang, Hongyu Zhang, Hailong Sun, Kaixuan Wang, Xudong Liu
Modular Tree Network for Source Code Representation Learning Wenhan Wang, Ge Li, Sijie Shen, Xin Xia, Zhi Jin
Searching a Database of Source Codes Using Contextualized Code Search Rohan Mukherjee, Swarat Chaudhuri, Chris Jermaine
Towards Demystifying Dimensions of Source Code Embeddings Md Rafiqul Islam Rabin, Arjun Mukherjee, Omprakash Gnawali, Mohammad Amin Alipour
Learning to Execute Programs with Instruction Pointer Attention Graph Neural Networks David Bieber, Charles Sutton, Hugo Larochelle, Daniel Tarlow
Towards Learning Representations of Binary Executable Files for Security Tasks Shushan Arakelyan, Sima Arasteh, Christophe Hauser, Erik Kline, Aram Galstyan
ComPy-Learn: A toolbox for exploring machine learning representations for compilers Alexander Brauckmann, Andrés Goens, Jeronimo Castrillon
Compiler-based graph representations for deep learning models of code Alexander Brauckmann, Andres Goens, Sebastian Ertel, Jeronimo Castrillon
Contrastive Code Representation Learning Paras Jain, Ajay Jain, Tianjun Zhang, Pieter Abbeel, Joseph E. Gonzalez, Ion Stoica
Unsupervised Learning of General-Purpose Embeddings for Code Changes Mikhail Pravilov, Egor Bogomolov, Yaroslav Golubev, Timofey Bryksin
Contrastive Learning for Source Code with Structural and Functional Properties Yangruibo Ding, Luca Buratti, Saurabh Pujar, Alessandro Morari, Baishakhi Ray, Saikat Chakraborty
Disentangled Code Representation Learning for Multiple Programming Languages Jingfeng Zhang, Haiwen Hong, Yin Zhang, Yao Wan, Ye Liu, Yulei Sui
IdBench: Evaluating Semantic Representations of Identifier Names in Source Code Yaza Wainakh, Moiz Rauf, Michael Pradel
Multimodal Representation for Neural Code Search Jian Gu, Zimin Chen, Martin Monperrus
MulCode: A Multi-task Learning Approach for Source Code Understanding Deze Wang, Yue Yu, Shanshan Li, Wei Dong, Ji Wang, Liao Qing
Language-Agnostic Representation Learning of Source Code from Structure and Context Daniel Zügner, Tobias Kirschstein, Michele Catasta, Jure Leskovec, Stephan Günnemann
InferCode: Self-Supervised Learning of Code Representations by Predicting Subtrees Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang
Learning Program Semantics with Code Representations: An Empirical Study Jing Kai Siow, Shangqing Liu, Xiaofei Xie, Guozhu Meng, Yang Liu
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding Deze Wang, Zhouyang Jia, Shanshan Li, Yue Yu, Yun Xiong, Wei Dong, Xiangke Liao
SPT-Code: Sequence-to-Sequence Pre-Training for Learning Source Code Representations Changan Niu, Chuanyi Li, Vincent Ng, Jidong Ge, Liguo Huang, Bin Luo
LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard
An Exploratory Study on Code Attention in BERT Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard, David Lo
CodeTrek: Flexible Modeling of Code using an Extensible Relational Representation Pardis Pashakhanloo, Aaditya Naik, Yuepeng Wang, Hanjun Dai, Petros Maniatis, Mayur Naik
Topical: Learning Repository Embeddings from Source Code using Attention Agathe Lherondelle, Yash Satsangi, Fran Silavong, Shaltiel Eloul, Sean Moran
Rethinking Negative Pairs in Code Search Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao

🏷 retrieval

Rethinking Negative Pairs in Code Search Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation Fengji Zhang, Bei Chen, Yue Zhang, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen

🏷 Reverse Engineering

Learning to Reverse DNNs from AI Programs Automatically Simin Chen, Hamed Khanpour, Cong Liu, Wei Yang

🏷 review

Will they like this? Evaluating Code Contributions With Language Models Vincent J. Hellendoorn, Premkumar Devanbu, Alberto Bacchelli
Intelligent code reviews using deep learning Anshul Gupta, Neel Sundaresan
CORE: Automating Review Recommendation for Code Changes JingKai Siow, Cuiyun Gao, Lingling Fan, Sen Chen, Yang Liu
Deep Learning Approaches to Source Code Analysis for Optimization of Heterogeneous Systems: Recent Results, Challenges and Opportunities Francesco Barchi, Emanuele Parisi, Andrea Bartolini, Andrea Acquaviva
CodeReviewer: Pre-Training for Automating Code Review Activities Zhiyu Li, Shuai Lu, Daya Guo, Nan Duan, Shailesh Jannu, Grant Jenks, Deep Majumder, Jared Green, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan
What is it like to program with artificial intelligence? Advait Sarkar, Andrew D. Gordon, Carina Negreanu, Christian Poelitz, Sruti Srinivasa Ragavan, Ben Zorn

🏷 search

Aroma: code recommendation via structural code search Sifei Luan, Di Yang, Celeste Barnaby, Koushik Sen, Satish Chandra
A Bimodal Modelling of Source Code and Natural Language Miltiadis Allamanis, Daniel Tarlow, Andrew Gordon, Yi Wei
Deep API Learning Xiaodong Gu, Hongyu Zhang, Dongmei Zhang, Sunghun Kim.
Deep Code Search Xiaodong Gu, Hongyu Zhang, Sunghun Kim.
A Retrieve-and-Edit Framework for Predicting Structured Outputs Tatsunori B. Hashimoto, Kelvin Guu, Yonatan Oren, Percy S. Liang
CodeSearchNet Challenge: Evaluating the State of Semantic Code Search Hamel Husain, Ho-Hsiang Wu, Tiferet Gazit, Miltiadis Allamanis, Marc Brockschmidt
Neural Code Search Evaluation Dataset Hongyu Li, Seohyun Kim, Satish Chandra
Multi-Modal Attention Network Learning for Semantic Source Code Retrieval Yao Wan, Jingdong Shu, Yulei Sui, Guandong Xu, Zhou Zhao, Jian Wu, Philip S. Yu
CoaCor: Code Annotation for Code Retrieval with Reinforcement Learning Ziyu Yao, Jayavardhan Reddy Peddamail, Huan Sun
When Deep Learning Met Code Search Jose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra
Neural query expansion for code search Jason Liu, Seohyun Kim, Vijayaraghavan Murali, Swarat Chaudhuri, Satish Chandra
Neural Code Search Revisited: Enhancing Code Snippet Retrieval through Natural Language Intent Geert Heyman, Tom Van Cutsem
CoNCRA: A Convolutional Neural Network Code Retrieval Approach Marcelo de Rezende Martins, Marco Aurélio Gerosa
Searching a Database of Source Codes Using Contextualized Code Search Rohan Mukherjee, Swarat Chaudhuri, Chris Jermaine
Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning Wei Ye, Rui Xie, Jinglei Zhang, Tianxiang Hu, Xiaoyin Wang, Shikun Zhang
TranS^3: A Transformer-based Framework for Unifying Code Summarization and Code Search Wenhua Wang, Yuqun Zhang, Zhengran Zeng, Guandong Xu
PSCS: A Path-based Neural Model for Semantic Code Search Zhensu Sun, Yan Liu, Chen Yang, Yu Qian
Improving Code Search with Co-Attentive Representation Learning Jianhang Shuai, Ling Xu, Chao Liu, Meng Yan, Xin Xia, Yan Lei
A Multi-Perspective Architecture for Semantic Code Search Rajarshi Haldar, Lingfei Wu, Jinjun Xiong, Julia Hockenmaier
Adaptive Deep Code Search Chunyang Ling, Zeqi Lin, Yanzhen Zou, Bing Xie
Are the Code Snippets What We Are Searching for? A Benchmark and an Empirical Study on Code Search with Natural-Language Queries Shuhan Yan, Hang Yu, Yuting Chen, Beijun Shen, Lingxiao Jiang
NaturalCC: A Toolkit to Naturalize the Source Code Corpus Yao Wan, Yang He, Jian-Guo Zhang, Yulei Sui, Hai Jin, Guandong Xu, Caiming Xiong, Philip S. Yu
Deep Graph Matching and Searching for Semantic Code Retrieval Xiang Ling, Lingfei Wu, Saizhuo Wang, Gaoning Pan, Tengfei Ma, Fangli Xu, Alex X. Liu, Chunming Wu, Shouling Ji
Learning Code-Query Interaction for Enhancing Code Searches Wei Li, Haozhe Qin, Shuhan Yan, Beijun Shen, Yuting Chen
OCoR: An Overlapping-Aware Code Retriever Qihao Zhu, Zeyu Sun, Xiran Liang, Yingfei Xiong, Lu Zhang
CoSQA: 20,000+ Web Queries for Code Search and Question Answering Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang, Ming Zhou, Nan Duan
DreamCoder: bootstrapping inductive program synthesis with wake-sleep library learning Kevin Ellis, Catherine Wong, Maxwell Nye, Mathias Sable-Meyer, Luc Cary, Lucas Morales, Luke Hewitt, Armando Solar-Lezama, Joshua B. Tenenbaum
Multimodal Representation for Neural Code Search Jian Gu, Zimin Chen, Martin Monperrus
Bag-of-Words Baselines for Semantic Code Search Xinyu Zhang, Ji Xin, Andrew Yates, Jimmy Lin
Distilling Transformers for Neural Cross-Domain Search Colin B. Clement, Chen Wu, Dawn Drain, Neel Sundaresan
Leveraging Language to Learn Program Abstractions and Search Heuristics Catherine Wong, Kevin Ellis, Joshua B. Tenenbaum, Jacob Andreas
Self-Supervised Contrastive Learning for Code Retrieval and Summarization via Semantic-Preserving Transformations Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang
Exploring Representation-Level Augmentation for Code Search Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang, Hongyu Zhang, Yanlin Wang
Senatus - A Fast and Accurate Code-to-Code Recommendation Engine Fran Silavong, Sean Moran, Antonios Georgiadis, Rohan Saphal, Robert Otter
DocCoder: Generating Code by Retrieving and Reading Docs Shuyan Zhou, Uri Alon, Frank F. Xu, Zhengbao JIang, Graham Neubig
CodeDSI: Differentiable Code Search Usama Nadeem, Noah Ziems, Shaoen Wu
Rethinking Negative Pairs in Code Search Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search Haochen Li, Xin Zhou, Zhiqi Shen

🏷 static

A Learning-Based Approach to Static Program Slicing Aashish Yadavally, Yi Li, Shaohua Wang, Tien N. Nguyen

🏷 static analysis

Learning a Classifier for False Positive Error Reports Emitted by Static Code Analysis Tools Ugur Koc, Parsa Saadatpanah, Jeffrey S. Foster, Adam A. Porter.
Code Mapping in Heterogeneous Platforms Using Deep Learning and LLVM-IR Francesco Barchi, Gianvito Urgese, Enrico Macii, Andrea Acquaviva
Devign: Effective Vulnerability Identification by Learning Comprehensive Program Semantics via Graph Neural Networks Yaqin Zhou, Shangqing Liu, Jingkai Siow, Xiaoning Du, Yang Liu
Predicting Vulnerability in Large Codebases With Deep Code Representation Anshul Tanwar, Krishna Sundaresan, Parmesh Ashwath, Prasanna Ganesan, Sathish Kumar Chandrasekaran, Sriram Ravi
Exploration of Convolutional Neural Network models for source code classification Francesco Barchi, Emanuele Parisi, Gianvito Urgese, Elisa Ficarra, Andrea Acquaviva
Making the Most of Scarce Input Data in Deep Learning-Based Source Code Classification for Heterogeneous Device Mapping Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Andrea Acquaviva
Learning to Answer Semantic Queries over Code Surya Prakash Sahu, Madhurima Mandal, Shikhar Bharadwaj, Aditya Kanade, Petros Maniatis, Shirish Shevade
Learning to Reduce False Positives in Analytic Bug Detectors Anant Kharkar, Roshanak Zilouchian Moghaddam, Matthew Jin, Xiaoyu Liu, Xin Shi, Colin Clement, Neel Sundaresan
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani
The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models Haonan Li, Yu Hao, Yizhuo Zhai, Zhiyun Qian
A Static Evaluation of Code Completion by Large Language Models Hantian Ding, Varun Kumar, Yuchen Tian, Zijian Wang, Rob Kwiatkowski, Xiaopeng Li, Murali Krishna Ramanathan, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang
(Partial) Program Dependence Learning Aashish Yadavally, Wenbo Wang, Shaohua Wang, Tien N. Nguyen
Beware of the Unexpected: Bimodal Taint Analysis Yiu Wai Chow, Max Schäfer, Michael Pradel

🏷 style

Learning Natural Coding Conventions Miltiadis Allamanis, Earl T. Barr, Christian Bird, Charles Sutton
STYLE-ANALYZER: fixing code style inconsistencies with interpretable unsupervised algorithms Vadim Markovtsev, Waren Long, Hugo Mougard, Konstantin Slavnov, Egor Bulychev

🏷 summarization

Natural Language Models for Predicting Programming Comments Dana Movshovitz-Attias, William W. Cohen
A Convolutional Attention Network for Extreme Summarization of Source Code Miltiadis Allamanis, Hao Peng, Charles Sutton
Summarizing Source Code using a Neural Attention Model Srinivasan Iyer, Ioannis Konstas, Alvin Cheung, Luke Zettlemoyer
Autofolding for Source Code Summarization Jaroslav Fowkes, Razan Ranca, Miltiadis Allamanis, Mirella Lapata, Charles Sutton
Abridging Source Code Binhang Yuan, Vijayaraghavan Murali, Christopher Jermaine
CodeSum: Translate Program Language to Natural Language Xing Hu, Yuhan Wei, Ge Li, Zhi Jin
A parallel corpus of Python functions and documentation strings for automated code documentation and code generation Antonio Valerio Miceli Barone, Rico Sennrich
A Neural Architecture for Generating Natural Language Descriptions from Source Code Changes Pablo Loyola, Edison Marrese-Taylor, Yutaka Matsuo
Content Aware Source Code Change Description Generation Pablo Loyola, Edison Marrese-Taylor, Jorge Balazs, Yutaka Matsuo, Fumiko Satoh
Improving Automatic Source Code Summarization via Deep Reinforcement Learning Yao Wan, Zhou Zhao, Min Yang, Guandong Xu, Haochao Ying, Jian Wu, Philip S. Yu
Neural-Machine-Translation-Based Commit Message Generation: How Far Are We? Zhongxin Liu, Xin Xia, Ahmed E. Hassan, David Lo, Zhenchang Xing, Xinyu Wang
code2vec: Learning Distributed Representations of Code Uri Alon, Omer Levy, Eran Yahav
A Neural Model for Method Name Generation from Functional Description Sa Gao, Chunyang Chen, Zhenchang Xing, Yukun Ma, Wen Song, Shang-Wei Lin
code2seq: Generating Sequences from Structured Representations of Code Uri Alon, Omer Levy, Eran Yahav
Commit Message Generation for Source Code Changes Shengbin Xu, Yuan Yao, Feng Xu, Tianxiao Gu, Hanghang Tong, Jian Lu
Code Generation as a Dual Task of Code Summarization Bolin Wei, Ge Li, Xin Xia, Zhiyi Fu, Zhi Jin
Structured Neural Summarization Patrick Fernandes, Miltiadis Allamanis, Marc Brockschmidt
A Neural Model for Generating Natural Language Summaries of Program Subroutines Alexander LeClair, Siyuan Jiang, Collin McMillan
Recommendations for Datasets for Source Code Summarization Alexander LeClair, Collin McMillan
Automatic Source Code Summarization with Extended Tree-LSTM Yusuke Shido, Yasuaki Kobayashi, Akihiro Yamamoto, Atsushi Miyamoto, Tadayuki Matsumura
Improved Automatic Summarization of Subroutines via Attention to File Context Sakib Haque, Alexander LeClair, Lingfei Wu, Collin McMillan
Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning Wei Ye, Rui Xie, Jinglei Zhang, Tianxiang Hu, Xiaoyin Wang, Shikun Zhang
A Transformer-based Approach for Source Code Summarization Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
PyMT5: multi-mode translation of natural language and Python code with transformers Colin B. Clement, Dawn Drain, Jonathan Timcheck, Alexey Svyatkovskiy, Neel Sundaresan
NaturalCC: A Toolkit to Naturalize the Source Code Corpus Yao Wan, Yang He, Jian-Guo Zhang, Yulei Sui, Hai Jin, Guandong Xu, Caiming Xiong, Philip S. Yu
Improved Code Summarization via a Graph Neural Network Alexander LeClair, Sakib Haque, Lingfei Wu, Collin McMillan
CoCoGUM: Contextual Code Summarization with Multi-Relational GNN on UMLs Yanlin Wang, Lun Du, Ensheng Shi, Yuxuan Hu, Shi Han, Dongmei Zhang
Learning to Represent Programs with Heterogeneous Graphs Wenhan Wang, Kechi Zhang, Ge Li, Zhi Jin
On the Generalizability of Neural Program Models with respect to Semantic-Preserving Program Transformations Md Rafiqul Islam Rabin, Nghi D. Q. Bui, Ke Wang, Yijun Yu, Lingxiao Jiang, Mohammad Amin Alipour
Retrieval Augmented Code Generation and Summarization Md Rizwan Parvez, Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
Code to Comment Translation: A Comparative Study on Model Effectiveness & Errors Junayed Mahmud, Fahim Faisal, Raihan Islam Arnob, Antonios Anastasopoulos, Kevin Moran
Learning to Describe Solutions for Bug Reports Based on Developer Discussions Sheena Panthaplackel, Junyi Jessy Li, Milos Gligoric, Raymond J. Mooney
Assemble Foundation Models for Automatic Code Summarization Jian Gu, Pasquale Salza, Harald C. Gall
InCoder: A Generative Model for Code Infilling and Synthesis Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen-tau Yih, Luke Zettlemoyer, Mike Lewis
LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard
Learning code summarization from a small and local dataset Toufique Ahmed, Premkumar Devanbu
Improving Few-Shot Prompts with Relevant Static Analysis Products Toufique Ahmed, Kunal Suresh Pai, Premkumar Devanbu, Earl T. Barr
Model-Agnostic Syntactical Information for Pre-Trained Programming Language Models Iman Saberi, Fateme H. Fard

🏷 survey

A Survey on Deep Learning for Software Engineering Yanming Yang, Xin Xia, David Lo, John Grundy
Neural Software Analysis Michael Pradel, Satish Chandra
Deep Learning & Software Engineering: State of Research and Future Directions Prem Devanbu, Matthew Dwyer, Sebastian Elbaum, Michael Lowry, Kevin Moran, Denys Poshyvanyk, Baishakhi Ray, Rishabh Singh, Xiangyu Zhang
Code to Comment Translation: A Comparative Study on Model Effectiveness & Errors Junayed Mahmud, Fahim Faisal, Raihan Islam Arnob, Antonios Anastasopoulos, Kevin Moran
A Systematic Literature Review on the Use of Deep Learning in Software Engineering Research Cody Watson, Nathan Cooper, David Nader Palacio, Kevin Moran, Denys Poshyvanyk
Deep Learning based Vulnerability Detection: Are We There Yet? Saikat Chakraborty, Rahul Krishna, Yangruibo Ding, Baishakhi Ray
A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks Beatrice Casey, Joanna C. S. Santos, George Perry

🏷 synthesis

NLyze: Interactive Programming by Natural Language for SpreadSheet Data Analysis and Manipulation Sumit Gulwani, Mark Marron
Synthesizing Java expressions from free-form queries Tihomir Gvero, Viktor Kuncak
SPoC: Search-based Pseudocode to Code Sumith Kulal, Panupong Pasupat, Kartik Chandra, Mina Lee, Oded Padon, Alex Aiken, Percy S. Liang
AutoPandas: neural-backed generators for program synthesis Rohan Bavishi, Caroline Lemieux, Roy Fox, Koushik Sen, Ion Stoica
Semantic Scaffolds for Pseudocode-to-Code Generation Ruiqi Zhong, Mitchell Stern, Dan Klein
Unit Test Case Generation with Transformers Michele Tufano, Dawn Drain, Alexey Svyatkovskiy, Shao Kun Deng, Neel Sundaresan
Generating Accurate Assert Statements for Unit Test Cases using Pretrained Transformers Michele Tufano, Dawn Drain, Alexey Svyatkovskiy, Shao Kun Deng, Neel Sundaresan
IntelliCode Compose: Code Generation Using Transformer Alexey Svyatkovskiy, Shao Kun Deng, Shengyu Fu, Neel Sundaresan
Evaluating Large Language Models Trained on Code Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde, Jared Kaplan, Harri Edwards, Yura Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, Will Guss, Alex Nichol, Igor Babuschkin, Suchir Balaji, Shantanu Jain, Andrew Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, Wojciech Zaremba
DreamCoder: bootstrapping inductive program synthesis with wake-sleep library learning Kevin Ellis, Catherine Wong, Maxwell Nye, Mathias Sable-Meyer, Luc Cary, Lucas Morales, Luke Hewitt, Armando Solar-Lezama, Joshua B. Tenenbaum
Program Synthesis with Large Language Models Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, Charles Sutton
A large-scale benchmark for few-shot program induction and synthesis Ferran Alet, Javier Lopez-Contreras, James Koppel, Maxwell Nye, Armando Solar-Lezama, Tomas Lozano-Perez, Leslie Kaelbling, Joshua Tenenbaum
Leveraging Language to Learn Program Abstractions and Search Heuristics Catherine Wong, Kevin Ellis, Joshua B. Tenenbaum, Jacob Andreas
Neural Program Generation Modulo Static Analysis Rohan Mukherjee, Yeming Wen, Dipak Chaudhari, Thomas W. Reps, Swarat Chaudhuri, Chris Jermaine
A Conversational Paradigm for Program Synthesis Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong
I Speak, You Verify: Toward Trustworthy Neural Program Synthesis Darren Key, Wen-Ding Li, Kevin Ellis
CodeT: Code Generation with Generated Tests Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, Weizhu Chen
Grounded Copilot: How Programmers Interact with Code-Generating Models Shraddha Barke, Michael B. James, Nadia Polikarpova

🏷 test generation

Unit Test Case Generation with Transformers Michele Tufano, Dawn Drain, Alexey Svyatkovskiy, Shao Kun Deng, Neel Sundaresan
Generating Accurate Assert Statements for Unit Test Cases using Pretrained Transformers Michele Tufano, Dawn Drain, Alexey Svyatkovskiy, Shao Kun Deng, Neel Sundaresan
TOGA: A Neural Method for Test Oracle Generation Elizabeth Dinella, Gabriel Ryan, Todd Mytkowicz, Shuvendu K. Lahiri
Test-based and metric-based evaluation of code generation models for practical question answering S. Kovalchuk, D. Fedrushkov, V. Lomshakov, A. Aliev

🏷 tool

PSIMiner: A Tool for Mining Rich Abstract Syntax Trees from Code Egor Spirin, Egor Bogomolov, Vladimir Kovalenko, Timofey Bryksin
Monitor-Guided Decoding of Code LMs with Static Analysis of Repository Context Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K Lahiri, Sriram Rajamani
(Partial) Program Dependence Learning Aashish Yadavally, Wenbo Wang, Shaohua Wang, Tien N. Nguyen
A Learning-Based Approach to Static Program Slicing Aashish Yadavally, Yi Li, Shaohua Wang, Tien N. Nguyen
Predictive Program Slicing via Execution Knowledge-Guided Dynamic Dependence Learning Aashish Yadavally, Yi Li, Tien N. Nguyen

🏷 topic modeling

Topic modeling of public repositories at scale using names in source code Vadim Markovtsev, Eiso Kant

🏷 topic modelling

Topical: Learning Repository Embeddings from Source Code using Attention Agathe Lherondelle, Yash Satsangi, Fran Silavong, Shaltiel Eloul, Sean Moran

🏷 traceability

Semantically enhanced software traceability using deep learning techniques Jin Guo, Jinghui Cheng, Jane Cleland-Huang

🏷 Transformer

Evaluating Representation Learning of Code Changes for Predicting Patch Correctness in Program Repair Haoye Tian, Kui Liu, Abdoul Kader Kaboreé, Anil Koyuncu, Li Li, Jacques Klein, Tegawendé F. Bissyandé
Global Relational Models of Source Code Vincent J. Hellendoorn, Charles Sutton, Rishab Singh, Petros Maniatis, David Bieber
Empirical Study of Transformers for Source Code Nadezhda Chirkova, Sergey Troshin
Self-Supervised Bug Detection and Repair Miltiadis Allamanis, Henry Jackson-Flux, Marc Brockschmidt
Retrieval Augmented Code Generation and Summarization Md Rizwan Parvez, Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
Show Your Work: Scratchpads for Intermediate Computation with Language Models Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, Augustus Odena
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback Mike Wu, Noah D. Goodman, Chris Piech, Chelsea Finn
CommitBERT: Commit Message Generation Using Pre-Trained Programming Language Model Tae Hwan Jung
CoTexT: Multi-task Learning with Code-Text Transformer Long Phan, Hieu Tran, Daniel Le, Hieu Nguyen, James Anibal, Alec Peltekian, Yanfang Ye
Code to Comment Translation: A Comparative Study on Model Effectiveness & Errors Junayed Mahmud, Fahim Faisal, Raihan Islam Arnob, Antonios Anastasopoulos, Kevin Moran
ConTest: A Unit Test Completion Benchmark featuring Context Johannes Villmow, Jonas Depoix, Adrian Ulges
Contrastive Learning for Source Code with Structural and Functional Properties Yangruibo Ding, Luca Buratti, Saurabh Pujar, Alessandro Morari, Baishakhi Ray, Saikat Chakraborty
Jointly Learning to Repair Code and Generate Commit Message Jiaqi Bai, Long Zhou, Ambrosio Blanco, Shujie Liu, Furu Wei, Ming Zhou, Zhoujun Li
Co-Training for Commit Classification Jian Yi, David Lee, Hai Leong Chieu
Toward Less Hidden Cost of Code Completion with Acceptance and Ranking Models Jingxuan Li, Rui Huang, Wei Li, Kai Yao, Weiguo Tan
Learning Type Annotation: Is Big Data Enough? Kevin Jesse, Premkumar Devanbu, Toufique Ahmed
TreeBERT: A Tree-Based Pre-Trained Model for Programming Language Xue Jiang, Zhuoran Zheng, Chen Lyu, Liang Li, Lei Lyu
Program Synthesis with Large Language Models Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, Charles Sutton
An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri
Reading StackOverflow Encourages Cheating: Adding Question Text Improves Extractive Code Generation Gabriel Orlanski, Alex Gittens
How could Neural Networks understand Programs? Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu
Learning to Extend Program Graphs to Work-in-Progress Code Xuechen Li, Chris J. Maddison, Daniel Tarlow
DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons Dawn Drain, Colin B. Clement, Guillermo Serrato, Neel Sundaresan
Generating Bug-Fixes Using Pretrained Transformers Dawn Drain, Chen Wu, Alexey Svyatkovskiy, Neel Sundaresan
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang, Weishi Wang, Shafiq Joty, Steven C.H. Hoi
Improving Code Autocompletion with Transfer Learning Wen Zhou, Seohyun Kim, Vijayaraghavan Murali, Gareth Ari Aye
Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain, Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy
Language-Agnostic Representation Learning of Source Code from Structure and Context Daniel Zügner, Tobias Kirschstein, Michele Catasta, Jure Leskovec, Stephan Günnemann
Distilling Transformers for Neural Cross-Domain Search Colin B. Clement, Chen Wu, Dawn Drain, Neel Sundaresan
Time-Efficient Code Completion Model for the R Programming Language Artem Popov, Dmitrii Orekhov, Denis Litvinov, Nikolay Korolev, Gleb Morgachev
What do pre-trained code models know about code? Anjan Karmakar, Romain Robbes
CodeTrans: Towards Cracking the Language of Silicon's Code Through Self-Supervised Deep Learning and High Performance Computing Ahmed Elnaggar, Wei Ding, Llion Jones, Tom Gibbs, Tamas Feher, Christoph Angerer, Silvia Severini, Florian Matthes, Burkhard Rost
DIRECT : A Transformer-based Model for Decompiled Identifier Renaming Vikram Nitin, Anthony Saieva, Baishakhi Ray, Gail Kaiser
On Multi-Modal Learning of Editing Source Code Saikat Chakraborty, Baishakhi Ray
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu
Unified Pre-training for Program Understanding and Generation Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
Code Translation with Compiler Representations Marc Szafraniec, Baptiste Roziere, Hugh Leather, Francois Charton, Patrick Labatut, Gabriel Synnaeve
Learning to Model Editing Processes Machel Reid, Graham Neubig
SantaCoder: don’t reach for the stars! Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muenninghoff, Mayank Mishra, Alex Gu, Manan Den, Longesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Terry Yue Zhuo, Francesco De Toni, Bernanrdo Garcia del Rio, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Michael Lappert, Ian Yu, Paulo Villegas, Jia Li, David Lansy, Huu Nguyen, Danish Contractor, Luis Villa, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Arjun Guha, Harm de Vries, Leonadro von Werra
Learning To Predict User-Defined Types Kevin Jesse, Premkumar T. Devanbu, Anand Sawant
Efficient Training of Language Models to Fill in the Middle Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey, Jerry Tworek, Mark Chen
CoditT5: Pretraining for Source Code and Natural Language Editing Jiyang Zhang, Sheena Panthaplackel, Pengyu Nie, Junyi Jessy Li, Milos Gligoric
Piloting Copilot and Codex: Hot Temperature, Cold Prompts, or Black Magic? Jean-Baptiste Döderlein, Mathieu Acher, Djamel Eddine Khelladi, Benoit Combemale
Exploring Representation-Level Augmentation for Code Search Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang, Hongyu Zhang, Yanlin Wang
A Systematic Evaluation of Large Language Models of Code Frank F. Xu, Uri Alon, Graham Neubig, Vincent J. Hellendoorn
A Conversational Paradigm for Program Synthesis Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong
Synchromesh: Reliable code generation from pre-trained language models Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek, Sumit Gulwani
An Extensive Study on Pre-trained Models for Program Understanding and Generation Zhengran Zeng, Hanzhuo Tan, Haotian Zhang, Jing Li, Yuqun Zhang, Lingming Zhang
TOGA: A Neural Method for Test Oracle Generation Elizabeth Dinella, Gabriel Ryan, Todd Mytkowicz, Shuvendu K. Lahiri
Learning to Complete Code with Sketches Daya Guo, Alexey Svyatkovskiy, Jian Yin, Nan Duan, Marc Brockschmidt, Miltiadis Allamanis
UniXcoder: Unified Cross-Modal Pre-training for Code Representation Daya Guo, Shuai Lu, Nan Duan, Yanlin Wang, Ming Zhou, Jian Yin
Repository-Level Prompt Generation for Large Language Models of Code Disha Shrivastava, Hugo Larochelle, Daniel Tarlow
InCoder: A Generative Model for Code Infilling and Synthesis Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen-tau Yih, Luke Zettlemoyer, Mike Lewis
Can we learn from developer mistakes? Learning to localize and repair real bugs from real bug fixes Cedric Richter, Heike Wehrheim
CodeT: Code Generation with Generated Tests Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, Weizhu Chen
SPT-Code: Sequence-to-Sequence Pre-Training for Learning Source Code Representations Changan Niu, Chuanyi Li, Vincent Ng, Jidong Ge, Liguo Huang, Bin Luo
DocCoder: Generating Code by Retrieving and Reading Docs Shuyan Zhou, Uri Alon, Frank F. Xu, Zhengbao JIang, Graham Neubig
ReACC: A Retrieval-Augmented Code Completion Framework Shuai Lu, Nan Duan, Hojae Han, Daya Guo, Seung-won Hwang, Alexey Svyatkovskiy
Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis Shounak Naik, Rajaswa Patil, Swati Agarwal, Veeky Baths
Using Developer Discussions to Guide Fixing Bugs in Software Sheena Panthaplackel, Milos Gligoric, Junyi Jessy Li, Raymond J. Mooney
CV4Code: Sourcecode Understanding via Visual Code Representations Ruibo Shi, Lili Tao, Rohan Saphal, Fran Silavong, Sean J. Moran
An Exploratory Study on Code Attention in BERT Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard, David Lo
Exploring Dimensions of Generalizability and Few-shot Transfer for Text-to-SQL Semantic Parsing Rajaswa Patil, Manasi Patwardhan, Shirish Karande, Lovekesh Vig, Gautam Shroff
Code Generation Tools (Almost) for Free? A Study of Few-Shot, Pre-Trained Language Models on Code Patrick Bareiß, Beatriz Souza, Marcelo d'Amorim, Michael Pradel
Learning code summarization from a small and local dataset Toufique Ahmed, Premkumar Devanbu
Learning to Answer Semantic Queries over Code Surya Prakash Sahu, Madhurima Mandal, Shikhar Bharadwaj, Aditya Kanade, Petros Maniatis, Shirish Shevade
DeepPERF: A Deep Learning-Based Approach For Improving Software Performance Spandan Garg, Roshanak Zilouchian Moghaddam, Colin B. Clement, Neel Sundaresan, Chen Wu
Using Deep Learning to Generate Complete Log Statements Antonio Mastropaolo, Luca Pascarella, Gabriele Bavota
Learning to Reduce False Positives in Analytic Bug Detectors Anant Kharkar, Roshanak Zilouchian Moghaddam, Matthew Jin, Xiaoyu Liu, Xin Shi, Colin Clement, Neel Sundaresan
Exploring and Evaluating Personalized Models for Code Generation Andrei Zlotchevski, Dawn Drain, Alexey Svyatkovskiy, Colin Clement, Neel Sundaresan, Michele Tufano
What Do They Capture? -- A Structural Analysis of Pre-Trained Language Models for Source Code Yao Wan, Wei Zhao, Hongyu Zhang, Yulei Sui, Guandong Xu, Hai Jin
Improving Few-Shot Prompts with Relevant Static Analysis Products Toufique Ahmed, Kunal Suresh Pai, Premkumar Devanbu, Earl T. Barr
CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code Shuyan Zhou, Uri Alon, Sumit Agarwal, Graham Neubig
StarCoder: may the source be with you! Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries
Large Language Models and Simple, Stupid Bugs Kevin Jesse, Toufique Ahmed, Premkumar T. Devanbu, Emily Morgan
TypeT5: Seq2seq Type Inference using Static Analysis Jiayi Wei, Greg Durrett, Isil Dillig
TraceFixer: Execution Trace-Driven Program Repair Islem Bouzenia, Yangruibo Ding, Kexin Pei, Baishakhi Ray, Michael Pradel
Model-Agnostic Syntactical Information for Pre-Trained Programming Language Models Iman Saberi, Fateme H. Fard
Rethinking Negative Pairs in Code Search Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages Erik Nijkamp, Hiroaki Hayashi, Caiming Xiong, Silvio Savarese, Yingbo Zhou
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation Fengji Zhang, Bei Chen, Yue Zhang, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen
Code Execution with Pre-trained Language Models Chenxiao Liu, Shuai Lu, Weizhu Chen, Daxin Jiang, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan, Nan Duan
DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection Yizheng Chen, Zhoujie Ding, Xinyun Chen, David Wagner
CodeScore: Evaluating Code Generation by Learning Code Execution Yihong Dong, Jiazheng Ding, Xue Jiang, Zhuo Li, Ge Li, Zhi Jin
CodeT5+: Open Code Large Language Models for Code Understanding and Generation Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D. Q. Bui, Junnan Li, Steven C. H. Hoi
Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation Xin-Ye Li, Jiang-Tian Xue, Zheng Xie, Ming Li
T5APR: Empowering Automated Program Repair across Languages through Checkpoint Ensemble Reza Gharibi, Mohammad Hadi Sadreddini, Seyed Mostafa Fakhrahmad

🏷 Transformers

Studying LLM Performance on Closed- and Open-source Data Toufique Ahmed, Christian Bird, Premkumar Devanbu, Saikat Chakraborty
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang

🏷 translation

Automatically Testing Functional Properties of Code Translation Models Hasan Ferit Eniser, Valentin Wüstholz, Maria Christakis
LLM4Decompile: Decompiling Binary Code with Large Language Models Hanzhuo Tan, Qi Luo, Jing Li, Yuqun Zhang

🏷 types

Predicting Program Properties from “Big Code” Veselin Raychev, Martin Vechev, Andreas Krause
RefiNym: Using Names to Refine Types Santanu Dash, Miltiadis Allamanis, Earl T. Barr
Deep Learning Type Inference V. J. Hellendoorn, Christian Bird, Earl T. Barr, Miltiadis Allamanis
TypeWriter: Neural Type Prediction with Search-based Validation Michael Pradel, Georgios Gousios, Jason Liu, Satish Chandra.
NL2Type: Inferring JavaScript Function Types from Natural Language Information Rabee Sohail Malik, Jibesh Patra, Michael Pradel
Inferring Javascript types using Graph Neural Networks Jessica Schrouff, Kai Wohlfahrt, Bruno Marnette, Liam Atkinson
Learning Lenient Parsing & Typing via Indirect Supervision Toufique Ahmed, Vincent Hellendoorn, Premkumar Devanbu
OptTyper: Probabilistic Type Inference by Optimising Logical and Natural Constraints Irene Vlassi Pandi, Earl T. Barr, Andrew D. Gordon, Charles Sutton
LambdaNet: Probabilistic Type Inference using Graph Neural Networks Jiayi Wei, Maruth Goyal, Greg Durrett, Isil Dillig
Adversarial Robustness for Code Pavol Bielik, Martin Vechev
Typilus: Neural Type Hints Miltiadis Allamanis, Earl T. Barr, Soline Ducousso, Zheng Gao
Learning Type Annotation: Is Big Data Enough? Kevin Jesse, Premkumar Devanbu, Toufique Ahmed
ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type Inference Amir M. Mir, Evaldas Latoskinas, Georgios Gousios
Type4Py: Deep Similarity Learning-Based Type Inference for Python Amir M. Mir, Evaldas Latoskinas, Sebastian Proksch, Georgios Gousios
Learning To Predict User-Defined Types Kevin Jesse, Premkumar T. Devanbu, Anand Sawant
LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition Rishab Sharma, Fuxiang Chen, Fatemeh H. Fard
TypeT5: Seq2seq Type Inference using Static Analysis Jiayi Wei, Greg Durrett, Isil Dillig
Generative Type Inference for Python Yun Peng, Chaozheng Wang, Wenxuan Wang, Cuiyun Gao, Michael R. Lyu

🏷 variable misuse

SmartPaste: Learning to Adapt Source Code Miltiadis Allamanis, Marc Brockschmidt
Open Vocabulary Learning on Source Code with a Graph-Structured Cache Milan Cvitkovic, Badal Singh, Anima Anandkumar
Learning to Represent Programs with Graphs Miltiadis Allamanis, Marc Brockschmidt, Mahmoud Khademi
Neural Program Repair by Jointly Learning to Localize and Repair Marko Vasic, Aditya Kanade, Petros Maniatis, David Bieber, Rishabh Singh
Global Relational Models of Source Code Vincent J. Hellendoorn, Charles Sutton, Rishab Singh, Petros Maniatis, David Bieber
CodeTrek: Flexible Modeling of Code using an Extensible Relational Representation Pardis Pashakhanloo, Aaditya Naik, Yuepeng Wang, Hanjun Dai, Petros Maniatis, Mayur Naik

🏷 verification

Learning Loop Invariants for Program Verification Xujie Si, Hanjun Dai, Mukund Raghothaman, Mayur Naik, Le Song
ConTest: A Unit Test Completion Benchmark featuring Context Johannes Villmow, Jonas Depoix, Adrian Ulges

🏷 vulnerability

DeepVD: Toward Class-Separation Features for Neural Network Vulnerability Detection Wenbo Wang, Tien N. Nguyen, Shaohua Wang, Yi Li, Jiyuan Zhang, Aashish Yadavally
DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection Yizheng Chen, Zhoujie Ding, Xinyun Chen, David Wagner
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models Berkay Berabi, Alexey Gronskiy, Veselin Raychev, Gishor Sivanrupan, Victor Chibotaru, Martin Vechev
A Survey of Source Code Representations for Machine Learning-Based Cybersecurity Tasks Beatrice Casey, Joanna C. S. Santos, George Perry