CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees

•

0 likes•179 views

Code Summarization이란 소스코드를 간결한 자연어로 나타내는 태스크고 긴 코드가 있을 때 시멘틱을 짧게 한 두 문장 정도의 자연어로 나타내서 사람이 이제 빠르게 이해할 수 있도록 하는 건데요 이제 코드를 유지 보수해보시거나 이제 오픈소스같은 큰 코드를 보신 경험이 있는 분이라면 소프트웨어 유지보수와 프로그램에 있어서 프로그램 이해에 있어서 이런 짧은 주석 같은 것들이 얼마나 중요한 역할을 하는지 잘 알고 계실겁니다 이러한 테스크를 해결하기 위해 해당 논문은 Hierarchical Splitting and Reconstruction 라는 방법을 제시합니다. 논문 리뷰를 자연어 처리팀 신동진님이 자세한 리뷰 도와주셨습니다.

Data & Analytics

CAST: Enhancing Code Summarization
with Hierarchical Splitting and
Reconstruction of Abstract Syntax Trees
NLP팀 박희수, 신동진

Task: Code Summarization
- 소스 코드를 간결한 자연어로 나타내는 task
- 소프트웨어 유지보수와 프로그램의 이해에 중요한 역할
- 하지만 노동과 시간이 많이 듦 개발자가 코드에 대한 좋은 요약을 직접 작성해야
함
- Methods
- 전통적: 복잡한 문법이나 구조는 무시하고 소스 코드를 일반 텍스트처럼
간주하고 룰 기반 혹은 IR 기반으로 접근
- 최근: ASTs(abstract syntax trees)를 도입

Limitations
- AST를 tree 기반의 뉴럴넷으로 인코딩 → 학습 시간이 너무 길어짐
- 높은 프로그램의 복잡도와 크기 때문
- e.g. HybridDrl: AST 를 이진트리로 변형
⇒ 더욱더 깊은 트리를 만들게 되면서 정보 손실
- AST 직렬화 → AST 의 계층 정보의 손실
- ASTNN: AST를 statement tree 로 분할 ⇒ 큰 tree 학습의 어려움을 해소
- 하지만 각각의 서브 트리는 한 개의 statement 만을 포함할 수 있음
- Sub-tree 각각을 직렬화하여 입력 ⇒ 계층 구조 정보의 손실

Solution: Hierarchical splitting and reconstruction
1. 전체 AST를 적절하게 분리
2. Tree 기반 모델로 각 sub-tree를 학습
3. 이후 조합
⇒ 전체 AST의 representation

AST Encoder
- AST를 만들고 preorder 순회
- Composite structure (if, while) 방문
- placeholder node 삽입
- subtree 생성 → semantic을 placeholder로 배치

AST Encoding
1. Encode subtree: tree-based RvNN (Recursive NN) + max pooling
2. Hierarchical relationship: aggregation → RvNN

Code Token Encoder
- Transformer
- multi-head self-attention + relative position embedding module
- Code token → output vector

Decoder w/ Copy Mechanism
- 2 Encoding source: AST encoder + code token encoder
⇒ Serial strategy
- Copy Mechanism: Input code에서 token을 복사
- Attention layer로 copy probability 학습

Experiment - Setup
- Dataset (Java)
- TL-CodeSum (83,661)
- Funcom (2,111,230)
- Vocab size
- AST: 10k
- Code: 30k
- Summary: 50k
- Metrics:
- BLEU-CN ([0%, 100%])
- Meteor ([0%, 100%])
- Rouge-L ([0%, 100%])
- Cider ([0, 10])

Similar to CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees

[264] large scale deep-learning_on_sparkNAVER D2

Ch1 일래스틱서치 클러스터 시작Minchul Jung

Dragon flow and tricircleYongyoon Shin

Fundamental of ELK Stack주표 홍

Attention is all you needHoon Heo

Cloudera Impala 1.0Minwoo Kim

ECMAScript 6의 새로운 것들!WooYoung Cho

Start sparkssuser31a17d

Thread programmingYoonJong Choi

쓰레드.pdfSeokju Hong

No sql 이해 및 활용 공개용YOUNGGYU CHUN

[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요NAVER D2

Assembly 스터디 1Jinkyoung Kim

Cloud datacenter network architecture (2014)Gasida Seo

함수형사고 실용적사고Sunggon Song

발표자료 11장Juhui Park

LSTM 네트워크 이해하기Mad Scientists

C# 개요 및 소개 [ 유니티 및 C# 스터디 / 2024-04-19 ]leusin2

SQL-on-Hadoop with Apache Tajo, and application case of SK TelecomGruter

What’s Evolving in the Elastic StackElasticsearch

Similar to CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees (20)

[264] large scale deep-learning_on_spark

Ch1 일래스틱서치 클러스터 시작

Dragon flow and tricircle

Fundamental of ELK Stack

Attention is all you need

Cloudera Impala 1.0

ECMAScript 6의 새로운 것들!

Start spark

Thread programming

쓰레드.pdf

No sql 이해 및 활용 공개용

[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요

Assembly 스터디 1

Cloud datacenter network architecture (2014)

함수형사고 실용적사고

발표자료 11장

LSTM 네트워크 이해하기

C# 개요 및 소개 [ 유니티 및 C# 스터디 / 2024-04-19 ]

SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom

What’s Evolving in the Elastic Stack

More from taeseon ryu

VoxelNettaeseon ryu

OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu

3D Gaussian Splattingtaeseon ryu

JetsonTX2 Python taeseon ryu

Hyperbolic Image Embedding.pptxtaeseon ryu

MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu

LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu

YOLO V6taeseon ryu

Dataset Distillation by Matching Training Trajectories taeseon ryu

RL_UpsideDowntaeseon ryu

Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu

MOReL: Model-Based Offline Reinforcement Learningtaeseon ryu

Scaling Instruction-Finetuned Language Modelstaeseon ryu

Visual prompt tuningtaeseon ryu

mPLUGtaeseon ryu

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu

The Forward-Forward Algorithmtaeseon ryu

Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu

BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu

More from taeseon ryu (20)

VoxelNet

OpineSum Entailment-based self-training for abstractive opinion summarization...

3D Gaussian Splatting

JetsonTX2 Python

Hyperbolic Image Embedding.pptx

MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정

LLaMA Open and Efficient Foundation Language Models - 230528.pdf

YOLO V6

Dataset Distillation by Matching Training Trajectories

RL_UpsideDown

Packed Levitated Marker for Entity and Relation Extraction

MOReL: Model-Based Offline Reinforcement Learning

Scaling Instruction-Finetuned Language Models

Visual prompt tuning

mPLUG

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf

The Forward-Forward Algorithm

Towards Robust and Reproducible Active Learning using Neural Networks

BRIO: Bringing Order to Abstractive Summarization

CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees

1. CAST: Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees NLP팀 박희수, 신동진

2. Task: Code Summarization - 소스 코드를 간결한 자연어로 나타내는 task - 소프트웨어 유지보수와 프로그램의 이해에 중요한 역할 - 하지만 노동과 시간이 많이 듦 개발자가 코드에 대한 좋은 요약을 직접 작성해야 함 - Methods - 전통적: 복잡한 문법이나 구조는 무시하고 소스 코드를 일반 텍스트처럼 간주하고 룰 기반 혹은 IR 기반으로 접근 - 최근: ASTs(abstract syntax trees)를 도입

3. Limitations - AST를 tree 기반의 뉴럴넷으로 인코딩 → 학습 시간이 너무 길어짐 - 높은 프로그램의 복잡도와 크기 때문 - e.g. HybridDrl: AST 를 이진트리로 변형 ⇒ 더욱더 깊은 트리를 만들게 되면서 정보 손실 - AST 직렬화 → AST 의 계층 정보의 손실 - ASTNN: AST를 statement tree 로 분할 ⇒ 큰 tree 학습의 어려움을 해소 - 하지만 각각의 서브 트리는 한 개의 statement 만을 포함할 수 있음 - Sub-tree 각각을 직렬화하여 입력 ⇒ 계층 구조 정보의 손실

4. Solution: Hierarchical splitting and reconstruction 1. 전체 AST를 적절하게 분리 2. Tree 기반 모델로 각 sub-tree를 학습 3. 이후 조합 ⇒ 전체 AST의 representation

5. Model Structure

6. AST Encoder - AST를 만들고 preorder 순회 - Composite structure (if, while) 방문 - placeholder node 삽입 - subtree 생성 → semantic을 placeholder로 배치

8. AST Encoding 1. Encode subtree: tree-based RvNN (Recursive NN) + max pooling 2. Hierarchical relationship: aggregation → RvNN

9. Code Token Encoder - Transformer - multi-head self-attention + relative position embedding module - Code token → output vector

10. Decoder w/ Copy Mechanism - 2 Encoding source: AST encoder + code token encoder ⇒ Serial strategy - Copy Mechanism: Input code에서 token을 복사 - Attention layer로 copy probability 학습

11. Experiment - Setup - Dataset (Java) - TL-CodeSum (83,661) - Funcom (2,111,230) - Vocab size - AST: 10k - Code: 30k - Summary: 50k - Metrics: - BLEU-CN ([0%, 100%]) - Meteor ([0%, 100%]) - Rouge-L ([0%, 100%]) - Cider ([0, 10])

12. Result - Metrics

13. Result - Human Evaluation

14. Thank You

CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees

Recommended

Recommended

More Related Content

Similar to CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees

Similar to CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees (20)

More from taeseon ryu

More from taeseon ryu (20)

CAST:Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees