ROUGE 평가 지표 이해하기

텍스트 요약 태스크를 평가하는 데는 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)를 이용한다.
ROUGE는 5개의 평가 지표가 있다.

  • ROUGE-N
  • ROUGE-L
  • ROUGE-W
  • ROUGE-S
  • ROUGE-SU

자주 쓰이는 ROUGE-NROUGE-L에 대해 알아보자.

 

ROUGE-N 메트릭 이해하기

ROUGE-N은 예측한 요약문과 실제 요약문 간의 n-gram의 recall이다.
재현율은 예측한 요약 결과와 실제 요약 사이의 서로 겹치는 n-gram의 총 수와 실제 요약의 n-gram의 총 수의 비율로 정의 된다.
$재현율 = \frac{서로 겹치는 n-gram수}{참조 요약의 n-gram 수}$

 

ROUGE-1

ROUGE-1은 예측한 요약문과 실제 요약문 간의 unigram의 재현율이다.

  • 예측한 요약문 : Korea won the soccer world cup final.
  • 실제 요약문 : Korea won the World Cup.

ROUGE-1은 다음과 같이 계산 된다.

$재현율 = \frac{서로 겹치는 유니그램 수}{참조 요약의 유니그램 수}$

  • 예측 요약문 유니그램 : Korea, won, the, soccer, world, cup, final.
  • 실제 요약문 유니그램 : Korea, won, the, world, cup.

예측 요약문과 실제 요약문 사이에 겹치는 유니그램 수는 5이고, 실제 요약문의 유니 그램수도 5이므로 이때 재현율은 다음과 같이 계산할 수 있다.
재현율 = $\frac{5}{5} = 1$
즉, ROUGE-1 값은 1이다.

 

ROUGE-2

ROUGE-2는 예측한 요약문과 실제 요약문 간의 바이그램 재현율이다.

ROUGE-2는 다음과 같이 계산 된다.

$재현율 = \frac{서로 겹치는 바이그램 수}{참조 요약의 바이그램 수}$

  • 예측 요약문 바이그램 : Korea won, won the, the soccer,soccer world, world cup, cup final
  • 실제 요약문 바이그램 : Korea won, won the, the world, world cup

예측 요약문과 실제 요약문 사이에 겹치는 바이그램 수는 3이고, 실제 요약문의 바이그램수는 5이므로 이때 재현율은 다음과 같이 계산할 수 있다.
$재현율 = \frac{2}{5} = 0.4$
즉, ROUGE-2 값은 0.4이다.

 

ROUGE-L

ROUGE-L은 가장 긴 공통 시퀀스(LCS)를 기반으로 한다. 두 시퀀스 사이의 LCS란최대 길이를 가지는 공통 하위 시퀀스를 말한다. 따라서 예측 및 실제 요약문에 LCS가 있다는 것은 예측 요약 문과 실제 요약문이 일치하는 것이라고 볼수 있다.

ROUGE-L은 F-measuer를 사용해 측정된다. F-measure를 구하는 데는 재현율, 정밀도가 필요하다.

재현율 $R_{LCS}$ = $\frac{LCS(예측, 실제)}{실제 요약문의 전체 단어수}$
정밀도 $P_{LCS}$ = $\frac{LCS(예측, 실제)}{예측 요약문의 전체 단어수}$

F-measure는 $F_{LCS}$ = $\frac{(1+b^2)R_{LCS}P_{LCS}}{R_{LCS}+b^2P_{LCS}}$ 이다.

이 식에서 b는 정밀도와 재현율의 가중치를 조절하는 데 사용된다. 위에서 이야기한 F-measure가 바로 ROUGE-L이다.

'딥러닝 > NLP' 카테고리의 다른 글

XLM-BERT  (0) 2022.01.26
bertsum  (0) 2022.01.26
ELECTRA  (0) 2022.01.23
RoBERTa  (0) 2022.01.23
ALBERT  (0) 2021.03.20

+ Recent posts