ROUGE 평가 지표 이해하기
텍스트 요약 태스크를 평가하는 데는 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
를 이용한다.
ROUGE는 5개의 평가 지표가 있다.
- ROUGE-N
- ROUGE-L
- ROUGE-W
- ROUGE-S
- ROUGE-SU
자주 쓰이는 ROUGE-N
과 ROUGE-L
에 대해 알아보자.
ROUGE-N 메트릭 이해하기
ROUGE-N은 예측한 요약문과 실제 요약문 간의 n-gram의 recall이다.
재현율은 예측한 요약 결과와 실제 요약 사이의 서로 겹치는 n-gram의 총 수와 실제 요약의 n-gram의 총 수의 비율로 정의 된다.
$재현율 = \frac{서로 겹치는 n-gram수}{참조 요약의 n-gram 수}$
ROUGE-1
ROUGE-1은 예측한 요약문과 실제 요약문 간의 unigram의 재현율이다.
- 예측한 요약문 : Korea won the soccer world cup final.
- 실제 요약문 : Korea won the World Cup.
ROUGE-1은 다음과 같이 계산 된다.
$재현율 = \frac{서로 겹치는 유니그램 수}{참조 요약의 유니그램 수}$
- 예측 요약문 유니그램 : Korea, won, the, soccer, world, cup, final.
- 실제 요약문 유니그램 : Korea, won, the, world, cup.
예측 요약문과 실제 요약문 사이에 겹치는 유니그램 수는 5이고, 실제 요약문의 유니 그램수도 5이므로 이때 재현율은 다음과 같이 계산할 수 있다.
재현율 = $\frac{5}{5} = 1$
즉, ROUGE-1 값은 1이다.
ROUGE-2
ROUGE-2는 예측한 요약문과 실제 요약문 간의 바이그램 재현율이다.
ROUGE-2는 다음과 같이 계산 된다.
$재현율 = \frac{서로 겹치는 바이그램 수}{참조 요약의 바이그램 수}$
- 예측 요약문 바이그램 : Korea won, won the, the soccer,soccer world, world cup, cup final
- 실제 요약문 바이그램 : Korea won, won the, the world, world cup
예측 요약문과 실제 요약문 사이에 겹치는 바이그램 수는 3이고, 실제 요약문의 바이그램수는 5이므로 이때 재현율은 다음과 같이 계산할 수 있다.
$재현율 = \frac{2}{5} = 0.4$
즉, ROUGE-2 값은 0.4이다.
ROUGE-L
ROUGE-L은 가장 긴 공통 시퀀스(LCS)를 기반으로 한다. 두 시퀀스 사이의 LCS란최대 길이를 가지는 공통 하위 시퀀스를 말한다. 따라서 예측 및 실제 요약문에 LCS가 있다는 것은 예측 요약 문과 실제 요약문이 일치하는 것이라고 볼수 있다.
ROUGE-L은 F-measuer를 사용해 측정된다. F-measure를 구하는 데는 재현율, 정밀도가 필요하다.
재현율 $R_{LCS}$ = $\frac{LCS(예측, 실제)}{실제 요약문의 전체 단어수}$
정밀도 $P_{LCS}$ = $\frac{LCS(예측, 실제)}{예측 요약문의 전체 단어수}$
F-measure는 $F_{LCS}$ = $\frac{(1+b^2)R_{LCS}P_{LCS}}{R_{LCS}+b^2P_{LCS}}$ 이다.
이 식에서 b는 정밀도와 재현율의 가중치를 조절하는 데 사용된다. 위에서 이야기한 F-measure가 바로 ROUGE-L이다.