본문 바로가기

프로젝트/Techfork

검색 평가용 Ground Truth 구축 정리

개요

검색 평가용 ground-truth는 실제 기술 블로그 문서를 기반으로 검색 쿼리를 생성하고, 다양한 검색 방식이 반환한 후보 문서들을 통합한 뒤, LLM-as-a-Judge로 관련도를 판정하는 방식으로 구축합니다. 최종적으로 이렇게 생성한 judgment 데이터를 기준으로 nDCG@4/8/20, Recall@4/8/20, 그리고 latency를 함께 측정합니다.

구축 절차

1. 회사별 층화 샘플링

실제 사용자 검색 로그가 없는 상황에서, 검색의 절대적 정확도를 측정하는 것이 아니라 검색 방식 간 상대 비교를 통해 개선 방향을 찾는 것이 목적입니다.

 

이를 위해 posts 인덱스에서 회사별 층화 샘플링을 수행해 평가용 문서를 추출합니다. 현재 구현은 회사당 5개 문서를 수집하는 방식이며, 전체적으로 약 200~300개 수준의 샘플 문서를 대상으로 ground-truth를 생성합니다.

 

2. 문서별 LLM 쿼리 3종 생성

각 문서에 대해 LLM으로 검색 쿼리 3개를 생성합니다.

  • 단일 키워드
  • 복합 키워드
  • 자연어 질문

이 단계의 목적은 실제 사용자가 입력할 법한 다양한 검색 의도를 평가 데이터에 반영하는 것입니다. 검색 시스템의 성능은 쿼리 유형에 따라 크게 달라지므로(BM25는 짧은 키워드에서, dense retrieval은 자연어 질문에서 강한 경향), 단일 유형만으로는 편향된 평가를 초래할 수 있습니다.

Ref. Thakur, N. et al. (2021). BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models. NeurIPS 2021. — 18개 데이터셋(쿼리 길이 3~192단어)에서 검색 모델의 성능이 쿼리 유형에 따라 크게 달라짐을 실증했습니다.

 

3. TREC Pooling 기반 후보 풀 구성

후보 문서 풀은 TREC pooling 방식으로 구성합니다. BM25 only, Vector only, Hybrid 검색 결과에서 각각 동일한 depth의 상위 문서를 수집한 뒤 union하여 최종 candidate pool을 만듭니다.

현재 평가는 최종 검색 결과 20개를 기준으로 하므로, 각 검색 방식에서 top 20을 수집해 최대 60개의 후보군을 구성합니다. 이렇게 후보군을 확장하는 이유는 특정 검색 방식의 결과에 relevance judgment가 과도하게 종속되는 편향(pool bias)을 줄이기 위해서입니다.

Ref. Cormack, G.V., Palmer, C.R. & Clarke, C.L.A. (1998). Efficient Construction of Large Test Collections. ACM SIGIR 1998, pp. 282–289. — 여러 검색 시스템의 결과를 union하여 candidate pool을 구성하면 단일 시스템 편향을 줄이고 더 공정한 relevance judgment를 만들 수 있다는 TREC pooling 방법론의 원조 논문입니다.

 

4. LLM-as-a-Judge 기반 관련도 평가

후보 풀에 포함된 각 (query, document) 쌍은 LLM-as-a-Judge 방식으로 0~3점의 점수 기준으로 평가합니다.

  • 0점: Irrelevant
  • 1점: Marginal
  • 2점: Relevant
  • 3점: Perfect

0~3점의 점수 기준 척도는 0~5점보다 판정 경계를 더 명확하게 유지하기 쉽습니다.

 

최종 ground-truth에는 2점(Relevant) 이상의 judgment만 저장하고, 0~1점 문서는 제외합니다. 평가 지표가 nDCG@4/8/20, Recall@4/8/20으로 상위 소수 결과의 품질을 측정하는 구조이므로, Irrelevant나 Marginal 수준의 문서까지 ground-truth에 포함하면 관련 문서 수가 과도하게 부풀어 Recall 지표가 의미를 잃게 되기 때문입니다.

 

Ref. Thomas, P. et al. (2024). Large Language Models Can Accurately Predict Searcher Preferences. SIGIR 2024, pp. 1930–1940. — Microsoft Bing에서 LLM 기반 대규모 관련도 라벨링을 실전 배치한 결과, LLM이 인간 라벨러와 동등한 정확도를 달성했으며 시스템 순위 판별 능력도 유사했습니다. LLM-as-a-Judge 방법론의 실전 검증 근거입니다.

 

평가 지표

생성된 ground-truth를 기준으로 다음 지표를 측정합니다.

  • nDCG@4, nDCG@8, nDCG@20
  • Recall@4, Recall@8, Recall@20
  • Latency

Ref. Järvelin, K. & Kekäläinen, J. (2002). Cumulated Gain-Based Evaluation of IR Techniques. ACM TOIS, 20(4), pp. 422–446. — nDCG 지표를 제안한 원조 논문입니다. Graded relevance 기반으로 상위 랭킹에 고관련 문서를 배치하는 능력을 평가합니다.