AI의 LLM 긴문장 이해 능력 격차 심화: 한국어, 26개 언어 중 하위권-실무 적용 한계 드러나

최대 12만 8천 토큰 맥락 평가 벤치마크 원 룰러 공개.-비영어권 언어 성능 저하 확인

한국어 22위, 긴 맥락 학습 데이터 부족이 원인으로 지목-폴란드어 등 슬라브어 계열 상위권 차지

지시문 언어에 따라 정확도 크게 떨어져 긴 계약서, 논문 요약 등 실제 업무 환경에 우려

메릴랜드 대학교와 매사추세츠 대학교 애머스트 연구진이 대형 언어 모델 LLM의 긴 맥락 이해 능력을 다국어로 측정한 새로운 벤치마크 원 룰러를 공개하였다. 이 테스트는 최대 12만 8천 토큰 규모의 방대한 맥락을 평가할 수 있는 최초의 다국어 측정 도구이다.

 

벤치마크 결과, 한국어는 전체 26개 언어 중 22위로 하위권에 머물렀으며, 긴 문서로 갈수록 성능이 급격히 떨어지는 현상이 두드러지게 나타났다. 연구진이 진행한 수많은 정보 속에서 특정 정보를 빠르게 찾아내는 Needle in a Haystack 과제에서 한국어는 중국어, 태국어 등과 함께 최하위권으로 분류되었다.

 

반면, 폴란드어가 평균 정확도 88%로 1위를 차지하는 등 슬라브어 및 로망스어 계열 언어가 상위권을 형성하였다. 이는 위키피디아 문서의 양, 라틴 문자 사용, 그리고 문장 구조의 단순성 등이 복합적으로 작용한 결과로 연구진은 분석하였다. 영어 6위와 중국어가 주요 학습 언어임에도 불구하고 이들 언어에 성능이 밀리는 의외의 결과도 확인되었다.

 

AI의 LLM 긴문장 이해 능력 격차 심화: 26개 언어 중 한국어22위로 하위권, 폴란드1위 영어6위    ⓒstb

 

맥락 길이에 따른 성능 격차는 매우 심각하였다. 맥락이 8천 토큰일 때 상위 5개와 하위 5개 언어의 정확도 차이는 11%였으나, 12만 8천 토큰으로 확장되자 34%로 세 배 이상 벌어졌다. 이는 긴 문서일수록 非(비)영어권 언어의 성능 저하가 극심해지는 현상을 명확히 보여준다.

 

한국어가 위키피디아 문서 기준으로는 저자원 언어에 속하지 않음에도 하위권을 기록한 이유로, 연구팀은 긴 맥락 확장 학습 데이터셋에 한국어 관련 데이터가 거의 포함되지 않았을 가능성을 주된 원인으로 지목하였다. 이로 인해 모델이 한국어의 장문 구조를 충분히 학습하지 못했을 것으로 추정된다.

 

지시문 언어가 모델 성능에 결정적인 영향을 미치는 것으로 나타났다. 영어 맥락에 한국어 지시문을 사용하자 정확도가 20% 급락하였으며, 이는 LLM이 영어 기반으로 최적화되어 있음을 시사한다.   ⓒstb상생방송

 

또한, 지시문 언어가 모델 성능에 결정적인 영향을 미치는 것으로 나타났다. 영어 맥락에 한국어 지시문을 사용하자 정확도가 20% 급락하였으며, 이는 LLM이 영어 기반으로 최적화되어 있음을 시사한다. 이 밖에도 모델들은 긴 맥락 추론에서 불확실성 판단이 미흡하여, 답이 없다는 선택지만 추가해도 성능이 무너지는 현상을 보이거나, 단어 빈도 탐색 같은 단순 과제에서도 긴 문맥에서는 1% 미만의 성능을 기록하는 등 뚜렷한 한계를 노출하였다. 

 

연구진은 이러한 대형언어모델 LLM의 다국어 장문 이해 격차가 긴 계약서, 회의록, 논문 요약 등 실제 업무 및 학술 환경에서의 비영어권 언어 처리 능력에 심각한 영향을 미칠 수 있다고 경고하였다.

 

작성 2025.12.08 18:13 수정 2025.12.08 18:33

RSS피드 기사제공처 : 삼랑뉴스 / 등록기자: 이병석 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (1/1 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
2023-01-30 10:21:54 / 김종현기자