오픈소스 LLM 훈련시켜 기사 제목 달아보니…
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
생성형 인공지능(AI)의 도입 분야나 잠재 영향을 모색하는 시도로 여러 산업군이 분주하다.
석사학위(고려대 빅데이터융합학과) 논문 <오픈소스 대규모 언어모델을 활용한 신문기사 제목 생성> (황경상 경향신문 데이터저널리즘팀장)은 이런 상황에서 개발 역량을 갖춘 현직 기자가 언론 영역과 맞물려 신기술의 가능성을 살핀 드문 시도라 하겠다. 오픈소스>
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
생성형 인공지능(AI)의 도입 분야나 잠재 영향을 모색하는 시도로 여러 산업군이 분주하다. 이 고민은 언론계도 공유하지만 연구와 실험이 충분히 진행 중이지는 의문이 남는다. 석사학위(고려대 빅데이터융합학과) 논문 <오픈소스 대규모 언어모델을 활용한 신문기사 제목 생성>(황경상 경향신문 데이터저널리즘팀장)은 이런 상황에서 개발 역량을 갖춘 현직 기자가 언론 영역과 맞물려 신기술의 가능성을 살핀 드문 시도라 하겠다.
연구는 오픈소스 언어모델들을 바탕으로 신문기사 제목을 생성하는 모델을 제작하고 성능을 평가한 과정을 담았다. 신문기사 본문과 제목 데이터 5만여 건을 수집해 7개 언어모델을 훈련시키고 100개 기사에 대해 각 모델이 제목을 생성<사진>하게 했다. 상용 언어모델 GPT-3.5-turbo로도 동일한 기사들에 제목을 생성하고 △각 언어모델이 본래 제목을 얼마나 잘 재현했는지 △GPT-4와 사람 각각에게 기사 본문에 어울리는 제목을 잘 생성했는지 0~5점으로 평가시키는 두 방법으로 총 8가지 모델 성능을 측정했다.
실험결과 양 평가 모두에서 일부 모델은 GPT-3.5-turbo를 능가하거나 유사 성능을 보였다. 특히 SOLAR-KO-10.7B(솔라)는 모든 지표에서 상용 모델을 앞섰고, 사람이 직접 작성한 제목 품질에 근접한 결과를 보였다. 실제 해당 모델은 GPT-4 평가에서 4.51점, 사람 평가에선 3.41점을 획득했는데, 이는 기사 본래 제목 각각의 평가점수가 4.53점, 3.66점임을 감안할 때 “실무에서도 사용이 가능한” 수준이었다. 더 나은 제목 생성에 어떤 데이터 학습이 효과적일지 위 ‘솔라’ 모델에 추가 실험도 했다. 같은 주제지만 여러 언론이 조금씩 다르게 쓴 제목, 본문의 기사(네이버 뉴스 클러스터링 수집) 비중을 늘려 학습시키며 성능 향상을 기대했지만 애초 모델 성능이 더 좋게 나타났다. 저자는 “데이터의 다양성이 제목 생성을 위한 언어모델 미세조정에 더 중요한 요소”라고 추론했다.
단순히 최고 점수를 기록한 언어모델을 도입하면 된다는 결론은 섣부르다. 언론 부문에서도 매우 협소한 영역을 다루는 논문이 업계를 당장 바꿀 것이란 단언도 쉽지 않다. 다만 이 연구가 ‘기자’ ‘개발자’ 정체성을 공유한 저자에 의해 가능했던, 신기술에 대한 한 업계 내 당사자의 고유한 고민 결과란 의미가 매우 중요하다. 기술 앞에 무지했거나 무력했던 언론계 과거에서 우리가 배운 점이라면 누구도 답을 대신 알려주지 않았다는 사실일 것이기 때문이다.
Copyright © 기자협회보. 무단전재 및 재배포 금지.
- 이진숙 탄핵 심판 첫 변론에서 나온 질문들 - 한국기자협회
- "정보 비공개 부당"… 대구시, 뉴스민에 100만원 손해배상 - 한국기자협회
- 명태균 취재는 창원서만 해라? KBS, 기자들 'TF 요구' 거부 - 한국기자협회
- JTBC '도이치모터스 주가조작 사건' 보도, 검찰 미공개 자료 확보 등 돋보여 - 한국기자협회
- [이달의 기자상] 김건희 '공천개입' 의혹 및 명태균 게이트 - 한국기자협회
- [이달의 기자상] 도이치모터스 주가조작 사건 - 한국기자협회
- [이달의 기자상] 부실 수사에 가려진 채석장 중대산업재해 - 한국기자협회
- [이달의 기자상] 묻혔던 채상병들 - 한국기자협회
- [이달의 기자상] 뜨거운 지구, 기후 위기 현장을 가다 - 한국기자협회
- 경제지·일간지·방송·통신사 기자들의 '반도체 랩소디' - 한국기자협회