사서

자동화 분류 시스템의 진화 , AI 기반 서지 분류 기술과 기존 분류 체계와의 융합 가능성

hpsh2227 2025. 6. 18. 09:17
반응형

1. 자동화 분류의 역사와 현재: 인간 중심에서 기계 중심으로의 전환

도서관에서 서지 분류는 단순한 도서 배열을 넘어, 지식 구조를 체계적으로 구성하고 이용자에게 접근성을 제공하는 핵심적 작업이다. 전통적으로는 사서가 도서의 주제를 파악하고, DDC(듀이십진분류법), LCC(미국의회도서관 분류법), KDC(한국십진분류법) 등 정립된 분류 체계를 바탕으로 수작업으로 분류 번호를 부여했다. 그러나 자료의 폭증과 디지털 콘텐츠의 확산으로 인해 수작업 분류의 한계가 뚜렷해지면서, 2000년대 초반부터 자동화 분류 시스템이 대두되기 시작했다. 초기 자동화 시스템은 키워드 추출과 단어 빈도 분석을 기반으로 하였으며, 정해진 규칙(rule-based)으로 분류 번호를 추천하는 수준이었다. 이는 정형적인 텍스트에는 유용했지만, 맥락 이해나 복합 개념 분류에서는 정확도가 낮다는 한계가 있었다.

이후 기술이 발전함에 따라 기계학습(Machine Learning) 기반의 분류 시스템이 도입되었고, 최근에는 자연어처리(NLP)와 딥러닝(Deep Learning) 기술이 접목된 고도화된 자동화 분류 모델이 등장하고 있다. 특히 BERT, GPT와 같은 대규모 언어 모델을 활용하면 서지 데이터의 제목, 초록, 목차 등에서 주제를 유추해 보다 정교한 분류가 가능해진다. 예컨대 하나의 도서가 복수의 주제 범주에 해당할 경우, 기존 분류 체계는 하나의 주제를 선택해야 했지만, AI 모델은 다중 라벨 분류(Multi-label classification)를 통해 보다 융통성 있는 분류가 가능해진다. 또한 이러한 자동 분류 모델은 새로운 주제나 키워드가 등장했을 때, 기존의 학습 데이터를 바탕으로 유사 주제를 찾아내는 유연한 분류 역량도 갖추고 있다. 지금은 ‘자동화 분류’가 단순한 효율성 확보를 넘어, 지식 조직의 정확성과 접근성 개선이라는 본질적 과제에 접근하고 있는 시점이다.

 

자동화 분류 시스템의 진화 , AI 기반 서지 분류 기술과 기존 분류 체계와의 융합 가능성

 

2. AI 기반 자동 분류 기술의 구체적 작동 방식

AI 기반 분류 시스템은 단순한 키워드 매칭을 넘어, 문서의 전체적인 의미, 논리적 구조, 언어적 맥락을 고려하는 복합적 처리 과정을 거친다. 딥러닝 기술은 수많은 데이터로부터 패턴을 스스로 학습하며, 분류 정확도를 지속적으로 향상시킨다. 대표적인 예는 BERT 기반 분류기로, 입력 문서에서 핵심 문장을 추출하고 그 의미를 벡터화한 뒤, 이를 사전에 훈련된 분류 체계와 비교하여 가장 유사한 주제를 예측한다. 이 과정에서 대분류-중분류-소분류 간 계층적(hierarchical) 분류도 가능하며, 복수의 유사 분류 항목을 동시에 추천할 수도 있다. 예컨대 "디지털 헬스케어 산업의 윤리적 문제"라는 제목의 도서가 들어올 경우, 단순히 '보건'이 아니라 '정보윤리', '산업정책', '융합기술' 등 다양한 각도로 분류가 이루어질 수 있는 것이다.

또한 최근에는 이미지, 음성 등 다양한 멀티미디어 콘텐츠에 대해서도 자동 분류 기술이 적용되고 있다. 예컨대 시청각 자료나 웹툰, 유튜브 영상 등 디지털 매체 역시 그 안의 자막, 설명문, 태그 정보를 기반으로 자동 분류가 가능하다. 특히 학술 분야에서는 논문 초록이나 메타데이터를 활용한 자동 주제 분석이 정교하게 이루어지고 있으며, Scopus, Web of Science 등 주요 데이터베이스에서는 AI 기반 분류 알고리즘을 도입해 사용자 맞춤 추천 시스템과도 연계되고 있다. 이처럼 AI 기반 분류 기술은 단순히 도서관의 업무 효율을 위한 수단을 넘어, 이용자의 정보 접근 방식까지 변화시키고 있는 중대한 전환의 기점에 서 있다. 다만, 이 모든 기술이 효과적으로 작동하기 위해서는 신뢰도 높은 훈련 데이터셋, 언어적 다양성 대응, 분류 기준의 일관성 유지라는 전제 조건이 충족되어야 한다는 점도 잊어서는 안 된다.

 

 

3. 기존 분류 체계와 AI 기술의 융합 가능성

AI 기반 분류 기술이 정교해졌다고 해서 기존의 KDC나 DDC 같은 전통 분류 체계가 폐기되는 것은 아니다. 오히려 그 반대다. 기존 분류 체계는 수십 년간 축적된 도서관계의 지식 조직 기준이며, 이용자와 사서 모두에게 익숙한 체계이기 때문에, 이를 기반으로 하는 AI 분류 시스템이 가장 이상적이다. 최근에는 ‘기계 가독성(Machine-readable)’을 고려한 분류체계 확장 작업이 진행되고 있으며, 예컨대 KDC의 각 분류항목에 메타데이터를 부가해 AI 시스템이 더 잘 이해하고 학습할 수 있도록 표준화하는 프로젝트도 일부 도서관 및 학술기관을 중심으로 추진되고 있다. 이러한 작업은 인간 사서와 AI가 협업하는 ‘하이브리드 분류’ 방식으로 연결되며, 특히 신간 도서, 외국 자료, 전자책의 자동 분류에서 높은 효과를 보이고 있다.

또한 AI가 자동으로 추천한 분류 번호에 대해, 사서가 마지막으로 검토하고 확정하는 ‘보조형 자동화’도 널리 활용되고 있다. 이는 분류 오류나 기계적 오분류를 줄이기 위한 안전장치 역할을 하며, AI가 제안한 2~3개의 후보 분류 번호 중 가장 적합한 것을 선택하는 방식이다. 장기적으로는 분류 체계 자체가 보다 ‘데이터 기반 체계’로 진화할 가능성도 크다. 예컨대 AI는 학술 트렌드, 출판물 증가 패턴, 사회 변화에 따라 기존 분류 항목의 세분화나 통합을 제안할 수 있으며, 이런 변화는 기존의 고정된 분류 체계가 반영하지 못했던 실시간성·유연성을 보완하는 역할을 할 수 있다. 이처럼 AI는 단순히 분류 번호를 부여하는 것을 넘어, 전체 분류 체계의 설계와 진화에도 기여할 수 있는 ‘지식 구조 설계자’로 기능할 수 있다. 이는 도서관 운영의 근본 철학과 기술이 만나는 지점에서의 융합이라 할 수 있다.

 

 

4. 향후 과제: 신뢰성, 투명성, 그리고 인간 중심 기술 설계

AI 기반 자동 분류 시스템의 확장은 도서관 운영의 효율성을 크게 향상시키는 동시에, 몇 가지 핵심 과제를 남긴다. 그 첫 번째는 분류의 신뢰성과 정확성 확보이다. AI가 제안하는 분류가 왜 그 항목을 선택했는지를 이해하고 설명할 수 있어야, 오류 발생 시 문제를 추적하고 개선할 수 있다. 이는 단순한 기술 문제가 아니라, 도서관의 정보 신뢰성과 직결되는 윤리적 문제이기도 하다. 두 번째 과제는 기존 사서의 전문성과의 연결성 강화이다. AI가 모든 분류를 대체할 수 있다는 기대는 위험하며, 사서는 분류 체계의 맥락적 판단과 사회문화적 함의를 고려할 수 있는 존재로서 여전히 중요한 역할을 수행한다. 따라서 AI 시스템은 사서의 결정을 보완하고, 반복적 작업을 경감하는 방식으로 활용되어야 하며, 이를 위한 교육과 업무 재설계가 병행되어야 한다.

세 번째는 기술 도입에 따른 형평성과 정보 접근권 문제다. 특히 중소 도서관이나 학교도서관은 AI 기반 시스템을 도입할 여력이 부족한 경우가 많으며, 이로 인해 정보 조직의 질적 격차가 벌어질 가능성도 존재한다. 따라서 공공 차원에서 오픈소스 기반의 자동 분류 플랫폼을 구축하거나, 중앙기관이 자동 분류 API를 제공하는 방식으로 접근성을 확보할 필요가 있다. 마지막으로 중요한 과제는 이용자 중심 정보 탐색 경험의 개선이다. AI 기반 분류 시스템이 도입되면, 검색어 입력 없이도 ‘관심 기반 추천’이나 ‘주제별 큐레이션’이 가능해지며, 이는 도서관 이용자 경험(UX)의 질을 한 차원 끌어올릴 수 있다. 그러나 그 기반이 되는 것은 여전히 정교한 분류와 정보 구조화이다. 따라서 우리는 기술의 진화 속에서도 분류의 본질, 즉 ‘지식을 조직하는 방식’에 대한 철학을 잊지 않고 설계와 운영에 반영해나가야 한다.