0. Paper Information
- Title: Classifying Tags Using Open Content Resources
- Authors: Overell Simon, Börkur Sigurbjörnsson, Roelof Van Zwol
- Publication: In Proceedings of the Second ACM International Conference on Web Search and Data Mining
- Published Year: 2009
1. Introduction
Background
- 사용자들이 Flickr, YouTube, Wikipedia와 같은 소셜 미디어 서비스에 참여하여 협력한 결과, 사용자 생성 콘텐츠가 폭발적으로 증가했음
- 폭소노미 스타일(Folksonomy-style) 태깅은 이러한 콘텐츠를 조직하는 인기 있는 방법 중 하나
Previous Research
- 태깅 메커니즘의 유연성은 생성되는 많은 정보를 인덱스하고 탐색하는 사용자의 요구를 명확히 해결해 줌
- WordNet과 같은 계층적 온톨로지나 분류보다 훨씬 초과하는 통제되지 않은 어휘가 나타남
- 무한한 태그 공간을 의미론적으로 분류하고 탐색하는 것은 문제가 있음
Proposed Model
- 태그를 의미적 범주로 분류하는 방법을 제안
- 태그를 자동으로 분류하여 사용자가 이미지 주석을 더 잘 이해하거나 사진 탐색 도구의 성능을 향상시키는 것을 목적으로 함
- WordNet의 제한된 범위를 극복하기 위해 Wikipedia 문서의 구조적 패턴을 사용하여 태그를 분류하는 ClassTag 시스템을 제안함
- Wikipedia 문서를 의미적 범주로 분류하는 분류기를 구축
- Flickr 태그를 Wikipedia 앵커 텍스트와 매핑
Contribution
- 계층적 코퍼스를 분류하기 위해 코퍼스의 구조적 패턴을 사용하는 매우 일반적인 시스템을 제안함
- 이러한 패턴은 Wikipedia나 Open Directory와 같은 다양한 오픈 콘텐츠 리소스나 웹 디렉토리에서 파생될 수 있음
- 시스템은 분류된 어휘를 제공받아 모든 분류 체계를 사용하여 훈련될 수 있음
- 분류된 코퍼스를 사용하여 태그를 분류하는 ClassTag 시스템을 제안함
- ClassTag를 훈련하여 Wikipedia의 구조적 패턴을 사용하여 WordNet 어휘를 확장할 수 있도록 함
- ClassTag는 정밀도와 재현율을 상호 교환하여 다양한 애플리케이션에 최적화할 수 있는 매우 조정 가능한 시스템임을 보여줌
- ClassTag를 사용함으로써 Flickr 어휘의 분류된 부분을 115% 향상시킬 수 있음을 보여줌
- Flickr 태그의 전체 볼륨을 고려하여 태그 빈도를 고려할 때 ClassTag를 사용하여 거의 70%의 Flickr 태그를 분류할 수 있음을 보여줌
2. Methodology
Overall Structure
- ClassTag 시스템 개요
SVM (Support Vector Machine)
- SVM은 분류 및 회귀 분석에 사용되는 강력한 지도 학습 알고리즘
- 주어진 데이터셋을 바탕으로 최적의 초평면(Hyperplane)을 찾아내어 각 클래스 간의 마진(Margin)을 최대화
- 초평면: 데이터 포인트를 두 개의 클래스 간에 최대한 멀리 떨어지도록 분리하는 평면
- 서포트 벡터 (Support Vectors): 초평면에 가장 가까운 데이터 포인트로, 이 포인트들이 초평면을 결정
- 마진: 서포트 벡터와 초평면 사이의 거리로, SVM은 이 마진을 최대화하여 분류 성능을 높임
- 비선형 데이터를 선형적으로 분리하기 위해 커널 함수를 사용하여 데이터를 고차원 공간으로 매핑함
3. Experimental Result
Dataset
- Flickr 데이터
- 2004년부터 2007년 사이에 업로드 된 5200만 개의 공개 사진의 메타데이터
- Flickr API를 통하여 데이터 수집
- WordNet 3.0 데이터
- 공개적으로 이용 가능한 영어 단어 모음
- 단어는 여러 개념을 나타내는 synset에 매핑되고, synset은 45개의 의미적 범주로 나뉨
- Wikipedia 데이터
- 영어로 작성된 200만개 이상의 글과 모든 언어에 걸쳐 1000만개 이상의 글이 있음
- 글에는 고유한 제목이 있어서 최소 하나 이상의 범주에 할당됨
- 범주는 유향 그래프를 형성하며 계층 구조로 탐색할 수 있으며, 1억 개 이상의 내부 링크가 있음
- 암스테르담 대학교에서 제공하는 영어 위키백과의 WikiXML 다운로드를 사용
- 2006년 11월 4일 Wikipedia 덤프에서 생성
- 덤프에는 150만 개의 글과 380만 개의 페이지가 포함됨
Evaluation Metric
- Class Tag 시스템을 평가하기 위하여 정밀도(Precision), 재현율(Recall), 정확도(Accuracy) F1-Score를 평가지표로 사용
- Precision:시스템이 반환한 결과 중에서 실제로 관련 있는 항목의 비율을 나타내며, 시스템이 올바르게 분류한 항목의 비율을 의미
- Recall: 시스템이 올바르게 분류한 항목의 비율로, 전체 관련 항목 중에서 시스템이 얼마나 많은 항목을 올바르게 찾아냈는지 의미
- Accuracy: 전체 예측 중에서 올바르게 예측된 항목의 비율을 나타내며, 시스템이 얼마나 정확하게 전체 데이터를 분류했는지를 측정
- F1-Score: 정확도와 재현율의 조화 평균
Result
- ClassTag, DBpedia, ClassTag+ 성능 비교
- Precision(정밀도), Recall(재현율), 그리고 Accuracy(정확도)의 측면에서 ClassTag+가 정밀도가 가장 높지만 재현율은 낮음을 확인
- ClassTag는 재현율이 높고 Dbpedia는 전반적으로 성능이 낮음을 확인
- ClassTag와 ClassTag+의 범주별 정밀도 비교
- 사람(Person), 위치(Location), 그룹(Group) 범주에서 ClassTag+의 정밀도가 높으며, 유물(Artifact) 범주의 정밀도는 상대적으로 낮음을 확인
- WordNet과 ClassTag 시스템의 Flickr 태그 분류 능력 비교
- ClassTag는 어휘와 전체 볼륨 면에서 WordNet보다 훨씬 더 많은 태그를 분류할 수 있음을 확인
- WordNet과 ClassTag 시스템이 다양한 의미 범주에서 Flickr 태그를 분류하는 범위 비교
- 대부분의 범주에서 ClassTag가 WordNet보다 훨씬 더 많은 태그를 분류할 수 있음을 확인
- WordNet 기반 접근 방식과 ClassTag 시스템을 사용하여 Flickr 태그를 분류한 결과 비교
- ClassTag를 사용하면 분류되지 않은 태그의 비율이 줄어들고 대부분의 범주에서 더 높은 비율로 태그가 분류됨을 확인
4. Conclusion
- 해당 논문에서는 Flickr 태그를 WordNet 의미 범주로 분류하는 방법을 제시함
- Wikipedia 기사를 분류한 후, 이 분류된 기사를 Flickr 태그에 매핑하는 방식을 사용
- Wikipedia 기사 분류 방법은 정밀도 또는 재현율을 최적화하도록 설정
- 어느 설정에서든지 제안 방법은 DBpedia의 분류 성능을 능가함
- 재현율 최적화 설정에서 Wikipedia 기사 중 약 40%가 72%의 정밀도로 분류
- 정밀도 최적화 설정에서 Wikipedia 기사 중 21%가 86%의 정밀도로 분류
- 제안하는 방법을 통해 Flickr 어휘의 115% 더 많은 부분을 분류할 수 있음을 확인
- WordNet으로는 분류할 수 없는 많은 중요한 엔티티들을 분류할 수 있음을 확인