0. Paper Information
- Title: Author Topic Model-Based Collaborative Filtering for Personalized POI Recommendations
- Authors: Shuhui Jiang, Xueming Qian, Jialie Shen, Yun Fu, Tao Mei
- Publication: IEEE Transactions on Multimedia
- Published Year: 2015
1. Introduction
Background
- 새로운 도시를 방문할 계획을 세울 때, 많은 여행 가이드 사이트에서는 여행기록, 사진과 같은 많은 콘텐츠를 제공함
- 수많은 자료들 중 유용한 정보를 얻기 위해 수작업으로 자료를 분석 하는 것은 시간이 많이 걸리기 때문에, 여행 계획 자동화에 대한 관심이 증가하고 있음
- 특히, 개인 맞춤형 여행 추천에 대한 관심이 증가하고 있으며 이는 사용자 선호도(문화, 도시 경관 또는 풍경)를 효과적으로 반영할 수 있음
Previous Research
- 협업 필터링(CF, Collaborate Filtering) 기반 추천 기법은 가장 잘 알려진 접근법이며, 제품, 서비스 및 여행 추천에 널리 사용되고 있음
- 위치 기반 협업 필터링 여행 추천 방법 프로세스
- 소셜 사용자들의 지오 태그(Geo-Tag)나 GPS 궤적을 사용하여 방문한 도시의 관심 장소(POI, Points Of Interest)를 확인
- 그런 다음 사용자의 여행 기록에서 위치 동시 발생을 계산하여 유사한 사용자를 탐지
- 마지막으로 유사한 사용자의 방문 기록을 기반으로 새로운 도시의 POI를 추천
- 위치 기반 협업 필터링 여행 추천 방법 프로세스
- CF 기반 추천 기법은 효과적이고 효율적이지만, 여행 데이터가 매우 희소하기 때문에 추천 시스템에서 잘 알려진 "희소성 문제"로 어려움을 겪음
- 사용자가 방문한 POI 수가 적을 경우 유사한 사용자 식별이 매우 어려움
- CF 희소성 문제를 해결하기 위해 많은 노력이 기울여지고 있음
- 최근에는 개인 맞춤형 여행 추천에 주제 모델(TM, Topic Model) 방법이 도입됨
- TM은 제품 추천 시스템에서 콘텐츠 기반 방법과 유사함
- 관광객의 여행 선호도(문화, 도시 경관, 또는 풍경)를 분석하여 사용자 선호도 테마에 맞는 POI를 추천
- 관심 카테고리 매핑을 통해 사용자가 방문한 POI가 매우 적더라도 사용자 선호도를 분석할 수 있음
- TM에서 카테고리 주제는 보통 추천 시스템의 기본 카테고리 정보에 의해 결정됨
- 미리 정해진 카테고리를 사용하면 사용자 선호도를 계산하기가 편리함
- 사진을 공유하는 플랫폼에는 사전 정의된 카테고리가 없는 경우가 많음
- 단순한 주제 기반 추천 접근법은 여행 추천에 직접적으로 활용될 수 없음
- TM은 제품 추천 시스템에서 콘텐츠 기반 방법과 유사함
Proposed Model
- 새로운 도시를 방문할 때 개인 맞춤형 POI를 추천하기 위한 저자 주제 모델 기반 협업 필터링(ATCF, Author Topic model-based Collaborative Filtering) 방법을 제안함
- 도시 수준의 POI를 확인하고 사용자 여행 기록을 매핑하는 접근 방식을 제안함
- 기존의 위치 기반 협업 필터링 방법과 달리, 사용자들의 여행 선호도를 GPS 궤적이나 체크인 기록이 아닌 소셜 미디어에 공유된 사진의 텍스트 설명에서 사용자의 여행 선호도를 학습
- 소셜 미디어에 공유된 사용자 사진에 포함된 메타데이터 및 사진을 공유할 때 사진에 첨부하는 텍스트 설명(태그 및 댓글)은 사용자의 여행 선호도를 추론하는 데 중요
- 세부적인 선호도 정보는 이미지와 관련 태그의 시각적 분석을 통해 결정될 수 있음
- 사용자의 유사성은 위치 동시 발생이 아닌 저자 주제 모델(ATM, Author Topic Model)로 측정되어 이를 기반으로 사용자 여행 관심사를 학습
- ATM은 사용자 정보가 포함된 문서 컬렉션을 위해 저자 정보를 고려하는 잠재 디리클레 할당(LDA, Latent Dirichlet Allocation)의 확장된 버전
- 제안된 ATCF 기반 접근법에서 ATM은 태그의 분포에 해당하는 자동으로 나누어진 의미적 주제와 함께 사용자의 여행 선호도를 직접 주석 달음
Contribution
- 풍부한 텍스트 및 사용자 정보를 최대한 활용하여 여행 추천을 위한 효과적인 ATCF 방법을 제안
- 태그는 GPS 궤적보다 사용자의 잠재적인 여행 선호도에 대한 더 풍부한 정보를 포함하고 있으며, 얻기가 훨씬 쉬움
- 전통적인 위치 기반 협업 필터링(LCF, Location-based Collaborative Filtering)의 희소성 문제를 해결
- 제안된 ATCF 기반 개인 맞춤형 여행 추천 시스템에서는 위치 동시 발생 대신 사용자 주제 선호도를 협업 필터링의 법칙으로 사용
- POI 기록이 매우 희소한 사용자라도 ATCF는 LCF보다 더 많은 관련 자원을 발굴하여 여행 추천을 수행할 수 있음
- 저자 주제 모델을 도입하여 사진과 관련된 태그에서 주제 카테고리를 적응적으로 추출
- 사용자 선호도에 대한 주제를 정확하게 추출하고 개인 맞춤형 여행 추천에 적용할 수 있음
- 도시 수준의 POI를 발굴하고 사용자 여행 기록을 매핑하기 위해 대략에서 정밀로 전환하는 접근 방식을 제안
- POI 발굴에서는 Geo-Tag를 통해 도시 규모의 사진을 대략적으로 클러스터링 한 후 시각적 특징을 사용하여 클러스터에서 POI를 정제
- 여행 기록 발굴에서는 사용자 Geo-Tag된 사진을 대략 클러스터와 정제된 POI 사이의 전환을 설정
2. Methodology
Overall Structure
- 제안하는 기법 프레임워크
ATM (Author Topic Model)
- ATM은 문서의 주제와 저자 간의 관계를 분석하는 확률 모델
- 저자(author), 단어(word), 주제(topic)로 구성되어 있음
- 저자: 문서를 작성한 사람 또는 그룹
- 단어: 문서에서 사용된 개별 단어
- 주제: 특정 단어들의 집합으로 구성된 주제
- 문서의 저자와 관련된 주제를 추출하여 저자 별 주제 분포를 분석하는 형태로 작동
- 각 저자가 특정 주제에 얼마나 기여했는지 파악할 수 있어서 저자와 주제 간의 상관 관계를 명확히 할 수 있음
- 문서의 주제 분포를 저자별로 세분화하여 분석할 수 있다는 장점이 있음
- 저자(author), 단어(word), 주제(topic)로 구성되어 있음
3. Experimental Result
Dataset
- Flickr의 오픈 API를 통해 수집한 700만 장 이상의 사진 데이터
- 7,387명의 사용자에 의해 업로드 되었으며, 다양한 메타데이터가 포함되어 있음
- 1,156명의 사용자가 업로드한 사진을 선택하여 사용함
- 태그와 Geo-Tag가 있는 사진을 선택
- 아홉 개의 인기 도시(바르셀로나, 베를린, 시카고, 런던, 로스앤젤레스, 뉴욕, 파리, 로마, 샌프란시스코) 사진을 선택
- 최소 두 개의 도시를 방문한 사용자의 사진을 선택
Evaluation Metric
- MAP@n(Mean Average Precision at n)을 사용하여 추천 시스템의 성능을 평가
- MAP@n은 테스트 데이터셋의 m명의 사용자에 대한 평균 정밀도를 나타냄
Result
- 성능 비교
- PO, CF, LDA, ATCF 각각의 MAP 및 MAP@n 성능을 비교함
- ATCF가 전체적으로 다른 방법들보다 더 높은 성능을 보여줌
- n이 증가할수록 모든 방법의 성능이 감소하는 경향이 있음
- 대부분의 사용자가 한 도시에서 약 5개의 POI를 방문하므로, n이 너무 크면 추천된 POI 중 관련 POI의 비율이 감소하기 때문
- PO, CF, LDA, ATCF 각각의 MAP 및 MAP@n 성능을 비교함
- Coarse-to-fine 추출 기법의 영향력 평가 (1)
- 다양한 정보 추출 기법을 사용하여 성능을 비교함
- M1: POI와 여행 이력을 coarse-to-fine 기법으로 추출
- M2: POI는 coarse-to-fine 기법으로 추출하지만 여행이력은 직접 비교하여 계산
- M3: coarse-to-fine 기법 사용 안함
- POI와 여향 이력을 coarse-to-fine 기법으로 추출하였을 때가 성능이 가장 좋음
- 다양한 정보 추출 기법을 사용하여 성능을 비교함
- Coarse-to-fine 추출 기법의 영향력 평가 (2)
- POI를 추출할 때 시간 중지 임계값의 성능을 비교함
- 7일 때, 정밀도가 0.7465로 가장 높음
- 25일 때, 정밀도가 안정된 수준인 0.5812에 도달
- POI를 추출할 때 시간 중지 임계값의 성능을 비교함
- Coarse-to-fine 추출 기법의 영향력 평가 (3)
- Coarse-to-fine 기반 여행 이력 추출의 임계값 성능을 비교함
- 0일 때, 모든 사용자 이미지는 이미지의 Geo-Tag와 가장 가까운 클러스터에 매핑됨
- 0.0001-0.001 범위일 때, 더 좋은 성능을 보임
- Coarse-to-fine 기반 여행 이력 추출의 임계값 성능을 비교함
- 유사도 측정 방법 및 유사한 사용자 수의 영향력 평가 (1)
- 유사한 사용자 수(Ns)를 10부터 100까지 10단위로 증가시키며 다양한 유사도 측정 방법의 성능 평가함
- Ns < 30일 때, Ns가 증가하면 성능이 급격히 향상되고 Ns가 40일 때 부터 성능이 점차 안정화
- 유사도 측정 방법들 간의 성능 차이는 크지 않으며 코사인 유사도가 일관되게 좋은 성능을 보임
- 유사한 사용자 수(Ns)를 10부터 100까지 10단위로 증가시키며 다양한 유사도 측정 방법의 성능 평가함
- 유사도 측정 방법 및 유사한 사용자 수의 영향력 평가 (2)
- 여행 이력의 비율과 POI 방문 수에 따른 CF와 ATCF의 MAP 곡선을 비교함
- ATCF는 CF보다 일관되게 높은 성능을 보임
- 여행 이력의 비율이 증가함에 따라 성능이 향상
- 방문한 POI 수가 적을 때, ATCF의 성능이 상대적으로 안정적
- 여행 이력의 비율과 POI 방문 수에 따른 CF와 ATCF의 MAP 곡선을 비교함
4. Conclusion
- 해당 논문에서는 개인화된 여행 추천을 위한 ATCF 기법을 제안함
- 사용자의 주제 선호도는 ATM을 통해 사진에 첨부된 텍스트에서 추출됨
- ATM을 통해 여행 주제와 사용자의 주제 선호도를 동시에 도출할 수 있음
- ATCF에서는 대부분의 이전 작업과 마찬가지로 원시 GPS 데이터(Geo-Tag) 대신 유사한 여행 주제 선호도를 공유하는 유사한 사용자를 기준으로 POI의 순위를 부여함
- 위치 기반 협업 필터링과 달리 GPS 기록이 없더라도 사용자의 주제 선호도 유사성에 따라 유사 사용자를 정확하게 마이닝할 수 있음
- Coarse-to-fine 기법이 POI와 여행 이력을 추출하는데 기여함을 확인함
- 사용자의 주제 선호도는 ATM을 통해 사진에 첨부된 텍스트에서 추출됨