[국제 학회 논문 요약] Extraction of Hints and Advice from Hotel Reviews for Improving Small Hotel Management

0. Paper Information

  • Title: Extraction of Hints and Advice from Hotel Reviews for Improving Small Hotel Management
  • Authors: Hirokawa Sachio, Makoto Okada, Kiyota Hashimoto
  • Publication: In 2012 IEEE 14th International Conference on Commerce and Enterprise Computing
  • Published Year: 2012

 

1. Introduction

Background

  • 인터넷의 발전으로 웹에서 관광 정보가 넘쳐나고 있음
    • 호텔이나 여행사의 정보는 공정하고 신뢰할 수 있지만 흥미롭고 인상적인 경우는 적음
    • 공식 정보와 비교할 때, 블로그는 개인적인 경험과 의견이 담겨 있어 더 흥미롭지만 신뢰성은 떨어질 수 있음 
  • 블로그에는 개인 블로그와 커뮤니티 블로그의 두 가지 유형이 있음
    • 개인 블로그는 블로거가 자신의 경험과 의견을 담아 작성
    • 커뮤니티 블로그는 공통의 관심사를 가진 여러 사용자가 작성
      • TripAdvisor.com은 커뮤니티 블로그의 포럼을 제공하며 누구나 관광에 관한 자신의 의견을 작성할 수 있음
      • 이 사이트는 전 세계 호텔, 관광지, 레스토랑에 관한 5천만 개 이상의 리뷰와 사진을 제공
    • 최근 몇 년간 일반 사용자가 정보 확산에 크게 기여하고 있음

 

Previous Research

  • 블로그 문서를 이용해 정보를 분석하는 연구와 서비스가 있음
    • 트렌드 분석을 통해 인기 있는 단어와 경향을 조사
    • 블로그에서 평가되는 상품이 어떤 지 분석
    • 블로그가 호의적인지 비판적인지 긍정/부정 분석
    • 웹에서 추출된 관광 정보에 초점을 맞춘 연구
      • 일반 사용자의 구체적인 경험과 정보에 많은 관심을 주고 있음

 

Proposed Model

  • 중소기업 호텔 경영 개선을 위한 호텔 리뷰에서 힌트와 조언을 추출하는 방법을 제안
    • TripAdvisor.com의 호텔 리뷰를 분석
    • 리뷰의 긍정/부정 평가나 대규모 호텔이 주목하는 트렌드 분석을 목적으로 하는것이 아니라 소규모 호텔이 자사의 특성을 활용할 수 있는 힌트를 얻는 것이 목적
    • 호텔 리뷰를 카테고리, 지역성, 리뷰에 나타나는 두 번째 주요 특징 단어에 따라 비교

 

Contribution

  • 이전까지 관광 산업 활동에 블로그를 이용한 트렌드 분석을 활용하는 연구는 없었음

 

2. Experimental Result

Dataset

  • TripAdvisor에서 일본어로 작성된 호텔 리뷰 82,720개를 수집 후 사용

 

Evaluation Metric

  • 단어 출현 빈도, 카테고리 내 단어 출현 확률을 사용함
    • 이를 기반으로 단어 출현 확률 차이 등을 계산

 

Result

  • 카테고리 및 지역별 리뷰 분석
    • 대부분의 지역에서 비즈니스 카테고리가 전체 리뷰의 약 30%로 가장 많음
    • 모든 카테고리에서 간토 지역이 전체 리뷰의 약 30%로 가장 많음
    • 큐슈 지역에서는 가족과 커플 카테고리가 비즈니스 카테고리보다 더 큰 비율을 차지함

 

  • 전체 리뷰에서 자주 등장하는 단어 분석
    • Man, visit, submission 등의 단어가 모든 리뷰에서 공통적으로 많이 등장
    • Sanitariness, service, feeling 등의 단어는 고객의 의견과 관련된 단어로 판단
    • 비즈니스 고객의 리뷰에서는 price, location, railway station 등이 자주 등장

 

  • 카테고리 간 단어 출현 확률 비교
    • 비즈니스와 솔로 카테고리는 높은 상관관계가 있음
    • 가족과 커플 카테고리는 높은 상관관계가 있음
    • 반면, 비즈니스와 가족 카테고리는 부정적인 상관관계가 있음
    • 소규모 호텔은 비즈니스와 가족 카테고리를 모두 만족시기키 어려우므로 하나에만 집중하는 것이 바람직함

 

  • 비즈니스, 가족 카테고리 단어 출현 확률 비교
    • 비즈니스와 가족 카테고리 간 단어 출현 확률의 음의 상관관계를 시각화

 

  • 단어 출현 빈도와 확률 차이
    • 빈도가 낮지만 확률 차이가 큰 단어들은 소규모 호텔의 관리 전략에 유용할 수 있음

 

3. Conclusion

  • 웹 상의 데이터와 마찬가지로 호텔 리뷰에서도 몇몇 단어가 매우 자주 등장하며, 대부분의 단어는 몇몇 리뷰에만 나타남
  • 다양한 단어들은 호텔 개선에 중요한 정보이지만, 소규모 호텔은 모든 요구에 대응할 수 없으므로 특정 고객층에 집중하는 전략이 필요함
  • 해당 논문에서는 동일 지역에서 대형 호텔과 경쟁하기 위해 소규모 호텔의 경영 개선을 위한 힌트와 조언을 리뷰에서 추출하는 방법을 제안함
    • 카테고리와 두 번째 주요 단어에 중점을 두어 리뷰를 분석
    • 단어 출현 확률 차이를 계산하여 주요 단어를 선택
    • WordNet을 활용하여 주요 단어의 상위 개념을 분석하고 해석