1
3.実験結果 5.参考文献 1.はじめに 4.考察 2.提案手法 Web上に 主観情報を含む テキストが蓄積 商品レビューを 活用したい キーワード抽出 話題抽出 情報把握支援 I. 商品レビューの分類 word2vecによる意味情報の利用 II. 時期やユーザ情報に着目したキーワード・話題の抽出 複数の視点から話題の傾向を把握するための情報抽出 III. 俯瞰的な情報把握の支援を目的とした可視化 自己組織化マップ(Self-Organizing Maps; SOM)を用いた 2次元平面マップ上への写像 I. 商品レビューの分類 A) レビューの特徴量抽出 各レビューにおいて,単語の重要度を示す TF-IDFベクトルを算出し,TF-IDF値が最も高い 単語をレビューの最重要単語として抽出する. 得られた最重要単語にword2vecを適用することで, 単語ベクトルを算出し,各レビューの特徴量として 用いる. B) レビューのクラスタリング 単語ベクトルの特徴量をもとに,レビューの クラスタリングを行う.クラスタリング手法 k-means++法を使用し,距離尺度はコサイン距離とする. II. 時期やユーザ情報に着目したキーワード・話題の抽出 A) 各クラスタのキーワード抽出 TF-IDFベクトルを用いて,クラスタ内の全レビューにおけるTF-IDF値上 5単語を抽出し,そのTF-IDF値を単語ごとに合算する. 得られた合算値が上位の単語を,クラスタのキーワードとして抽出する. B) 時期やユーザ情報における話題の指標 レビューに付与された,投稿時間や性別などの情報を属性とする.また, クラスタ における上位 単語のキーワードの集合を = { 1 , 2 ,… } とする. このとき,クラスタ における属性 の話題の度合いを示す指標(|) を以下のように定義し,(|)の対数をとった値を最終的な指標とし て用いることで話題を抽出する.なお,本研究では分析対象のレビューを 学習データとして使用することとする. = = (|) () = () ( |) =1 III. 俯瞰的な情報把握の支援を目的とした可視化 A) SOMを用いた2次元マップ上への可視化 SOMは入力層と出力層のみで構成されるニューラルネットワークであり, クラスタ間の関係を保持しつつクラスタ中心点を2次元空間上に写像する. 各クラスタの位置をキーワードとともに表示することで,クラスタ同士の 関係性の視覚的な把握支援となることが期待される. B) 視覚的な把握支援のための工夫 ll.のB)で得られた指標により,着目した時期やユーザ情報において話題 であると判断されたクラスタのみを表示する. クラスタの上位 単語のキーワードにおけるIDF値の平均値が大きいほど 特徴的であると仮定し,この値によって表示する大きさを変更する. 時期に着目する場合はキーワードを3単語表示し,話題の解釈を支援する. Figure 3: 全体(20101月から201212)の可視化結果 Figure 4: 201210月の可視化結果 Figure 5: 201212月の可視化結果 Figure 1: 提案手法の全体の流れ Figure 2: 特徴量抽出の流れ word word word word TF-IDF TF-IDF TF-IDF TF-IDF word vector word2vec doc word set TF-IDF vector Max 全体の可視化結果の考察 類似したキーワードを持つクラスタが隣接していることから,クラスタ間の 関係性が可視化されたといえる.また,各クラスタでは類似したキーワード 集合が得られ,word2vecによる意味情報の利用は有効であったと考えられる. 時期やユーザ情報に着目した可視化結果の考察 10月では「運動会」,12月では「クリスマス」などの,時期ごとに特徴的な イベントが検出された.また,男性ではカメラの機能など,女性では見た目 や使用目的などに関連するキーワードが多いといったような,性別ごとの違 いが見て取れた.以上より,レビュアーの話題を時期や性別などの属性ごと に把握できる可能性があると考えられる. 今後の課題 キーワードとして適切ではない単語の集合を持つクラスタに対処する必要が ある.また,他のジャンルや属性を用いた実験,客観的な評価の検討などに より,可視化結果の妥当性を検証していくべきである. 本実験では,楽天株式会社が国立情報学研究所より提供している楽天市場商 品情報を使用する.20101月から201212月の「デジタルカメラ」ジャン ルのレビュー10677件を用いた実験結果の一部を以下に示す.word2vecの学 習には全ジャンルのレビューから1769307件を使用した.クラスタ数は200SOMのサイズは20×20とし,青色は男性,赤色は女性の話題として示した. [1] 小川 和晃,田村 哲嗣,速水 悟,“商品レビューにおける時系列情報に 着目したクラスタ分析と可視化”,第30回人工知能学会全国大会,2016 [2] Piotr BojanowskiEdouard GraveArmand JoulinTomas MikolovEnriching Word Vectors with Subword Information”, arXiv preprint arXiv:1607.046062016 小川 和晃 *1 田村 哲嗣 *2 速水 悟 *2 *1 岐阜大学工学研究科応用情報学専攻 *2 岐阜大学工学部電気電子・情報工学科 商品レビュー時期ユーザ情報に着目した可視化検討 keyword keyword keyword 特徴量抽出 クラスタリング キーワード抽出 話題抽出 可視化 doc set

TF-IDFvector の や に着目した の検討• tf-idfベクトルを用いて,クラスタ内の全レビューにおけるtf-idf値上 位5単語を抽出し,そのtf-idf値を単語ごとに合算する.

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TF-IDFvector の や に着目した の検討• tf-idfベクトルを用いて,クラスタ内の全レビューにおけるtf-idf値上 位5単語を抽出し,そのtf-idf値を単語ごとに合算する.

3.実験結果

5.参考文献

1.はじめに

4.考察

2.提案手法

Web上に

主観情報を含む

テキストが蓄積

商品レビューを

活用したい

• キーワード抽出

• 話題抽出

• 情報把握支援

I. 商品レビューの分類 word2vecによる意味情報の利用

II. 時期やユーザ情報に着目したキーワード・話題の抽出 複数の視点から話題の傾向を把握するための情報抽出

III. 俯瞰的な情報把握の支援を目的とした可視化 自己組織化マップ(Self-Organizing Maps; SOM)を用いた

2次元平面マップ上への写像

I. 商品レビューの分類

A) レビューの特徴量抽出 • 各レビューにおいて,単語の重要度を示す

TF-IDFベクトルを算出し,TF-IDF値が最も高い

単語をレビューの最重要単語として抽出する.

• 得られた最重要単語にword2vecを適用することで,

単語ベクトルを算出し,各レビューの特徴量として

用いる.

B) レビューのクラスタリング • 単語ベクトルの特徴量をもとに,レビューの

クラスタリングを行う.クラスタリング手法

はk-means++法を使用し,距離尺度はコサイン距離とする.

II. 時期やユーザ情報に着目したキーワード・話題の抽出

A) 各クラスタのキーワード抽出 • TF-IDFベクトルを用いて,クラスタ内の全レビューにおけるTF-IDF値上位5単語を抽出し,そのTF-IDF値を単語ごとに合算する.

• 得られた合算値が上位の単語を,クラスタのキーワードとして抽出する.

B) 時期やユーザ情報における話題の指標 • レビューに付与された,投稿時間や性別などの情報を属性とする.また,クラスタ𝑐における上位𝑁単語のキーワードの集合を𝑊𝑐 = {𝑤𝐶1, 𝑤𝑐2, …𝑤𝑐𝑁}とする.

• このとき,クラスタ𝑐における属性𝑎の話題の度合いを示す指標𝑟𝑎𝑛𝑘(𝑎|𝑐)を以下のように定義し,𝑟𝑎𝑛𝑘(𝑎|𝑐)の対数をとった値を最終的な指標として用いることで話題を抽出する.なお,本研究では分析対象のレビューを学習データとして使用することとする.

𝑟𝑎𝑛𝑘 𝑎 𝑐 = 𝑝 𝑎 𝑐 =𝑝 𝑎 𝑝(𝑐|𝑎)

𝑝(𝑐)∝ 𝑝 𝑎 𝑝 𝑐 𝑎 = 𝑝(𝑎) 𝑝(𝑤𝑐𝑖|𝑎)

𝑁

𝑖=1

B) キーワードの一般性を用いた重要度指標 • クラスタ内の全レビューにおけるキーワードのIDF値を合算

• 合算したIDF値の平均を指標として用いる

𝑖𝑑𝑓 𝑤𝑖𝑤𝑖∈𝑊𝑐

𝑊𝑐 (𝑊𝑐:クラスタ𝑐のキーワードの集合)

III. 俯瞰的な情報把握の支援を目的とした可視化

A) SOMを用いた2次元マップ上への可視化 • SOMは入力層と出力層のみで構成されるニューラルネットワークであり,クラスタ間の関係を保持しつつクラスタ中心点を2次元空間上に写像する.

• 各クラスタの位置をキーワードとともに表示することで,クラスタ同士の関係性の視覚的な把握支援となることが期待される.

B) 視覚的な把握支援のための工夫 • ll.のB)で得られた指標により,着目した時期やユーザ情報において話題であると判断されたクラスタのみを表示する.

• クラスタの上位𝑁単語のキーワードにおけるIDF値の平均値が大きいほど特徴的であると仮定し,この値によって表示する大きさを変更する.

• 時期に着目する場合はキーワードを3単語表示し,話題の解釈を支援する.

Figure 3: 全体(2010年1月から2012年12月)の可視化結果

Figure 4: 2012年10月の可視化結果 Figure 5: 2012年12月の可視化結果

Figure 1: 提案手法の全体の流れ

Figure 2: 特徴量抽出の流れ

word

word

word

word

TF-IDF

TF-IDF

TF-IDF

TF-IDF

word vector

word2vec

doc

word set TF-IDF vector

Max

……

……

全体の可視化結果の考察 類似したキーワードを持つクラスタが隣接していることから,クラスタ間の関係性が可視化されたといえる.また,各クラスタでは類似したキーワード集合が得られ,word2vecによる意味情報の利用は有効であったと考えられる.

時期やユーザ情報に着目した可視化結果の考察 10月では「運動会」,12月では「クリスマス」などの,時期ごとに特徴的なイベントが検出された.また,男性ではカメラの機能など,女性では見た目や使用目的などに関連するキーワードが多いといったような,性別ごとの違いが見て取れた.以上より,レビュアーの話題を時期や性別などの属性ごとに把握できる可能性があると考えられる.

今後の課題 キーワードとして適切ではない単語の集合を持つクラスタに対処する必要がある.また,他のジャンルや属性を用いた実験,客観的な評価の検討などにより,可視化結果の妥当性を検証していくべきである.

本実験では,楽天株式会社が国立情報学研究所より提供している楽天市場商品情報を使用する.2010年1月から2012年12月の「デジタルカメラ」ジャンルのレビュー10677件を用いた実験結果の一部を以下に示す.word2vecの学習には全ジャンルのレビューから1769307件を使用した.クラスタ数は200,SOMのサイズは20×20とし,青色は男性,赤色は女性の話題として示した.

[1] 小川 和晃,田村 哲嗣,速水 悟,“商品レビューにおける時系列情報に

着目したクラスタ分析と可視化”,第30回人工知能学会全国大会,2016

[2] Piotr Bojanowski,Edouard Grave,Armand Joulin,Tomas Mikolov,

“Enriching Word Vectors with Subword Information”,

arXiv preprint arXiv:1607.04606,2016

小川 和晃*1 田村 哲嗣*2 速水 悟*2

*1岐阜大学工学研究科応用情報学専攻 *2岐阜大学工学部電気電子・情報工学科

商品レビューの時期やユーザ情報に着目した可視化の検討

keyword keyword keyword

特徴量抽出

クラスタリング

キーワード抽出

話題抽出

可視化

doc set