コンデジレビュー記事のテキストマイニングとは

コンデジを購入する場合、既に購入した人の意見(レビュー記事)を参考にすると思いますが、人気商品のレビューは数百件にものぼるため、全てのレビューに目を通すのは現実的ではありません。

データ分析の世界では、Twitterの書き込みやレビュー記事などのテキストデータを、AI技術を使って十行前後に要約したり、言葉の出現回数や言葉の繋がり方を図式化するなどの手法を用いて、そこから有益な情報を取り出す作業、いわゆる「テキストマイニング」がよく行われます。

そして、この「テキストマイニング」をクラウド上で利用できる無料サービスが存在していて、それが株式会社ユーザーローカルです。

無料サービスは分析できるテキスト文字数に制限がありますが、無料ユーザー登録すれば20万文字まで制限が緩和されるため、少々多いレビュー記事でも問題無く分析できます。

本サイトでは、いくつかの記事でテキストマイニングの結果を掲載していますので、そこに登場する図の見方を説明したいと思います。

[toc]

ワードクラウド

ワードクラウドとは、単語の出現頻度に応じて文字サイズを大きく表現することで、どんな単語がよく使われているかを視覚的に把握しやすくする図です。

下記の例では、「コンデジ」が一番多く使われていて、次に「カメラ」「撮れる」がよく使われ、3番目に「一眼レフ」「画質」「レンズ」が続いています。

この図の中に、「綺麗」「安い」「便利」などポジティブ系の単語が大きく表示されていたら、レビューした方からは良い印象を持たれているという事が言えます。

逆に、「思い」「暗い」「高い」「故障」「後悔」などネガティブ系の単語が大きく表示されていたら、購入した方は悪い印象を持っているという事が言えます。

ちなみに、単語は品詞で色分けされていて、青色が名詞、赤色が動詞、緑色が形容詞、灰色が感動詞になっています。

 

共起図(共起ネットワーク)

共起図の前に共起について解説しておきましょう。

共起とは、複数の文章の中に、ある単語の組み合わせが出現している事です。

例えば、次の2つの文書を見てください。

  • このコンデジはレンズが明るくて画質が良い
  • このカメラ画質が良いのはセンサーサイズが大きいからだ

どちらも「画質」と「良い」という2つの単語の組み合わせが登場しています。

この「画質」「良い」が共起になります。

文章の中には、この様な単語の組み合わせが沢山登場しますので、それぞれの共起を線で結んでいったのが共起図になります。

ちなみに、丸の大きさは出現頻度、線の太さは共起の強さ(よく登場する共起ほど太い)を表しています。

漠然とこの図を見ても良く分からないかもしれませんが、ある単語に着目していくとユーザーの意見が見えてきます。

例えば「良い」という単語には「カメラ」「思う」「画質」が線で結ばれていますので、「良いカメラ」「良い画質」「良いと思う」という共起が登場していると解釈できます。

また「良い」「カメラ」「思う」はお互いに繋がっているので、「良いカメラだと思う」という意図が見えてきます。

掛かり受けとは

例えば「このカメラは画質が良い」という文書があった場合、「カメラ」「良い」「画質」の言葉が含まれています。

この組み合わせを考えた時「画質」は「良い」に掛かっていますので「画質は良い」という意味的な繋がりがあります。

「カメラ」と「良い」も同じで「カメラ」は「良い」に掛かっていますので、「カメラは良い」という意味的な繋がりがあります。

では、「カメラ」と「画質」はどうでしょう?

先ほどの様な意味的な繋がりは感じられませんよね。

この「カメラ」「良い」、「画質」「良い」の繋がりを掛かり受けと言います。

共起と良く似似ていますが、共起は複数文書に共通で登場する単語の組み合わせを数えているだけなのに対し、係り受けは文書を分節に分解し、品詞(名詞、形容詞など)を考慮して係り受けを判断している点が異なります。

単語の出現頻度

こちらの一覧は単語の出現頻度を集計したものです。

単語には名詞、動詞、形容詞などがありますが、商品レビューで一番参考になるのは形容詞です。

出現頻度は文書全体の中に登場する件数の事なのですが、スコアというのは重みづけを加味して評価した数値になります。

例えば、100の文書があったとして、そのうち90個の文書に「考える」という単語が含まれていたとします。

この場合「考える」という単語は重要でしょうか?

テキストマイニングでは、

  • 一般的な文書でよく出る単語は重要ではないと判断して重み付けを軽くする。
  • 調査対象の文書にだけ良く登場する単語は重みづけを重くする

という重みづけ操作を行い、重要な単語を浮き彫りにするという手法を用います。

例えば、ソニーとニコンのコンデジについて特長を見つけたいとします。

その場合、ソニーのコンデジのレビューとニコンのコンデジのレビューをテキストマイニングする訳ですが、ここで両方に登場する単語はメーカー共通の単語なので重みづけを軽くして、ニコンにだけよく登場する単語、或いはソニーにだけ登場する単語うは重みづけを重くすることで、ニコン特有の単語、ソニー特有の単語を見つけることができます。

単に出現頻度を見るだけでなく、スコアの大きさも合わせて見ることで、その単語がどれくらい重要なのかを推測することが出来ます。

感情分析

感情分析とは、文書に含まれる感情を表す単語を数値化してグラフ化したものです。

この図を見ることで、商品の購入者の感情がどうなっているのかが推測できます。

当然、ポジティブが多く、喜んでいたり好きである方に尖っていると購入者からの評価は良いという事が言えますし、逆にネガティブが多く、怒りや恐れ、悲しみに尖っていると、購入して後悔している人が多いと判断できます。