本記事の内容について
今回の記事では再びpythonを使ったデータ分析を行っていこうと思います。
内容としてはtwitterのタイムライン上で流れているtweetを抽出し、
wordcloudというライブラリを使ってよくニュースサイトでみられる
ご覧の画像を自動車関連のキーワードを生成し、
特にスープラ界隈の昨今のトレンドを明らかにしていきます。
既存サービスについて
早速情報の可視化を行っていこうと思いますが、
やり方としては既存のサービスを活用する方法と
自身でスクリプトを書いて情報を取りに行く二つの方法があります。
まずは既存のサービスを活用する方法をご紹介します。
その方法として代表的なのが
こちらの「Whotwi」というツイッター分析サイトです。
こちらは画像の検索boxにtwitterのIDを入力することで
そのアカウントがつぶやいているキーワードを可視化してくれます。
私のtwitterアカウントの場合、
ご覧の通り、車用、youtube用のアカウントであるため、
youtubeやスープラが大半を占めていますね。
他にもcartopの場合、
SUVや電気自動車などがピックアップされ、
車名だとクラウンが出てきているなどやはり反響が大きかったようですね。
こちらがベストカーであり、
こちらもクラウンが大きく出ていたり、
ホンダシビックが登場しているので、typeR効果は絶大であったといえそうですね。
最後にレスポンスアカウントがこのようになっています。
レスポンスの場合、BMWやベンツのワードが大きくあらわれているので
これまでの2社と異なり、より国際色豊かなニュースを取り扱っていることがわかります。
ちなみにこの結果のキーワードをクリックすることで
そのワードが入ったつぶやきへ飛ぶことが可能ですが、
気になった「月」をみてみると本当に月面探査関連の記事が出てきて笑いましたね。
このように「whotwi」を活用することで
そのアカウントのつぶやきの傾向やトレンドを知ることができます。
悪用は厳禁ですが、ぜひご活用ください。
ただ、この方法の場合、そのアカウントがつぶやいていることを検索することができますが、
当初実施したかった「スープラ」といったキーワードに対する
tweetを調査・可視化することができません。
そこで、キーワードからトレンドワードを可視化する方法を紹介します。
自作スクリプトによる抽出
キーワードからトレンドワードを抽出する流れはご覧の通りとなっており、
まずはtwitterから情報を抽出するtwitter apiを取得し、
twitterからキーワードが含まれるtweetを抽出し、
単語に分解して、可視化という流れとなります。
これをスクリプトをベースに解説していきます。
こちらがスクリプトの画面となっており、まずはtweepyというライブラリをインポートします。
このライブラリにtwitterの情報を抜き出してくる機能があります。
その後、countで抜き出してくるtweetの数を指定します。
今回は「スープラ」というキーワードが入った
tweetを過去5000件までさかのぼって抽出してみました。
その下の認証の所でtwitterの開発側からの認証を得ます。
ここに自身のアカウントに紐づいた認証キーが必要であり、
このキーの取得方法として参考とさせていただいたwebページはこちらです。
その下部で5000件分のtweetをループ処理にて取得すると
ご覧の通り、大量のtweetが取得できます。
その後、今回の可視化に必要なwordcloudとjanomeというライブラリをインストールします。
それぞれの役割としてwordcloudでは検索対象のtextから
単語の数などをカウントすることで
これまでお見せしてきたキーワードの分布図を作成します。
しかしこの部分で問題となるのが単語に上手く分解することであり、
これを形態素解析といいます。
wordcloudで数をカウントする前に文章を単語ごとに区切る必要があり、
ご覧のイメージとなっています。
これを実施する役割を果たしているのがjanomeになります。
スクリプトとしてはこの後、集めたtweetをひとつのtextとして扱えるようマージを行い、
膨大なtextファイルができあがります。
その後、janomeの機能を活用することで
ご覧の通り、単語ごとに区切られているのがお分かりになるかと思います。
最後にwordcloud機能を活用することで
スープラ関連のトレンドワードの分布図が画像として出力されます。
結果はご覧の通りとなっています。
ただ、わけわからないですよね。
理由としてはhttpsやcoといったおそらく記事のURLが貼られているtweetが大量にあるため、
これらのキーワードがピックアップされているかと思います。
これらキーワードはノイズとなってしまうので
stopwordで結果に反映しないように設定する必要があり、
こちら手作業となるので少し面倒でしたね。
キーワード抽出結果
こちらがスープラ関連のトレンドキーワードとなります。
SUPERGTやFUELFESTなどは直近開催されたスープラ関連のビッグイベントなので
予想通りといった感じですね。
私も参加したかったんですが仕事休めなかったですね。
その他としてはマニュアル採用されたことにともなうマニュアルやドリフトといったワードが混じっており、年次改良によるマニュアル追加効果がみてとれますね。
それで京商とかミニカーってなんだと思ったらファミリーマートで70、80スープラその他の
車種のミニカー発売されていたんですね。
リアルに知らなくて、ファミリーマートもこの分布に当初登場していて
何これと思って除外したんですよね(笑)。
こんな感じで特定のキーワードに対するトレンドワードを抽出できるようになりましたので
今後のyoutube活動に活用していきます。
ちなみに他車種でももちろん実施可能であり、
話題で持ち切りの新型クラウンの場合、このようになり、発売日だったり
おもてなしといったワードがクラウンのコンセプトを反映しているかなと思います。
迫真の「空白の価格帯を狙う」には笑いましたが(笑)。
その他車種でも実施してほしいといったリクエストがあれば
コメント欄までよろしくお願いいたします。
スクリプトについて
今回作成したスクリプトはnoteのページにて有料販売させていただいております。
コメント