ボットを作るついでに、Twitter ユーザーの言語設定の統計をとってみようと思い、プログラムを書きました。
10分ごとに Twitter の公開タイムラインから最新の20件のツイートを取得し、それぞれのツイートを投稿したユーザーの言語設定(*1)情報を抽出して、言語別にカウントしていっています。
これまでの累計を可視化したのがこちら。
このグラフのデータは10分ごとにリアルタイムで更新されています。
2010年09月19日に運用開始しました。
2文字のアルファベットはISOの言語コードを示しており、
en : 英語
ja : 日本語
es : スペイン語
de : ドイツ語
fr : フランス語
it : イタリア語
などとなっています。
公開タイムライン上の ツイート を取得してカウントしているので、
ここでのカウント数の割合=言語別ユーザー数の割合
とは ならない ことに注意が必要です。
まあ結果として似たようなものになるのかもしれませんが。
また、ユーザーの居住国を特定するものでもありません。
英語はアメリカ、イギリス、カナダ、オーストラリアなどで、スペイン語はスペインや中南米などで広く使われていますし、日本人でも英語に設定しているユーザーもいるかも知れません。
あくまで、どの言語に設定しているユーザーがより多くツイートしているか、というグラフになります。
このデータを収集するプログラムは、例によって Google App Engine 上で動いています。
グラフの描画には、Google Chart API を使っています。
----
(*1) Twitter の「設定」 > 「ユーザー情報」 > 「言語選択」 で設定する言語です。
0 件のコメント:
コメントを投稿