2010年9月19日日曜日

Twitter ユーザーの言語設定の統計

ボットを作るついでに、Twitter ユーザーの言語設定の統計をとってみようと思い、プログラムを書きました。

10分ごとに Twitter の公開タイムラインから最新の20件のツイートを取得し、それぞれのツイートを投稿したユーザーの言語設定(*1)情報を抽出して、言語別にカウントしていっています。

これまでの累計を可視化したのがこちら。
このグラフのデータは10分ごとにリアルタイムで更新されています。
2010年09月19日に運用開始しました。


2文字のアルファベットはISOの言語コードを示しており、

en : 英語
ja : 日本語
es : スペイン語
de : ドイツ語
fr : フランス語
it : イタリア語

などとなっています。


公開タイムライン上の ツイート を取得してカウントしているので、
ここでのカウント数の割合=言語別ユーザー数の割合
とは ならない ことに注意が必要です。
まあ結果として似たようなものになるのかもしれませんが。

また、ユーザーの居住国を特定するものでもありません。
英語はアメリカ、イギリス、カナダ、オーストラリアなどで、スペイン語はスペインや中南米などで広く使われていますし、日本人でも英語に設定しているユーザーもいるかも知れません。

あくまで、どの言語に設定しているユーザーがより多くツイートしているか、というグラフになります。


このデータを収集するプログラムは、例によって Google App Engine 上で動いています。
グラフの描画には、Google Chart API を使っています。

----
(*1) Twitter の「設定」 > 「ユーザー情報」 > 「言語選択」 で設定する言語です。

0 件のコメント:

コメントを投稿