小五グラフ これらのグラフの意味と作成方法は?
※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。


例としてA社とB社が同じ設問を含む世論調査を幾度か行ったとする。A社とB社で設問が似通っていたとしても実際には、質問の仕方やわずかな語句の違い、設問の順序などの要因で両者が得る値にはいくらかの食い違いが生ずると考えられる。特に例えば、明確な答えが得られなかった場合さらに追い詰めて聞く調査では、回答の合計の値が追い詰めない調査よりも明らかに高くなる。
いま、A社の設問をもし国中のすべての対象者(母集団)に聞いてまわったとしたときの「真」の値が、上図の赤い線のようだったとする。実際にはランダムに生成された電話番号などを利用して無作為抽出(ランダムサンプリング)に近いごく限られた人を対象とした標本調査を行うので、A社が得る回答には誤差が生ずる。このとき実際に得る値は赤い線からいくらかずれて、赤い四角のようになるだろう。誤差は毎回相関がなく(独立であり)、一定の分布に従うと仮定でき、標本の大きさと真の値から決まる。四角から上下に伸びた線(エラーバー)は誤差の大きさの目安で、このサイトのグラフでは標準偏差と呼ばれる値で示している。標準的な新聞の世論調査では、標準偏差はおよそ1.6%分以下となる。真の値は、普通このエラーバーから大きくは外れない位置にあるが、大雑把に言って3回に1回はこのエラーバーからはみ出してしまう。エラーバーの2倍よりもはみ出すのは20回に1回程度である。

同様にB社の設問の真の値が青い線のようだとし、標本調査で青い四角のようなデータを得るとする。上述の追い詰めの違いのような問題で、真の値のグラフはA社とB社でずれているが、類似した設問であればその時間的変化はよく似たものになるだろうと期待できる。そこで、ここでは真の値はA社とB社で形は同じで単に上下に「シフト」しているだけなのだと仮定する。このサイトのグラフの近似曲線で推定しようと試みているのはこうした各社の設問に対応する回答値の平均となるグラフである。このモデルが正しければ、近似グラフを求めるには、それを決めるパラメータとともに各社ごとのシフト値も同時に推定すればよい。この方法は、素朴にある週の各メディアの値を直接比較するのではなく、各メディアごとの調査結果の時間変化に注目して、それから改めて各メディアに共通の変化を抽出すると捉えることができる。
例えば下の図は麻生内閣期間中の各社の自民党支持率を表している。データは一見すると非常にばらついているようだが、高めに出る調査と低めに出る調査があるだけであり、色違いの各社の傾向をたどれば類似した変動を示しているのがわかる。
そこで上述の考えに基づいてそれらの変動がうまくたどれるように各社の調査値に適切なシフトを施すと次のグラフのようになる。
この例ではそれらを近似するものとして求めた曲線とシフト後の値とのずれは、理論的な標本誤差の1.2倍程度となっている。

具体的にどのように近似曲線を生成しているかについては、そのうち詳しく書くかも。

概説すれば、近似曲線は区分的な2次関数を用いたものである。すなわち近似する時間範囲をいくつかに分割し、各両端で滑らかに繋がるような区分的2次関数の族を考えて、尤もらしい標本誤差(正規化された分散1.0)を生ずる曲線の集まりの内で、ある意味において最も単純なもの(直線に近いもの)を選んでいる。ただし、直線ですでに分散が1.0以下であったり、ある許容された範囲で最大限に近似しても1.0を越えてしまう場合もある。メディアごとの変化がシフトだけで説明できるというモデルは正確なものではないので、実際の長期間の近似では分散1.0より大きな値を目標として近似している。一般に、真のグラフが細かく変動しているとしても、誤差と区別できないレベルのものはならされて近似グラフはより滑らかな直線的なものとなる。

なお、シフトや区分2次関数の近似グラフの計算は、0%~100%の範囲に制限された確率の値pそのものではなく、すべてロジットとよばれる値 logp− log(1 −p) に変換して行っている。計算は自作プログラム、グラフ生成はgnuplotを使用。


last update on 2010-08-02 ; - visitors