2019年9月20日金曜日

平均のトリックの好事例

 データというのは,最初は数字の羅列です。それを整理する第一歩は,度数分布表の形にすることです。しかし,報告書に度数分布表を逐一載せることはできません。そこで,データの特性を端的に表す代表値が使われます。

 代表値としては,最頻値(mode),平均値(average),中央値(median)があります。最頻値はデータの個数が最も多い階級,平均値は総和を個数で除したもの,中央値は高い順に並べた時ちょうど真ん中にくる値です。

 この中でよく見かけるのは平均値ですよね。平均点,平均身長,平均年収…。2018年度の文科省『学校保健統計』にょると,14歳男子の平均身長は165.3センチとなっています。これを見てわれわれは,普通の中学生の身長はこれくらいなんだなと判断します。生徒にすれば,自分は普通より小さいか,デカいかを知る目安になります。

 要は,普通を知るための目安です。私はヒマがあれば,官庁統計の概要資料に目を通しているのですが,2016年の厚労省『国民生活基礎調査』の結果概要に,次ののような数字が出ていました。高齢世帯の平均貯蓄額は1284万円だそうです。

 世帯主が65歳以上の世帯ですね。さすがといいますか,ガッツリ溜め込んでますね。しかるに,これをもって「普通」の高齢世帯の貯蓄額とみなしていいものか。平均値に丸める前の度数分布表に当たってみると,以下のようになります。


 普通のデータは,中層が厚い山型の分布になるのですが,高齢世帯の貯蓄額はそうではありません。上と下に分化した型になっています。溜め込んでいる世帯が多いが,スッカラカンの世帯も多い,ということです。

 最も多いのは,貯蓄ゼロの世帯ではないですか。最頻階級(mode)はゼロです。ちょうど真ん中の世帯(中央値)はというと,右端の累積%から,500~700万円台の階級に含まれることが知られます。累積%が50ジャストの値ですので。按分比例を使って,それを割り出しましょう,

 按分比=(50.0-44.9)/(54.9-44.9)=0.5098
 中央値=500万円+(200万円 × 0.5098)=602.0万円

 高齢世帯の貯蓄額の中央値は602万円と出ました。報告書に載っている平均値(1284万円)の半分以下ですね。高齢世帯の貯蓄額分布を的確に代表しているのは,後者よりも前者です。ど真ん中の値ですので。平均値は,一部の極端に高い数値によって釣り上げられた(歪められた)結果に他なりません。

 フツーの高齢世帯の貯蓄状況について説明するときは,「平均貯蓄額は1284万円です」ではなく,「最も多いのは貯蓄ゼロの世帯で,中央値は602万円となっています」と言いましょう。前者だと「老人からもっと金をとっていい」となりますが,後者を添えることで,そういう暴走にも歯止めがかかります。

 上記の度数分布表から分かるように,平均値の1284万円を越えるのは,全体の3割ほどしかありません。こんな値で高齢世帯全体を語られたらたまったものではないでしょう。

 よく言われることですが,データの代表値としては,平均値よりも中央値がベターです。分布の型が歪(いびつ)である場合,両者の乖離は大きくなります。

 例を示しましょう。厚労省の『国民生活基礎調査』(2016年)には,世帯の年代ごとの平均所得額と平均貯蓄額が出ています。それを,度数分布表から割り出した中央値と対比してみます。


 私の年代の40代に注目すると,世帯所得の平均値は671万円,中央値は621万円となっています。50万円の差です。貯蓄のほうをみると,平均値が652万円,中央値が344万円と隔たりが大きくなっています。倍近くの差です。元の度数分布表を見ると分かりますが,溜め込んでいる世帯とそうでない世帯に割れているからです。

 貯蓄の分化(segregation)が大きい高齢層では,平均値と中央値の乖離が甚だ大きくなっています。倍以上の差です。言わずもがな,「普通」を的確に表しているのは後者です。平均値をもってそれを解釈すると,とんでもないことになります。相対的貧困率の定義が「所得が中央値の半分に満たない世帯の割合」という点も思い出してください。砕いて言うと,収入が「フツー」の半分にも満たない世帯,ということです。

 平均値よりも中央値を見ろ。随所で言われていることですが,分かりやすい例が見つかりましたので,紹介してみた次第です。

 度数分布表から独自に計算する場合,中央値はやや手間がかかりますが,はじき出された数値はリアルです。都道府県別の若い未婚男性の所得中央値を見てごらんなさい。私の郷里の鹿児島では,300万円稼ぐ男性に出会えたら御の字です。

 官庁統計には平均値が出ていることが多いのですが,その背後にある分布に思いを巡らせましょう。できればそれにあたりましょう。最頻値や中央値という観点でみると,まったく違った値になることがしばしばです。