2018年6月7日木曜日

「不詳」は分母から除こう

 人間の頭数を数えた官庁統計は,最も信頼できる資料です。データは公表されており,それを加工することで,地域別の失業率や大卒率といった指標を独自に出すことができます。

 最近はデータがエクセルでアップされているので,必要な数字をコピペして割り算するだけ。入力の手間もかかりません。便利になったものです。

 しかるに,最近の統計表を見ていて気になることがあります。「不詳」というカテゴリーの人数が少なくないことです。基幹統計の『国勢調査』でもです。とくに最終学歴などは「不詳」が多く,都市部では全数の中でもかなりの比率になります。

 下表は,都内23区のアラフォー年代の最終学歴構成です。学歴は,西暦の下一桁が「0」の年に調査されますので,2010年のデータとなっています。統計表「01020」より作成しました。
https://www.e-stat.go.jp/stat-search/database?page=1&toukei=00200521&tstat=000001039448&result_page=1&second=1


 どの区でも,不詳が結構な数になります。港区,新宿区,渋谷区,豊島区では,最終学歴不詳者が全体の4割を超えます。最も高いのは港区で,アラフォーの学校卒業人口4万3066人のうち,1万9770人(45.9%)が学歴不詳です。学歴不詳率,半分近くなり。

 都内23区は外国人人口が多いからではないか,と言われるかもしれませんが,外国人がこんなに多いはずないですよね。学歴はデリケートな項目ですので,回答拒否が多いのだと思われます。

 ここまで不詳者が多いとなると,統計の信憑性が揺らいできます。たとえば大卒率を出す場合,不詳を含む総数(左端の数値)を分母にすると,おかしなことになります。不詳は,分母から除かないといけません

 この措置をするかしないかで,値は全然違ったものになります。港区について,2通りのやり方で大学・大学院卒率を計算すると,以下のようになります。

①分母に不詳者を含む場合
 14,066/43,066 = 32.7%

②分母に不詳者は含まない場合
 14,066/(43,066-19,770)= 60.4%

 2010年の35~44歳といえば私の世代ですが,同世代ベースの大学進学率は4割は超えているはずです。東京の都心では,これよりもうんと高いはず。東京の港区で,アラフォーの大卒率がたった3割なんて,ちょっと考えられません。①よりも②の数値をとるべきでしょう。

 都内23区について,①と②のやり方で,アラフォーの高学歴人口率を算出すると,以下の表のようになります。


 はじき出された値はかなり異なります。黄色マークは20ポイント以上違う区ですが,学歴不詳者が多いことによる,統計上の歪みが大きい区です(最初の表)。

 2020年の『国勢調査』では学歴が調査されますが,こうした歪みはもっと大きくなるのではないかと思われます。「不詳」のカテゴリーの者が増えることでしょう。『国勢調査』をはじめとした官庁調査への回答は,統計法で義務づけられており,罰則もあるのですが,現実には機能していないようです。

 ネット回答が普及し,全項目に回答しないと送信できないようになれば,この弊は幾分かは緩和されるかもしれませんが。

 とはいえ現状はこんなですので,『国勢調査』等の官庁統計を使って,地域別の「**」率のような指標を計算するときは,「不詳」というカテゴリーの人数は,分母から除くべきかと思います

 ここで示したのは学歴という極端な例ですが,労働力状態や配偶関係等でも,不詳者は結構います。失業率や未婚率といった指標を出す際は,要注意です。

 プレジデント・オンラインの記事で,都内23区のワーママ率と主婦率を出した表があるのですが,これらの指標の定義は何か,という問い合わせをしました。
http://president.jp/articles/-/25139

 ワーママ率=6歳未満の子がいる女性のうち,労働力状態が「主に仕事」の者の比率
 主婦率=6歳未満の子がいる女性のうち,労働力状態が「非労働力」の者の比率

 こういう回答でしたが,表の数値を見る限り,分母から労働力状態不詳を除いていないのではないか,という懸念が持たれます。それを咎める気はないですが,今後は注意した方がいい,という進言をしておきました。