2020/03/20
議論とデータ
新型コロナウイルスの対応について、日本中で議論が巻き起こっています。曰く、検査数は増やすべきか否か、日本の実際の感染者数がどれぐらいなのか、いつごろ収束するのか、他国より対策がうまくいっているのか否か、全国一斉休校に意味があるのかなどなど。そうした議論は民主主義国家として望ましいものですが、しかし生産的な議論を行うためには、まず共有可能で信頼できるデータが必要不可欠です。
データ分析の世界ではgarbage in, garbage out「ゴミを入力すれば、ゴミしか出力しない」と、よく言われます。
厚労省データは信頼に値するのか
現在、日本国内の感染状況について議論する際に、最も信頼されているのが、厚生労働省が毎日発表している感染状況のデータ「新型コロナウイルス感染症の現在の状況と厚生労働省の対応について」でしょう。
しかし、厚労省データは、信頼できるものなのでしょうか。もし、このデータが深刻な矛盾を抱えているとすれば、私たちは何に基づいて判断し、政策決定を行えば良いのでしょうか。
私が検討を始めたのは、日本国籍者の数字に直感的に違和感を感じたからでした。3月19日でいえば、国内事例892人のうち日本国籍者が642人。逆に言えば、陽性者のうち28%が外国籍者ということになります。
このうち、空港検疫で引っかかった人は、合計7例しかありません。しかも、この外国人率は、ここ最近、日に日に高くなっている。日本には外国籍の人はたった2%しかいない。外国人旅行客は途絶え、とっくに市中感染のフェーズに入っているはずなのに。どうも不思議だ。
データ分析において、こういう違和感こそ非常に重要なものです。ここから、データの誤りを発見したり、あるいは分析上の知見を得られる手がかりになり、それが分析者のセンスが問われるところです。
新規外国人陽性者がマイナス値に
ともあれ、こうした違和感を手がかりに、私は2月17日以降毎日発表されている厚労省の国内事例における累積陽性者数・うち日本国籍者数をExcelにプロットしていきました。そして、陽性者から日本国籍者を引いた数字を自動的に外国籍者数とみなして、陽性者数における外国籍の比率を出してみました。それがこのグラフです。
ぱっと見で気づくのは、3月10日以降、外国人数が急増、それにつれて外国人比率がV字型に、非連続的に反転しているということです。これは「累積」の比率なので、ちょっと起こりにくい出来事です。
しかし、最も深刻な問題はそこではありません。よく見ると、外国籍者数が、「累積」のはずなのに減少しているのです。どういうことでしょうか。累積の差分を取って、上のグラフを新規陽性者数のグラフに変換します。
これを見ると、日本国籍者の数は常にプラスなのに対して、外国籍者はなんと頻繁にマイナスになっているのです。それに伴い、新規陽性者のうち外国人比率もマイナスになるという、理解することが不可能な事態が発生しています。
こんなことは流石にありえない、ishtaristが何か根本的な勘違いをしているのではないか。そう思う人がいて当然です。実際私も最初、自分のミスを強く疑いましたが、どうしても見つけられませんでした。
具体的にデータのおかしさを確認する
具体例で実証します。
たとえば3月16日、国内事例における陽性者数は累積794名、うち日本国籍者は576名と明瞭に記されています。そのため、外国人は794-576=218名です。
それに対し、翌3月17日。国内事例は809人で前日より15人増加。うち日本国籍者は599人で、前日より23人増加(599-576=23)。陽性者の増加数より、日本国籍者の増加数の方が多いのです。
したがって、17日の累積外国籍者数は、809-599=210人。前日からの増分は、210−218人で、マイナス8人。言い換えると、新規陽性者15人から新規日本国籍者23人を引いた8人が、外国籍者の減少となっているとも言えます。外国人率は奇跡?の-53.3%です。
https://note.com/ishtarist/n/nbefb8f7a0931?fbclid=IwAR06CPrGmwsLyGXfJYOkdit971vbmny7dEdzisbO4oZtHx2_tUwaV_gbxh4#e2znW
*sorry...文字数制限の為あとは有能住人さんに任せます↑リンク先からお願いね
議論とデータ
新型コロナウイルスの対応について、日本中で議論が巻き起こっています。曰く、検査数は増やすべきか否か、日本の実際の感染者数がどれぐらいなのか、いつごろ収束するのか、他国より対策がうまくいっているのか否か、全国一斉休校に意味があるのかなどなど。そうした議論は民主主義国家として望ましいものですが、しかし生産的な議論を行うためには、まず共有可能で信頼できるデータが必要不可欠です。
データ分析の世界ではgarbage in, garbage out「ゴミを入力すれば、ゴミしか出力しない」と、よく言われます。
厚労省データは信頼に値するのか
現在、日本国内の感染状況について議論する際に、最も信頼されているのが、厚生労働省が毎日発表している感染状況のデータ「新型コロナウイルス感染症の現在の状況と厚生労働省の対応について」でしょう。
しかし、厚労省データは、信頼できるものなのでしょうか。もし、このデータが深刻な矛盾を抱えているとすれば、私たちは何に基づいて判断し、政策決定を行えば良いのでしょうか。
私が検討を始めたのは、日本国籍者の数字に直感的に違和感を感じたからでした。3月19日でいえば、国内事例892人のうち日本国籍者が642人。逆に言えば、陽性者のうち28%が外国籍者ということになります。
このうち、空港検疫で引っかかった人は、合計7例しかありません。しかも、この外国人率は、ここ最近、日に日に高くなっている。日本には外国籍の人はたった2%しかいない。外国人旅行客は途絶え、とっくに市中感染のフェーズに入っているはずなのに。どうも不思議だ。
データ分析において、こういう違和感こそ非常に重要なものです。ここから、データの誤りを発見したり、あるいは分析上の知見を得られる手がかりになり、それが分析者のセンスが問われるところです。
新規外国人陽性者がマイナス値に
ともあれ、こうした違和感を手がかりに、私は2月17日以降毎日発表されている厚労省の国内事例における累積陽性者数・うち日本国籍者数をExcelにプロットしていきました。そして、陽性者から日本国籍者を引いた数字を自動的に外国籍者数とみなして、陽性者数における外国籍の比率を出してみました。それがこのグラフです。
ぱっと見で気づくのは、3月10日以降、外国人数が急増、それにつれて外国人比率がV字型に、非連続的に反転しているということです。これは「累積」の比率なので、ちょっと起こりにくい出来事です。
しかし、最も深刻な問題はそこではありません。よく見ると、外国籍者数が、「累積」のはずなのに減少しているのです。どういうことでしょうか。累積の差分を取って、上のグラフを新規陽性者数のグラフに変換します。
これを見ると、日本国籍者の数は常にプラスなのに対して、外国籍者はなんと頻繁にマイナスになっているのです。それに伴い、新規陽性者のうち外国人比率もマイナスになるという、理解することが不可能な事態が発生しています。
こんなことは流石にありえない、ishtaristが何か根本的な勘違いをしているのではないか。そう思う人がいて当然です。実際私も最初、自分のミスを強く疑いましたが、どうしても見つけられませんでした。
具体的にデータのおかしさを確認する
具体例で実証します。
たとえば3月16日、国内事例における陽性者数は累積794名、うち日本国籍者は576名と明瞭に記されています。そのため、外国人は794-576=218名です。
それに対し、翌3月17日。国内事例は809人で前日より15人増加。うち日本国籍者は599人で、前日より23人増加(599-576=23)。陽性者の増加数より、日本国籍者の増加数の方が多いのです。
したがって、17日の累積外国籍者数は、809-599=210人。前日からの増分は、210−218人で、マイナス8人。言い換えると、新規陽性者15人から新規日本国籍者23人を引いた8人が、外国籍者の減少となっているとも言えます。外国人率は奇跡?の-53.3%です。
https://note.com/ishtarist/n/nbefb8f7a0931?fbclid=IwAR06CPrGmwsLyGXfJYOkdit971vbmny7dEdzisbO4oZtHx2_tUwaV_gbxh4#e2znW
*sorry...文字数制限の為あとは有能住人さんに任せます↑リンク先からお願いね