巷で話題の(謎)年金記録問題ですが、イマイチはっきりしないのが「何をどう数えて5000万件なのか?」という事。
「納付記録」と書かれている場合と「加入記録」と書かれている場合があるようですが、これはどういう数字なんだろう?
たとえばある人が国民年金から厚生年金に変わって、そのヒモ付けができてないから国民年金1件分不明という事なのか、それともその国民年金を10年間120回払ってるから120件不明なのか。
それによってどれだけヒモ付けし直さなきゃいけないかという数字が1-2桁変わってくる。
前者であれば、本当に5000万件全部ヒモ付けしなおさなきゃいけないけど、後者であれば、誰のものかは不明だけど120件のまとまった記録があるんだから、一人分ヒモ付けし直せば120件解消する事になる。
元が2億件あったとかいう話があるので、後者なんじゃないかなぁという気もするんだけど、実際どうなんだろう?
このヒモ付けし直しという話で川上 暁生さんのブログで「年金問題 5000万件の突合ロジック」というのがあったんだけど、これでは解決しそうな気がしない(^^;
まず、カナ氏名の濁点や大小をノーマライズしてという所なんだけど、これで上手く行くには、ちゃんとそれらしい(^^;カナ氏名が入力されている必要があるけど、どうやらそうでも無いらしい。
元々紙に漢字で書かれていたものを、データ化する時に勝手に読んで入力されたものも結構あるらしい。
たとえば、この川上さんの場合「暁生」は「アキオ」が正解のようだけど、「ギョウセイ」とか「アキミ」とか入力されちゃってる可能性もある。
更に、結婚とかで姓が変わっているために名寄せができていないという場合もあるらしい。
という事で、名前は「ヒント情報」として、人間系で確認する場合に全く違うものを排除するためとか、運が良ければ引っかかるよねぇ(^^;ぐらいにしか使えないんじゃないだろうか。
次いで、生年月日だけど、これも結構イイカゲンらしい(^^;
生年月日が不明や間違っているものが30万件と言われているけど、誰のものかもわからない記録の生年月日が正しいか間違ってるかなんてわからないハズなので、ここで言ってる「間違い」というのは、ありえない日付になってるものという意味(たとえば6月31日とか)なんじゃないだろうか?
とすると、本当は6月15日産まれなのに6月5日になっちゃってるというような間違いはカウントされてなくて、実際の本人の生年月日とは違うモノはもっと多そうな予感。
という事で私案
まず、カナ氏名をノーマライズするというのは良いとして、姓と名は別に扱う(結婚とかで姓が変わった人対策)
で、姓名、生年月日を「姓」「名」「生年」「月」「日」の5要素に分解。
不明記録と5要素が一致する不納記録(というか該当期間に納付記録が無い。以下同)が1件だけであれば確定(これはカナ氏名の表記のブレによるものなので、高確率で本人)
次に「姓」「名」が一致し、「生年」「月」「日」のうち2要素が一致する不納記録が1件だけで、「生年」「月」「日」3要素が一致し「姓」「名」の違う不納記録が無ければ確定。
次に「姓」「名」が一致し、「生年」「月」「日」のうち1要素が一致する不納記録が1件だけで、「生年」「月」「日」3要素が一致し「姓」「名」の違う不納記録が無ければ確定。
ここまでは機械的判定なので、確定するものが無くなるまで繰り返す。
「姓」「名」も「生年」「月」「日」もデタラメなデータが、偶然他の未納者の「姓」「名」と「生年」「月」「日」のどれかが一致し、未納期間まで一致してしまう可能性は低かろうという事で・・・
後は人間系での判断を入れていかないといけない処理になる
・「生年」「月」「日」と「姓」が一致して「名」が違い、一致する不納記録が1件のみ
・「生年」「月」「日」と「名」が一致して「姓」が違い、一致する不納記録が1件のみ
・「生年」「月」「日」が一致して「姓」と「名」が違い、一致する不納記録が1件のみ
の順で「読み間違い」の可能性が高いものを確定して行く。(あくまでも「読み間違い」の場合だけ確定する)
確定したら、上の機械的判断で、他の未確定のものが確定できるかもしれないからフィードバック。
(こちらで確定する事により、「生年月日」が一致して「姓名」が異なる不納記録があるために確定できなかったものが確定するかもしれない)
同様に、「生年」「月」「日」のうちの1要素、2要素違うという場合でも不納記録が1件のみに絞れるものは「読み間違い」の可能性が高ければ確定して行く。
また、「生年」「月」「日」が一致して複数不納記録がある場合で、「姓」「名」の読み方によって1件に絞れる場合を確定。
(こちらも同様にフィードバックして行く)
ここまでの処理は、他の資料に当る必要も無いし、「読み間違い」を排除しているだけなので、漢字の読める(^^;バイトでもできる作業だろう。
・「姓」「名」が一致し、「生年」「月」「日」のうち2要素が一致する不納記録が1件だけで、「生年」「月」「日」3要素が一致し「姓」「名」の違う不納記録の「姓」「名」が、どう間違っても不明データの「姓」「名」とは読めないものを確定。
・「姓」「名」が一致し、「生年」「月」「日」のうち1要素が一致する不納記録が1件だけで、「生年」「月」「日」3要素が一致し「姓」「名」の違う不納記録の「姓」「名」が、どう間違っても不明データの「姓」「名」とは読めないものを確定。
(こちらも同様にフィードバックして行く)
ここまでで確定できていないのは
・「姓」「名」が読み間違いというレベルでなく正しくない(改姓している場合も含む)
・「生年」「月」「日」が間違っており、同姓同名で不納記録も一致するデータが複数ある
・生年月日や姓名の類似度が高く、不納記録も一致するデータが複数ある
・全部デタラメなので該当者がヒットしない
という場合。
この後は、「姓」が一致しない場合は改姓による可能性が高いので、住民票データ等との突合せが必要。
「姓」の不一致が改姓によるものでない場合や、その他の未確定は、元データや住民票データ等から、姓名、生年月日以外の情報(住所や会社等)で手作業で突合せするしかないんでしょうねぇ・・・
何かこうやって書いてみると、人間系の処理が多いような感じもしますが、経験的に言って、元データがアヤしい時にはコンピュータでの処理はフィルタリングによって対象を絞るだけにして、人海戦術でやっちゃった方が、結局早く終わるとか・・・
とても1年で終わる気がしない(^^;
最近のコメント