NISHIO Hirokazu[Translate]
データを分ける意味
機械学習で、データを分けるのはなぜか
具体的な実践例
全データの1割を「手元にないデータ」という扱いで分けておいて、残り9割でモデルを学習。そのモデルの性能を残り1割のデータでどの程度の正解率が出るかで計測する。

理由を知らないまま作法としてやってると「わけなくていいんじゃないか」という気持ちになる
「作法としてこうするもんです」ではなくて、何を達成したいのかから考えるように教えるとよいのかも。
達成したいことは「手元にないデータ」に対してよい性能を出すこと
「手元にないデータ」に対してよい性能が出るかどうかは今手元にデータがないので知りえない
だから一部のデータを取り分けて「これを今手元にない、将来手に入るデータだということにしよう」とする。
「手元にない」ということにしたのだから当然、学習時にそれを使えるわけがない。
物理的には使えてしまうけど「これは手元にないデータってことにしているんだ」という前提を理解していれば使えないことがわかる。


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]