KaggleのTitanic問題を試してみた2

前回の続編.データの前処理を前回よりも少し行った.

行ったことの説明はjupyter notebookのこちらのgistに書いてあるので,そちらを参照してもらえればと思う.

今回はデータの前処理として,名前の敬称 (MrとかMrsとか) を抽出して,
年齢の欠損値の補完に利用してみた.結果としては前回よりも約8%精度が向上しているので
意味はあったと思うのだが,年齢の欠損値の補完を平均値ではなく中央値にすると
前回よりも精度が下がる,という現象が起こって,その結果の解釈があまりできず
困った.

まあ,敬称別に分けたときにMissやMrsなどの敬称を持つデータ数がかなり少なくなったので,
偏りが大きくなりそのような結果になったのかもしれない.
平均値や中央値以外にもknnで欠損値の補完もしてみたいところ.

あとやることとしては,前処理がまだやれることが多いのでそれを行うことと,
random-forest以外のアルゴリズムも試して比較をしていきたい.

こまめに解答の提出を行うとどの処理が精度向上に効いたかが実感できるので面白い.