kaggleに挑戦その5 過学習、学習不足の可視化

python 機械学習統計学

学習曲線データセットに対してモデルが複雑すぎる場合、過学習する傾向があり汎化性能が落ちてしまう。トレーニングデータをさらに集めると、過学習は抑えることができるが、データをさらに集めることはコストが非常に高い。また、実はこれ以上データを集…

pythonスクリプトをexe形式にする

python

pythonスクリプトをexeにしたい pythonで作ったプログラムを他人に渡すときに、exeで渡したいんですよね。インタプリタのインストールを強要したくないので。ちなみに、自分のPCはOS Xで、渡す先はwindows 10という条件です。 monoをインストール exe化す…

機械学習統計学 python

k分割交差検証前回までで、ランダムフォレストでモデル予測を実施しました。今回は、k分割交差検証、グリッドサーチを用いてモデル性能の評価及びハイパーパラメータの修正を行います。これにより、バイアス高、バリアンス高のバランスをとることができま…

機械学習統計学 python

決定木の可視化決定木の利点としては、意味解釈可能性があります。ランダムフォレストで作成された決定木を可視化して、その意味を解釈しようと思います。scikit-learnには、決定木を.dotファイルとしてエクスポートする機能があります。その前に、.dotフ…

機械学習統計学 python

はじめにランダムフォレストを使って、タイタニック号のデータをモデル化します。ランダムフォレストって何？ランダムフォレストは、複数の決定木を組み合わせて、各決定木における予想結果の多数決により、結果を得ます。アルゴリズムとしては、 1.ラン…

機械学習統計学 python

はじめに機会学習のスキルを身に付けたく、kaggleに挑戦中です。タイタニック号のデータを、ランダムフォレストでモデル化しました。今回は、ランダムフォレストの基本となる決定木について書こうと思います。簡単に自己紹介すると、僕は材料系メーカー…