satopoooonのブログ

自分向けの備忘録

2017-01-01から1年間の記事一覧

kaggleに挑戦その5 過学習、学習不足の可視化

学習曲線 データセットに対してモデルが複雑すぎる場合、過学習する傾向があり汎化性能が落ちてしまう。 トレーニングデータをさらに集めると、過学習は抑えることができるが、データをさらに集めることはコストが非常に高い。 また、実はこれ以上データを集…

pythonスクリプトをexe形式にする

pythonスクリプトをexeにしたい pythonで作ったプログラムを他人に渡すときに、exeで渡したいんですよね。 インタプリタのインストールを強要したくないので。ちなみに、 自分のPCはOS Xで、渡す先はwindows 10という条件です。 monoをインストール exe化す…

kaggleに挑戦その4 k分割交差検証(k-fold cross-validation)及びグリッドサーチ

k分割交差検証 前回までで、ランダムフォレストでモデル予測を実施しました。 今回は、k分割交差検証、グリッドサーチを用いてモデル性能の評価及びハイパーパラメータの修正を行います。 これにより、バイアス高、バリアンス高のバランスをとることができま…

kaggleに挑戦その3 ランダムフォレストを可視化

決定木の可視化 決定木の利点としては、意味解釈可能性があります。 ランダムフォレストで作成された決定木を可視化して、その意味を解釈しようと思います。scikit-learnには、決定木を.dotファイルとしてエクスポートする機能があります。 その前に、.dotフ…

kaggleに挑戦 その2 ランダムフォレスト

はじめに ランダムフォレストを使って、タイタニック号のデータをモデル化します。 ランダムフォレストって何? ランダムフォレストは、複数の決定木を組み合わせて、 各決定木における予想結果の多数決により、結果を得ます。アルゴリズムとしては、 1.ラン…

kaggleに挑戦 その1 決定木を使う

はじめに 機会学習のスキルを身に付けたく、kaggleに挑戦中です。 タイタニック号のデータを、ランダムフォレストでモデル化しました。 今回は、ランダムフォレストの基本となる決定木について書こうと思います。 簡単に自己紹介すると、僕は材料系メーカー…

pycharm インストール

よく使う言語は、VB(A)、C#、python、Rとか。 学生の時は、Fortran,Cとか使ってた。 流行りだからpythonのスキルを上げたい。 IDEはvisual studioを使ってたけど、 pycharmに乗り換えて(python限定だけど)みる。 visual studioは重い気がして好きになれない…

Spectacle インストール

mac

windows だと画面のリサイズが結構簡単。 「windowsキー」+「矢印」で色々できる。 職場のPCはwindowsだから、macでもやりたい。 探してみたら「Spectacle」ってやつで可能みたい。 インストールしたら、 「opt」+「command」+「矢印」でリサイズができるよ…

Eagles導入

回路図作成のため、Eaglesを使ってみた。 いくつかあるCADソフトの中で、Eaglesにした理由は、 OS X,Windows両方に対応しているという点のみ。 以下、忘備録として ・プロジェクトの新規作成 Projects/eagle 右クリックでnew project プロジェクト名は日本語…

pythonでexcel,csvファイルを読み込む

excel,csvファイルの読み込み pandasのread_excelを使うと簡単、 エクセルデータを読み込んで、データフレーム にしてくれる。 やりたいこと あるディレクトリにある大量のエクセル(もしくはcsv)ファイルすべてから、 n行m列からk列までのデータを引っ張っ…