satopoooonのブログ

自分向けの備忘録

統計学

母比率の信頼区間

n数が少ないときの母比率の信頼区間について http://www.naro.affrc.go.jp/org/nfri/yakudachi/sampling/pdf/Clopper.pdf

検出力、サンプルサイズの決め方

検出力のお話、 検定時に、 対立仮説が成り立っているときに、 帰無仮説を正しく棄却してくれるかの指標、 永田本 サンプルサイズの決め方より P.8 2種類の誤りに関する基本的事項 帰無仮説が棄却されない場合、 帰無仮説を支持するわけではない、 →第二種の…

予想区間、信頼区間の違い

推定量・・・モデルを当てる作業。 予想・・・実際の現れる値を当てる作業 2元配置実験計画方の場合の点推定量は、 点推定量 +/- t(Φ,α)sqrt(Ve/Nd) となるが、 予想だと、 点予想量 +/- t(Φ,α)sqrt(Ve + (Ve/Nd)) とsqrtの中にVeが入っている。 これはさら…

ノンパラメトリックな検定、ウィルコクソン検定

特定の分布を過程する検定はパラメトリックな検定、 →母集団の分布がわかっている場合はパラメトリックな検定をすればよい、 正規分布しているなら、t検定 特定の分布を過程しない場合は、ノンパラメトリックな検定、 →母集団の分布がよくわからん、、、そう…

t検定,プールした分散

対応がない場合のt検定 参考文献は以下、 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/ttest.pdf 二つのグループをt検定する。 まず前提として、二つのグループ等分散、母分散は不明であるとする。 等分散じゃないと、t検定が使えない。 二つのグルー…

kaggleに挑戦その5 過学習、学習不足の可視化

学習曲線 データセットに対してモデルが複雑すぎる場合、過学習する傾向があり汎化性能が落ちてしまう。 トレーニングデータをさらに集めると、過学習は抑えることができるが、データをさらに集めることはコストが非常に高い。 また、実はこれ以上データを集…

kaggleに挑戦その4 k分割交差検証(k-fold cross-validation)及びグリッドサーチ

k分割交差検証 前回までで、ランダムフォレストでモデル予測を実施しました。 今回は、k分割交差検証、グリッドサーチを用いてモデル性能の評価及びハイパーパラメータの修正を行います。 これにより、バイアス高、バリアンス高のバランスをとることができま…

kaggleに挑戦その3 ランダムフォレストを可視化

決定木の可視化 決定木の利点としては、意味解釈可能性があります。 ランダムフォレストで作成された決定木を可視化して、その意味を解釈しようと思います。scikit-learnには、決定木を.dotファイルとしてエクスポートする機能があります。 その前に、.dotフ…

kaggleに挑戦 その2 ランダムフォレスト

はじめに ランダムフォレストを使って、タイタニック号のデータをモデル化します。 ランダムフォレストって何? ランダムフォレストは、複数の決定木を組み合わせて、 各決定木における予想結果の多数決により、結果を得ます。アルゴリズムとしては、 1.ラン…

kaggleに挑戦 その1 決定木を使う

はじめに 機会学習のスキルを身に付けたく、kaggleに挑戦中です。 タイタニック号のデータを、ランダムフォレストでモデル化しました。 今回は、ランダムフォレストの基本となる決定木について書こうと思います。 簡単に自己紹介すると、僕は材料系メーカー…