母比率の信頼区間

統計学

n数が少ないときの母比率の信頼区間について http://www.naro.affrc.go.jp/org/nfri/yakudachi/sampling/pdf/Clopper.pdf

2019-05-05

検出力、サンプルサイズの決め方

統計学

検出力のお話、検定時に、対立仮説が成り立っているときに、帰無仮説を正しく棄却してくれるかの指標、永田本サンプルサイズの決め方より P.8 2種類の誤りに関する基本的事項帰無仮説が棄却されない場合、帰無仮説を支持するわけではない、 →第二種の…

2019-02-08

予想区間、信頼区間の違い

統計学

推定量・・・モデルを当てる作業。予想・・・実際の現れる値を当てる作業 2元配置実験計画方の場合の点推定量は、点推定量 +/- t(Φ,α)sqrt(Ve/Nd) となるが、予想だと、点予想量 +/- t(Φ,α)sqrt(Ve + (Ve/Nd)) とsqrtの中にVeが入っている。これはさら…

2018-07-05

ノンパラメトリックな検定、ウィルコクソン検定

統計学

特定の分布を過程する検定はパラメトリックな検定、 →母集団の分布がわかっている場合はパラメトリックな検定をすればよい、正規分布しているなら、t検定特定の分布を過程しない場合は、ノンパラメトリックな検定、 →母集団の分布がよくわからん、、、そう…

2018-06-25

t検定,プールした分散

統計学

対応がない場合のt検定参考文献は以下、 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/ttest.pdf 二つのグループをt検定する。まず前提として、二つのグループ等分散、母分散は不明であるとする。等分散じゃないと、t検定が使えない。二つのグルー…

2017-12-26

kaggleに挑戦その5 過学習、学習不足の可視化

python 機械学習統計学

学習曲線データセットに対してモデルが複雑すぎる場合、過学習する傾向があり汎化性能が落ちてしまう。トレーニングデータをさらに集めると、過学習は抑えることができるが、データをさらに集めることはコストが非常に高い。また、実はこれ以上データを集…

2017-12-24

kaggleに挑戦その4 k分割交差検証(k-fold cross-validation)及びグリッドサーチ

機械学習統計学 python

k分割交差検証前回までで、ランダムフォレストでモデル予測を実施しました。今回は、k分割交差検証、グリッドサーチを用いてモデル性能の評価及びハイパーパラメータの修正を行います。これにより、バイアス高、バリアンス高のバランスをとることができま…

2017-12-19

kaggleに挑戦その3 ランダムフォレストを可視化

機械学習統計学 python

決定木の可視化決定木の利点としては、意味解釈可能性があります。ランダムフォレストで作成された決定木を可視化して、その意味を解釈しようと思います。scikit-learnには、決定木を.dotファイルとしてエクスポートする機能があります。その前に、.dotフ…

2017-12-17

kaggleに挑戦その2 ランダムフォレスト

機械学習統計学 python

はじめにランダムフォレストを使って、タイタニック号のデータをモデル化します。ランダムフォレストって何？ランダムフォレストは、複数の決定木を組み合わせて、各決定木における予想結果の多数決により、結果を得ます。アルゴリズムとしては、 1.ラン…

2017-12-03

kaggleに挑戦その1 決定木を使う

機械学習統計学 python

はじめに機会学習のスキルを身に付けたく、kaggleに挑戦中です。タイタニック号のデータを、ランダムフォレストでモデル化しました。今回は、ランダムフォレストの基本となる決定木について書こうと思います。簡単に自己紹介すると、僕は材料系メーカー…

satopoooonのブログ

自分向けの備忘録

統計学

母比率の信頼区間

検出力、サンプルサイズの決め方

予想区間、信頼区間の違い

ノンパラメトリックな検定、ウィルコクソン検定

t検定,プールした分散

kaggleに挑戦その5 過学習、学習不足の可視化

kaggleに挑戦その4 k分割交差検証(k-fold cross-validation)及びグリッドサーチ

kaggleに挑戦その3 ランダムフォレストを可視化

kaggleに挑戦その2 ランダムフォレスト

kaggleに挑戦その1 決定木を使う