2019-02-01から1ヶ月間の記事一覧
連続データをファクター化するcut関数 データを離散化するときに使用したcut関数の使用法を記録する。 #cut関数(連続データの離散値化) #連続データを適当な区間(breaksで指定)で分割し、factor化 #その後数値データに戻す n3 <- cut(n,breaks = seq(0,50…
plsパッケージによる部分最小二乗法 書籍「Rによる統計的学習入門」の防備メモとして記録しておく ・部分最小二乗法(PLS:partial least squares)とは ・PCRに代わる教師ありの手法 ・次元を削減する手法 ・元の特徴の線形結合によりM個の新たな特徴を作り、 …
ロジスティック回帰モデルをggplotでグラフ化 オライリーのggplot2解説書「Rグラフィックスクックブック」では ggplotのバージョンが古くて、書籍と同じグラフが書けなかった。 早く更新されることを願う。 #ロジスティック回帰モデルのグラフを書く library…
コレスポンデンス分析 Rによる多変量解析入門 データ分析の実践と理論 | Ohmsha 多変量解析の理論と実践のバランスが良い。 解析結果のレポートのテンプレートがあり、 まさに実務者向けの本である。 #13章のサンプル「自転車データ2.csv」の読み込み b2dat …
生産統制の用語をうまく説明できなかったので、 ググったりして頭を整理していた。 参考になったブログをメモしておく。 brevis.exblog.jp 生産管理と工程管理【実務における工程管理:第1章】 | Kaizen Base カイゼンベース 生産統制の3つのポイントである…
きれいな散布図行列を書く statmodeling.hatenablog.com mikutaifuku.hatenablog.com エレガントな散布図行列を書くコードを見つけた。 Bostonデータセットのサイズでは問題ないが、 データ量が多いとかなり重い処理となる。 サンプリングする必要があるだろ…
x-means法でクラスタリング k-means法はクラスター数を指定する必要がある。 クラスター数を指定しないx-means法を下記を参考(マルパクリ)に試してみた。 aaaazzzz036.hatenablog.com #http://aaaazzzz036.hatenablog.com/entry/2013/11/27/210355 #s-kmea…
t-sneで次元削減 -Rtsneパッケージ- 大量の不良画像データをモード分けしたいことが多い。 いきなりkmeans法でクラスタリングしてもよいが、 tsneで2次元に落とし込んみ可視化すると、 意外な関係性が読み取れて面白かったのでメモする。 t-sneとは? tsneと…
画像データをクラスタリングで自動でグルーピング カラー画像のデータ以下の図のような構成となっている。 簡単に言うと座標それぞれに対して、RGBの輝度データが入力されている。 画像データの構造・画素・RAWデータについて解説 | だえうホームページ rgb …
k分割交差検証 Rによる統計学習入門 5章リサンプリング法に出ていた 交差検証について再確認する。 データセットをk個に分割して、残りの(k-1)個を検証にする手法である。 LOOCVより計算量が減るだけでなく、テスト誤差をより高い精度で推定できる。 (バイ…
rangerパッケージにおける変数重要度の可視化 kefism.hatenablog.com こちらの関数がうまく動かなかったため改造して、関数を作成した。 library(tidyverse) library(ranger) # random sampling df <- diamonds str(df) n <- nrow(df) s <- sample(n, n * 0.…