とある技術者の徒然草

生産技術者の適当な日記(統計言語Rに関するメモがメイン)

2019-02-01から1ヶ月間の記事一覧

【R言語】連続データをファクター化するcut関数

連続データをファクター化するcut関数 データを離散化するときに使用したcut関数の使用法を記録する。 #cut関数(連続データの離散値化) #連続データを適当な区間(breaksで指定)で分割し、factor化 #その後数値データに戻す n3 <- cut(n,breaks = seq(0,50…

【R言語】部分最小二乗法 plsパッケージ

plsパッケージによる部分最小二乗法 書籍「Rによる統計的学習入門」の防備メモとして記録しておく ・部分最小二乗法(PLS:partial least squares)とは ・PCRに代わる教師ありの手法 ・次元を削減する手法 ・元の特徴の線形結合によりM個の新たな特徴を作り、 …

【R言語】ロジスティック回帰モデルをggplotでグラフ化する

ロジスティック回帰モデルをggplotでグラフ化 オライリーのggplot2解説書「Rグラフィックスクックブック」では ggplotのバージョンが古くて、書籍と同じグラフが書けなかった。 早く更新されることを願う。 #ロジスティック回帰モデルのグラフを書く library…

【R言語】クロス集計表の連関を確認するコレスポンデンス分析

コレスポンデンス分析 Rによる多変量解析入門 データ分析の実践と理論 | Ohmsha 多変量解析の理論と実践のバランスが良い。 解析結果のレポートのテンプレートがあり、 まさに実務者向けの本である。 #13章のサンプル「自転車データ2.csv」の読み込み b2dat …

生産管理における生産統制

生産統制の用語をうまく説明できなかったので、 ググったりして頭を整理していた。 参考になったブログをメモしておく。 brevis.exblog.jp 生産管理と工程管理【実務における工程管理:第1章】 | Kaizen Base カイゼンベース 生産統制の3つのポイントである…

【R言語】綺麗な散布図行列 GGallyパッケージ

きれいな散布図行列を書く statmodeling.hatenablog.com mikutaifuku.hatenablog.com エレガントな散布図行列を書くコードを見つけた。 Bostonデータセットのサイズでは問題ないが、 データ量が多いとかなり重い処理となる。 サンプリングする必要があるだろ…

【R言語】x-means法でクラスタリング

x-means法でクラスタリング k-means法はクラスター数を指定する必要がある。 クラスター数を指定しないx-means法を下記を参考(マルパクリ)に試してみた。 aaaazzzz036.hatenablog.com #http://aaaazzzz036.hatenablog.com/entry/2013/11/27/210355 #s-kmea…

【R言語】t-sneで次元削減 -Rtsneパッケージ-→DBSCANクラスタリング

t-sneで次元削減 -Rtsneパッケージ- 大量の不良画像データをモード分けしたいことが多い。 いきなりkmeans法でクラスタリングしてもよいが、 tsneで2次元に落とし込んみ可視化すると、 意外な関係性が読み取れて面白かったのでメモする。 t-sneとは? tsneと…

【R言語】クラスタリングで不良品画像を自動でグルーピング

画像データをクラスタリングで自動でグルーピング カラー画像のデータ以下の図のような構成となっている。 簡単に言うと座標それぞれに対して、RGBの輝度データが入力されている。 画像データの構造・画素・RAWデータについて解説 | だえうホームページ rgb …

【R言語】k分割交差検証

k分割交差検証 Rによる統計学習入門 5章リサンプリング法に出ていた 交差検証について再確認する。 データセットをk個に分割して、残りの(k-1)個を検証にする手法である。 LOOCVより計算量が減るだけでなく、テスト誤差をより高い精度で推定できる。 (バイ…

【R言語】ランダムフォレストrangerパッケージ 変数の重要度を可視化

rangerパッケージにおける変数重要度の可視化 kefism.hatenablog.com こちらの関数がうまく動かなかったため改造して、関数を作成した。 library(tidyverse) library(ranger) # random sampling df <- diamonds str(df) n <- nrow(df) s <- sample(n, n * 0.…