【R言語】Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する

プログラミング R言語

Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化するデフォルトのグラフよりきれいなグラフが描けるggplotで変数重要度を可視化する。 library(Boruta) library(rFerns) library(tidyverse) library(plotly) #mlbenchのSonarで試…

2020-02-24

【R言語】ファイル名を一括して読みこみ、ファイル名の一部列として残す

プログラミング R言語

ファイル名を一括して読みこみ、ファイル名の一部列として残すフォルダに保管されている大量のファイルを一括して読みこむときに、ファイル名の一部（例えば3-4桁の機械番号）を列として残したい時のコードです。 # Tでファイル名にディレクトリ追加 List …

2020-02-22

【R言語】特定の型の列を選択

プログラミング R言語

【R言語】特定の型の列を選択仕事用のメモです library(tidyverse) dftest <- starwars #数値型の列を選択 numericVars <- which(sapply(dftest, is.numeric)) numericVarNames <- names(numericVars) #文字型の列を選択 numericVars2 <- which(sapply(dfte…

2020-02-22

【R言語】Borutaによる変数選択（ランダムフォレスト）

プログラミング R言語

Borutaによる変数選択データセットの中からある指標に基づいて、重要変数を選択するアルゴリズムがいくつかある。私が使っているRのソフトに Exploratory Desktop というソフトが大変便利で個人的に使用しています。 ExploratoryにはBorutaという変数選択…

2019-10-27

【R言語】ggplotグラフを複数表示

R言語プログラミング

ggplotグラフを複数表示リストにグラフを繰り返し代入してまとめて表示するやり方のメモ。 library(dplyr) library(gridExtra) #sdf <- sample_frac(multi.regression.compounds,size = 0.05) #pairs(sdf) #sdfは1列目が目的関数 "preprocessed.y varname <…

2019-08-17

【R言語】dplyrなどデータ整形メモ(NAが一定割合以下の列を抽出など)

プログラミング R言語

データ整形に関する関数のメモ仕事で使用した関数のメモです。・NAが一定割合以下の列を抽出 tmp <- df %>% summarise_all( . %>% is.na() %>% sum) %>% #列ごとのNAの総数を集計する gather() %>% #縦持ちに変換 filter( value < nrow(df) *.3 ) #NAが30%…

2019-08-04

【R言語】決定木分析の可視化パッケージ決定版？【ggparty】

プログラミング R言語

決定木分析結果の可視化パッケージ【ggparty】 Rの決定木のグラフはどうしても貧弱なのが欠点でした。その欠点を覆すべく、ggplotを使った自由度の高いパッケージggparty ができたみたいです。詳細はこちら。 github.com library(rpart) library(partykit)…

2019-08-04

【python】コルモゴロフ-スミルノフ検定を実施し、カテゴリ別で分布に差がある変数を探す

Python プログラミング

コルモゴロフ-スミルノフ検定を実施し、生存、死亡の差がある分布を探す kaggleのブログで見つけたコルモゴロフ-スミルノフ検定の使用例を勉強するためにメモしておきます。良品・不良品間でどの変数が分布に差があるか検討するときに使えそう。 #コルモゴ…

2019-08-04

【R / Python】データハンドリン関係のコマンド比較まとめページ

プログラミング R言語

データハンドリン関係のコマンド比較まとめページ pythonの勉強を進めるうちにRのコマンドと混同しそうになってきた。いつでも振り返りができるように、コマンドを比較しているページをまとめておく。 PythonとRのコマンド比較表 qiita.com dplyr使いのた…

2019-07-28

【R言語】doでグループごとに線形回帰

プログラミング R言語

統計検定準1級に無事合格したので、R,pythonの勉強を再開したいと思います。 doでグループごとに線形回帰もはや、doを使ったやり方は古いですが、念のためメモ ##doの使い方 #各グループから上位2行を取ってくる library(dplyr, warn.conflicts = FALSE) mt…

2019-07-27

【R言語】セルの中にある特定文字をカウントした列を追加する

R言語プログラミング

セルの中にある特定文字をカウントした列を追加するデータフレームの中に備考という列があるとする。その列の中にあるエラー1の数を買うん下列を追加する。 library(tidyverse) df %>% mutate(err_count=str_count(備考,"エラー1")) -> df_tuika

2019-05-12

【R言語】分散拡大要因のヒートマップ

R言語プログラミング

分散拡大要因のヒートマップメモです。 library(MASS) library(corrplot) data("Boston") cor_Boston <- cor(Boston) corrplot(cor_Boston,addCoef.col = TRUE) library(tidyr) library(ggplot2) library(tidyverse) #分散拡大要因 vif1<- Boston %>% dplyr…

2019-04-07

【R言語】plyrのrevalueをdplyrのrecodeで実現する

プログラミング R言語

plyrのrevalueをdplyrのrecodeで実現するリストを渡して特定の文字を置換したいとき、ここを参考にdplyr::recodeで実現した。 https://github.com/tidyverse/dplyr/issues/2505 データセットはBoston hounsingである。 all %>% replace_na(list(PoolQC = "…

2019-04-07

【R言語】欠損値を数えてグラフ化

プログラミング R言語

欠損値を数えてグラフ化するデータセットはBoston housingを使用する。（参考） https://www.kaggle.com/erikbruin/house-prices-lasso-xgboost-and-a-detailed-eda rm(list = ls()) library(tidyverse) library(data.table) library(scales) library(VIM)…

2019-03-27

【R言語】相関係数の上位のカラムのみを抜き出して散布図行列

プログラミング R言語

相関係数の高いカラムのみを抜き出して相関行列を作成する #####Boston housing rm(list = ls()) library(tidyverse) library(data.table) library(scales) library(VIM) library(corrr) library(corrplot) library(scales) path <- "C:/Users/************/…

2019-03-24

【R言語】主成分分析・コレスポンデンス分析結果をshinyで可視化　「FactoMineR」「explor」パッケージ

プログラミング R言語

コレスポンデンス分析結果をshinyで可視化「FactoMineR」「explor」パッケージコレスポンデンス分析の結果をインタラクティブに可視化するパッケージを見つけたのでメモします。正直かなり使える。 library(tidyverse) data(Titanic) df_titanic <- as_d…

2019-03-14

【R言語】データフレームから数値属性の列・カラム名を抜き出す

R言語プログラミング

データフレームから数値属性の列のみ抜き出す sapplyとis.numericを組み合わせて、数値属性の列を抜き出すコードをメモする。 #データフレーム df_Bostonから数値の列だけ抜き出す df_Boston_num <- df_Boston %>% select_if(is.numeric) #名前を抜き出す n…

2019-03-14

【R言語】caretでの独自評価指標(マシューズ相関係数MCCとF1）を利用した学習モデルの構築

プログラミング R言語

caretによる機械学習モデルの評価にマシューズ係数を採用するマシューズ相関係数とは機械学習の２値分類問題で、正と負の割合が不均衡の場合に用いられる評価指標である。製造業における不良解析でも工程中のデータは通常不均衡データであり、この指標を…

2019-03-10

【R言語】xgboostで分類

プログラミング R言語

xgboostで分類下のサイトを参考にしながらxgboostのパラメーターチューニングに取り組んだ。備忘録として残しておく。 www.marketechlabo.com logics-of-blue.com 使用したデータセットはコレ Default of Credit Card Clients Dataset | Kaggle library(ti…

2019-03-02

【R】kaggleにはじめて挑戦　Home CreditコンペでLightGBM

プログラミング R言語

kaggle初挑戦。とりあえずSubmitしてみた。機械学習エンジニアの世界ではkaggleというデータコンペティションが流行している。企業がkaggleにデータ分析に関する課題を提供し、参加者が主に予測精度などを競うサイトである。こういうのを見るとアメリカ…

2019-02-24

【R言語】連続データをファクター化するcut関数

プログラミング R言語

連続データをファクター化するcut関数データを離散化するときに使用したcut関数の使用法を記録する。 #cut関数（連続データの離散値化） #連続データを適当な区間(breaksで指定）で分割し、factor化 #その後数値データに戻す n3 <- cut(n,breaks = seq(0,50…

2019-02-23

【R言語】部分最小二乗法 plsパッケージ

プログラミング R言語

plsパッケージによる部分最小二乗法書籍「Rによる統計的学習入門」の防備メモとして記録しておく・部分最小二乗法(PLS:partial least squares)とは・PCRに代わる教師ありの手法・次元を削減する手法・元の特徴の線形結合によりM個の新たな特徴を作り、 …

2019-02-23

【R言語】ロジスティック回帰モデルをggplotでグラフ化する

プログラミング R言語

ロジスティック回帰モデルをggplotでグラフ化オライリーのggplot2解説書「Rグラフィックスクックブック」では ggplotのバージョンが古くて、書籍と同じグラフが書けなかった。早く更新されることを願う。 #ロジスティック回帰モデルのグラフを書く library…

2019-02-17

【R言語】クロス集計表の連関を確認するコレスポンデンス分析

プログラミング R言語

コレスポンデンス分析 Rによる多変量解析入門データ分析の実践と理論 | Ohmsha 多変量解析の理論と実践のバランスが良い。解析結果のレポートのテンプレートがあり、まさに実務者向けの本である。 #13章のサンプル「自転車データ2.csv」の読み込み b2dat …

2019-02-10

【R言語】綺麗な散布図行列　GGallyパッケージ

プログラミング R言語

きれいな散布図行列を書く statmodeling.hatenablog.com mikutaifuku.hatenablog.com エレガントな散布図行列を書くコードを見つけた。 Bostonデータセットのサイズでは問題ないが、データ量が多いとかなり重い処理となる。サンプリングする必要があるだろ…

2019-02-10

【R言語】x-means法でクラスタリング

プログラミング R言語

x-means法でクラスタリング k-means法はクラスター数を指定する必要がある。クラスター数を指定しないx-means法を下記を参考（マルパクリ）に試してみた。 aaaazzzz036.hatenablog.com #http://aaaazzzz036.hatenablog.com/entry/2013/11/27/210355 #s-kmea…

2019-02-10

【R言語】t-sneで次元削減 -Rtsneパッケージ-→DBSCANクラスタリング

プログラミング R言語

t-sneで次元削減 -Rtsneパッケージ- 大量の不良画像データをモード分けしたいことが多い。いきなりkmeans法でクラスタリングしてもよいが、 tsneで2次元に落とし込んみ可視化すると、意外な関係性が読み取れて面白かったのでメモする。 t-sneとは？ tsneと…

2019-02-06

【R言語】クラスタリングで不良品画像を自動でグルーピング

プログラミング R言語

画像データをクラスタリングで自動でグルーピングカラー画像のデータ以下の図のような構成となっている。簡単に言うと座標それぞれに対して、RGBの輝度データが入力されている。画像データの構造・画素・RAWデータについて解説 | だえうホームページ rgb …

2019-02-04

【R言語】k分割交差検証

プログラミング R言語

k分割交差検証 Rによる統計学習入門 5章リサンプリング法に出ていた交差検証について再確認する。データセットをk個に分割して、残りの(k-1)個を検証にする手法である。 LOOCVより計算量が減るだけでなく、テスト誤差をより高い精度で推定できる。（バイ…

2019-02-03

【R言語】ランダムフォレストrangerパッケージ　変数の重要度を可視化

プログラミング R言語

rangerパッケージにおける変数重要度の可視化 kefism.hatenablog.com こちらの関数がうまく動かなかったため改造して、関数を作成した。 library(tidyverse) library(ranger) # random sampling df <- diamonds str(df) n <- nrow(df) s <- sample(n, n * 0.…

とある技術者の徒然草

生産技術者の適当な日記（統計言語Rに関するメモがメイン）

プログラミング

【R言語】Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する

【R言語】ファイル名を一括して読みこみ、ファイル名の一部列として残す

【R言語】特定の型の列を選択

【R言語】Borutaによる変数選択（ランダムフォレスト）

【R言語】ggplotグラフを複数表示

【R言語】dplyrなどデータ整形メモ(NAが一定割合以下の列を抽出など)

【R言語】決定木分析の可視化パッケージ決定版？【ggparty】

【python】コルモゴロフ-スミルノフ検定を実施し、カテゴリ別で分布に差がある変数を探す

【R / Python】データハンドリン関係のコマンド比較まとめページ

【R言語】doでグループごとに線形回帰

【R言語】セルの中にある特定文字をカウントした列を追加する

【R言語】分散拡大要因のヒートマップ

【R言語】plyrのrevalueをdplyrのrecodeで実現する

【R言語】欠損値を数えてグラフ化

【R言語】相関係数の上位のカラムのみを抜き出して散布図行列

【R言語】主成分分析・コレスポンデンス分析結果をshinyで可視化　「FactoMineR」「explor」パッケージ

【R言語】データフレームから数値属性の列・カラム名を抜き出す

【R言語】caretでの独自評価指標(マシューズ相関係数MCCとF1）を利用した学習モデルの構築

【R言語】xgboostで分類

【R】kaggleにはじめて挑戦　Home CreditコンペでLightGBM

【R言語】連続データをファクター化するcut関数

【R言語】部分最小二乗法 plsパッケージ

【R言語】ロジスティック回帰モデルをggplotでグラフ化する

【R言語】クロス集計表の連関を確認するコレスポンデンス分析

【R言語】綺麗な散布図行列　GGallyパッケージ

【R言語】x-means法でクラスタリング

【R言語】t-sneで次元削減 -Rtsneパッケージ-→DBSCANクラスタリング

【R言語】クラスタリングで不良品画像を自動でグルーピング

【R言語】k分割交差検証

【R言語】ランダムフォレストrangerパッケージ　変数の重要度を可視化