【R言語】mutateの中で動的変数を使用

【R言語】mutateの中で動的変数を使用役に立った知識のメモです。 iris2 <- iris for (n in 1:3) { column_name = paste('column',n, sep = "") iris2 = iris2 %>% mutate(!!column_name := n) } head(iris2) ・参考 knknkn.hatenablog.com

2020-03-14

【R言語】broomパッケージで複数モデルで線形回帰し、係数を可視化

【R言語】broomパッケージで複数モデルで線形回帰し、係数を可視化線形回帰を効率的に回せます。係数をggplotで可視化 library(tidyverse) library(tidymodels) df <- diamonds df_input <- df %>% mutate_if(is.ordered, factor, ordered = FALSE) formul…

2020-02-24

【R言語】Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する

プログラミング R言語

Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化するデフォルトのグラフよりきれいなグラフが描けるggplotで変数重要度を可視化する。 library(Boruta) library(rFerns) library(tidyverse) library(plotly) #mlbenchのSonarで試…

2020-02-24

【R言語】ファイル名を一括して読みこみ、ファイル名の一部列として残す

プログラミング R言語

ファイル名を一括して読みこみ、ファイル名の一部列として残すフォルダに保管されている大量のファイルを一括して読みこむときに、ファイル名の一部（例えば3-4桁の機械番号）を列として残したい時のコードです。 # Tでファイル名にディレクトリ追加 List …

2020-02-22

【R言語】特定の型の列を選択

プログラミング R言語

【R言語】特定の型の列を選択仕事用のメモです library(tidyverse) dftest <- starwars #数値型の列を選択 numericVars <- which(sapply(dftest, is.numeric)) numericVarNames <- names(numericVars) #文字型の列を選択 numericVars2 <- which(sapply(dfte…

2020-02-22

【R言語】Borutaによる変数選択（ランダムフォレスト）

プログラミング R言語

Borutaによる変数選択データセットの中からある指標に基づいて、重要変数を選択するアルゴリズムがいくつかある。私が使っているRのソフトに Exploratory Desktop というソフトが大変便利で個人的に使用しています。 ExploratoryにはBorutaという変数選択…

2020-02-12

【R言語】forで回して、do.call("grid.arrange")で複数グラフを表示、その後画像を保存。

R言語

forで回して、do.call("grid.arrange")で複数グラフを表示、その後画像を保存。複数グラフの保存は以前と同じようにリストにggplotオブジェクトをぶち込む。 do.callをそのまま変数に入れてggsaveで保存。 plots <- list() #リストを用意する i <- 1 df_ir…

2020-02-09

【R言語】エクセルデータ読み込み時のカラム型の指定

R言語

エクセルデータ読み込み時のカラム型の指定エクセルデータ読み込み時に型を指定するときのテクニック repを繰り返せば楽だが、列数が変わった時に対応できるような指定方法はないか？データ:「マクロ経済学新版（有斐閣）」齋藤,岩本,太田,柴田著（2016…

2019-10-27

【R言語】ggplotグラフを複数表示

R言語プログラミング

ggplotグラフを複数表示リストにグラフを繰り返し代入してまとめて表示するやり方のメモ。 library(dplyr) library(gridExtra) #sdf <- sample_frac(multi.regression.compounds,size = 0.05) #pairs(sdf) #sdfは1列目が目的関数 "preprocessed.y varname <…

2019-08-17

【R言語】dplyrなどデータ整形メモ(NAが一定割合以下の列を抽出など)

プログラミング R言語

データ整形に関する関数のメモ仕事で使用した関数のメモです。・NAが一定割合以下の列を抽出 tmp <- df %>% summarise_all( . %>% is.na() %>% sum) %>% #列ごとのNAの総数を集計する gather() %>% #縦持ちに変換 filter( value < nrow(df) *.3 ) #NAが30%…

2019-08-04

【R言語】決定木分析の可視化パッケージ決定版？【ggparty】

プログラミング R言語

決定木分析結果の可視化パッケージ【ggparty】 Rの決定木のグラフはどうしても貧弱なのが欠点でした。その欠点を覆すべく、ggplotを使った自由度の高いパッケージggparty ができたみたいです。詳細はこちら。 github.com library(rpart) library(partykit)…

2019-08-04

【python】コルモゴロフ-スミルノフ検定を実施し、カテゴリ別で分布に差がある変数を探す

Python プログラミング

コルモゴロフ-スミルノフ検定を実施し、生存、死亡の差がある分布を探す kaggleのブログで見つけたコルモゴロフ-スミルノフ検定の使用例を勉強するためにメモしておきます。良品・不良品間でどの変数が分布に差があるか検討するときに使えそう。 #コルモゴ…

2019-08-04

【R / Python】データハンドリン関係のコマンド比較まとめページ

プログラミング R言語

データハンドリン関係のコマンド比較まとめページ pythonの勉強を進めるうちにRのコマンドと混同しそうになってきた。いつでも振り返りができるように、コマンドを比較しているページをまとめておく。 PythonとRのコマンド比較表 qiita.com dplyr使いのた…

2019-07-28

【R言語】doでグループごとに線形回帰

プログラミング R言語

統計検定準1級に無事合格したので、R,pythonの勉強を再開したいと思います。 doでグループごとに線形回帰もはや、doを使ったやり方は古いですが、念のためメモ ##doの使い方 #各グループから上位2行を取ってくる library(dplyr, warn.conflicts = FALSE) mt…

2019-07-27

【R言語】セルの中にある特定文字をカウントした列を追加する

R言語プログラミング

セルの中にある特定文字をカウントした列を追加するデータフレームの中に備考という列があるとする。その列の中にあるエラー1の数を買うん下列を追加する。 library(tidyverse) df %>% mutate(err_count=str_count(備考,"エラー1")) -> df_tuika

2019-05-12

【R言語】分散拡大要因のヒートマップ

R言語プログラミング

分散拡大要因のヒートマップメモです。 library(MASS) library(corrplot) data("Boston") cor_Boston <- cor(Boston) corrplot(cor_Boston,addCoef.col = TRUE) library(tidyr) library(ggplot2) library(tidyverse) #分散拡大要因 vif1<- Boston %>% dplyr…

2019-04-07

【R言語】plyrのrevalueをdplyrのrecodeで実現する

プログラミング R言語

plyrのrevalueをdplyrのrecodeで実現するリストを渡して特定の文字を置換したいとき、ここを参考にdplyr::recodeで実現した。 https://github.com/tidyverse/dplyr/issues/2505 データセットはBoston hounsingである。 all %>% replace_na(list(PoolQC = "…

2019-04-07

【R言語】欠損値を数えてグラフ化

プログラミング R言語

欠損値を数えてグラフ化するデータセットはBoston housingを使用する。（参考） https://www.kaggle.com/erikbruin/house-prices-lasso-xgboost-and-a-detailed-eda rm(list = ls()) library(tidyverse) library(data.table) library(scales) library(VIM)…

2019-03-27

【R言語】相関係数の上位のカラムのみを抜き出して散布図行列

プログラミング R言語

相関係数の高いカラムのみを抜き出して相関行列を作成する #####Boston housing rm(list = ls()) library(tidyverse) library(data.table) library(scales) library(VIM) library(corrr) library(corrplot) library(scales) path <- "C:/Users/************/…

2019-03-24

【R言語】主成分分析・コレスポンデンス分析結果をshinyで可視化　「FactoMineR」「explor」パッケージ

プログラミング R言語

コレスポンデンス分析結果をshinyで可視化「FactoMineR」「explor」パッケージコレスポンデンス分析の結果をインタラクティブに可視化するパッケージを見つけたのでメモします。正直かなり使える。 library(tidyverse) data(Titanic) df_titanic <- as_d…

2019-03-14

【R言語】データフレームから数値属性の列・カラム名を抜き出す

R言語プログラミング

データフレームから数値属性の列のみ抜き出す sapplyとis.numericを組み合わせて、数値属性の列を抜き出すコードをメモする。 #データフレーム df_Bostonから数値の列だけ抜き出す df_Boston_num <- df_Boston %>% select_if(is.numeric) #名前を抜き出す n…

2019-03-14

【R言語】caretでの独自評価指標(マシューズ相関係数MCCとF1）を利用した学習モデルの構築

プログラミング R言語

caretによる機械学習モデルの評価にマシューズ係数を採用するマシューズ相関係数とは機械学習の２値分類問題で、正と負の割合が不均衡の場合に用いられる評価指標である。製造業における不良解析でも工程中のデータは通常不均衡データであり、この指標を…

2019-03-10

【R言語】xgboostで分類

プログラミング R言語

xgboostで分類下のサイトを参考にしながらxgboostのパラメーターチューニングに取り組んだ。備忘録として残しておく。 www.marketechlabo.com logics-of-blue.com 使用したデータセットはコレ Default of Credit Card Clients Dataset | Kaggle library(ti…

2019-03-02

【R】kaggleにはじめて挑戦　Home CreditコンペでLightGBM

プログラミング R言語

kaggle初挑戦。とりあえずSubmitしてみた。機械学習エンジニアの世界ではkaggleというデータコンペティションが流行している。企業がkaggleにデータ分析に関する課題を提供し、参加者が主に予測精度などを競うサイトである。こういうのを見るとアメリカ…

2019-02-24

【R言語】連続データをファクター化するcut関数

プログラミング R言語

連続データをファクター化するcut関数データを離散化するときに使用したcut関数の使用法を記録する。 #cut関数（連続データの離散値化） #連続データを適当な区間(breaksで指定）で分割し、factor化 #その後数値データに戻す n3 <- cut(n,breaks = seq(0,50…

2019-02-23

【R言語】部分最小二乗法 plsパッケージ

プログラミング R言語

plsパッケージによる部分最小二乗法書籍「Rによる統計的学習入門」の防備メモとして記録しておく・部分最小二乗法(PLS:partial least squares)とは・PCRに代わる教師ありの手法・次元を削減する手法・元の特徴の線形結合によりM個の新たな特徴を作り、 …

2019-02-23

【R言語】ロジスティック回帰モデルをggplotでグラフ化する

プログラミング R言語

ロジスティック回帰モデルをggplotでグラフ化オライリーのggplot2解説書「Rグラフィックスクックブック」では ggplotのバージョンが古くて、書籍と同じグラフが書けなかった。早く更新されることを願う。 #ロジスティック回帰モデルのグラフを書く library…

2019-02-17

【R言語】クロス集計表の連関を確認するコレスポンデンス分析

プログラミング R言語

コレスポンデンス分析 Rによる多変量解析入門データ分析の実践と理論 | Ohmsha 多変量解析の理論と実践のバランスが良い。解析結果のレポートのテンプレートがあり、まさに実務者向けの本である。 #13章のサンプル「自転車データ2.csv」の読み込み b2dat …

2019-02-11

生産管理における生産統制

生産管理

生産統制の用語をうまく説明できなかったので、ググったりして頭を整理していた。参考になったブログをメモしておく。 brevis.exblog.jp 生産管理と工程管理【実務における工程管理：第１章】 | Kaizen Base カイゼンベース生産統制の3つのポイントである…

2019-02-10

【R言語】綺麗な散布図行列　GGallyパッケージ

プログラミング R言語

きれいな散布図行列を書く statmodeling.hatenablog.com mikutaifuku.hatenablog.com エレガントな散布図行列を書くコードを見つけた。 Bostonデータセットのサイズでは問題ないが、データ量が多いとかなり重い処理となる。サンプリングする必要があるだろ…

とある技術者の徒然草

生産技術者の適当な日記（統計言語Rに関するメモがメイン）

【R言語】mutateの中で動的変数を使用

【R言語】broomパッケージで複数モデルで線形回帰し、係数を可視化

【R言語】Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する

【R言語】ファイル名を一括して読みこみ、ファイル名の一部列として残す

【R言語】特定の型の列を選択

【R言語】Borutaによる変数選択（ランダムフォレスト）

【R言語】forで回して、do.call("grid.arrange")で複数グラフを表示、その後画像を保存。

【R言語】エクセルデータ読み込み時のカラム型の指定

【R言語】ggplotグラフを複数表示

【R言語】dplyrなどデータ整形メモ(NAが一定割合以下の列を抽出など)

【R言語】決定木分析の可視化パッケージ決定版？【ggparty】

【python】コルモゴロフ-スミルノフ検定を実施し、カテゴリ別で分布に差がある変数を探す

【R / Python】データハンドリン関係のコマンド比較まとめページ

【R言語】doでグループごとに線形回帰

【R言語】セルの中にある特定文字をカウントした列を追加する

【R言語】分散拡大要因のヒートマップ

【R言語】plyrのrevalueをdplyrのrecodeで実現する

【R言語】欠損値を数えてグラフ化

【R言語】相関係数の上位のカラムのみを抜き出して散布図行列

【R言語】主成分分析・コレスポンデンス分析結果をshinyで可視化　「FactoMineR」「explor」パッケージ

【R言語】データフレームから数値属性の列・カラム名を抜き出す

【R言語】caretでの独自評価指標(マシューズ相関係数MCCとF1）を利用した学習モデルの構築

【R言語】xgboostで分類

【R】kaggleにはじめて挑戦　Home CreditコンペでLightGBM

【R言語】連続データをファクター化するcut関数

【R言語】部分最小二乗法 plsパッケージ

【R言語】ロジスティック回帰モデルをggplotでグラフ化する

【R言語】クロス集計表の連関を確認するコレスポンデンス分析

生産管理における生産統制

【R言語】綺麗な散布図行列　GGallyパッケージ