とある技術者の徒然草

生産技術者の適当な日記(統計言語Rに関するメモがメイン)

【R言語】Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する

Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する

デフォルトのグラフよりきれいなグラフが描けるggplotで 変数重要度を可視化する。

library(Boruta)
library(rFerns)
library(tidyverse)
library(plotly)

#mlbenchのSonarで試す
library(mlbench); data(Sonar)

Boruta(Class~.,data=Sonar,doTrace=2,getImp=getImpFerns)->Bor.son

#Imp値の箱ひげ図をggplotで描写する

#Imp値の取得
df_pboruta <- as.data.frame(Bor.son$ImpHistory)

#グラフを書きやすくするため縦長にする。gatherではなくて最新のpivot_longerを使う
df_pboruta %>% 
  tidyr::pivot_longer(col = everything(),
                      names_to = "retumei",
                      values_to = "Imp") -> df_pboruta_long

[f:id:M_taka072:20200224124925j:plain]<figure class="figure-image figure-image-fotolife" title="imp_boxplot">[f:id:M_taka072:20200224124925j:plain]<figcaption>imp_boxplot</figcaption></figure>
#最終的な有効性で色分けするためBor.son$finalDecisionからデータを取得
df_final <- as.data.frame(Bor.son$finalDecision)
df_final2 <- as.data.frame(df_final)
df_final2 %>% 
  rownames_to_column("retumei") %>% 
  rename("FD" = "Bor.son$finalDecision")-> df_final3

#df_final3をジョインさせる
df_pboruta_long %>% 
  left_join(df_final3,key="retumei") -> df_pboruta_long2

#グラフを書く
df_pboruta_long2 %>% 
  ggplot(aes(x= reorder(x = retumei, X = Imp, FUN = median),y=Imp,fill=FD))+
  geom_boxplot()+
  theme_bw()+
  theme(axis.text.x = element_text(angle = 90, hjust = 1)) ->g1

ggplotly(g1)



こんな感じです。

f:id:M_taka072:20200224124925j:plain
imp_boxplot

【R言語】ファイル名を一括して読みこみ、ファイル名の一部列として残す

ファイル名を一括して読みこみ、ファイル名の一部列として残す



フォルダに保管されている大量のファイルを一括して読みこむときに、
ファイル名の一部(例えば3-4桁の機械番号)を列として残したい時のコードです。

# Tでファイル名にディレクトリ追加
List <- list.files(path = "C:/Users/" , full.names = T)

flist <- list()

#Listのファイル数だけ読み込む
#ファイル名の一部から3-4桁のmachinenumberを抜き取りして列に追加する
for (i in 1:length(List)){
  machinenum <- str_extract(List[i],"machine(\\d{3,4}-\\d)|machine\\d{3,4}")#正規表現でmachinenumを抜き出す
  add <- fread(List[i],na.strings = "") #空白はNAとする
  add$machinenum <- machinenum
  flist <- c(flist,list(add))
}

#全リストを結合、列名を一致させる、一致しないものはNA
data_bind <- rbindlist(flist,use.names = TRUE, fill = TRUE)




読み込んだファイルのNAを0で置換して、
数値を切り上げるときは以下のコードで実行します。

df %>% 
  mutate_all(funs(ifelse(is.na(.),0,.))) %>%  #naを0に置換
  mutate_if(is.numeric, round, digits=0) ->df2 #roundで切り上げ