【R言語】Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する
Borutaによるランダムフォレストの変数重要度をggplotの箱ひげ図でグラフ化する
デフォルトのグラフよりきれいなグラフが描けるggplotで 変数重要度を可視化する。
library(Boruta) library(rFerns) library(tidyverse) library(plotly) #mlbenchのSonarで試す library(mlbench); data(Sonar) Boruta(Class~.,data=Sonar,doTrace=2,getImp=getImpFerns)->Bor.son #Imp値の箱ひげ図をggplotで描写する #Imp値の取得 df_pboruta <- as.data.frame(Bor.son$ImpHistory) #グラフを書きやすくするため縦長にする。gatherではなくて最新のpivot_longerを使う df_pboruta %>% tidyr::pivot_longer(col = everything(), names_to = "retumei", values_to = "Imp") -> df_pboruta_long [f:id:M_taka072:20200224124925j:plain]<figure class="figure-image figure-image-fotolife" title="imp_boxplot">[f:id:M_taka072:20200224124925j:plain]<figcaption>imp_boxplot</figcaption></figure> #最終的な有効性で色分けするためBor.son$finalDecisionからデータを取得 df_final <- as.data.frame(Bor.son$finalDecision) df_final2 <- as.data.frame(df_final) df_final2 %>% rownames_to_column("retumei") %>% rename("FD" = "Bor.son$finalDecision")-> df_final3 #df_final3をジョインさせる df_pboruta_long %>% left_join(df_final3,key="retumei") -> df_pboruta_long2 #グラフを書く df_pboruta_long2 %>% ggplot(aes(x= reorder(x = retumei, X = Imp, FUN = median),y=Imp,fill=FD))+ geom_boxplot()+ theme_bw()+ theme(axis.text.x = element_text(angle = 90, hjust = 1)) ->g1 ggplotly(g1)
こんな感じです。
【R言語】ファイル名を一括して読みこみ、ファイル名の一部列として残す
ファイル名を一括して読みこみ、ファイル名の一部列として残す
フォルダに保管されている大量のファイルを一括して読みこむときに、
ファイル名の一部(例えば3-4桁の機械番号)を列として残したい時のコードです。
# Tでファイル名にディレクトリ追加 List <- list.files(path = "C:/Users/" , full.names = T) flist <- list() #Listのファイル数だけ読み込む #ファイル名の一部から3-4桁のmachinenumberを抜き取りして列に追加する for (i in 1:length(List)){ machinenum <- str_extract(List[i],"machine(\\d{3,4}-\\d)|machine\\d{3,4}")#正規表現でmachinenumを抜き出す add <- fread(List[i],na.strings = "") #空白はNAとする add$machinenum <- machinenum flist <- c(flist,list(add)) } #全リストを結合、列名を一致させる、一致しないものはNA data_bind <- rbindlist(flist,use.names = TRUE, fill = TRUE)
読み込んだファイルのNAを0で置換して、
数値を切り上げるときは以下のコードで実行します。
df %>% mutate_all(funs(ifelse(is.na(.),0,.))) %>% #naを0に置換 mutate_if(is.numeric, round, digits=0) ->df2 #roundで切り上げ