以下的語法都是參考 「輕鬆學習R語言 從基礎到應用,掌握資料科學的關鍵能力」 這本書所作的筆記
iris
是R內建的dataset
nrow(iris) #顯示有幾個觀測值
ncol(iris) #顯示有幾個變數
dim(iris) #顯示有幾個觀測值幾個變數
head(iris)#列出前六個觀測值
tail(iris)#列出後六個觀測值
names(iris)#列出變數名稱
summary(iris)#印出每個變數的描述性統計
str(iris) #顯示資料結構
- 探索數值與日期(時間)的關係
x<- seq(from= as.Date(2018-07-01), to= as.Date(2018-07-31), by =1) #建立31天 set.seed(1) #解釋https://blog.csdn.net/vencent_cy/article/details/50350020 ()為編號,用意為每次隨機抽樣都相等 y<- sample(1:100, size = 31, replace = T) #隨機從100抽31個數值(可重複) plot(x,y, type = l) #type=l表示以線條繪製
- 探索兩變數關係
plot(cars$speed, cars$dist) plot(iris)
- 探索類別:建立一個dataset紀錄100個人最喜歡的冰淇淋口味
icecream_favor<- rep(NA, times= 100) #先建立重複100個missing value的vector
for (i in 1:100){
icecream_favor[i]<- sample(c(vanilla,chocolate, mango, strawberry), size=1)
} #以迴圈隨機填入喜愛口味
icecream_favor
table(icecream_favor) #整理每個口味各有多少個
繪製長條圖探索類別分布
barplot(table(icecream_favor), horiz = T,las=1,cex.names = 0.7,cex.axis = 1.2) #調整為水平方向(horiz = T),文字與坐標軸垂直(las=1),調整Y軸刻度文字大小(cex.names = 0.5),調整X軸文字大小(cex.axis = 1.2)
繪畫函數
curve(cos, from = -pi, to= pi) curve(sin, from = -pi, to= pi) curve(tan, from = -pi, to= pi)
自訂函數並繪製出來
my_curve<- function(x){
return(x^3)
}
curve(my_curve, from = -3, to= 3)
grid()#加上格線
- 在直方圖上加密度曲線
myrnorm<- rnorm(1200) hist(myrnorm, freq = F) #freq =F 不以頻率表示改成密度 lines(density(myrnorm))#加上密度曲線