Faktor dalam R: Pembolehubah Kategorik & Pemboleh ubah Berterusan

Isi kandungan:

Anonim

Apakah Faktor dalam R?

Faktor dalam R adalah pemboleh ubah yang digunakan untuk mengkategorikan dan menyimpan data, dengan jumlah nilai yang berbeza. Ia menyimpan data sebagai vektor nilai integer. Faktor dalam R juga dikenali sebagai pemboleh ubah kategori yang menyimpan kedua-dua rentetan dan nilai data integer sebagai tahap. Faktor kebanyakannya digunakan dalam Pemodelan Statistik dan analisis data penerokaan dengan R.

Dalam set data, kita dapat membezakan dua jenis pemboleh ubah: kategori dan selanjar .

  • Dalam statistik deskriptif untuk pemboleh ubah kategori dalam R, nilainya terhad dan biasanya berdasarkan kumpulan terhingga tertentu. Sebagai contoh, pemboleh ubah kategori dalam R boleh menjadi negara, tahun, jantina, pekerjaan.
  • Pemboleh ubah berterusan, bagaimanapun, dapat mengambil nilai apa pun, dari bilangan bulat hingga perpuluhan. Contohnya, kita dapat hasil, harga saham, dll ...

Pemboleh ubah kategori

Pemboleh ubah kategori dalam R disimpan menjadi faktor. Mari kita periksa kod di bawah untuk menukar pemboleh ubah watak menjadi pemboleh ubah faktor dalam R. Karakter tidak disokong dalam algoritma pembelajaran mesin, dan satu-satunya cara ialah menukar rentetan menjadi bilangan bulat.

Sintaks

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Hujah:

  • x : Vektor data kategorik dalam R. Perlu berupa rentetan atau integer, bukan perpuluhan.
  • Tahap : Vektor nilai yang mungkin diambil oleh x. Hujah ini adalah pilihan. Nilai lalai adalah senarai unik item vektor x.
  • Label : Tambahkan label pada data kategori x di R. Contohnya, 1 boleh mengambil label `male` sementara 0, label` perempuan`.
  • diperintahkan : Tentukan sama ada tahap-tahap harus disusun dalam data kategori di R.

Contoh:

Mari buat kerangka data faktor.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Pengeluaran:

## [1] "character"## [1] "factor"

Penting untuk mengubah rentetan menjadi pemboleh ubah faktor dalam R ketika kita menjalankan tugas Pembelajaran Mesin.

Pemboleh ubah kategori dalam R boleh dibahagikan kepada pemboleh ubah kategori nominal dan pemboleh ubah kategori ordinal .

Pembolehubah Kategorik Nominal

Pemboleh ubah kategori mempunyai beberapa nilai tetapi susunannya tidak penting. Contohnya, lelaki atau perempuan. Pemboleh ubah kategori dalam R tidak mempunyai susunan.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Pengeluaran:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Dari factor_color, kami tidak dapat memberitahu pesanan.

Pembolehubah Kategorikal Biasa

Pemboleh ubah kategori biasa mempunyai susunan semula jadi. Kita dapat menentukan pesanan, dari yang terendah hingga yang tertinggi dengan pesanan = BENAR dan tertinggi ke yang paling rendah dengan pesanan = SALAH.

Contoh:

Kita boleh menggunakan ringkasan untuk mengira nilai bagi setiap pemboleh ubah faktor dalam R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Pengeluaran:

## [1] evening morning afternoon middaymidnight evening 

Contoh:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Pengeluaran:

## morning midday afternoon evening midnight## 1 1 1 2 1

R memerintahkan tahap dari 'pagi' hingga 'tengah malam' seperti yang ditentukan dalam kurungan tahap.

Pemboleh ubah Berterusan

Pemboleh ubah kelas berterusan adalah nilai lalai dalam R. Mereka disimpan sebagai angka atau integer. Kita dapat melihatnya dari set data di bawah. mtcars adalah set data terbina dalam. Ia mengumpulkan maklumat mengenai pelbagai jenis kereta. Kita boleh mengimportnya dengan menggunakan mtcars dan memeriksa kelas pemboleh ubah mpg, batu per galon. Ia mengembalikan nilai berangka, menunjukkan pemboleh ubah berterusan.

dataset <- mtcarsclass(dataset$mpg)

Pengeluaran

## [1] "numeric"