Apakah Perisian R?
R adalah bahasa pengaturcaraan dan perisian percuma yang dikembangkan oleh Ross Ihaka dan Robert Gentleman pada tahun 1993. R memiliki katalog kaedah statistik dan grafik yang luas. Ia merangkumi algoritma pembelajaran mesin, regresi linear, siri masa, inferensi statistik untuk menamakan beberapa. Sebilangan besar perpustakaan R ditulis dalam R, tetapi untuk tugas pengiraan yang berat, kod C, C ++ dan Fortran lebih disukai.
R bukan sahaja diberi kepercayaan oleh akademik, tetapi banyak syarikat besar juga menggunakan bahasa pengaturcaraan R, termasuk Uber, Google, Airbnb, Facebook dan sebagainya.
Analisis data dengan R dilakukan dalam beberapa langkah; pengaturcaraan, transformasi, penemuan, pemodelan dan menyampaikan hasilnya
- Program : R adalah alat pengaturcaraan yang jelas dan mudah diakses
- Transform : R terdiri dari koleksi perpustakaan yang direka khusus untuk sains data
- Discover : Selidiki data, perbetulkan hipotesis anda dan analisisnya
- Model : R menyediakan pelbagai jenis alat untuk menangkap model yang tepat untuk data anda
- Berkomunikasi : Mengintegrasikan kod, grafik, dan output ke laporan dengan R Markdown atau membina aplikasi Berkilau untuk dikongsi dengan dunia
Dalam tutorial pengenalan ini anda akan mempelajari R
- Untuk apa R digunakan?
- R mengikut Industri
- Pakej R
- Berkomunikasi dengan R
- Mengapa menggunakan R?
- Sekiranya anda memilih R?
- Adakah R sukar?
Untuk apa R digunakan?
- Inferens statistik
- Analisis data
- Algoritma pembelajaran mesin
R mengikut Industri
Sekiranya kita menghentikan penggunaan R oleh industri, kita melihat bahawa ahli akademik mendahului. R adalah bahasa untuk melakukan statistik. R adalah pilihan pertama dalam industri penjagaan kesihatan, diikuti oleh pemerintah dan perundingan.
Pakej R
Kegunaan utama R adalah dan akan selalu, statistik, visualisasi, dan pembelajaran mesin. Gambar di bawah menunjukkan pakej R mana yang paling banyak mendapat soalan dalam Stack Overflow. Dalam 10 teratas, kebanyakannya berkaitan dengan aliran kerja seorang saintis data: penyediaan data dan menyampaikan hasilnya.
Semua perpustakaan R, hampir 12k, disimpan dalam CRAN. CRAN adalah sumber percuma dan terbuka. Anda boleh memuat turun dan menggunakan banyak perpustakaan untuk melakukan Pembelajaran Mesin atau analisis siri masa.
Berkomunikasi dengan R
R mempunyai pelbagai cara untuk mempersembahkan dan berkongsi karya, baik melalui dokumen penurunan harga atau aplikasi yang berkilat. Semuanya boleh dihoskan dalam Rpub, GitHub atau laman web perniagaan.
Berikut adalah contoh persembahan yang dihoskan di Rpub
Rstudio menerima penurunan harga untuk menulis dokumen. Anda boleh mengeksport dokumen dalam format yang berbeza:
- Dokumen:
- HTML
- PDF / Lateks
- Perkataan
- Pembentangan
- HTML
- Pemain PDF
Rstudio mempunyai alat yang hebat untuk membuat Aplikasi dengan mudah. Berikut adalah contoh aplikasi dengan data Bank Dunia.
Mengapa menggunakan R?
Sains data membentuk cara syarikat menjalankan perniagaan mereka. Tanpa keraguan, menjauhkan diri dari Kecerdasan Buatan dan Mesin akan menyebabkan syarikat gagal. Soalan besar ialah alat / bahasa mana yang harus anda gunakan?
Mereka banyak alat yang tersedia di pasaran untuk melakukan analisis data. Belajar bahasa baru memerlukan pelaburan masa. Gambar di bawah menggambarkan keluk pembelajaran berbanding dengan kemampuan perniagaan yang ditawarkan oleh bahasa. Hubungan negatif menunjukkan bahawa tidak ada makan tengah hari percuma. Sekiranya anda ingin memberikan pandangan terbaik dari data, maka anda perlu meluangkan masa untuk mempelajari alat yang sesuai, iaitu R.
Di kiri atas grafik, anda dapat melihat Excel dan PowerBI. Kedua-dua alat ini mudah dipelajari tetapi tidak menawarkan kemampuan perniagaan yang luar biasa, terutama dari segi pemodelan. Di tengah, anda dapat melihat Python dan SAS. SAS adalah alat khusus untuk menjalankan analisis statistik untuk perniagaan, tetapi tidak percuma. SAS adalah perisian klik dan jalankan. Python, bagaimanapun, adalah bahasa dengan keluk pembelajaran yang monoton. Python adalah alat yang hebat untuk menggunakan Pembelajaran Mesin dan AI tetapi tidak mempunyai ciri komunikasi. Dengan kurva pembelajaran yang sama, R adalah pertukaran yang baik antara pelaksanaan dan analisis data.
Ketika melihat visualisasi data (DataViz), anda mungkin pernah mendengar tentang Tableau. Tableau adalah, tanpa keraguan, alat yang hebat untuk mencari corak melalui grafik dan carta. Selain itu, belajar Tableau tidak memakan masa. Satu masalah besar dengan visualisasi data ialah anda mungkin tidak akan menemui corak atau membuat banyak carta yang tidak berguna. Tableau adalah alat yang baik untuk visualisasi data cepat atau Business Intelligence. Apabila berkaitan dengan statistik dan alat membuat keputusan, R lebih sesuai.
Stack Overflow adalah komuniti besar untuk bahasa pengaturcaraan. Sekiranya anda mempunyai masalah pengekodan atau perlu memahami model, Stack Overflow sedia membantu. Sepanjang tahun ini, peratusan paparan soalan meningkat tajam untuk R berbanding bahasa lain. Kecenderungan ini tentunya sangat berkorelasi dengan usia sains data yang berkembang pesat tetapi, ia mencerminkan permintaan bahasa R untuk sains data.
Dalam sains data, terdapat dua alat yang saling bersaing. R dan Python mungkin merupakan bahasa pengaturcaraan yang menentukan sains data.
Sekiranya anda memilih R?
Saintis data boleh menggunakan dua alat yang sangat baik: R dan Python. Anda mungkin tidak mempunyai masa untuk mempelajari keduanya, terutamanya jika anda mula belajar sains data. Pembelajaran pemodelan statistik dan algoritmajauh lebih penting daripada belajar bahasa pengaturcaraan. Bahasa pengaturcaraan adalah alat untuk mengira dan menyampaikan penemuan anda. Tugas yang paling penting dalam sains data adalah cara anda menangani data: import, clean, prep, engineering engineering, pemilihan ciri. Ini harus menjadi fokus utama anda. Sekiranya anda cuba mempelajari R dan Python pada masa yang sama tanpa latar belakang statistik yang kukuh, bodohnya. Saintis data bukan pengaturcara. Tugas mereka adalah memahami data, memanipulasinya dan mendedahkan pendekatan terbaik. Sekiranya anda memikirkan bahasa mana yang harus dipelajari, mari lihat bahasa mana yang paling sesuai untuk anda.
Penonton utama sains data adalah profesional perniagaan. Dalam perniagaan, satu implikasi besar adalah komunikasi. Terdapat banyak cara untuk berkomunikasi: laporan, aplikasi web, papan pemuka. Anda memerlukan alat yang melakukan semua ini bersama-sama.
Adakah R sukar?
Bertahun-tahun yang lalu, R adalah bahasa yang sukar untuk dikuasai. Bahasa itu membingungkan dan tidak terstruktur seperti alat pengaturcaraan lain. Untuk mengatasi masalah utama ini, Hadley Wickham mengembangkan koleksi pakej yang disebut tidyverse. Peraturan permainan berubah menjadi yang terbaik. Manipulasi data menjadi remeh dan intuitif. Membuat graf tidak begitu sukar lagi.
Algoritma terbaik untuk pembelajaran mesin dapat dilaksanakan dengan R. Pakej seperti Keras dan TensorFlow memungkinkan untuk membuat teknik pembelajaran mesin kelas atas. R juga mempunyai pakej untuk melakukan Xgboost, salah satu algoritma terbaik untuk pertandingan Kaggle.
R dapat berkomunikasi dengan bahasa lain. Adalah mungkin untuk memanggil Python, Java, C ++ di R. Dunia data besar juga dapat diakses oleh R. Anda dapat menghubungkan R dengan pangkalan data yang berbeza seperti Spark atau Hadoop.
Akhirnya, R telah berkembang dan membenarkan operasi selari untuk mempercepat pengiraan. Sebenarnya, R dikritik karena hanya menggunakan satu CPU dalam satu waktu. Pakej selari membolehkan anda melakukan tugas di teras mesin yang berbeza.
Ringkasan
Ringkasnya, R adalah alat yang bagus untuk meneroka dan menyelidiki data. Analisis yang terperinci seperti pengelompokan, korelasi, dan pengurangan data dilakukan dengan R. Ini adalah bahagian yang paling penting, tanpa teknik dan model ciri yang baik, penggunaan pembelajaran mesin tidak akan memberikan hasil yang bermakna.