Apa itu R ?
Rangkaian Proses dalam R Language
Analisis data menggunakan R language dilakukan dalam serangkaian langkah, yakni memprogram (programming), mengubah (transforming), menemukan (discovering), memodelkan (modeling), dan mengomunikasikan hasilnya (comunicate).
- Program: R adalah alat pemrograman yang jelas dan dapat diakses oleh banyak kalangan.
- Transform: R terdiri dari kumpulan pustaka yang dirancang khusus untuk data science.
- Discover: R dapat membantu untuk menyelidiki dan menganalisis data, serta memperbaiki hipotesis.
- Model: R menyediakan beragam alat untuk menangkap model yang tepat untuk data Anda
- Communcate: Mengintegrasikan kode, grafik, dan output ke laporan dengan R Markdown atau buat aplikasi Shiny untuk dibagikan kepada publik.
Fitur-Fitur pada R Language
R language hadir dengan sejumlah fitur menarik yang akan membantu banyak orang, tidak hanya profesional, tetapi juga juga orang awam sekalipun. Berikut ini merupakan fitur-fitur yang dihadirkan R language:
1. Fitur Statistik R:
- Basic Statistic: Istilah statistik dasar yang paling umum meliputi mean, modus, dan median. Ini semua dikenal sebagai "Measures of Central Tendency". Jadi, dengan menggunakan bahasa R, kita dapat mengukur tendensi sentral dengan sangat mudah.
- Static Graphic: R language kaya dengan sejumlah fasilitas untuk membuat dan mengembangkan grafik statis yang menarik. R berisi fungsionalitas untuk banyak jenis plot termasuk peta grafis, plot mosaik, biplot, dan masih banyak lagi.
- Probability Distribusion: Distribusi probabilitas memainkan peran penting dalam statistik dan dengan menggunakan R kita dapat dengan mudah menangani berbagai jenis distribusi probabilitas seperti Distribusi Binomial, Distribusi Normal, Distribusi Chi-kuadrat, dan lainnya.
- Data Analysis: Ini menyediakan kumpulan alat yang besar, koheren, dan terintegrasi untuk melakukan analisis data.
2. Fitur Pemrograman R:
- R Package: Salah satu fitur utama R adalah ketersediaan pustaka yang luas. R memiliki CRAN (Comprehensive R Archive Network), yaitu repositori yang mampu menampung lebih dari 10.000 paket.
- Distributed Computing: Komputasi terdistribusi adalah model di mana komponen sistem software dibagi di antara banyak komputer untuk meningkatkan efisiensi dan kinerja. Dua paket baru ddR dan multidplyr yang digunakan untuk pemrograman terdistribusi sudah dirilis pada November 2015.
Kelebihan dan Kekurangan R Language
Banyak pengguna yang menyukai bahasa pemrograman R karena software ini gratis untuk diunduh, serta menawarkan kemampuan analitik data yang canggih dan memiliki komunitas pengguna yang aktif secara online.
Karena sudah ada selama bertahun-tahun dan keberadaannya telah populer, R language menjadi software yang cukup matang. Pengguna dapat mengunduh paket tambahan yang dapat meningkatkan fungsionalitas dasar bahasa ini. Paket-paket ini memungkinkan pengguna untuk memvisualisasikan data, terhubung ke database eksternal, memetakan data secara geografis, dan melakukan fungsi statistik tingkat lanjut. Terdapat juga user interface yang disebut RStudio, yang menyederhanakan coding dalam R language.
Meski begitu, R language telah dikritik karena memberikan analisis yang lambat ketika diterapkan pada kumpulan data yang besar. Ini karena R language menggunakan pemrosesan single-threaded, yang berarti versi open source dasar hanya dapat menggunakan satu CPU pada satu waktu. Sebagai perbandingan, analitik data besar modern berkembang pesat pada pemrosesan data paralel yang secara bersamaan memanfaatkan lusinan CPU di sekelompok server untuk memproses volume data besar dengan cepat.
Selain keterbatasan pemrosesan single-threaded, lingkungan R language merupakan in-memory application. Semua objek data disimpan dalam RAM mesin selama sesi tertentu. Ini dapat membatasi jumlah data yang dapat dikerjakan R secara langsung.
Kaitan Antara R Language dan Big Data
Keterbatasan ini telah mengurangi penerapan R language dalam aplikasi big data. Alih-alih menempatkan R untuk bekerja dalam produksi, banyak perusahaan memanfaatkan R sebagai alat eksplorasi dan investigasi. Data scientis akan menggunakan R untuk menjalankan analisis rumit pada data sampel. Setelah mengidentifikasi korelasi atau klaster yang bermakna dalam data tersebut, mereka akan memasukkan temuan tersebut ke dalam produk melalui alat skala perusahaan.
Beberapa vendor software telah menambahkan dukungan untuk bahasa pemrograman R ke penawaran mereka sehingga memungkinkan R language untuk mendapatkan pijakan yang lebih kuat di ranah big data modern. Vendor seperti IBM, Microsoft, Oracle, SAS Institute, TIBCO, dan Tableau telah menyertakan beberapa tingkat integrasi antara software analitik mereka dan R language. Ada juga paket R untuk platform big data open source populer, seperti Hadoop dan Spark.
Komentar
Posting Komentar