Data Warehouse & Data Science


    Hadoop merupakan software untuk mengelola Big Data, Hadoop juga adalah software yang menghubungkan banyak komputer untuk dapat bekerja sama dan saling terhubung untuk menyimpan dan mengelola data dalam satu kesatuan. Secara umum, Ada beberapa komponen Hadoop yaitu, storage, processing dan package manager, SQL 'Hive', Scripting, In Memory Processing, Management dan Data Movement. Core Hadoop, Data Mining, Database NoSQL merupakan software pendukung Hadoop.

    Penggunaan Hadoop sebaiknya ketika data yang diolah berukuran sangat besar, diambil dari berbagai sumber dan dalam berbagai bentuk (big data), untuk analisa yang tidak diperlukan dalam waktu dekat penggunaan Hadoop lebih cocok, karena penyimpanan Hadoop cocok untuk waktu yang lama.

    Data Warehouse serta DataScience sangatlah mirip, keduanya digunakan untuk menyimpan data dengan jumlah yang besar yang digunakan untuk menjawab persoalan bisnis. Sebelum Big Data muncul, data Warehouse sudah ada, dan perbedaan yang paling terasa ialah data yang disimpang pada Data Warehouse merupakan data yang terstruktur, sedangkan Big Data bisa tidak terstruktur. Meskipun Data Warehouse ada telah lama, Data Warehouse masih digunakan hingga saat ini yang biasanya digunakan untuk menarsip data yang tidak diperlukan sekarang dan biasanya dimasukan ke dalam basis data

Fungsi dan karakteristik Data Warehouse lainnya ialah:

- Menyimpan data masa lalu yang lengkap

- Mengurangi proses analisis berulang

- Bisa digunakan untuk memprediksi pola bisnis di masa yang akan datang

- Integrasi data

- Akses cepat dan memiliki data yang terstruktur

- Informasi yang konsistem untuk semua pihak

     Jika kita mengimplementasikan Data Warehouse pada bisnis kita e-commerce Tokomereka untuk menarsip data yang tidak digunakan sekarang yaitu data hasil pemrosesan geografis penjual yang didapat dari proses Data Science yang sudah digunakan, Tokomereka menstruktur data tersebut dan memasukannya ke dalam RDMS PostgresQL.

    Data Science memiliki beberapa proses, diantara nya Obtain yaitu Proses dimana data dari suatu bisnis dikumpulkan dan disimpan dalam suatu media penyimpanan elektronik seperti database, Scrub yaitu proses pembersihan atau filter data, pada proses ini data yang tidak penting atau tidak relevan disingkirkan, Selanjutnya ada Explore, Pada tahap ini pemeriksaan data dilakukan, semua data diperiksa propertinya dan properti yang berbeda akan diperlakukan berbeda, lalu melakukan perhitungan pada statistik deskriptif untuk medapatkan ekstraksi fitur dan diuji berdasakan variabel, Model, pada Proses ini membuat model data untuk mencapi tujuan yang diinginkan, pada proses ini digunakan regresi dan prediksi untuk memperkirakan nilai di waktu mendatang serta melakukan klarifikasi dan pengelompokan grup nilai dari data, yang terakhir merupakan Interpret tahap dimana data hasil semua pemrosesan sebelumnya diinterpretasi atau diterjemahkan menjadi data yang bisa dipahami oleh orang-orang awam. Presentasi bertujuan untuk menjawab persoalan bisnis dari data yang diperoleh.