Mari belajar teknologi: Data warehouse dan Data mining

Data warehouse adalah kumpulan data dari berbagai sumber yang ditempatkan menjadi satu dalam tempat penyimpanan berukuran besar lalu diproses menjadi bentuk penyimpanan multidimensional dan didesain untuk querying dan reporting. Menurut Bill Inmon, data yang disimpan didalam data warehouse ini memiliki empat karakteristik, yaitu :

1. Subject oriented, data yang disimpan disesuaikan dengan proses bisnisnya

2. Integrated, semua data diintegrasikan kedalam satu media penyimpanan, dalam hal ini adalah database yang sangat besar, dimana formatnya diseragamkan,

3. Time variant, data yang disimpan bersifat historical, dan

4. Non-volatile, data cenderung tidak berubah.

Komponen Utama Data Warehouse

Tiga komponen utama Data Warehouse yaitu :

1. Data staging area Dalam tahap ini, data diolah dari sumbernya untuk siap menjawab query. Prosesnya terdiri dari extract,transform,load (ETL).

2. Data presentation area Dalam tahap ini, data diorganisasikan, disimpan dan dapat menjamin ketersediaannya akan segala kebutuhan query. Selain itu disini dilakukan juga penulisan laporan dan kebutuhan aplikasi untuk analisis selanjutnya.

3. Data access tools Penyediaan interface untuk penggunaan aplikasi untuk query data

Distributed Data Warehouse

Distributed data warehouse merupakan kumpulan data store yang dibangun secara terpisah yang digabungkan secara fisik melalui jaringan. Tujuannya adalah agar komponen-komponen yang terpisah ini terlihat sebagai satu kesatuan utuh sebuah sistem data warehouse . Suatu enterprise data warehouse dapat dibentuk dari kumpulan data mart yang terpisah, jadi tidak selalu membentuk sistem yang terpusat tetapi juga bisa terdistribusi. Dengan kecenderungan data-oriented, data pada suatu perusahaan atau organisasi seharusnya merupakan data yang widely-shareable. Tipe-tipe distributed data warehouse :

1. Dengan local dan global data warehouse

Local Data Warehouse merepresentasikan data dan proses-proses pada remote site. Sedangkan global Data Warehouse merepresentasikan bagian dari bisnis yang diintegrasikan.

2. Technologically Distributed Data Warehouse

Menunjukkan bahwa secara logic, ini merupakan single dw tapi pada kenyataannya secara fisik terdapat beberapa dw yang diintegrasikan yang berasal dari beberapa prosesor/site yang berbeda.

3. Independently evolving Distributed Data Warehouse

Setiap bagian dari distributed data warehouse, memiliki otonomi untuk mengatur dan mengembangkan bisnisnya tanpa harus memperhatikan bagian yang lain.

Arsitektur Distributed Data Warehouse

Distributed data warehouse terbentuk dari beberapa data mart yang diintegrasikan. Setiap data mart ini memiliki skema ETL yang terpisah, bisa jadi satu data mart dengan data mart lainnya berbeda, tetapi tidak menutup kemungkinkan dimana skema ETLnya sama, tergantung proses bisnis yang terjadi didalamnya. Disini kita mengenal local data warehouse dan global data warehouse. Dalam beberapa kasus, bagian data warehouse bisa berada di lingkungan terpusat (global) sekaligus terdistribusi (local). Contohnya, suatu perusahaan yang besar yang memiliki cabang yang tersebar di beberapa kota. Mereka membutuhkan global data warehouse sebagai tempat informasi yang dikumpulkan. Sedangkan local data warehouse diperlukan untuk menangani masalah bisnis yang terjadi ditiap cabangnya. Sehingga dapat dikatakan bahwa distributed data warehouse ini memberikan otonomi kepada tiap local areanya untuk menjawab persoalan bisnisnya sendiri. Setiap local data warehouse, dalam hal ini data mart, dapat melakukan pekerjaannya dengan implementasi sendiri tanpa mengetahui apa yang sedang dilakukan data meart lainnya. Dalam distributed data warehouse ini, share informasi hanya dilakukan oleh local data warehouse dengan global data warehouse. Jadi tidak terjadi pertukaran informasi antar local data warehouse. Akan tetapi, disini semua data mart harus didesain untuk bekerja secara bersamaan menjadi satu warehouse yang utuh.
Sumber : http://www.ittelkom.ac.id/library/index.php?view=article&catid=20%3Ainformatika&id=484%3Adata-warehouse-&option=com_content&Itemid=15

Data mining

Data Mining

Written by admin
Monday, 20 April 2009 03:02
Dengan meningkatnya transaksi yang disimpan dengan sistem basis data sekarang ini, maka dibutuhkan proses untuk menangani data tersebut. Proses untuk menangani data tersebut dikenal dengan Knowledge Discovery in Databases (KDD). Data Mining adalah kegiatan untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari serangkaian langkah perubahan, termasuk data preprocessing dan juga post processing. Data preprocessing merupakan langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap analisis berikutnya. Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan data segmen yang relevan dengan task data mining. Data preprocessing kemungkinan akan membutuhkan waktu yang sangat lama, hal ini dikarenakan data yang mentah kemungkinan disimpan dengan format dan database yang berbeda. Post processing meliputi semua operasi yang harus dilakukan agar hasil dari Data Mining dapat diakses dan lebih mudah untuk diinterpretasikan oleh para analis. Teknik visualisasi juga dapat digunakan untuk mempermudah para analis untuk menggali dan memahami kegunaan dari data mining. Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data warehouse, atau media penyimpanan informasi lainnya). Data Mining Task Pada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu: 1. Predictive tasks Tujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal dengan explanatory atau independent variable. 2. Descriptive task Tujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters, trajecttories dan anomalies) yang merangkum keterhubungan dalam data. Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data mining task tersebut antara lain: 1) Predictive Modelling Predictive Modelling digunakan untuk membangun sebuah model untuk target variable sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable yang discrete (diskret) dan regression digunakan untuk memprediksi nilai dari target variable yang continu (berkelanjutan). 2) Association Analysis Association analysis digunakan untuk menemukan aturan association yang memperlihatkan kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan data. 3) Cluster Analysis Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label. Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering merupakan proses pengelompokkan sekumpulan objek yang sangat mirip. 4) Anomaly Detection Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk data.

Sumber : http://www.ittelkom.ac.id/library/index.php?view=article&catid=20%3Ainformatika&id=481%3Adata-mining&option=com_content&Itemid=15

Mari belajar teknologi

Minggu, 21 November 2010

Data warehouse dan Data mining

Tidak ada komentar:

Posting Komentar