Data warehouse adalah kumpulan data dari berbagai sumber yang ditempatkan menjadi satu dalam tempat penyimpanan berukuran besar lalu diproses menjadi bentuk penyimpanan multidimensional dan didesain untuk querying dan reporting. Menurut Bill Inmon, data yang disimpan didalam data warehouse ini memiliki empat karakteristik, yaitu :
1. Subject oriented, data yang disimpan disesuaikan dengan proses bisnisnya
2. Integrated, semua data diintegrasikan kedalam satu media penyimpanan, dalam hal ini adalah database yang sangat besar, dimana formatnya diseragamkan,
3. Time variant, data yang disimpan bersifat historical, dan
4. Non-volatile, data cenderung tidak berubah.
Komponen Utama Data Warehouse
Tiga komponen utama Data Warehouse yaitu :
1. Data staging area Dalam tahap ini, data diolah dari sumbernya untuk siap menjawab query. Prosesnya terdiri dari extract,transform,load (ETL).
2. Data presentation area Dalam tahap ini, data diorganisasikan, disimpan dan dapat menjamin ketersediaannya akan segala kebutuhan query. Selain itu disini dilakukan juga penulisan laporan dan kebutuhan aplikasi untuk analisis selanjutnya.
3. Data access tools Penyediaan interface untuk penggunaan aplikasi untuk query data
Distributed data warehouse merupakan kumpulan data store yang dibangun secara terpisah yang digabungkan secara fisik melalui jaringan. Tujuannya adalah agar komponen-komponen yang terpisah ini terlihat sebagai satu kesatuan utuh sebuah sistem data warehouse . Suatu enterprise data warehouse dapat dibentuk dari kumpulan data mart yang terpisah, jadi tidak selalu membentuk sistem yang terpusat tetapi juga bisa terdistribusi. Dengan kecenderungan data-oriented, data pada suatu perusahaan atau organisasi seharusnya merupakan data yang widely-shareable. Tipe-tipe distributed data warehouse :
1. Dengan local dan global data warehouse
Local Data Warehouse merepresentasikan data dan proses-proses pada remote site. Sedangkan global Data Warehouse merepresentasikan bagian dari bisnis yang diintegrasikan.
2. Technologically Distributed Data Warehouse
Menunjukkan bahwa secara logic, ini merupakan single dw tapi pada kenyataannya secara fisik terdapat beberapa dw yang diintegrasikan yang berasal dari beberapa prosesor/site yang berbeda.
3. Independently evolving Distributed Data Warehouse
Setiap bagian dari distributed data warehouse, memiliki otonomi untuk mengatur dan mengembangkan bisnisnya tanpa harus memperhatikan bagian yang lain.
Arsitektur Distributed Data Warehouse
Sumber : http://www.ittelkom.ac.id/library/index.php?view=article&catid=20%3Ainformatika&id=484%3Adata-warehouse-&option=com_content&Itemid=15
Data mining
Data Mining | ![]() | ![]() | ![]() |
Written by admin | |
Monday, 20 April 2009 03:02 | |
Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan data segmen yang relevan dengan task data mining. Data preprocessing kemungkinan akan membutuhkan waktu yang sangat lama, hal ini dikarenakan data yang mentah kemungkinan disimpan dengan format dan database yang berbeda. Post processing meliputi semua operasi yang harus dilakukan agar hasil dari Data Mining dapat diakses dan lebih mudah untuk diinterpretasikan oleh para analis. Teknik visualisasi juga dapat digunakan untuk mempermudah para analis untuk menggali dan memahami kegunaan dari data mining. Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data warehouse, atau media penyimpanan informasi lainnya). Data Mining Task Pada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu: 1. Predictive tasks Tujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal dengan explanatory atau independent variable. 2. Descriptive task Tujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters, trajecttories dan anomalies) yang merangkum keterhubungan dalam data. Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data mining task tersebut antara lain: 1) Predictive Modelling Predictive Modelling digunakan untuk membangun sebuah model untuk target variable sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable yang discrete (diskret) dan regression digunakan untuk memprediksi nilai dari target variable yang continu (berkelanjutan). 2) Association Analysis Association analysis digunakan untuk menemukan aturan association yang memperlihatkan kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan data. 3) Cluster Analysis Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label. Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering merupakan proses pengelompokkan sekumpulan objek yang sangat mirip. 4) Anomaly Detection Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk data. |
Tidak ada komentar:
Posting Komentar