Kamis, 12 Juni 2008

Sekilas Data Mining


Data Mining merupakan cabang Ilmu Pengetahuan baru, ilmu ini terdiri atas penggabungan beberapa ilmu. Sebagian orang juga mendefenisikan bahwa data mining adalah Ilmu Statistik yang berjalan diatas Database. begitu kompleknya sehingga pengelompokannyapun masih menjadi sebuah pertanyaan yang belum juga tuntas terjawab.Akan tetapi jika kita bisa memaknainya, Data Mining adalah merupakan istilah untuk menguraikan penemuan pengetahuan dalam database. Pengetahuan yang ditemukan adalah merupakan hasil penguraian (ekstraksi) informasi dalam sebuah database dengan ukuran sangat besar (data warehouse) dengan menjalankan beberapa prosedur yang berkaitan dengan penggunaan teknik-teknik analisa data, matematika, statistika, logika algoritma, penggunaan bahasa pemprograman kearah pendefenisian kecerdasan buatan. Ekstraksi informasi dari Data Mining (kalau saya pemahaman saya tidak salah) akan dijadikan oleh pemakai sistem (baik dari level Top Manejemen sampai ke End User) sebagai bahan untuk mendapatkan pengetahuan tentang pola-pola rancang bangun informasi, trend prosedur dan transaksi, atau model-model prediksi, salah satu di antaranya adalah analisa kebangkrutan. Itu semua tentu sangat berguna bagi kelangsungan hidup dan berkembangnya suatu organisasi (apakah itu organisasi profit oriented ataupun organisasi non profite oriented seperti organisasi pemerintahan misalnya).Karakteristik dasar dari data mining diantaranya adalah knowladge (pengetahuan) yang diperoleh berasal dari pengolahan database dengan kapasitas yang sangat besar (dengan ukuran hingga Gigabyte). Data sebesar ini tentu tidak akan didapat dari koleksi data dari sedikit transaksi dalam beberapa hari saja, akan tetapi merupakan hasil pengumpulan data dalam kurun waktu bertahun-tahun. Disamping itu data ini juga diperoleh dari organisasi yang sudah mempunyai infrastruktur Teknologi Informasi yang cukup memadai. Hal ini ditandai dengan telah diterapkannya Teknologi Informasi sebagai tulang punggung jalannya organisasi. Transaksi-transaksi yang dilakukan dalam organisasi tersebut sudah sepenuhnya terekam dalam pada sebuah database dalam sebuah server. Oleh karena itu pada saat ini, paling tidak software yang digunakan sebagai user interface transaksi data adalah software berbasis web base dengan struktur jaringan client/server. Saat ini software berbasis web masih digandrungi banyak perusahaan karena disamping visualisasi datanya yang canggih, juga gampang dioperasikan oleh pengguna pada level End User sekalipun.Lebih jauh lagi, untuk dapat memberikan pemahaman yang jelas tentang data mining, mari kita akan coba menguraikan urutan fakta yang terjadi, agar dapat memberikan persepsi tersendiri. Berikut ini adalah beberapa fakta yang terjadi :- Banyak sekali organisasi, baik dari dunia bisnis ataupun pemerintah berurusan dengan sejumlah sumber informasi dan juga pengelolaan basis data informasi tersebut, dan bukan tidak mungkin termasuk di dalamnya kebutuhan akan pembangunan data warehouse dalam skala besar.- Dan seringkali data yang tersimpan tidak dapat secara langsung di analisa dengan metode metode statistik standar. Hal ini disebabkan karena adanya beberapa rekord yang hilang ataupun juga karena data nya dalam dimensi ukuran kualitatif dan bukan kuantitatif.- Karena tingkat pertumbuhan ukuran basis data yang sangat cepat, bahkan terkadang sistem administratornya sendiri pun mengalami kendala untuk mengetahui informasi yang terkandung di dalamnya atau sekedar mengetahui hubungannya dengan pertanyaan pertanyaan yang timbul.- Akan menjadi suatu keuntungan tersendiri apabila suatu organisasi mempunyai cara untuk “menggali” sumber informasi nya yang berupa basis data yang besar, sehingga dapat diketahui informasi yang penting dan juga pola pola yang kemungkinan terkandung di dalamnya.- Sekarang terdapat beberapa metodologi data mining yang kemungkinan dapat berguna untuk menganalisa sumber sumber data dalam rangka menemukan pola dan tren terbaru.Ada beberapa devenisi dari Data Mining, diantaranya adalah:“Knowledge discovery (data mining) in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah (valid), baru (novel), dapat bermanfaat (potentially usefull), dapat dimengerti (ultimately understandable).Istilah “data mining” dan “knowledge discovery in databases” atau disingkat KDD sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda akan tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:1. Data SelectionPemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.2. Pre-processing/ CleaningSebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.3. TransformationCoding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data4. Data miningData mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.5. Interpretation/ EvaluationPola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.





























Gambar 1 ; Tahapan proses KDDKDD mencakup keseluruhan proses pencarian pola atau informasi dalam basis data, dimulai dari pemilihan dan persiapan data sampai representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD yang difokuskan pada penggalian pola tersembunyi dalam basis data.KesimpulanPada tulisan ini memang tidak diungkapkan secara detail mengenai proses data mining nya itu sendiri, akan tetapi hanya mengenalkan secara konseptual mengenai data mining. Karena pengetahuan penulis masih terbatas dan baru akan memulai mendalami konsep database tingkat lanjut ini. Data Mining adalah cabang ilmu baru. Pada masa-masa yang akan datang cabang ilmu pengetahuan ini akan terus mendapat tempat beserta keleluasaan perkembangannya. Menurut saya Data Mining ini adalah proses pemaknai dari sekumpulan makna yang komplit yang bisa dipahami secara holistik. Dari hasil prosesnya akan terdapat beberapa prediksi yang mengarah kepada INSTUISI RASIONAL DAN ILMIAH layaknya kerja otak manusia, yang nantinya akan bermuara kearah penciptaan kecerdasan buatan. Sebuah tantang untuk terus menggalinya…Bagaimana pendapat sodara-sodara………..?Mohon kirim komentarnya………..

1 komentar:

infogue mengatakan...

artikel anda ada di:
http://datamining.infogue.com/
http://datamining.infogue.com/sekilas_data_mining

anda bisa promosikan artikel anda di www.infogue.com yang akan berguna untuk semua pembaca. Telah tersedia plugin/ widget vote & kirim berita yang ter-integrasi dengan sekali instalasi mudah bagi pengguna. Salam!