DATA MINING
Konsep Data Mining
Apa sebenarnya yang memotivasi data mining dan mengapa data mining begitu penting ? Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna.
Pengertian Data Mining
Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data. Banyak istilah lain dari data mining yang dikenal luas seperti knowledge mining from databases, knowledge extraction, data archeology, data dredging, data analysis dan lain sebagainya.
Dimana langkah-langkah untuk melakukan data mining adalah sebagai berikut:
1. Data cleaning (untuk menghilangkan noise data yang tidak konsisten)
2. Data integration (di mana sumber data yang terpecahkan dapat disatukan)
3. Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)
4. Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)
5. Data mining (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)
6. Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
7. Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).
Model Data Mining
Dalam perkembangan teknologi data mining, terdapat model atau mode yang digunakan untuk melakukan proses penggalian informasi terhadap data-data yang ada. Menurut IBM model data mining dapat dibagi menjadi 2 bagian yaitu: verification model dan discovery model.
1. Verification Model
Model ini menggunakan perkiraan (hypothesis) dari pengguna, dan melakukan test terhadap perkiraan yang diambil sebelumnya dengan menggunakan data-data yang ada. Penekanan terhadap model ini adalah terletak pada user yang bertanggung jawab terhadap penyusunan perkiraan (hypothesis) dan permasalahan pada data untuk meniadakan atau menegaskan hasil perkiraan (hypothesis) yang diambil.
Sebagai contoh misalnya dalam bidang pemasaran, sebelum sebuah perusahaan mengeluarkan suatu produk baru kepasaran, perusahaan tersebut harus memiliki informasi tentang kecenderungan pelanggan untuk membeli produk yang akan di keluarkan. Perkiraan (hypothesis) dapat disusun untuk mengidentifikasikan pelanggan yang potensial dan karakteristik dari pelanggan yang ada. Data-data tentang pembelian pelanggah sebelumnya dan data tentang keadaan pelanggan, dapat digunakan untuk melakukan perbandingan antara pembelian dan karakteristik pelanggan untuk menetapkan dan menguji target yang telah diperkirakan sebelumnya.
Dari keseluruhan operasi yang ada selanjutnya dapat dilakukan penyaringan dengan cermat sehingga jumlah perkiraan (hypothesys) yang sebelumnya banyak akan menjadi semakin berkurang sesuai dengan keadaan yang sebenarnya.Permasalahan utama dengan model ini adalah tidak ada informasi bare yang dapat dibuat, melainkan hanya pembuktian atau melemahkan perkiraan (hypothesys) dengan data-data yang ada sebelumnya. Data-data yang ada pada model ini hanya digunakan untuk membuktikan mendukung perkiraan (hypothesis) yang telah diambil sebelumnya. Jadi model ini sepenuhnya tergantung pada kemampuan user untuk melakukan analisa terhadap permasalahan yang ingin digali dan diperoleh informasinya.
2. Discovery Model
Model ini berbeda dengan verification model, dimana pada model ini system secara langsung menemukan informasi-informasi penting yang tersembunyi dalam suatu data yang besar. Data-data yang ada kemudian dipilah-pilah-untuk-menemukan suatu pola, trend yang ada, dan keadaaan umum pada saat itu tanpa adanya campur tangan dan tuntunan dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada dalam datadata yang ditemukan dalam waktu yang sesingkat rnungkin.
Sebagai contoh, misalkan sebuah bank ingin menemuan kelompok-kelompok pelanggan yang dapat dijadikan target suatu produk yang akan di keluaran. Pada data-data yang ada selanjutnya diadakan proses pencarian tanpa adanya proses perkiraan (hypothesis) sebelumnya. Sampai akhirnya semua pelanggan dikelompokan berdasarkan karakteristik yang sama.
Kebutuhan dan tantangan dalam data mining
Untuk memperoleh efektifitas dalam data mining, seseorang harus melakukan evaluasi kebutuhan dan memperhitungkan tantangan-tantangan apa saja yang mungkin dihadapinya dalam me ngembangkan suatu teknik data mining. Hal-hal yang harus diper hatikan tersebut antara lain adalah sebagai berikut :
1. Penanganan berbagai tipe data
Karena ada bermacam data dan basis data yang digunakan dalam berbagai aplikasi, seseorang mungkin saja berpikir bahwa suatu sistem knowledge discovery harus bisa melakukan proses data mining yang efektif terhadap berbagai jenis data. Selanjutnya, banyak aplikasi basis data memuat tipe data yang kompleks seperti data terstruktur, objek data kompleks, data multimedia, data spasial dan data sementara, data transaksi dan lain sebagainya. Oleh karena adanya beragam tipe data, tujuan yang berbeda dari data mining, maka adalah tidak realistis untuk mengharapkan bahwa suatu sistem data mining mampu menangani semua jenis data.
2. Efisiensi dari algoritma data mining
Untuk secara efektif melakukan ekstraksi informasi dari sejumlah besar data, algoritma yang digunakan untuk mewujudkannya haruslah efisien untuk basis data yang besar. Yaitu, waktu eksekusi dari algoritma tersebut haruslah sesuai dan realistis untuk data dengan ukuran besar.
3. Kegunaan, kepastian dan keakuratan hasil
Informasi yang diperoleh harus secara akurat menggambarkan isi basis data dan berguna untuk aplikasi terkait. Kekurangsempurnaan yang ada haruslah dapat diekspresikan dengan suatu ukuran yang pasti dalam bentuk aturan-aturan kuantitif dan perkiraan-perkiraan yang masuk akal. Noise dan data-data yang tidak diperlukan harus ditangani dengan rapi dalam sistem data mining. Hal ini juga akan memotivasi suatu studi sistematik untuk mengukur kualitas dari informasi yang dihasilkan, termasuk seberapa menariknya dan tingkat kepercayaannya yang dapat diukur secara statistik, analitis dan menggunakan model simulasi.
4. Ekspresi terhadap berbagai jenis hasil
Berbagai macam jenis informasi dapat diperoleh dari sejumlah besar data. Seseorang mungkin ingin menguji informasi yang diperoleh dan sudut pandang yang berbeda dan menampilkannya dalam bentuk yang berbeda. Ini menuntut kita untuk mengekspresikan permintaan datamining dan informasi yang diperoleh dalam sebuah bahasa tingkat tinggi atau graphical user interface yang baik, sehingga program dapat digunakan oleh para pemakai biasa yang bukan ahli, dan hasil yang diperoleh dapat dimengerti serta langsung digunakan oleh pemakainya. Oleh karenanya, sistem harus bisa mengadopsi teknik-teknik penyajian informasi yang baik.
5. Memperoleh informasi dari sumber-sumber data yang berbeda
Dengan adanya LAN (Local Area Network) dan WAN ( Wide Area Network) yang tersebar secara luas dewasa ini, termasuk Internet, maka terhubunglah – berbagai sumber data yang terdistribusi secara luas dan membentuk suatu basis data heterogen. Untuk memperoleh informasi dari berbagai sumber dan dalam berbagai format dengan berbagai semantik data menimbulkan tantangan baru dalam data mining.
Di lain pihak, datamining bisa membantu mengungkapkan informasi-informasi yang ada dalam suatu basis data heterogen, dimana hal tersebut sulit untuk diwujudkan dengan sebuah sistem query sederhana. Lebih lanjut, ukuran data yang besar, distribusi yang luas dad data dan kompleksitas dari proses komputasi beberapa metode data mining, semakin memotivasi pengembangan algoritma untuk paralel data mining dan data mining untuk basis data terdistribusi.
6. Proteksi dan keamanan data
Ketika data dapat diperlihatkan dari berbagai sudut pandang dan dalam level abstrak yang berbeda, hal ini akan mengancam tujuan dari proteksi dan keamanan data, dan pelanggaran terhadap sifat kerahasiaan informasi. Sangatlah penting untuk mempelajari apakah penemuan informasi yang berguna itu akan mengakibatkan pelanggaran kerahasiaan dan ukuran keamanan yang diperiukan untuk menghalangi akses terhadap data-data yang sifatnya sensitif.
Tahapan dalam Data Mining
Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:
• Basis Data Relasional
Dewasa ini, hampir semua Data bisnis disimpan dalam basis data relasional. Sebuah
model basis data relasional dibangun dari serangkaian tabel, setiap tabel disimpan sebagai sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan model basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online Transaction Processing ) adalah tipe akses yang digunakan oleh bisnis yang membutuhkan transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah yang dapat diolah oleh sistem data mining.
• Ekstraksi Data
Data-data yang dikumpulkan dalam proses transaksi seringkali ditempatkan pada lokasi
yang berbeda-beds. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah server yang lebih terpusat. Ini biasa dilakukan secara harian, mingguan, atau bulanan tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat. Sebagai contoh, sebuah toko perangkat keras mungkin mengirim data yang menunjukan bahwa 10 rol kabel telah terjual pada hari ini oleh karyawan nomer 10 dibanding pengiriman data detail transaksi.
• Transformasi Data
Transformasi data melakukan peringkasan data dengan mengasumsikan bahwa data
telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah di ekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan tunggal. Fungsi fungsi Agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count.
• Pembersihan Data
Data-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan record. ini sangat berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang pelanggan.Setiap record atau file pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap filenya berbeda.
• Bentuk Standar
Selanjutnya setelah data mengalami proses pembersihan maka data ditranfer kedalam
bentuk standar. Bentuk standar adalah adalah bentuk data yang akan diakses oleh algoritma data mining. Bentuk standar ini biasanya dalam bentuk spreadsheet like. Bentuk spreadsheet bekerja dengan baik karena baris merepresentasikan kasus dan kolom merepresentasikan feature.
• Reduksi Data dan Feature
Setelah data berada dalam bentuk standar spreadsheet perlu dipertimbangkan untuk
mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam spreadsheet kita. Sebuah bank mungkin mempunyai ratusan feature ketika hendak memprediksi resiko kredit. Hal ini berarti perusahaan mempunyai data dalam jumlah yang sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi menurun kinerjanya.
• Menjalankan Algoritma
Setelah semua proses diatas dikerjakan, maka algoritma data mining sudah siap untuk
dijalankan.
Fungsionalitas dalam data mining
Kebutuhan akan Data mining semakin dirasakan dalam berbagai bidang. Data mining bersifat dependen terhadap aplikasi terkait, ini berarti untuk aplikasi basis data yang berbeda, maka teknik data mining yang digunakannya mungkin juga akan berbeda. Hal ini dikarenakan terdapat kelebihan dan kekurangan dari masing-masing metode pencarian informasi, sehingga kita harus menyesuaikan antara keperluan dan kebutuhan akan informasi dengan penerapan teknik pencarian yang akan digunakan. Untuk
memberikan gambaran yang lebih jelas tentang macam-macam informasi yang dapat ditemukan dalam sekumpulan data, berikut akan diberikan sedikit bahasan rinci mengenai hal tersebut.
1. Mining association rule
Mining association rules atau pencarian aturan-aturan hubungan antar item dari suatu basis data transaksi atau basis data relasional, telah menjadi perhatian utama dalam masyarakat basis data. Tugas utamanya adalah untuk menemukan suatu himpunan hubungan antar item dalam bentuk A1A...AAm => B1A...ABn dimana A, ( for i E {1,...,m}) dan B; ( for j C {1,...,n} ) adalah himpunan atribut nilai, dari
sekumpulan data yang relevan dalam suatu basis data. Sebagai contoh, dari suatu himpunan data transaksi, seseorang mungkin menemukan suatu hubungan berikut, yaitu jika seorang pelanggan membeli selai, ia biasanya juga membeli roti dalam satu transaksi yang sama.
Oleh karena proses untuk menemukan hubungan antar item ini mungkin memerlukan pembacaan data transaksi secara berulang-ulang dalam sejumlah besar data-data transaksi untuk menemukan pola-pola hubungan yang berbeda-beda, maka waktu dan biaya komputasi tentunya juga akan sangat besar, sehingga untuk menemukan hubungan tersebut diperlukan suatu algoritma yang efisien dan metodemetode tertentu.
2. Generalisasi, pencatatan, dan karakterisasi data multilevel
Salah satu aplikasi data mining dan analisa data yang paling sering digunakan dalam hubungannya dengan basis data sistem produksi adalah generalisasi dan pencatatan data, yang juga dikenal dengan beberapa nama lain seperti on-line analytical processing ( OLAP ), basis data multi dimensi, data cubes, abstraksi data, dan lain sebagainya. Generalisasi dan pencatatan data ini menampilkan karakteristik umum terhadap sekumpulan data yang dispesifikasikan oleh pemakai dalam basis data. Data dan obyek dalam basis data seringkali memuat informasi yang mendetail pada level primitif. Sebagai contoh, item relasi dalam suatu basis data sales mungkin saja mengandung atribut level primitif tentang informasi item seperti nomor item, nama item, tanggal pembuatan, harga dan lain sebagainya. Seringkali kita menginginkan untuk mencatat sejumlah besar himpunan data dan menampilkannya dalam level tingkat tinggi.
3. Klasifikasi data
Aplikasi lain yang penting dari data mining adalah kemampuannya untuk melakukan proses klasifikasi pada suatu data dalam jumlah besar. Hal ini sering disebut mining classification rules. Sebagai contoh, sebuah dealer mobil ingin mengkiasifikasikan pelanggannya menurut kecenderungan mereka untuk menyukai mobil jenis tertentu, sehingga para sales yang bekerja disitu akan mengetahui siapa yang
harus didekati, kemana katalog mobil jenis baru harus dikirim, sehingga hal ini akan sangat membantu dalam hal promosi.
Klasifikasi data adalah suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan obyek di dalarn sebuah basis data, dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang ditetapkan. 'Untuk membentuk sebuah model klasifikasi, suatu sampel basis data 'E' diperlakukan sebagai training set, dimana setiap tupel terdiri dari himpunan yang sama yang memuat atribut yang beragam seperti tupel-tupel yang terdapat dalam suatu basis data yang besar 'W'. Setiap tupel diidentifkasikan dengan sebuah label atau identitas kelas. Tujuan dari klasifikasi ini adalah pertama-tama untuk menganalisa training data dan membentuk sebuah deskripsi yang akurat atau sebuah model untuk setiap kelas berdasarkan feature-feature yang tersedia di dalam data itu. Deskripsi dari masing-masing kelas itu nantinya akan digunakan untuk mengklasifikasikan data yang hendak di test dalam basis data 'W', atau untuk membangun suatu deskripsi yang lebih balk untuk setiap kelas dalam basis data.
Contoh untuk model ini adalah prediksi terhadap resiko pemberian kredit. Data terdiri dari orang orang yang telah menerima kredit. Sebagian kreditur menjalankan kewajiban dengan balk, dan sebagian lagi tidak. Data mining, harus mampu mendefinisikan atribut atribut apa yang paling berpengaruh dalam hal ini.
Teknik-teknik data mining
Perkembangan bidang data mining yang semakin pesat, menimbulkan banyak tantangan baru, aplikasi-aplikasi dari metode dan teknik, statistik serta sistem basis data yang ada tidak dapat secara langsung menyelesaikan masalah-masalah yang ada dalam data mining. Oleh karena itu maka perlu dilakukan studi-studi terkait untuk menemukan metode data mining baru atau suatu teknik terintegrasi untuk sebuah sistem data mining yang efektif dan efisien. Dalam konteks ini, data mining itu sendiri telah menjadi suatu bidang baru yang independen.
Telah banyak kemajuan dalam hal riset dan pengembangan dari data mining, juga banyak teknik data mining dan sistem baru yang akhir-akhir ini dikembangkan. Klasifikasi skema yang berbeda dapat digunakan untuk mengkategorikan metode dan sistem data mining dengan didasarkan pada jenis basis data yang akan dipelajari, dan teknik apa yang akan digunakan.
1. Jenis Basis Data yang akan dijadikan obyek
Suatu sistem data mining dapat diklasifikasikan menurut jenis basis data dimana proses data mining tersebut dilakukan. Sebagai contoh, sebuah sistern adalah relationar data miner jika sistem tersebut menemukan informasi dad basis data relasional, atau suatu object oriented data miner bila informasi diperoleh dari basis data yang berorientasi pada obyek.
Secara umum, data miner dapat digolongkan menurut jenis basis data apa yang diolahnya seperti misalnya basis data relasional, basis data transaksi, basis data yang berorientasi obyek, basis data deduktif, basis data spasial, basis data multimedia, basis-data-heterogen, dan lain sebagainya.
2. Jenis informasi yang hendak dicari
Beberapa jenis informasi dapat dihasilkan dad proses data mining ini, termasuk association rules, characteristic rules, classification rules, discriminant rules, clustering, sequential pattern, dan deviation analysis [AGR-93]. Lebih lanjut, ada kiasifikasi lainnya menurut level abstraksi dari informasi yang diperoleh, antara lain generalized knowledge, primitive level knowledge dan multiple level knowledge. Suatu sistem data mining yang fleksibel dapat menggali informasi pada berbagai level abstraksi.
3. Teknik yang hendak digunakan.
Cara kiasifikasi yang lainnya adalah berdasarkan teknik yang digunakan. Misalnya, dikategorikan berdasarkan metode kendalinya seperti autonomous knowledge miner, data driven miner, query driven miner dan interactive data miner. Dapat juga dikategorikan berdasarkan pendekatan yang dipakai dalam melakukan data mining, yaitu generalization based mining, statistics and mathematical based mining, integrated approach mining dan lain sebagainya.
Diantara berbagai macam klasifikasi yang ada, hasil penelitian menunjukkan ada satu skema utama yang menjadi patokan, yaitu jenis informasi yang dibutuhkan. Mengapa demikian, adalah karena dengan kiasifikasi ini akan memberikan gambaran yang jelas mengenai teknik dan kebutuhan datamining yang beragam. Metode-metode pencarianinformasi yang ada berdasarkan jenis informasinya seperti association rules, characterization rules, classification rules, sequence patterns, clustering dan ;ain-Iainnya telah diteliti secara mendalam. Untuk proses pencarian suatu informasi tertentu, berbagai pendekatan seperti pendekatan secara statistik, pendekatan berorientasi pada basis data yang besar dan sebagainya akan dibandingkan dengan penekanan utama pada basis data, dimana efektifitas dan efisiensi merupakan salah satu tujuan utamanya.
Rabu, 18 Mei 2011
Langganan:
Posting Komentar (Atom)
HOSTI BENTUKNYA BUNDAR, MENGAPA ?
Hosti Bentuknya Bundar, Mengapa ? hai sobat Katolik, kali ini saya membahas tentang tradisi Katolik yaitu menggunakan hosti putih berbent...
-
Use case spesifikasi 1 (penyewa) : Penyewa terbagi kedalam dua kategori yaitu penyewa yang sudah menjadi member dan ...
-
Hosti Bentuknya Bundar, Mengapa ? hai sobat Katolik, kali ini saya membahas tentang tradisi Katolik yaitu menggunakan hosti putih berbent...
-
Dalam beberapa dekade terakhir, kecepatan pemrosesan CPU yang diukur dengan jumlah instruksi dieksekusi per detik telah meningkat...
Tidak ada komentar:
Posting Komentar