Binusian Blog (Paper Topik Lanjut SI): Individu 2 : Data Mining

DATA MINING

PAPER INDIVIDU 2

TOPIK-TOPIK LANJUTAN

SISTEM INFORMASI

Oleh

Michael Samuel C – 1501148204

06PJM / 2

Binus University

Jakarta

2014

Binus University

Jurusan Sistem Informasi

Paper Individu 2 Topik-Topik Lanjutan Sistem Informasi

Semester Genap tahun 2014

DATA MINING

Michael Samuel C – 1501148204

06PJM / 2

Abstrak

Persaingan yang terjadi di dalam lingkup perusahaan saat ini adalah penggunaan teknologi terbaru yang dapat membantu serta meningkatkan kinerja perusahaan. Di dalam sebuah perusahaan pasti terdapat banyak sekali data.

Namun sering kali terjadi sebuah kondisi yang berbunyi “rich of data but poor of information”. Untuk menghindari hal ini, banyak perusahaan yang menggunakan Data Warehouse yang dapat membantu para pegawai tingkat manajer untuk membuat keputusan.

Namun dengan memiliki Data Warehouse saja ternyata belum cukup karena Data Warehouse hanya dapat memberikan tampilan secara sederhana dari banyak data namun tidak memiliki fasilitas sebagai penemu pola-pola yang tersembunyi dari data-data yang berguna.

Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari basis data skala besar yang makin banyak terakumulasi sejalan dengan pertumbuhan teknologi informasi.

Definisi umum dari Data Mining itu sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data.

Dengan ditampilkannya korelasi data yang sebelumnya tidak diketahui, maka para eksekutif dapat membuat keputusan untuk kemajuan perusahaan.

Data Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data mereka. Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting.

Analisis yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya.

Data mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

Makalah ini membahas lebih jauh definisi, konsep, langkah-langkah/jenis-jenis, tugas dan apa yang bisa dan tidak bisa dilakukan data mining.

Kata Kunci

Data Mining, Mining Model, Aplikasi Data Mining.

BAB I

PENDAHULUAN

1.1 Latar Belakang

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data.

Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information” karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data” (data tombs).

DM adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar.

Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain : clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain.

Yang membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada database skala besar. Sebelum populernya DM, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

“Data Mining”, bagi sebagian orang istilah ini sudah tidak asing, tapi bagi sebagian yang lain, istilah Statistik lebih dikenal sebagai ilmu dalam pengolahan data. Bahkan seringnya bagi masyarakat umum kata Data Mining diasosiasikan dengan penambangan. Hal tersebut tidak sepenuhnya salah, karena memang Data Mining melakukan proses penambangan, namun bukan menambang mineral bumi, melainkan menambang informasi (knowledge) baru dari data.

Data Mining memiliki banyak kemiripan dengan Statistika, karena sama-sama bertujuan mengolah data untuk mendapatkan suatu kesimpulan/informasi darinya. Bahkan bisa dikatakan bahwa akar Data Mining adalah Statistik. Akan tetapi tentu saja jika sama, maka istilah baru tidak perlu diperkenalkan.

Perbedaan statistika dan Data Mining terletak pada pangkal permasalahannya. Di Statistika data (sampel) biasanya diambil dari populasi, lalu diolah dengan metode statistika yang bersesuaian, kemudian menyimpulkan hasilnya dari model yang dibuat [interpretasi].

Data Mining umumnya mengolah data yang berasal dari observasi dan biasanya berukuran besar. Ukuran data yang besar tersebut terkadang menjadi kendala bagi beberapa model Statistik tradisional. Sebut saja karena masalah memori komputer akibat perhitungannya, masalah stabilitas komputasi, dan masalah konvergensi pencapaian model yang optimal [biasanya terdapat suatu proses iteratif di Statistik].

Data Mining berusaha untuk mengatasi masalah tersebut dengan mengembangkan algoritma atau model terkini agar pengolahan data yang besar tetap dapat dilakukan. Beberapa model di Data Mining sama dengan Statistika tradisional, mulai dari Regresi, Cluster [pengelompokan], maupun model-model klasifikasi. Akan tetapi model-model tersebut menjadi berbeda proses perhitungan dan interpretasinya mengingat domain data dan algoritma perhitungannya juga berbeda.

Sesuai dengan paparan sebelumnya berarti secara umum Data Mining berkaitan juga dengan bidang ilmu lain: Computer Science [SI/TI], Kecerdasan Buatan [Machine Learning/Artificial Intelligence], Image Prosesing, dll. Data Mining menggunakan pengetahuan di bidang database dan data warehouse di SI [Sistem Informasi], pemrograman HPC [High Performance Computing] di TI [Teknik Informatika], Pencarian pattern [Pola] di Machine Learning/Artificial Inteeligence/Image Processing, dan sebagainya.

Data Mining terkadang sering disebut juga sebagai KDD [Knowledge Discovery in Database] sebuah istilah yang umum digunakan di bidang kecerdasan buatan. Perbedaan lain yang belum dijelaskan antara Statistik dan Data Mining adalah bahwa Data Mining biasanya memiliki lebih dari satu model yang digunakan.

Selain itu tujuan atau informasi yang akan/ingin didapatkan tidak diketahui diawal pengolahan data. Berbeda dengan statistik yang biasanya hanya menggunakan sebuah model saja dan sudah jelas sejak awal variabel apa yang akan menjadi target dan variabel-variabel apa yang akan menjadi prediktor atau penduganya.

Apa sebenarnya yang memotivasi datamining dan mengapa data mining begitu penting ?

Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna.

Data mining adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan.

1.2 Ruang Lingkup

Mengingat luasnya cakupan ruang lingkup Data Mining, maka ruang lingkup yang dibahas dibatasi pada :

1. Penjelasan tentang Data Mining.

2. Kegunaan Data Mining.

1.3 Tujuan dan Manfaat

Berdasarkan pembahasan pada latar belakang, maka dapat ditentukan tujuan penelitian ini, yaitu untuk mengetahui perkembangan Data Mining yang ada.

Hasil penelitian ini diharapkan dapat memberikan manfaat-manfaat sebagai berikut :

1. Untuk mengetahui definisi atau pengertian dari Data Mining.

2. Untuk mengetahui kegunaan Data Mining.

1.4 Metodologi Penelitian

Metode yang digunakan terdiri dari beberapa bagian, yaitu :

1. Studi pustaka

Metode pengumpulan informasi yang digunakan melalui studi artikel media internet dan buku-buku referensi yang dapat dijadikan sumber dan panduan dalam penyusunan penulisan ini.

2. Metode Analisis

Metode analisis yang digunakan pada penelitian ini adalah dengan menganalisis dan me-review perkembangan Data Mining yang ada di Indonesia.

1.5 Sistematika Penulisan

Untuk mempermudah pembahasan dan memberikan gambaran yang sistematis dalam memahami topik yang disajikan, kami membagi paper ini ke dalam bagian-bagian berupa bab yaitu :

BAB I : Pendahuluan

Dalam bab ini diuraikan tentang masalah pokok yang dibahas dalam paper ini, yang terdiri dari Latar Belakang, Ruang Lingkup, Tujuan dan Manfaaat, Metodologi Penelitian, dan Sistematika Penulisan.

BAB II : Landasan Teori

Dalam bab ini akan menguraikan teori atau konsep yang melandasi hal-hal yang terdapat dalam penelitian ini, secara umum dijelaskan tentang teori-teori yang berhubungan dengan kinerja sistem informasi baik dikutip dari berbagai referensi maupun hasil riset yang didapat.

BAB III : Pembahasan

Dalam bab ini berisi hasil penelitian yang dilakukan dalam rangka mencapai tujuan dan manfaat yang ditetapkan pada pendahuluan. Lalu menunjukkan bagaimana pemikiran atau temuan-temuan diperoleh, menginterpretasikan temuan, dan mengaitkannya dengan teori yang digunakan.

BAB IV : Penutup

Dalam bab ini penulis akan menarik bebarapa kesimpulan berdasarkan petunjuk dari buku-buku referensi, internet, dan seminar teori-teori lanjutan sistem informasi serta saran yang mungkin akan diterapkan untuk kemajuan perusahaan.

BAB II

LANDASAN TEORI

2.1 DATA MINING

Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.

Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain .

Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.

Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

2.2 Mining Model

Model pertambangan berisi kolom data yang diperoleh dari kolom didefinisikan dalam struktur pertambangan. Anda dapat memilih kolom dari struktur pertambangan untuk digunakan dalam model, dan Anda dapat membuat salinan dari kolom struktur pertambangan dan kemudian mengubah nama mereka atau mengubah penggunaannya.

Sebagai bagian dari proses pembentukan model, Anda juga harus menentukan penggunaan kolom oleh model. Itu termasuk informasi seperti apakah kolom adalah kunci, apakah itu digunakan untuk prediksi, atau apakah itu dapat diabaikan oleh algoritma.

Ketika Anda membangun sebuah model, bukan secara otomatis menambahkan setiap kolom data yang tersedia, dianjurkan bahwa Anda meninjau data dalam struktur hati-hati dan termasuk dalam model hanya kolom yang masuk akal untuk analisis. Misalnya, Anda harus menghindari termasuk beberapa kolom yang mengulangi data yang sama, dan Anda harus menghindari penggunaan kolom yang memiliki nilai-nilai sebagian besar unik.

Jika Anda berpikir kolom tidak boleh digunakan, Anda tidak perlu menghapusnya dari struktur pertambangan atau model pertambangan; sebagai gantinya, Anda hanya dapat menetapkan bendera pada kolom yang menentukan bahwa itu harus diabaikan ketika membangun model.

Ini berarti bahwa kolom akan tetap dalam struktur pertambangan, namun tidak akan digunakan dalam model pertambangan. Jika Anda telah mengaktifkan Drillthrough dari model untuk struktur pertambangan, Anda dapat mengambil informasi dari kolom kemudian.

Tergantung pada algoritma yang Anda pilih, beberapa kolom dalam struktur pertambangan mungkin tidak sesuai dengan jenis model yang tertentu, atau mungkin memberikan hasil yang buruk. Sebagai contoh, jika data Anda berisi data angka terus menerus, seperti kolom Penghasilan, dan model Anda membutuhkan nilai-nilai diskrit, Anda mungkin perlu mengkonversi data ke rentang diskrit atau menghapusnya dari model.

Dalam beberapa kasus algoritma secara otomatis akan mengkonversi atau sampah data untuk Anda, tetapi hasilnya mungkin tidak selalu apa yang Anda inginkan atau harapkan. Pertimbangkan membuat salinan tambahan dari kolom dan mencoba model yang berbeda.

Anda juga dapat mengatur bendera di kolom individu untuk menunjukkan di mana pengolahan khusus diperlukan. Sebagai contoh, jika data Anda berisi nulls, Anda dapat menggunakan bendera pemodelan untuk mengontrol penanganan. Jika Anda ingin kolom tertentu untuk dianggap sebagai regressor dalam model Anda dapat melakukannya dengan bendera modeling.

Setelah Anda telah membuat model, Anda dapat membuat perubahan seperti menambahkan atau menghapus kolom, atau mengubah nama model. Namun, perubahan apapun, bahkan hanya untuk model metadata, mengharuskan Anda memproses ulang model.

Dalam membuat model data mining terdapat beberapa langkah-langkah umum:

· Menciptakan struktur pertambangan yang mendasari dan termasuk kolom data yang mungkin dibutuhkan.

· Pilih algoritma yang paling cocok untuk tugas analitis.

· Pilih kolom dari struktur untuk digunakan dalam model, dan menentukan bagaimana mereka harus digunakan-kolom yang berisi hasil yang Anda inginkan untuk memprediksi, kolom mana yang untuk masukan saja, dan sebagainya.

· Opsional, mengatur parameter untuk menyempurnakan pengolahan oleh algoritma.

· Mengisi model dengan data dengan memproses struktur dan model.

Analysis Services menyediakan alat berikut ini untuk membantu Anda mengelola model pertambangan Anda:

· Data Mining Wizard membantu Anda membuat struktur dan model pertambangan terkait. Ini adalah metode yang paling mudah untuk digunakan. Wizard secara otomatis menciptakan struktur pertambangan yang diperlukan dan membantu Anda dengan konfigurasi pengaturan penting.

· A DMX pernyataan CREATE MODEL dapat digunakan untuk menentukan model. Struktur yang diperlukan secara otomatis dibuat sebagai bagian dari proses; Oleh karena itu, Anda tidak dapat menggunakan kembali struktur yang ada dengan metode ini. Gunakan metode ini jika Anda sudah tahu model apa yang Anda ingin membuat, atau jika Anda ingin model skrip.

· A DMX ALTER pernyataan STRUKTUR MODEL ADD dapat digunakan untuk menambahkan model pertambangan baru ke struktur yang ada. Gunakan metode ini jika Anda ingin bereksperimen dengan model yang berbeda yang didasarkan pada kumpulan data yang sama.

2.3 Aplikasi Data Mining

Berikut adalah contoh dari aplikasi data mining :

· Association Rules dan Algoritma Apriori

Association rules merupakan salah satu teknik data mining yang berfungsi untuk menemukan asosiasi antar variabel, korelasi atau suatu struktur diantara item atau objek-objek didalam database transaksi, database relasional, maupun pada penyimpanan informasi lainnya.
Sebagai ilustrasi dalam analisis weblog dari association rules adalah sebagai berikut, pola yang mungkin adalah “jika seseorang mengunjungi website CNN, terdapat kemungkinan sebesar 60% orang tersebut mengunjungi website Detik pada bulan yang sama.” Pada ilustrasi tersebut, pola yang ditemukan berpotensi menghasilkan potongan informasi yang menarik dan dibutuhkan oleh perusahaan yang terkait.
Proses di dalam teknik assocation rules adalah mencari aturan-aturan yang memenuhi minimum support dan confidence. Algoritma yang pertama kali digunakan dalam teknik association rules dan yang paling banyak digunakan adalah algoritma apriori (Agrawal & Srikant, 1994).

· Web Crawler

Web crawler (yang juga dikenal dengan web spider atau web robot) adalah suatu program atau script otomatis yang menjelajahi WWW dengan menggunakan sebuah metode atau cara yang otomatis. Nama-nama yang jarang digunakan pada sebuah web crawler adalah ants, automatic indexers, bots, worms (Kobayashi & Takeda, 2000).

· Extended Log File Format

Extended Log Format dirancang untuk memenuhi beberapa kebutuhan di bawah ini (Baker & Behlendorf, 1996):

a. Memperbolehkan kontrol pada data yang direkam.

b. Memenuhi kebutuhan proxy, client dan server dalam format yang umum.

c. Menyediakan penanganan yang sempurna akan masalah penghilangan karakter.

d. Memperbolehkan dalam pertukaran demografis data. Memperbolehkan dalam menyajikan rekapitulasi data.

Beberarap domain aplikasi, antara lain:

Biomedical and DNA data analysis
Financial data analysis
Retail industry
Telecommunication industry

Biomedical and DNA Data Analysis

Urutan DNA: 4 blok dasar yang membangun DNA: (nucleotides): adenine (A), cytosine (C), guanine (G), and thymine (T).

Gene: satu urutan/barisan dari ratusan individual nucleotides tersusun dalam urutan tertentu.
Manusia mempunyai sekitar 30,000 genes
Sangat banyak cara sehingga nucleotides dapat diurutkan dan dibariskan untuk membentuk genes yang berbeda.
Integrasi semantik dari keberagaman, database genome yang terdistribusi
Current: highly distributed, uncontrolled generation dan menggunakan data DNA yang sangat luas kebergamannya
Metode Data cleaning dan data integration dikembangkan dalam data mining akan membantu

Contoh : Analisis DNA

Pencarian keserupaan dan perbandingan diantara barisan DNA

· Bandingkan pola yang sering muncul dari setiap kelas (misal, penyakit dan kesehatan)

· Identifikasi pola barisan gene yang berpengaruh dalam berbagai penyakit.

· Analisis Association : Pengidentifikasian dari kemunculan barisan gen

Sebagian penyakit tidak di triger melalui satu gen tunggal tetapi oleh kombinasi gen yang berlaku bersama.
Analysis Association dapat membantu menentukan macam macam dari gen yang kelihatannya akan muncul secara bersamaan dalam contoh target.
Analisis Path : menghubungkan gen ke tingkatan pengembangan penyakit yang berbeda.
Gen yang berbeda dapat menjadi aktif pada tingkatan berbeda dari penyakit
Mengembangkan intervensi pharmaceutical yang mentargetkan tingkatan yang berbeda secara terpisah.
Tool Visualisasi dan analisis data genetika

Data Mining untuk Analisis Data Keuangan

Data keuangan terkumpul di bank dan intstitusi keuangan yang pada umumnya adalah lengkap, handal dan tinggi kualitasnya.
Desain dan konstruksi dari data warehouse untuk analisis data multidimensi dan data mining.

· View perubahan debet dan pendapatan/keuntungan berdasarkan bulan, daerah, sektor dan faktor.

· Akses informasi statistik seperti max, min, total, average, trend, dll.

Peramalan/prediksi pembayaran pinjaman / analisis kebijaksanaan kredit konsumen.

· Pemeringkatan pemilihan fitur dan keterhubungan atribut

· Kinerja pembayaran pinjaman

· Rating kredit konsumen

Data Mining Keuangan

Classification dan clustering dari konsumen untuk sasaran pemasaran.

· multidimensional segmentation melalui nearestneighbor, classification, decision trees, dll. Untuk mengidentifikasi kelompok konsumen atau mengasosiasi satu konsumen baru ke satu kelompok konsumen yang tepat/sesuai.

Detection of money laundering dan kejahatan keuangan lainnya

· integration of from multiple DBs (e.g., bank transactions, federal/state crime history DBs)

· Tools: data visualization, linkage analysis, classification, clustering tools, outlier analysis, and sequential pattern analysis tools (find unusual access sequences)

BAB III

PEMBAHASAN

3.1 Pengertian Data Mining

Data Mining merupakan teknologi yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data (Data warehouse) suatu swalayan. Dengan data mining dapat meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting.

Analisis yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu dan cost tinggi.

Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi untuk memprediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

Sebagai contoh adalah beberapa solusi yang bisa diselesaikan dengan data mining diantaranya yaitu menebak target pasar, yaitu dengan melakukan pengelompokan dari modelmodel pembeli dan melakukan klasifikasi setiap pembeli dari kebiasaan membeli, dari tingkat penghasilan dan karakteristik lainnya.

Menentukan profile customer dan identifikasi kebutuhan customer, dimana data mining bisa melihat profil customer untuk mengetahui kelompok konsumen tertentu misalnya suka membeli produk apa saja serta mengidentifikasi produk-produk apa saja yang terbaik untuk setiap kelompok konsumen sehingga bisa menyusun faktor-faktor apa saja yang dapat menarik konsumen baru untuk bergabung atau membeli. Serta banyak sekali solusi data mining yang bisa di implemetasikan sebagai misal pada swalayan, bidang perbankan , operator GSM dan lain sebagainya.

Data Mining

Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik analisis data yang tradisional tidak dapat digunakan untuk mengektrak informasi dari data yang sangat besar.

Untuk itu diperlukan suatu metoda baru yang dapat menjawab kebutuhan tersebut. Data mining merupakan teknologi yang menggabungkan metoda analisis tradisional dengan algoritma yang canggih untuk memproses data dengan volume besar. Ada beberapa definisi dari data mining yang dikenal diiantaranya adalah :

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Data mining atau Knowledge Discovery in Databases (KDD) adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi sejumlah pendekatan teknis yang berbeda, seperti clustering, data summarization, learning classification rules.

Secara umum, data mining dapat melakukan dua hal yaitu memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga, dan juga bisa menangani data berskala besar. Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian secara hampir otomatis, karena dalam banyak teknik data mining ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual. Data mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi.

Data mining dapat juga didefinisikan sebagai “pemodelan dan penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume yang besar”. Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritmaalgoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan.

Ruang Lingkup Data Mining

Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya.

Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data mining memiliki kemampuan-kemampuan sebagai berikut :

a) Mengotomatisasi prediksi tren dan sifat-sifat bisnis.

Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaan-pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia.

Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian lainnya.

b) Mengotomatisasi penemuan pola-pola yang tidak diketahui sebelumnya.

Kakas data mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan.

Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produk-produk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer.

Kemampuan data mining untuk menangani data dalam jumlah besar memungkinkan data mining diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia. Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih besar lagi.

Sebaliknya, ada beberapa hal yang tidak bisa dilakukan oleh data mining. Yang pertama perlu disadari adalah data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.

Selain itu, data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan. Dalam tahapan-tahapan dari proses data mining yang sudah kita bahas, seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang dihadapinya.

Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :

- Database, data warehouse, atau tempat penyimpanan informasi lainnya.

- Server database atau data warehouse.

- Knowledge base

- Data mining engine.

- Pattern evolution module.

- Graphical user interface.

3.2 Langkah Data Minig

· Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki.

Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

· Integrasi data (penggabungan data dari beberapa sumber)

Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb.

Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.

Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya.

· Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning.

Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.

· Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.

· Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan pemahaman dari hasil data mining.

· Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining.

Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mini

Dari data di atas, dapat disimpulkan menjadi :

- Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan)

- Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)

- Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)

- Data mining (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)

- Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)

- Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).

3.3 Fungsi Data Mining

Kegunaan data mining adalah untuk menspesifikasikan pola yang harus ditemukan dalam tugas data mining. Secara umum tugas data mining dapat diklasifikasikan ke dalam dua kategori: deskriptif dan prediktif. Tugas menambang secara deskriptif adalah untuk mengklasifikasikan sifat umum suatu data di dalam database. Tugas data mining secara prediktif adalah untuk mengambil kesimpulan terhadap data terakhir untuk membuat prediksi.

Konsep/Class Description

Data dapat diasosiasikan dengan pembagian class atau konsep. Untuk contohnya, ditoko All Electronics, pembagian class untuk barang yang akan dijual termasuk komputer dan printer, dan konsep untuk konsumen adalah big Spenders dan budget Spender. Hal tersebut sangat berguna untuk menggambarkan pembagian class secara individual dan konsep secara ringkas, laporan ringkas, dan juga pengaturan harga. Deskripsi suatu class atau konsep seperti itu disebut class/concept descripition.

Association Analysis

Association analysis adalah penemuan association rules yang menunjukkan nilai kondisi suatu attribute yang terjadi bersama-sama secara terus-menerus dalam memmberikan set data. Association analysis secara luas dipakai untuk market basket atau analisa data transaksi.

Klasifikasi dan Predikasi

Klasifikasi dan prediksi mungkin perlu diproses oleh analisis relevan, yang berusaha untuk mengidentifikasi atribut-atribut yang tidak ditambahkan pada proses klasifikasi dan prediksi. Atribut-atribut ini kemudian dapat di keluarkan.

Cluster Analysis

Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data dengan kelas yang terlabeli, clustering menganalisis objek data tanpa mencari keterangan pada label kelas yang diketahui. Pada umumnya, label kelas tidak ditampilkan di dalam latihan data simply, karena mereka tidak tahu bagaimana memulainya. Clustering dapat digunakan untuk menghasilkan label-label.

Outlier Analysis

§ Outlier dapat dideteksi menggunakan test yang bersifat statistik yang mengambil sebuah distribusi atau probabilitas model untuk data, atau menggunakan langkah-langkah jarak jauh di mana objek yang penting jauh dari cluster lainnya dianggap outlier.

§ Sebuah database mungkin mengandung objek data yang tidak mengikuti tingkah laku yang umum atau model dari data. data ini disebut outlier.

Evolution Analysis

Data analisa evolusi menggambarkan ketetapan model atau kecenderungan objek yang memiliki kebiasaan berubah setiap waktu. Meskipun ini mungkin termasuk karakteristik, diskriminasi, asosiasi, klasifikasi, atau clustering data berdasarkan waktu, kelebihan yang jelas seperti analisa termasuk analisa data time-series, urutan atau pencocockkan pola secara berkala, dan kesamaan berdasarkan analisa data.

Untuk melakukan data mining yang baik ada beberapa persoalan utama yaitu menyangkut metodologi mining dan interaksi user, performance dan perbedaan tipe database. Hal inilah yang sering kali dihadapi disaat kita ingin melakukan data mining.

Selain itu data mining juga dapat berfungsi sebagai :

1. Segmentasi Pasar

Mengidentifikasi karakteristik umum dari pelanggan yang membeli produk yang sama

2. Analisis keranjang penjualan

Memahami produk atau servis yang pada umumnya dijual bersama-sama.

3. Analisis kecenderungan

Menyatakan perbedaan antara tipe pelanggan bulan ini dan yang lalu.

4. Intelligence Marketing

Kebanyakan aplikasi data mining tujuan utamanya adalah membuat prediksi dan deskripsi.

Prediksi menggunakan beberapa variable atau field-field basis data untuk memprediksi nilai- nilai variable masa mendatang yang diperlukan yang belum diketahui saat ini.

Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah.

3.4 Keuntungan dan Kerugian Data Mining

Kelebihan Data Mining :

1. Kemampuan dalam mengolah data dalam jumlah yang besar.

2. Pencarian Data secara otomatis.

Kekurangan Data Mining :

1. Kendala Database ( Garbage in garbage out ).

2. Tidak bisa melakukan analisa sendiri.

3.5 Jenis-jenis Data Mining

1. Market Basket Analysis

Himpunan data yang dijadikan sebagai objek penelitan pada area data mining. Market basket analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaannya. Market basket analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi.

Selanjutnya pola yang ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog, merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya.

Dengan menggunakan teknologi data mining, analisis data secara manual tidak diperlukan lagi.

2. Memory-Based Reasoning

Metode klasifikasi yang digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan.

Ada dua komponen dasar untuk metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang digunakan untuk menggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.

3. Cluster Detection

Ada dua pendekatan untuk clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun proses komputasi sama.

4. Link Analysis

Proses mencari dan membangun hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses optimasi.

5. Rule Induction

Ekstraksi aturan sebab-akibat dari data secara statistic. identifikasi aturan bisnis yang tersimpan di dalam data. Metode berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu pendekatan untuk penemuan aturan adalah menggunakan pohon keputusan.

6. Neural Networks

Model prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.

3.6 Apa yang bisa dan tidak bisa dilakukan Data Mining

Secara umum, data mining dapat melakukan dua hal :

memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga,
bisa menangani data berskala besar.

Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual.

Penelitian untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi.

Kemampuan data mining untuk menangani data dalam jumlah besar memungkinkan data mining diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia. Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih besar lagi.

Sebaliknya, ada beberapa hal yang tidak bisa dilakukan oleh data mining Yang pertama perlu disadari adalah data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana. Selain itu, data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.

Dalam tahapan-tahapan dari proses data mining yang sudah kita bahas, seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang dihadapinya.

Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya. Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa merumuskan hasilnya.

Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan mudah. Masih banyak juga teknik-teknik data mining yang belum memiliki teknik baku untuk menilai seberapa besar manfaat dari pola yang ditemukan.

Karenanya untuk penilaian hasil data mining masih perlu dilakukan secara manual. Yang menjadi masalah untuk melakukan penilaian pun diperlukan tenaga terlatih karena algoritma data mining cukup kompleks. Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering dirangkum dalam istilah business intelligence (BI).

Untuk memecahkan masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.

Data Mining juga memiliki kemampuan, diantaranya :

Mampu menangani data dalam jumlah besar.
Memungkinkan data mining untuk diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia.
Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih besar lagi.

Sebaliknya, disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data mining, diantaranya :

Perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.
Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.

Beberapa hal yang perlu diperhatikan oleh seorang analis :

Seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang dihadapinya.
Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya.
Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa merumuskan hasilnya.
Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan mudah.
Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.

3.7 Tugas Data Mining (Six Tax Data Mining)

Classification - Menyusun data menjadi kelompok-kelompok yang telah ditentukan, yang melibatkan dengan memeriksa atribut-atribut dari suatu objek tertentu dan menetapkannya ke kelas yang telah didefinisikan.

Estimation - proses untuk menempatkan beberapa nilai numerik secara terus suatu objek, estimasi juga dapat digunakan sebagai bagian dari proses klasifikasi.

Prediction - berbeda dengan Estimation dan Classification, Prediction adalah upaya-upaya untuk mengklasifikasikan suatau objek berdasarkan dari behaviour yang akan ditentukan(diharapkan) dari candidate behaviour.

Affinity Grouping - proses yang mengevaluasi hubungan atau asosiasi antara unsur-unsur data berupa attribute atau behaviour data yang menunjukkan beberapa tingkat afinitas antar objek.

Clustering - sama seperti klasifikasi tetapi kelompok yang tidak/belum di tentukan standarnya, sehingga secara algoritma data tersebut akan dikelompokan berdasarkan data yang serupa dengan data yg di submit.

Desciption - proses yang menggambarkan apa yang telah terjadi dan di identifikasi atau proses yang menjelaskan hasil akhir dari jalannya proses data mining.

BAB IV

PENUTUP

4.1 Kesimpulan

Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data bisnis yang melimpah, telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan bisnis mereka.

Akan tetapi, agar teknologi data mining ini dapat dimanfaatkan terus dengan baik, teknologi ini harus terus dapat “bekerja” berdampingan dengan bidang lain di dunia teknologi informasi yang berkembang dengan sangat cepat.

Penyempurnaan di sana-sini masih terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.

4.2 Saran

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan sebagai analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang tidak bisa dilakukannya.

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.