DATA MINING
PAPER
INDIVIDU
2
TOPIK-TOPIK
LANJUTAN
SISTEM
INFORMASI
Oleh
Michael Samuel C – 1501148204
06PJM / 2
Binus University
Jakarta
2014
Binus University
Jurusan
Sistem Informasi
Paper Individu 2 Topik-Topik Lanjutan Sistem
Informasi
Semester
Genap tahun 2014
DATA MINING
Michael Samuel C – 1501148204
06PJM / 2
Abstrak
Persaingan yang terjadi di dalam lingkup
perusahaan saat ini adalah penggunaan teknologi terbaru yang dapat membantu
serta meningkatkan kinerja perusahaan. Di dalam sebuah perusahaan pasti
terdapat banyak sekali data.
Namun sering kali terjadi sebuah kondisi
yang berbunyi “rich
of data but poor of information”. Untuk
menghindari hal ini, banyak perusahaan yang menggunakan Data Warehouse yang dapat membantu para pegawai tingkat
manajer untuk membuat keputusan.
Namun dengan memiliki Data Warehouse saja ternyata belum cukup karena Data Warehouse hanya dapat memberikan tampilan secara sederhana dari banyak data
namun tidak memiliki fasilitas sebagai penemu pola-pola yang tersembunyi dari
data-data yang berguna.
Data Mining adalah salah satu bidang yang berkembang
pesat karena besarnya kebutuhan akan nilai tambah dari basis data skala besar
yang makin banyak terakumulasi sejalan dengan pertumbuhan teknologi informasi.
Definisi umum dari Data Mining itu sendiri adalah serangkaian proses untuk
menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara
manual dari suatu kumpulan data.
Dengan ditampilkannya korelasi data yang sebelumnya
tidak diketahui, maka para eksekutif dapat membuat keputusan untuk kemajuan
perusahaan.
Data Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data mereka. Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting.
Analisis
yang diotomatisasi yang dilakukan oleh data mining melebihi
yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak
digunakan. Data mining dapat menjawab pertanyaan-pertanyaan bisnis
yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya.
Data
mining mengeksplorasi basis data untuk menemukan pola-pola yang
tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh
para pelaku bisnis karena terletak di luar ekspektasi mereka.
Makalah
ini membahas lebih jauh definisi, konsep, langkah-langkah/jenis-jenis, tugas
dan apa yang bisa dan tidak bisa dilakukan data mining.
Kata Kunci
Data
Mining, Mining Model, Aplikasi Data Mining.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Perkembangan data mining (DM) yang pesat tidak dapat lepas
dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar
terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang
dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa
mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan
berskala nasional. Perkembangan internet juga punya andil cukup besar dalam
akumulasi data.
Tetapi pertumbuhan
yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering
disebut sebagai “rich of data but poor of information” karena data yang
terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang
kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data” (data
tombs).
DM adalah
serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa
pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa
kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga
dari sejumlah besar material dasar.
Karena itu
DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan
buatan (artificial intelligent), machine learning, statistik dan database.
Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain :
clustering, classification, association rule mining, neural network, genetic
algorithm dan lain-lain.
Yang membedakan persepsi
terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada
database skala besar. Sebelum populernya DM, teknik-teknik tersebut hanya dapat
dipakai untuk data skala kecil saja.
“Data Mining”, bagi sebagian orang
istilah ini sudah tidak asing, tapi bagi sebagian yang lain, istilah Statistik lebih dikenal sebagai ilmu
dalam pengolahan data. Bahkan seringnya bagi masyarakat umum kata Data Mining diasosiasikan dengan
penambangan. Hal tersebut tidak sepenuhnya salah, karena memang Data Mining melakukan proses
penambangan, namun bukan menambang mineral bumi, melainkan menambang informasi
(knowledge) baru dari data.
Data Mining memiliki banyak kemiripan
dengan Statistika, karena
sama-sama bertujuan mengolah data untuk mendapatkan suatu kesimpulan/informasi
darinya. Bahkan bisa dikatakan bahwa akar Data Mining adalah Statistik.
Akan tetapi tentu saja jika sama, maka istilah baru tidak perlu diperkenalkan.
Perbedaan
statistika dan Data Mining terletak pada pangkal
permasalahannya. Di Statistika
data (sampel) biasanya diambil dari populasi, lalu diolah dengan metode
statistika yang bersesuaian, kemudian menyimpulkan hasilnya dari model yang
dibuat [interpretasi].
Data Mining umumnya mengolah data yang
berasal dari observasi dan biasanya berukuran besar. Ukuran data yang
besar tersebut terkadang menjadi kendala bagi beberapa model Statistik tradisional. Sebut saja
karena masalah memori komputer akibat perhitungannya, masalah stabilitas
komputasi, dan masalah konvergensi pencapaian model yang optimal [biasanya
terdapat suatu proses iteratif di Statistik].
Data Mining berusaha untuk mengatasi
masalah tersebut dengan mengembangkan algoritma atau model terkini agar
pengolahan data yang besar tetap dapat dilakukan. Beberapa model di Data Mining sama dengan Statistika tradisional, mulai dari Regresi,
Cluster [pengelompokan], maupun model-model klasifikasi. Akan
tetapi model-model tersebut menjadi berbeda proses perhitungan dan
interpretasinya mengingat domain data dan algoritma perhitungannya juga
berbeda.
Sesuai
dengan paparan sebelumnya berarti secara umum Data Mining berkaitan juga dengan bidang ilmu lain: Computer
Science [SI/TI], Kecerdasan Buatan [Machine Learning/Artificial Intelligence],
Image Prosesing, dll. Data
Mining menggunakan pengetahuan di bidang database dan data
warehouse di SI [Sistem Informasi], pemrograman HPC [High Performance
Computing] di TI [Teknik Informatika], Pencarian pattern [Pola] di Machine
Learning/Artificial Inteeligence/Image Processing, dan sebagainya.
Data Mining
terkadang sering disebut juga sebagai KDD [Knowledge Discovery in
Database] sebuah istilah yang umum digunakan di bidang kecerdasan buatan.
Perbedaan lain yang belum dijelaskan antara Statistik dan Data Mining
adalah bahwa
Data Mining biasanya memiliki lebih dari satu model yang
digunakan.
Selain
itu tujuan atau informasi yang akan/ingin didapatkan tidak diketahui diawal
pengolahan data. Berbeda dengan statistik yang biasanya hanya
menggunakan sebuah model saja dan sudah jelas sejak awal variabel apa yang akan
menjadi target dan variabel-variabel apa yang akan menjadi prediktor atau
penduganya.
Apa
sebenarnya yang memotivasi datamining dan mengapa data mining begitu penting ?
Alasan
utama mengapa data mining sangat menarik perhatian industri informasi dalam
beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang
besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi
informasi dan pengetahuan yang berguna.
Data
mining adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang
berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk
pengembangan.
1.2 Ruang Lingkup
Mengingat
luasnya cakupan ruang lingkup Data Mining,
maka ruang lingkup yang dibahas dibatasi pada :
1.
Penjelasan tentang Data
Mining.
2.
Kegunaan Data
Mining.
1.3
Tujuan dan
Manfaat
Berdasarkan
pembahasan pada latar belakang, maka dapat ditentukan tujuan penelitian ini,
yaitu untuk mengetahui perkembangan Data
Mining yang ada.
Hasil penelitian ini diharapkan dapat
memberikan manfaat-manfaat sebagai berikut :
1. Untuk
mengetahui definisi atau pengertian
dari Data Mining.
2. Untuk mengetahui kegunaan Data Mining.
1.4 Metodologi
Penelitian
Metode yang digunakan terdiri dari beberapa
bagian, yaitu :
1. Studi pustaka
Metode
pengumpulan informasi yang digunakan melalui studi artikel media internet dan
buku-buku referensi yang dapat dijadikan sumber dan panduan dalam penyusunan
penulisan ini.
2. Metode Analisis
Metode
analisis yang digunakan pada penelitian ini adalah dengan menganalisis dan me-review perkembangan Data Mining yang ada di Indonesia.
1.5
Sistematika Penulisan
Untuk mempermudah pembahasan dan memberikan gambaran yang sistematis
dalam memahami topik yang disajikan, kami membagi paper ini ke dalam
bagian-bagian berupa bab yaitu :
BAB I :
Pendahuluan
Dalam
bab ini diuraikan tentang masalah pokok yang dibahas dalam paper ini, yang
terdiri dari Latar Belakang, Ruang Lingkup, Tujuan dan Manfaaat, Metodologi
Penelitian, dan Sistematika Penulisan.
BAB II : Landasan Teori
Dalam bab ini akan menguraikan teori atau konsep yang
melandasi hal-hal yang terdapat dalam penelitian ini, secara umum dijelaskan
tentang teori-teori yang berhubungan dengan kinerja sistem informasi baik
dikutip dari berbagai referensi maupun hasil riset yang didapat.
BAB III : Pembahasan
Dalam bab ini berisi hasil penelitian yang dilakukan
dalam rangka mencapai tujuan dan manfaat yang ditetapkan pada pendahuluan. Lalu
menunjukkan bagaimana pemikiran atau temuan-temuan diperoleh, menginterpretasikan
temuan, dan mengaitkannya dengan teori yang digunakan.
BAB IV : Penutup
Dalam bab ini penulis akan menarik bebarapa kesimpulan
berdasarkan petunjuk dari buku-buku referensi, internet, dan seminar
teori-teori lanjutan sistem informasi serta saran yang mungkin akan diterapkan
untuk kemajuan perusahaan.
BAB
II
LANDASAN
TEORI
2.1 DATA MINING
Data Mining adalah serangkaian
proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan
yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining
sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah
besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),
machine learning, statistik dan database.
Data mining adalah proses
menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola
tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola
dari data. Data mining menjadi alat yang semakin penting untuk mengubah data
tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek
profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah.
Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk
menyaring volume data seperti catatan perjalanan penumpang penerbangan, data
sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data
mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data
tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang
tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin
tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh
hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain .
Untuk mengatasi masalah semacam
ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan
lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam
situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus
sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering
disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain:
clustering, classification, association rule mining, neural network, genetic
algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah
perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala
besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat
dipakai untuk data skala kecil saja.
2.2 Mining
Model
Model pertambangan berisi kolom data yang diperoleh dari
kolom didefinisikan dalam struktur pertambangan. Anda dapat memilih kolom dari
struktur pertambangan untuk digunakan dalam model, dan Anda dapat membuat
salinan dari kolom struktur pertambangan dan kemudian mengubah nama mereka atau
mengubah penggunaannya.
Sebagai bagian dari proses pembentukan model, Anda juga
harus menentukan penggunaan kolom oleh model. Itu termasuk informasi seperti
apakah kolom adalah kunci, apakah itu digunakan untuk prediksi, atau apakah itu
dapat diabaikan oleh algoritma.
Ketika Anda membangun sebuah model, bukan secara otomatis
menambahkan setiap kolom data yang tersedia, dianjurkan bahwa Anda meninjau
data dalam struktur hati-hati dan termasuk dalam model hanya kolom yang masuk
akal untuk analisis. Misalnya, Anda harus menghindari termasuk beberapa kolom
yang mengulangi data yang sama, dan Anda harus menghindari penggunaan kolom
yang memiliki nilai-nilai sebagian besar unik.
Jika Anda berpikir kolom tidak boleh digunakan, Anda tidak
perlu menghapusnya dari struktur pertambangan atau model pertambangan; sebagai
gantinya, Anda hanya dapat menetapkan bendera pada kolom yang menentukan bahwa
itu harus diabaikan ketika membangun model.
Ini berarti bahwa kolom akan tetap dalam struktur
pertambangan, namun tidak akan digunakan dalam model pertambangan. Jika Anda
telah mengaktifkan Drillthrough dari model untuk struktur pertambangan, Anda
dapat mengambil informasi dari kolom kemudian.
Tergantung pada algoritma yang Anda pilih, beberapa kolom
dalam struktur pertambangan mungkin tidak sesuai dengan jenis model yang
tertentu, atau mungkin memberikan hasil yang buruk. Sebagai contoh, jika data
Anda berisi data angka terus menerus, seperti kolom Penghasilan, dan model Anda
membutuhkan nilai-nilai diskrit, Anda mungkin perlu mengkonversi data ke
rentang diskrit atau menghapusnya dari model.
Dalam beberapa kasus algoritma secara otomatis akan
mengkonversi atau sampah data untuk Anda, tetapi hasilnya mungkin tidak selalu
apa yang Anda inginkan atau harapkan. Pertimbangkan membuat salinan tambahan
dari kolom dan mencoba model yang berbeda.
Anda juga dapat mengatur bendera di kolom individu untuk
menunjukkan di mana pengolahan khusus diperlukan. Sebagai contoh, jika data
Anda berisi nulls, Anda dapat menggunakan bendera pemodelan untuk mengontrol
penanganan. Jika Anda ingin kolom tertentu untuk dianggap sebagai regressor
dalam model Anda dapat melakukannya dengan bendera modeling.
Setelah Anda telah membuat model, Anda dapat membuat
perubahan seperti menambahkan atau menghapus kolom, atau mengubah nama model.
Namun, perubahan apapun, bahkan hanya untuk model metadata, mengharuskan Anda
memproses ulang model.
Dalam membuat model data mining terdapat beberapa
langkah-langkah umum:
·
Menciptakan
struktur pertambangan yang mendasari dan termasuk kolom data yang mungkin
dibutuhkan.
·
Pilih
algoritma yang paling cocok untuk tugas analitis.
·
Pilih
kolom dari struktur untuk digunakan dalam model, dan menentukan bagaimana
mereka harus digunakan-kolom yang berisi hasil yang Anda inginkan untuk
memprediksi, kolom mana yang untuk masukan saja, dan sebagainya.
·
Opsional,
mengatur parameter untuk menyempurnakan pengolahan oleh algoritma.
·
Mengisi
model dengan data dengan memproses struktur dan model.
Analysis Services menyediakan alat
berikut ini untuk membantu Anda mengelola model pertambangan Anda:
·
Data
Mining Wizard membantu Anda membuat struktur dan model pertambangan terkait. Ini adalah metode yang paling mudah untuk
digunakan. Wizard secara otomatis menciptakan
struktur pertambangan yang diperlukan dan membantu Anda dengan konfigurasi
pengaturan penting.
·
A DMX
pernyataan CREATE MODEL dapat digunakan untuk menentukan model. Struktur yang diperlukan secara otomatis
dibuat sebagai bagian dari proses; Oleh karena
itu, Anda tidak dapat menggunakan kembali struktur yang ada dengan metode ini.
Gunakan metode ini jika Anda sudah tahu model apa yang
Anda ingin membuat, atau jika Anda ingin model skrip.
·
A DMX
ALTER pernyataan STRUKTUR MODEL ADD dapat digunakan untuk menambahkan model
pertambangan baru ke struktur yang ada. Gunakan metode ini jika Anda ingin bereksperimen dengan model
yang berbeda yang didasarkan pada kumpulan data yang sama.
2.3 Aplikasi
Data Mining
Berikut
adalah contoh dari aplikasi data mining :
·
Association Rules dan Algoritma Apriori
Association rules merupakan salah satu teknik data mining yang
berfungsi untuk menemukan asosiasi antar variabel, korelasi atau suatu struktur
diantara item atau objek-objek didalam database transaksi, database relasional,
maupun pada penyimpanan informasi lainnya. Sebagai ilustrasi dalam analisis weblog dari association rules adalah sebagai berikut, pola yang mungkin adalah “jika seseorang mengunjungi website CNN, terdapat kemungkinan sebesar 60% orang tersebut mengunjungi website Detik pada bulan yang sama.” Pada ilustrasi tersebut, pola yang ditemukan berpotensi menghasilkan potongan informasi yang menarik dan dibutuhkan oleh perusahaan yang terkait.
Proses di dalam teknik assocation rules adalah mencari aturan-aturan yang memenuhi minimum support dan confidence. Algoritma yang pertama kali digunakan dalam teknik association rules dan yang paling banyak digunakan adalah algoritma apriori (Agrawal & Srikant, 1994).
·
Web Crawler
Web crawler (yang juga dikenal dengan web spider atau web
robot) adalah suatu program atau script otomatis yang menjelajahi WWW dengan
menggunakan sebuah metode atau cara yang otomatis. Nama-nama yang jarang
digunakan pada sebuah web crawler adalah ants, automatic indexers, bots, worms
(Kobayashi & Takeda, 2000).
·
Extended Log File Format
Extended Log Format dirancang untuk memenuhi beberapa
kebutuhan di bawah ini (Baker & Behlendorf, 1996):
a. Memperbolehkan kontrol pada
data yang direkam.
b. Memenuhi kebutuhan proxy,
client dan server dalam format yang umum.
c. Menyediakan penanganan yang
sempurna akan masalah penghilangan karakter.
d. Memperbolehkan dalam pertukaran demografis data.
Memperbolehkan dalam menyajikan rekapitulasi data.
Beberarap
domain aplikasi, antara lain:
- Biomedical and DNA data analysis
- Financial data analysis
- Retail industry
- Telecommunication industry
Biomedical
and DNA Data Analysis
Urutan
DNA: 4 blok dasar yang membangun DNA: (nucleotides): adenine (A), cytosine (C),
guanine (G), and thymine (T).
- Gene: satu urutan/barisan dari ratusan individual nucleotides tersusun dalam urutan tertentu.
- Manusia mempunyai sekitar 30,000 genes
- Sangat banyak cara sehingga nucleotides dapat diurutkan dan dibariskan untuk membentuk genes yang berbeda.
- Integrasi semantik dari keberagaman, database genome yang terdistribusi
- Current: highly distributed, uncontrolled generation dan menggunakan data DNA yang sangat luas kebergamannya
- Metode Data cleaning dan data integration dikembangkan dalam data mining akan membantu
Contoh
: Analisis DNA
- Pencarian keserupaan dan perbandingan diantara barisan DNA
· Bandingkan
pola yang sering muncul dari setiap kelas (misal, penyakit dan kesehatan)
· Identifikasi
pola barisan gene yang berpengaruh dalam berbagai penyakit.
· Analisis
Association : Pengidentifikasian dari kemunculan barisan gen
- Sebagian penyakit tidak di triger melalui satu gen tunggal tetapi oleh kombinasi gen yang berlaku bersama.
- Analysis Association dapat membantu menentukan macam macam dari gen yang kelihatannya akan muncul secara bersamaan dalam contoh target.
- Analisis Path : menghubungkan gen ke tingkatan pengembangan penyakit yang berbeda.
- Gen yang berbeda dapat menjadi aktif pada tingkatan berbeda dari penyakit
- Mengembangkan intervensi pharmaceutical yang mentargetkan tingkatan yang berbeda secara terpisah.
- Tool Visualisasi dan analisis data genetika
Data
Mining untuk Analisis Data Keuangan
- Data keuangan terkumpul di bank dan intstitusi keuangan yang pada umumnya adalah lengkap, handal dan tinggi kualitasnya.
- Desain dan konstruksi dari data warehouse untuk analisis data multidimensi dan data mining.
· View perubahan
debet dan pendapatan/keuntungan berdasarkan bulan, daerah, sektor dan faktor.
· Akses informasi
statistik seperti max, min, total, average, trend, dll.
- Peramalan/prediksi pembayaran pinjaman / analisis kebijaksanaan kredit konsumen.
· Pemeringkatan
pemilihan fitur dan keterhubungan atribut
· Kinerja pembayaran
pinjaman
· Rating kredit
konsumen
Data
Mining Keuangan
- Classification dan clustering dari konsumen untuk sasaran pemasaran.
· multidimensional
segmentation melalui nearestneighbor, classification, decision trees, dll.
Untuk mengidentifikasi kelompok konsumen atau mengasosiasi satu konsumen baru
ke satu kelompok konsumen yang tepat/sesuai.
- Detection of money laundering dan kejahatan keuangan lainnya
· integration
of from multiple DBs (e.g., bank transactions, federal/state crime history DBs)
· Tools:
data visualization, linkage analysis, classification, clustering tools, outlier
analysis, and sequential pattern analysis tools (find unusual access sequences)
BAB
III
PEMBAHASAN
3.1 Pengertian Data Mining
Data Mining merupakan teknologi yang sangat berguna untuk membantu
perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data (Data
warehouse) suatu swalayan. Dengan data mining dapat meramalkan tren dan
sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan
keputusan penting.
Analisis
yang diotomatisasi yang dilakukan oleh data mining melebihi yang
dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak
digunakan. Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan
cara tradisional memerlukan banyak waktu dan cost tinggi.
Data Mining mengeksplorasi basis data untuk menemukan
pola-pola yang tersembunyi, mencari informasi untuk memprediksi yang mungkin
saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi
mereka.
Sebagai
contoh adalah beberapa solusi yang bisa diselesaikan dengan data mining
diantaranya yaitu menebak target pasar, yaitu dengan melakukan pengelompokan
dari modelmodel pembeli dan melakukan klasifikasi setiap pembeli dari kebiasaan
membeli, dari tingkat penghasilan dan karakteristik lainnya.
Menentukan profile customer dan identifikasi kebutuhan customer, dimana data mining bisa melihat
profil customer untuk mengetahui kelompok konsumen tertentu misalnya suka
membeli produk apa saja serta mengidentifikasi produk-produk apa saja yang
terbaik untuk setiap kelompok konsumen sehingga bisa menyusun faktor-faktor apa
saja yang dapat menarik konsumen baru untuk bergabung atau membeli. Serta
banyak sekali solusi data mining yang bisa di implemetasikan sebagai misal pada
swalayan, bidang perbankan , operator GSM dan lain sebagainya.
Data Mining
Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat
memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan
teknik analisis data yang tradisional tidak dapat digunakan untuk mengektrak
informasi dari data yang sangat besar.
Untuk itu diperlukan suatu metoda baru yang dapat menjawab
kebutuhan tersebut. Data mining merupakan teknologi yang menggabungkan
metoda analisis tradisional dengan algoritma yang canggih untuk memproses data
dengan volume besar. Ada beberapa definisi dari data mining yang dikenal
diiantaranya adalah :
Data mining adalah serangkaian proses untuk
menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama
ini tidak diketahui secara manual.
Data mining adalah analisa otomatis dari data yang
berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari keberadaannya
Data mining atau Knowledge Discovery in Databases (KDD) adalah
pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya
tidak dikenal dan berpotensi bermanfaat. Proses ini meliputi sejumlah
pendekatan teknis yang berbeda, seperti clustering, data summarization,
learning classification rules.
Secara umum, data mining dapat
melakukan dua hal yaitu memberikan kesempatan untuk menemukan informasi menarik
yang tidak terduga, dan juga bisa menangani data berskala besar. Dalam
menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan
pencarian secara hampir otomatis, karena dalam banyak teknik data mining ada
beberapa parameter yang masih harus ditentukan secara manual atau semi manual.
Data mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di masa
lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah
satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining
seperti klasifikasi.
Data mining dapat juga didefinisikan sebagai “pemodelan
dan penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume
yang besar”. Data mining menggunakan pendekatan discovery-based dimana
pencocokan pola (pattern-matching) dan algoritmaalgoritma yang lain digunakan
untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data
mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan.
Ruang Lingkup Data Mining
Data mining (penambangan data), sesuai dengan namanya,
berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data
yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan
penambangan logam mulia dari lahan sumbernya.
Dengan tersedianya
basis data dalam kualitas dan ukuran yang memadai, teknologi data mining
memiliki kemampuan-kemampuan sebagai berikut :
a) Mengotomatisasi
prediksi tren dan sifat-sifat bisnis.
Data mining mengotomatisasi
proses pencarian informasi pemprediksi di dalam basis data yang besar.
Pertanyaan-pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab
langsung dari data yang tersedia.
Contoh dari masalah prediksi ini
misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian
lainnya.
b) Mengotomatisasi
penemuan pola-pola yang tidak diketahui sebelumnya.
Kakas data mining “menyapu” basis
data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam
satu sapuan.
Contoh dari penemuan pola ini
adalah analisis pada data penjulan ritel untuk mengidentifikasi produk-produk,
yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh
kustomer.
Kemampuan data mining untuk menangani
data dalam jumlah besar memungkinkan data mining diterapkan pada
masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia.
Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar
data mining dapat diterapkan pada program skala yang lebih besar lagi.
Sebaliknya, ada beberapa hal yang tidak bisa dilakukan
oleh data mining. Yang pertama perlu disadari adalah data mining bukanlah
solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih
baik diselesaikan dengan statistic yang sederhana.
Selain itu, data mining juga tidak bisa menemukan
pengetahuan yang bermanfaat secara instan. Dalam tahapan-tahapan dari proses
data mining yang sudah kita bahas, seorang analis data mining perlu tahu
perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok
untuk masalah yang dihadapinya.
Arsitektur
dari data mining yang khas memiliki beberapa komponen utama yaitu :
-
Database, data warehouse, atau tempat penyimpanan informasi lainnya.
-
Server database atau data warehouse.
-
Knowledge base
-
Data mining engine.
-
Pattern evolution module.
-
Graphical user interface.
3.2 Langkah Data Minig
· Pembersihan
data (untuk membuang data yang
tidak konsisten dan noise)
Pada umumnya
data yang diperoleh, baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang,
data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki.
Data-data yang
tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi
mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out
(hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan
istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data
juga akan mempengaruhi performasi dari sistem data mining karena data yang
ditangani akan berkurang jumlah dan kompleksitasnya.
· Integrasi
data (penggabungan data dari beberapa sumber)
Tidak jarang
data yang diperlukan untuk data mining tidak hanya berasal dari satu database
tetapi juga berasal dari beberapa database atau file teks. Integrasi data
dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang
unik seperti atribut nama, jenis produk, nomor pelanggan dsb.
Integrasi data
perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi
nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata
menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi
antar produk yang sebenarnya tidak ada.
Dalam integrasi
data ini juga perlu dilakukan transformasi dan pembersihan data karena
seringkali data dari dua database berbeda tidak sama cara penulisannya atau
bahkan data yang ada di satu database ternyata tidak ada di database lainnya.
· Transformasi
data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Beberapa teknik
data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan.
Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering
hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik
yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering
disebut binning.
Disini juga
dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai.
Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data
mining nantinya karena ada beberapa karakteristik dari teknik-teknik data
mining tertentu yang tergantung pada tahapan ini.
· Aplikasi
teknik data mining
Aplikasi teknik
data mining sendiri hanya merupakan salah satu bagian dari proses data mining.
Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas
lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu
diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di
pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau
untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai
teknik data mining baru untuk penerapan di bidang bioinformatika seperti
analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.
· Evaluasi
pola yang ditemukan (untuk menemukan yang menarik/bernilai)
Dalam tahap ini
hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila
ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif
yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses
data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima
hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
Ada beberapa
teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti
analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk
memudahkan pemahaman dari hasil data mining.
· Presentasi
pola yang ditemukan untuk menghasilkan aksi
Tahap terakhir
dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi
dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan
orang-orang yang tidak memahami data mining.
Karenanya presentasi
hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang
adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi
ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mini
Dari
data di atas, dapat disimpulkan menjadi :
-
Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data
integration (di mana sumber data yang terpecah dapat disatukan)
-
Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke
dalam database)
-
Data transformation (di mana data berubah atau bersatu menjadi bentuk yang
tepat untuk menambang dengan ringkasan performa atau operasi agresi)
-
Data mining (proses esensial di mana metode yang intelejen digunakan untuk
mengekstrak pola data)
-
Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang
mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
-
Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan
digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).
3.3 Fungsi Data Mining
Kegunaan data mining adalah untuk menspesifikasikan pola yang
harus ditemukan dalam tugas data mining. Secara umum tugas data mining dapat
diklasifikasikan ke dalam dua kategori: deskriptif dan prediktif. Tugas
menambang secara deskriptif adalah untuk mengklasifikasikan sifat umum suatu
data di dalam database. Tugas data mining secara prediktif adalah untuk
mengambil kesimpulan terhadap data terakhir untuk membuat prediksi.
- Konsep/Class Description
Data dapat diasosiasikan dengan pembagian class atau konsep.
Untuk contohnya, ditoko All Electronics, pembagian class untuk barang yang akan
dijual termasuk komputer dan printer, dan konsep untuk konsumen adalah big
Spenders dan budget Spender. Hal tersebut sangat berguna untuk menggambarkan
pembagian class secara individual dan konsep secara ringkas, laporan ringkas,
dan juga pengaturan harga. Deskripsi suatu class atau konsep seperti itu
disebut class/concept descripition.
- Association Analysis
Association analysis adalah penemuan association rules yang
menunjukkan nilai kondisi suatu attribute yang terjadi bersama-sama secara
terus-menerus dalam memmberikan set data. Association analysis secara luas
dipakai untuk market basket atau analisa data transaksi.
- Klasifikasi dan Predikasi
Klasifikasi dan prediksi mungkin perlu diproses oleh analisis
relevan, yang berusaha untuk mengidentifikasi atribut-atribut yang tidak
ditambahkan pada proses klasifikasi dan prediksi. Atribut-atribut ini kemudian
dapat di keluarkan.
- Cluster Analysis
Tidak seperti klasifikasi dan prediksi, yang menganalisis
objek data dengan kelas yang terlabeli, clustering menganalisis objek data
tanpa mencari keterangan pada label kelas yang diketahui. Pada umumnya, label
kelas tidak ditampilkan di dalam latihan data simply, karena mereka tidak tahu
bagaimana memulainya. Clustering dapat digunakan untuk menghasilkan
label-label.
- Outlier Analysis
§ Outlier dapat dideteksi menggunakan test yang bersifat
statistik yang mengambil sebuah distribusi atau probabilitas model untuk data,
atau menggunakan langkah-langkah jarak jauh di mana objek yang penting jauh
dari cluster lainnya dianggap outlier.
§ Sebuah database mungkin mengandung objek data yang tidak
mengikuti tingkah laku yang umum atau model dari data. data ini disebut
outlier.
- Evolution Analysis
Data analisa evolusi menggambarkan ketetapan model atau
kecenderungan objek yang memiliki kebiasaan berubah setiap waktu. Meskipun ini
mungkin termasuk karakteristik, diskriminasi, asosiasi, klasifikasi, atau
clustering data berdasarkan waktu, kelebihan yang jelas seperti analisa
termasuk analisa data time-series, urutan atau pencocockkan pola secara
berkala, dan kesamaan berdasarkan analisa data.
Untuk melakukan data mining yang baik ada beberapa persoalan
utama yaitu menyangkut metodologi mining dan interaksi user, performance dan
perbedaan tipe database. Hal inilah yang sering kali dihadapi disaat kita ingin
melakukan data mining.
Selain itu data mining juga dapat berfungsi sebagai :
1. Segmentasi Pasar
Mengidentifikasi karakteristik umum dari pelanggan yang membeli produk yang sama
2. Analisis keranjang penjualan
Memahami produk atau servis yang pada umumnya dijual bersama-sama.
3. Analisis kecenderungan
Menyatakan perbedaan antara tipe pelanggan bulan ini dan yang lalu.
4.
Intelligence Marketing
Kebanyakan
aplikasi data mining tujuan utamanya adalah membuat prediksi dan deskripsi.
Prediksi menggunakan beberapa variable
atau field-field basis data untuk memprediksi nilai- nilai variable masa
mendatang yang diperlukan yang belum diketahui saat ini.
Deskripsi berfokus pada penemuan pola-pola
tersembunyi dari data yang ditelaah.
3.4 Keuntungan dan Kerugian Data Mining
Kelebihan Data
Mining :
1. Kemampuan
dalam mengolah data dalam jumlah yang besar.
2. Pencarian Data
secara otomatis.
Kekurangan Data
Mining :
1. Kendala
Database ( Garbage in garbage out ).
2. Tidak bisa
melakukan analisa sendiri.
3.5 Jenis-jenis Data
Mining
1. Market Basket
Analysis
Himpunan data yang
dijadikan sebagai objek penelitan pada area data mining. Market basket
analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan
item-item yang akan dibeli ke dalam keranjang belanjaannya. Market basket
analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat
ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah
transaksi.
Selanjutnya pola yang ditemukan
dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang
efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan ke
dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog,
merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item
tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya.
Dengan menggunakan teknologi data
mining, analisis data secara manual tidak diperlukan lagi.
2. Memory-Based
Reasoning
Metode klasifikasi yang
digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data
untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang
objek baru yang diperkenalkan.
Ada dua komponen dasar untuk
metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana
anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah
fungsi kombinasi, yang digunakan untuk menggabungkan hasil dari himpunan
tetangga untuk sampai pada keputusan.
3. Cluster Detection
Ada dua pendekatan untuk
clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah
cluster sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke
dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi
keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item
keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berupaya
untuk menggabungkan cluster, meskipun proses komputasi sama.
4. Link Analysis
Proses mencari dan
membangun hubungan antara object dalam kumpulan data juga mencirikan sifat yang
terkait dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi
analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu
Link Analysis berguna untuk proses optimasi.
5. Rule Induction
Ekstraksi aturan
sebab-akibat dari data secara statistic. identifikasi aturan bisnis yang tersimpan
di dalam data. Metode berhubungan dengan induksi aturan yang digunakan untuk
proses penemuan. Salah satu pendekatan untuk penemuan aturan adalah menggunakan
pohon keputusan.
6. Neural Networks
Model prediksi non linear
yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan
nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data
yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola
dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia
maupun teknik komputer lainnya.
3.6 Apa yang bisa dan tidak
bisa dilakukan Data Mining
Secara umum, data mining
dapat melakukan dua hal :
- memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga,
- bisa menangani data berskala besar.
Dalam
menemukan informasi yang menarik ini, ciri khas data mining adalah
kemampuan pencarian secara hampir otomatis. Mengapa disebut hampir otomatis
karena dalam banyak teknik data mining ada beberapa parameter
yang masih harus ditentukan secara manual atau semi manual.
Penelitian untuk melakukan
setting secara adaptif merupakan bidang yang hangat diteliti. Data
mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di
masa lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah
satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data
mining seperti klasifikasi.
Kemampuan
data mining untuk menangani data dalam jumlah besar memungkinkan data
mining diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi
lagi oleh otak manusia. Selain itu penelitian tentang algoritma parallel dari
data mining juga membuka jalan agar data mining dapat diterapkan pada program
skala yang lebih besar lagi.
Sebaliknya,
ada beberapa hal yang tidak bisa dilakukan oleh data mining
Yang pertama perlu disadari adalah data mining bukanlah solusi yang
cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik
diselesaikan dengan statistic yang sederhana. Selain itu, data mining juga
tidak bisa menemukan pengetahuan yang bermanfaat secara instan.
Dalam tahapan-tahapan dari proses
data mining yang sudah kita bahas, seorang analis data mining perlu tahu
perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang
ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang
dihadapinya.
Ketika menjalankan teknik data
mining itu sendiri, si analis juga perlu mengarahkan programnya dengan
melakukan persiapan-persiapan dan pemilihan parameternya. Setelah data mining
dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang
dihasilkan sebelumnya bisa merumuskan hasilnya.
Terakhir perlu diingat
bahwa data mining tidak bisa memberikan hasil yang bisa
langsung digunakan. Banyak hasil dari data mining yang tidak
bisa langsung diinterpretasikan dengan mudah. Masih banyak juga
teknik-teknik data mining yang belum memiliki teknik baku
untuk menilai seberapa besar manfaat dari pola yang ditemukan.
Karenanya untuk penilaian
hasil data mining masih perlu dilakukan secara manual. Yang
menjadi masalah untuk melakukan penilaian pun diperlukan tenaga terlatih karena
algoritma data mining cukup kompleks. Hal-hal ini juga
disadari oleh perusahaan-perusahaan yang menerapkan data mining dan
OLAP, yang sering dirangkum dalam istilah business intelligence (BI).
Untuk memecahkan masalah ini,
mulai banyak perusahaan yang membuat pusat untuk business intelligence yang
membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining
dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi
hasilnya.
Data Mining
juga memiliki kemampuan, diantaranya :
- Mampu menangani data dalam jumlah besar.
- Memungkinkan data mining untuk diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia.
- Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih besar lagi.
Sebaliknya,
disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh
data mining, diantaranya :
- Perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.
- Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.
Beberapa hal yang perlu
diperhatikan oleh seorang analis :
- Seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang dihadapinya.
- Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya.
- Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa merumuskan hasilnya.
- Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan mudah.
- Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.
3.7 Tugas Data Mining (Six Tax
Data Mining)
- Classification - Menyusun data menjadi kelompok-kelompok yang telah ditentukan, yang melibatkan dengan memeriksa atribut-atribut dari suatu objek tertentu dan menetapkannya ke kelas yang telah didefinisikan.
- Estimation - proses untuk menempatkan beberapa nilai numerik secara terus suatu objek, estimasi juga dapat digunakan sebagai bagian dari proses klasifikasi.
- Prediction - berbeda dengan Estimation dan Classification, Prediction adalah upaya-upaya untuk mengklasifikasikan suatau objek berdasarkan dari behaviour yang akan ditentukan(diharapkan) dari candidate behaviour.
- Affinity Grouping - proses yang mengevaluasi hubungan atau asosiasi antara unsur-unsur data berupa attribute atau behaviour data yang menunjukkan beberapa tingkat afinitas antar objek.
- Clustering - sama seperti klasifikasi tetapi kelompok yang tidak/belum di tentukan standarnya, sehingga secara algoritma data tersebut akan dikelompokan berdasarkan data yang serupa dengan data yg di submit.
- Desciption - proses yang menggambarkan apa yang telah terjadi dan di identifikasi atau proses yang menjelaskan hasil akhir dari jalannya proses data mining.
BAB
IV
PENUTUP
4.1
Kesimpulan
Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data
bisnis yang melimpah, telah membantu para pelaku bisnis untuk mempertahankan
dan mengembangkan bisnis mereka.
Akan
tetapi, agar teknologi data mining ini dapat dimanfaatkan terus
dengan baik, teknologi ini harus terus dapat “bekerja” berdampingan dengan
bidang lain di dunia teknologi informasi yang berkembang dengan sangat cepat.
Penyempurnaan
di sana-sini masih terus diperlukan, karena itu peluang riset di bidang ini
masih terbuka lebar.
4.2
Saran
Data mining adalah serangkaian
proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan
yang selama ini tidak diketahui secara manual, juga diartikan sebagai analisa
otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan
pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya
Disamping memiliki kemampuan,
data mining juga memiliki keterbatasan yang tidak bisa dilakukannya.
Salah satu tuntutan dari data
mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi
sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika
mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat
menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining
seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan
tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.
DAFTAR PUSTAKA
Tidak ada komentar:
Posting Komentar