Kamis, 29 Juli 2010

Data Mining



Data Mining (DM) adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan pertumbuhan teknologi informasi. Definisi umum dari DM itu sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data.
Perkembangan data mining(DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data.
Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information” karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data”.
DM adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain : clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain.
Yang membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada database skala besar. Sebelum populernya DM, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

Tahap-Tahap Data Mining
Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi).

Teknik-Teknik Data Mining
Dengan definisi DM yang luas, ada banyak jenis teknik analisa yang dapat digolongkan dalam DM. Karena keterbatasan tempat, disini penulis akan memberikan sedikit gambaran tentang tiga teknik DM yang paling populer :
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum[1]. Algoritma baru yang lebih efisien bernama FP-Tree[5].
2. Classification
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari clustering dapat dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (+).


Rabu, 28 Juli 2010

Information System and Technology

Definisi Sistem Informasi

è Sistem : kumpulan dari komponen-komponen sistem yang saling berhubungan untuk mencapai suatu tujuan.



Sistem informasi

: Sistem yang dibangun lengkap dengan interface nya, komponennya yang bertujuan agar menghasilkan informasi yang mudah dipahami dan berguna

Informasi yang berguna yaitu informasi yang relevan, benar dan tepat waktu.



Teknologi adalah wadah bagi sistem informasi agar sistem informasi dapat berjalan dengan baik.

Literacy Sistem Informasi tidak hanya mencakup software dan teknology nya saja tetapi juga mencakup skill dan pengetahuan, pemahaman akan organisasi dan people serta analisis dan kemampuan terhadap pemecahan masalah.

Perbedaan DATA, Informasi dan Knowledge

Data à data mentah / yang belum diolah.

Informasi à Kumpulan data yang sudah diolah

Knowledge à Kumpulan informasi yang membentuk suatu understanding atau pemahaman terhadap suatu domain masalah tertentu.

Peranan sistem informasi terhadap Counter Copetitive Forces :

a. Low cost leadership : efisiensi biaya

b. Create market niche : menciptakan pasar2

c. Product differentation : menghasilkan produk yang beragam sehingga pemasarannya bisa semakin luas.

d. Linkage : Jaringan

Sistem Informasi juga bertanggung jawab dengan etika dan respon sosial.

Etika: prinsip benar atau salah yang dapat memandu sistem informasi.

Oleh sebab itu pada sistem informasi dibuat KODE ETIK. Tujuan nya melindungi suatu produk tertentu dari penyalahgunaan atau pembajakan.

BAB II

TEKNOLOGI KOMPUTER

Komputer : peralatan fisik / alat yang mengolah data sebagai input, mengolah nya melalui suatu program sehungga menghasilkan uotput berupa informasi.

Komponen Komputer :

1. CPU : pusat pemrosesan

2. Bus : saluran data

3. Storage : tempat penyimpanan data sementara

Ketiga komponen diatas akan berhubungan dengan input device, dan output device.

Pembagian Bus :

a. Data bus

b. Address bus

c. Control bus

KOMPUTER TERDIRI DARI 2 SIKLUS :

1. Siklus instruksi ( Instruction cycle/ I-cycle)

a. Pengambilan instruksi ( retrieve instruction)

b. Decode instruction

c. Place in instruction and adress registers

2. Siklus eksekusi

a. Memindahkan data ke storage area

b. ALU perform the operation

c. Hasilnya disimpan di akumulator

MEMORY CHIP , terdiri atas

1. RAM

2. ROM

3. PROM ( programmable read Only Memory / Memori yang bisa diprogram)

4. EPROM ( selain bisa diprogram juga bisa di hapus)

BAGAIMANAN DATA DIREPRESENTASIKAN ??

a. Menggunakan bilangan biner ( 0 dan 1 )

b. Sebuah bilangan biner disebut SATU BIT

c. Kumpulan bit akan membentuk satu karakter.

d. Sistem bilangan di standarisasi oleh :

- EBCDIC

- ASCII

KECEPATAN DAN UKURAN PROSESOR

1. Ukuran kecepatan prosesor dinyatakan MIPS ( million of instruction per second )

2. Kapasitas storgae diukur dalam byte

3. Word lenght à menyatakan jumlah bit yang dapat dproses dalam satuan waktu

4. Bus width à Jumlah data yang dapat disalurkan dalam satuan waktu

``

GENERASI PROSESOR

1. 1951-1958 : Tabung hampa

2. 1959-1963 : Transistor

3. 1964-1979 : IC

4. 1980an – Now : VLSIC / very large scale integrated Circuit

SUPERCOMPUTER to MICRO

1. Supercomputer

2. Mainframe

3. Minicomputer

4. Workstation

5. Microkomputer

UBIQ COMPUTING

à” Computer are everywhere but you don’t see them as computer”

è Computer ada dimana-mana tapi tidak terlihat sebagai sebuah komputer, misalnya dalam bentuk chip, atau berbentuk seperti pena.

Ambient intelligence ( kecerdasan yang tersembunyi )

merupakan gabungan dari 3 bidang ilmu :

a. Electrical engineering

b. Communication engineering

c. Computer engineering

Contoh aplikasi Ambient intelligence à smart shop (belanja cerdas)

DIGITAL DARWINISM

- Smart devices akan bertahan

- Mempunyai kemampuan untuk beradaptasi.

Peralatan / device yang tidak smart dan tidak bisa beradaptasi akan punah, ex: telegram, pager.

WIRELINE vs WIRELESS

Wireline : transmisi nya lebih bagus.

Wireline masih banyak digunakan karena transiminya lebih bagus, tetapi kelemahannya : sangat mahal dan lama dalam penambahan user.

Wireless : transmisi kurang bagus/putus-putus.

Penggunaan wireless meningkat dengan cepat, di Indonesia pengguna HP lebih banyak dari pada penggunaan internet.

Contoh aplikasi wireless:

a. Fad : WAP

b. New Applications:

- SMS

- Bluetooth

- Wireless LAN IEEE 802.11b

c. New sosial implication

- Mengganggu rapat ( karena bunyi yang dihasilkan )

- Mencontek

MEMORI :

1. Main Memory / main storage

2. Secondary Storage

Mempunyai beberapa sifat :

a. Long term storage of programs and data outside of the CPU and primary memory (RAM): penyimpanan data dilakukan dalam waktu yang lama

b. bersifat non-volatile/tidak terpengaruh oleh arus listrik.

c. Kecepatan penyimpanan data nya lebih lambat.

d. Contohnya : magnetic tape, disk and optical disk

Magnetic tape (pita magnetik)

- Mirip dengan kaset musik

- Data disimpan pada sequential order ( membacanya berurutan dari awal-akhir).

- Harganya murah

- Aksesnya lambat, karena untuk menuju record akhir harus menunggu, atau pita magnetiknya diputar manual.

Magnetic Disk

- Sudah hampir ditinggalkan penggunaannya

- Mempunyai sifat “direct akses” (bisa di akses langsung/ tidak harus berurutan).

- Kecepatan aksesnya lebih tinggi.

Optical disk

- Mempunyai kapasitas penyimpanan lebih besar daripada magnetic disk.

- Lebih tahan ( reliable ) dan tidak terpengaruh oleh magnet.

- Bahannya juga lebih tebal.

- Kelemahannya : dapat kondisi tertentu ,panas matahari bisa mempengaruhi kualitas data yang disimpan selain itu juga cepat rusak jika terkena goresan

INPUT TECNOLOGY

è Tergantung pada tipe proses nya “Batch Processing atau On-Line Processing

è Batch Processing : data dikumpulkan dulu , baru di proses, ex: seperti pada proses pemeriksaan hasil SPMB, atau pada proses penggajian.

è On-Line Processing : setelah data diinputkan, langsung diproses , contohnya : penarikan lewat ATM



Introduction

Real-world knowledge discovery processes typically consist of complex data preprocessing,
machine learning, evaluation, and visualization steps. Hence a data
mining platform should allow complex nested operator chains or trees, provide
transparent data handling, comfortable parameter handling and optimization,
be exible, extendable and easy-to-use.