Arsip

Archive for the ‘StatisTIC’ Category

The 7 Deadly Sins of Data Mining and How To Avoid Them

Oktober 28, 2010 Tinggalkan komentar

Our M2010 Data Mining Conference keynote speaker, Dick De Veaux from Williams College just finished his entertaining and informative presentation. He thoughtfully noted that our location (Las Vegas) is very appropriate for the subject of his presentation.

Are you guilty of any of these data mining sins? Luckily, Dick also presented the seven virtues of data mining to help absolve us of our sinful ways.

Seven Deadly Sins of Data Mining.
1. Not asking the right questions.
2. Not fully understanding the problem.
3. Underestimating data preparation.
4. Ignoring what’s not there.
5. Falling in love with your models.
6. Going it alone.
7. Using bad data.

Seven Virtues of Data Mining
1. Define the problem.
2. Prepare the data, use domain knowledge.
3. Be open to new methods and models. Keep the toolbox open.
4. Be aware of missing data, create dummy variables.
5. Work in teams.
6. Ensure data quality.
7. Use models, not just associations.

source : http://blogs.sas.com/sastraining/index.php?/archives/46-The-7-Deadly-Sins-of-Data-Mining-and-How-To-Avoid-Them.html

Kategori:StatisTIC

perkenalan data mining

Oktober 20, 2009 3 komentar

-mau nulis yang agak serius dikit ahh-

berkenalan dengan data mining, sebelum saya menjabarkan tentang apa itu data mining, saya ingin bercerita tentang awal mula keterlibatan saya dalam data mining. sebelumnya sekitar 3 tahun yang lalu saya memasuki dunia telco, pada awalnya saya cukup dibuat kebingungan, apa yang harus saya kerjakan?? karena basic saya di bidang research dengan metode statistika yang saya pelajari di kampus. lalu memasuki dunia telco dan kebetulan ‘kecemplung’ di bagian CRM (Customer Relationship Management) .

awal mula saya bekerja diperkenalkan dengan yang namanya database, term yang sudah saya kenal namun kurang akrab. biasanya database itu sejalan dengan bahasa yang digunakannya untuk memperoleh data dari database yaitu SQL (Structured Query Language). emmhh,..jadi belajar hal baru and it’s so interesting. jadi yang pertama saya lakukan adalah mempelajari data yang ada. untung ketika kuliah dulu sempet ikutan mata kuliah basis data. jadi remind me again.

ini ada kaitannya lho dengan awal mula data mining, dimana semua data yang ada terkumpul dalam sebuah database, biasanya data transaksi perusahaan, data pelanggan, dll. lama-kelamaan data ini menjadi banyak namun unusefull. akhirnya munculnya data mining yang ‘seolah-olah’ jadi dewa penolong untuk mencari insight dari suatu database dengan melihat pattern dari data itu. selain itu saya juga menemukan term datawarehouse, datawarehouse ini merupakan kumpulan dari seluruh database yang ada di perusahaan. dengan adanya datawarehouse, data mining akan lebih mudah dalam mengolah data karena data yang digunakan telah disediakan semua oleh datawarehouse.

akhirnya, alhamdulillah bisa masuk ke dunia baru penerapan statistika yaitu data mining yang merupakan gabungan beberpa disiplin ilmu seperti statistika, artificial intelligence, machine learning, database, dll. semoga bisa bermanfaat. nanti dilanjutin lagi deh tulisannya.

Dilbert on Data Mining

Oktober 15, 2009 2 komentar

DilbertMiningData1DilbertMiningData2DilbertMiningData3DilbertMiningData4

Kategori:StatisTIC

PLpgSQL

April 21, 2009 4 komentar

100x58_1setahun belajar oracle karena memang di kantor pakai database ini. setelahnya bergelut sedikit dengan SQL Server karena ada beberapa pengolahan database yang menggunakan-nya. selang beberapa lama belajar lagi Greenplum yang notabene pengembangan PosgreSQL untuk datawarehousing. di postgre inilah ketemu istilah PLpgSQL, saya sih nggak terlalu aneh memang dengan hal ini, karena di Oracle juga ada PL/SQL, hampir miriplah.

learnig by doing, saya belajar dengan mengamati fungsi yang ada. sedikit berbeda dalam implementasi memang, kalau Oracle bisa membuat fungsi, procedure dan package dengan PL/SQL. namun di PLpgSQL hanya menghasilkan fungsi, so it’s make it simple.

sebenernya yang saya pelajari adalah logic-nya. karena bahasa SQL maupun pengembangannya (termasuk PL/SQL dan PLpgSQL, etc) relatif hampir mirip. karena saya sudah sering berkerumun dengan data dalam database jadinya, saya lebih sering belajar logic pengolahan datanya.

Mengapa belajar database?

if there’s no statistics without variance, then there’s no variance without data. dimana tempat data terkumpul banyak? jawaban mudahnya adalah database. karena hampir di setiap perusahaan menggunakan database, maka disinilah peran statistisi untuk memaknai data tersebut.

kok jadi ngelantur kemana-mana ya!! udahan ah nulisnya kalau kayak gini. jadi nggak fokus.

Kategori:CompuTIC, StatisTIC

DPT dan Quick Count

Pemilihan Umum Gubernur dan Wakil Gubernur Jawa Barat baru saja usai. kebetulan saya bertindak sebagai saksi dari pasangan Ahmad Heryawan & Dede Yusuf (HADE) di tps tempat saya tinggal dan dibesarkan. ada beberapa pertanyaan yang cukup mengganggu pikiran saya sebagai lulusan statistik, yaitu pertanyaan dari ketua rt tempat saya tinggal yang ternyata ada nama-nama yang telah lama menetap di daerah saya, namun datanya tidak ada di Daftar Pemilih Tetap (DPT). lalu beliau menanyakan kepada saya bagaimana proses pendataannya ini?

statistika ketika saya kuliah definisi-nya setahu saya masih belum banyak berubah yaitu minimal terdapat 3 unsur yaitu pengumpulan data, mengolah/menganalisis data, dan mengintepretasikan data. jadi dalam pengumpulan data DPT seharusnya terdapat unsur statistika di sana. melantur sedikit ke dunia kerja, biasanya kawan-kawan yang bekerja di marketing research, kesulitan yang selalu dihadapi ketika akan melakukan research adalah menentukan dan memperoleh sample frame (kerangka penarikan contoh). kesulitan ini muncul karena data-data yang ada cenderung kurang up-date, apalagi sampel yang diambil adalah data kependudukan. eemmmh…alamat susah mencarinya.

kembali lagi ke masalah DPT, lalu bagaimanakah peran para statistikawan/wati dalam menanggulangi masalah ini? atau paling tidak memberikan rekomendasi terhadap pelaksana pemilu (KPU pusat maupun daerah). ada yang pernah berkata kepada saya bahwa data kependukukan ter-update ada di ketua rt. ternyata berdasarkan pengamatan saya, hal ini tidak seratus persen benar. apalagi untuk wilayah kota transit seperti Depok yang tingkat perpindahan penduduk-nya cukup tinggi. namun seperti yang saya katakan di atas ternyata ada penduduk yang telah lama tinggal di daerah saya juga tidak terdata. itu baru satu kasus di kampung saya, belum daerah lain yang mungkin sangat terpencil. seharusnya untuk penetuan DPT, metode statistika yang digunakan adalah sensus, bukan sampling :(.untuk diskusi bisa lewat comment di bawah, soalnya udah gatel pengen ngebahas quick count.

Quick Count, dari zaman pertama kali pemilu jaman reformasi (merunut ke istilah sejarah), metode ini sudah sangat familiar digunakan untuk mengetahui hasil pemilu secara cepat. metode yang merupakan pure aplikasi metode perancangan survey ini, tergantung dari pemilihan sampel, semakin bagus sample yang digunakan maka hasilnya akan mendekati populasi. metode sampling-nya pun harus disesuaikan dengan karakteristik wilayah sehingga keterwakilan wilayah dapat maksimal. sebuah teori mengatakan apabila kita melakukan sample berulang-ulang terhadap populasi yang sama maka hasilnya akan mendekati karakter populasi (teori limit pusat). berdasarkan hasil Quick Count dari 4 lembaga survey, baik LSI, LSN, Litbang Kompas, dan Pusat Kajian Kebijakan dan Pembangunan Strategi (Puskaptis) menunjukkan bahwa pasangan HADE mengungguli pasangan lainnya. dapatkan hasil quick count ini menunjukkan hasil yang sebenarnya dari populasi. kita tunggu saja..

Kategori:Lain-lain, StatisTIC