Data Mining: Analisa dan Manajemen Berkas

Rabu Kliwon, 14 Maret 2007 @ 1:21 am Label:

Latar Belakang
Kapasitas harddisk saat ini sudah dalam satuan Giga, bahkan Tera untuk beberapa komputer ‘besar’. Jika cara penyimpanan dokumen diatur dengan baik sejak awal, maka tidak akan muncul masalah dikemudian hari. Tapi bagaimana dengan kita, yang seenaknya create new folder (kadang-kadang nama foldernya: New Folder, New Folder (2), dst), bikin new file, untitled1.txt, untitled2.txt dan seterusnya.

Atau, ketika mendapat data dari hasil download di internet, atau mengopi file dari teman, biasanya ditampung dulu difolder backup, kemudian lupa untuk dipindahkan ke tempat semestinya.

Dan, penggunaan flashdisk, yang katanya untuk transfer sementara, malah jadi harddisk mobile, sehingga tidak mustahil banyak data kembar. Masalahnya, kita tidak mau tahu adanya data-data yang berulang/duplikat, tapi tidak juga mau menghapus. (Paling tidak, itu masalah yang saya alami).
Sehingga seberapa besar-pun kapasitas harddisk, tidak pernah cukup. Yang ternyata, data-data yang disimpan tidak pernah (jarang) dibuka lagi.

OK… setiap harddisk mempunyai usianya masing-masing. Dan ada yang berpendapat, sebaik apapun kita mengelola file tetap saja harddisknya rusak. Lalu bagaimana jika tiba-tiba tanpa kita sadari harddisk rusak… dan kita belum sempat backup data?! Data kuliah, Tugas Akhir, pekerjaan, dan data-data penting lainnya!!!!! itulah yang terjadi…

Permasalahannya…
Masalah sebenarnya, saya punya banyak file-file ’sampah’. Apakah file-file ini bisa dikelola? dengan harapan dapat menemukan berbagai ‘ide-ide sampah’ yang dulu pernah saya tuliskan.
Atau, mengoptimasikan harddisk, agar beberapa data yang kembar sama sekali dapat dideteksi dan hapus karena tidak diperlukan (karena kebiasaan save-as/duplikasi source saat develop).

Selain harddisk dapat dioptimasi, data/file dapat dimanage dengan baik, kalau perlu buat indexnya. Suatu saat saya memerlukan data, tinggal cari melalui index-index tersebut, tidak perlu pake langsung fasilitas ’search’-nya windows. Siapa tau… bisa nemukan ide, dokumen, source program, aplikasi atau file-file sampah lainnya.

Tujuan
Berdasarkan kepusingan diatas, bagaimana jika ada program yang dapat menganalisa file-file agar dapat:

  1. Menunjukkan file yang benar-benar sampah (tidak mungkin lagi diperlukan) untuk dihapus atau dipindahkan ke direktori/partisi/harddisk SAMPAH.
  2. Membuat index file, dengan mengelompokkan file-file berdasarkan kategori serta deskripsinya
  3. Menyarankan backup data, beserta daftar file yang harus dikelompokkan dalam satu ‘kelompok CD’ backup
  4. Membuat sistem most-recently-used (MRU) untuk mengawasi aktifitas file

Metode Penelitian
Untuk memecahkan kasus diatas, beberapa langkah yang akan dicoba adalah:

  1. Mencari produk-produk open source (agar bisa dimodifikasi) yang sesuai
    • dan… saya sudah menemukan beberapa, tapi masih terlalu ‘abstrak’ :(
  2. Mengembangkan produk open source tersebut (bila ada), atau membuat -sama sekali- baru.
    • mengumpulkan data file-file dalam setiap partisi dan direktori
    • membuat index untuk mempermudah proses pencarian file (pake punya’nya windows, lama buanget!)
    • menyusun kelompok/kategori dokumen (dokumen pribadi, multimedia, installer, referensi/download, dsb)
    • analisa index file terhadap kategori
    • perlukah dibackup? pake harddisk yang mana lagi????
    • migrasi struktur direktori/file yang lama berdasarkan hasil analisa
    • backup ke CD hasil migrasi tadi, trus… format harddisk!

Daftar Pustaka

  • Katalog Onlen, http://www.google.com/
  • Produk-produk Open Source, http://sourceforge.net/
  • Tools untuk Develop, http://java.sun.com/

23 queries. 0,224 seconds. Didukung oleh WordPress