ඔබ මේ වෙද්දී දන්නවා අපේ ලෝකයේ අතීතය, වර්තමානය සහ අනාගතය රඳා පවතින්නේ දත්ත මත. නමුත් මේ ලෝකයේ පවතින හැම දත්තයක්ම සෑම කෙනෙක්ටම පාවිච්චි කරන්න බැහැ. මේකට හේතුව වෙන්නේ privacy. තවත් විදිහකට කිවොත් මේවා කෙනෙක්ගේ පෞද්ගලිකත්වය මත පදනම් වෙන දත්ත. ඉතින් ඒවා කවදාවත් තව කෙනෙක්ට පාවිච්චි කරන්න දෙන්න බැහැ. නමුත් ඔබ හිතන්න ලෝකයේ තිබෙන දරුණු වසංගත රෝගයකට හෝ දරුණු සයිබර් වෛරස් එකකට විසදුමක් ලැබෙනවා, නමුත් මේක සමාජයට ලබාදෙන්නට බැහැ, මේ පරීක්ෂණයට සම්බන්ධ වුනු පුද්ගලයන්ගේ නම් ගම් හෙළිවෙන නිසා. මේකෙන් මේ පුද්ගලයන්ගේ Privacy එකට වෙන ප්රශ්න නිසා මේ පරීක්ෂණ ඉබේම වැළලී යන්නට පුළුවන්.
මෙන්න මේ කාලයේදී තමයි Data Anonmization කියන concept එක පැමිණෙන්නේ. මේකෙන් කියවෙන්නේ Data Sanitization පිළිබඳව. ඒ කියන්නේ මම කලින් පැහැදිලි කරපු විස්තරය. ඒ කියන්නේ sensitive information තිබෙන document එකකින් ඒවා ඉවත් කරලා මහජන භාවිතයට ලබාදෙන්නේ කොහොමද කියන කාරණාව. මේකෙදි භාවිත කරන ක්රම කිහිපයක් තිබෙනවා, එකක් තමයි මේවා encrypt කරන එක. අනික් ක්රමය මේ sensitive information ඉවත් කරන එක. මේකෙන් පලවෙනි ක්රමය තරමක් හොඳ වෙන්නේ දත්ත විනාශ කිරීමක් සිද්ධ වෙන්නේ නැති නිසා. මේ ක්රම දෙකෙන්ම දත්ත ලබාදුන්නු කෙනාව anonymous කරනවා.
k-anonymity
Name | Age | Gender | State of domicile | Religion | Disease |
---|---|---|---|---|---|
Ramsha | 30 | Female | Tamil Nadu | Hindu | Cancer |
Yadu | 24 | Female | Kerala | Hindu | Viral infection |
Salima | 28 | Female | Tamil Nadu | Muslim | TB |
Sunny | 27 | Male | Karnataka | Parsi | No illness |
Joan | 24 | Female | Kerala | Christian | Heart-related |
Bahuksana | 23 | Male | Karnataka | Buddhist | TB |
Rambha | 19 | Male | Kerala | Hindu | Cancer |
Kishor | 29 | Male | Karnataka | Hindu | Heart-related |
Johnson | 17 | Male | Kerala | Christian | Heart-related |
John | 19 | Male | Kerala | Christian | Viral infection |
මම මේ දත්ත ලබාගත්තේ Wikipedia වෙබ් පිටුවකින්. ඉන්දියාවේ kochi නගරයේ anonymous රෝහලකින් ලබාගත්ත දත්ත සමුහයක් තමයි මේ ඉහලින් දක්වලා තිබෙන්නේ.
Methods for k-anonymization
මේ data table එකේ rows 10ක් සහ columns 6ක් තිබෙනවා. Data Anonmization සාමාන්යයෙන් අපි K-Anonymity එක ගණනය කරන්න ක්රම හතරක් භාවිත කරනවා.
- Random Perturbation – මේකෙදි අපි noise එකතු කරනවා අපේ data වලට. අපි කියමු අපේ දත්තය x කියල. එතකොට අපි එකතු කරන noise එකත් එක්ක ගත්තොත් x + r කියල සලකමු. මේකේ r කියන්නේ random number එකක්.
- Permutation – අපේ දත්ත අඩංගු වෙන document එක අරගෙන මේකේ තියෙන sensitive information සියල්ල අපි ඍජුවම අපේ document එකෙන් අයින් කරනවා.
- Generalization – දත්ත සාමාන්යකරණය කිරීම කියන්නත් පුළුවන් මේකෙදි කරන්නේ දත්ත ඉවත් කිරීමක් වගේම දෙයක්. නමුත් ඉවත් වීමක් නෙමේ වෙන්නේ දත්ත ගොනුවකට පොදු නමක් ලබාදීමක් වගේ දෙයක්.
මේ කරුණ පොඩ්ඩක් පැහැදිලි කරන්නම්. මේකෙන් කියන්නේ අපි අපේ document එකේ තියෙන දත්ත lot එකකට general value එකක් ලබාදෙනවා.
ඔබට දකින්න පුළුවන් අපේ දත්ත වගුවේ තිබෙනවා Gender කියන column එක. මේකේ තිබෙනවා Male Female කියන කොටස් දෙක. ඔබට පුළුවන් මේක generalize කරන්න Male Female නැතුව same value එකක් පාවිච්චි කරලා. අපි කියමු human කියල. මේකේ අවුල තමයි researcher කෙනෙක්ට උනත් දත්ත ලැබෙන්නේ අඩුවෙන්. human කෙනෙක්ගේ දත්ත ගත්ත කියල ඔහුට කවදාවත් male, female graphs අදින්න බැහැනේ.
4. Suppression – මේකෙදි කරන්නේ දත්ත ඉවත් කිරීමක්. නමුත් ඉවත් කරන්නේ දත්ත ගොනුවටම ගැලපෙන්නේ නැති දත්ත කිහිපයක් පමණයි. ඒ ඉවත් කිරීමෙන් ගොනුවේ දත්ත වලට විනිවිද භාවයක් එකතු වීමක් විතරයි වෙන්නේ.
Data Anonmization වල anonymity එක ගණනය කරන විදිහ සහ මේ ක්රම වලට hackersලා attack කරලා මේ personal data එලියට ගන්න ක්රම මේකට පස්සේ ලිපියෙන් කතා කරමු…
නැවත හමුවෙමු…