Data Anonymization කළ යුත්තේ ඇයි – 1 කොටස

Data Anonymization කළ යුත්තේ ඇයි – 1 කොටස

468
0
SHARE

ඔබ මේ වෙද්දී දන්නවා අපේ ලෝකයේ අතීතය, වර්තමානය සහ අනාගතය රඳා පවතින්නේ දත්ත මත. නමුත් මේ ලෝකයේ පවතින හැම දත්තයක්ම සෑම කෙනෙක්ටම පාවිච්චි කරන්න බැහැ. මේකට හේතුව වෙන්නේ privacy. තවත් විදිහකට කිවොත් මේවා කෙනෙක්ගේ පෞද්ගලිකත්වය මත පදනම් වෙන දත්ත. ඉතින් ඒවා කවදාවත් තව කෙනෙක්ට පාවිච්චි කරන්න දෙන්න බැහැ. නමුත් ඔබ හිතන්න ලෝකයේ තිබෙන දරුණු වසංගත රෝගයකට හෝ දරුණු සයිබර් වෛරස් එකකට විසදුමක් ලැබෙනවා, නමුත් මේක සමාජයට ලබාදෙන්නට බැහැ, මේ පරීක්ෂණයට සම්බන්ධ වුනු පුද්ගලයන්ගේ නම් ගම් හෙළිවෙන නිසා. මේකෙන් මේ පුද්ගලයන්ගේ Privacy එකට වෙන ප්‍රශ්න නිසා මේ පරීක්ෂණ ඉබේම වැළලී යන්නට පුළුවන්.

මෙන්න මේ කාලයේදී තමයි Data Anonmization කියන concept එක පැමිණෙන්නේ. මේකෙන් කියවෙන්නේ Data Sanitization පිළිබඳව. ඒ කියන්නේ මම කලින් පැහැදිලි කරපු විස්තරය. ඒ කියන්නේ sensitive information තිබෙන document එකකින් ඒවා ඉවත් කරලා මහජන භාවිතයට ලබාදෙන්නේ කොහොමද කියන කාරණාව. මේකෙදි භාවිත කරන ක්‍රම කිහිපයක් තිබෙනවා, එකක් තමයි මේවා encrypt කරන එක. අනික් ක්‍රමය මේ sensitive information ඉවත් කරන එක. මේකෙන් පලවෙනි ක්‍රමය තරමක් හොඳ වෙන්නේ දත්ත විනාශ කිරීමක් සිද්ධ වෙන්නේ නැති නිසා. මේ ක්‍රම දෙකෙන්ම දත්ත ලබාදුන්නු කෙනාව anonymous කරනවා.

k-anonymity

Data Anonmization කියන concept එක එක්ක ගොඩනැගෙනවා anonymity property එක. මේකෙදි වෙන්නේ අපි දත්ත එක්ක ගන්න document එකේ k-anonymity එක ගණනය කරලා මේක කොච්චර දුරට privacy protectedද කියන දේ දැනගන්න පුළුවන්.  K-Anonymity කරන ක්‍රම කිහිපයක් තිබෙනවා.
Name Age Gender State of domicile Religion Disease
Ramsha 30 Female Tamil Nadu Hindu Cancer
Yadu 24 Female Kerala Hindu Viral infection
Salima 28 Female Tamil Nadu Muslim TB
Sunny 27 Male Karnataka Parsi No illness
Joan 24 Female Kerala Christian Heart-related
Bahuksana 23 Male Karnataka Buddhist TB
Rambha 19 Male Kerala Hindu Cancer
Kishor 29 Male Karnataka Hindu Heart-related
Johnson 17 Male Kerala Christian Heart-related
John 19 Male Kerala Christian Viral infection

මම මේ දත්ත ලබාගත්තේ Wikipedia වෙබ් පිටුවකින්. ඉන්දියාවේ kochi නගරයේ anonymous රෝහලකින් ලබාගත්ත දත්ත සමුහයක් තමයි මේ ඉහලින් දක්වලා තිබෙන්නේ.

Methods for k-anonymization

මේ data table එකේ rows 10ක් සහ columns 6ක් තිබෙනවා. Data Anonmization සාමාන්‍යයෙන් අපි K-Anonymity එක ගණනය කරන්න ක්‍රම හතරක් භාවිත කරනවා.

  1. Random Perturbation – මේකෙදි අපි noise එකතු කරනවා අපේ data වලට. අපි කියමු අපේ දත්තය x කියල. එතකොට අපි එකතු කරන noise එකත් එක්ක ගත්තොත් x + r කියල සලකමු. මේකේ r කියන්නේ random number එකක්.
  2. Permutation – අපේ දත්ත අඩංගු වෙන document එක අරගෙන මේකේ තියෙන sensitive information සියල්ල අපි ඍජුවම අපේ document එකෙන් අයින් කරනවා.
  3. Generalization  – දත්ත සාමාන්‍යකරණය කිරීම කියන්නත් පුළුවන් මේකෙදි කරන්නේ දත්ත ඉවත් කිරීමක් වගේම දෙයක්. නමුත් ඉවත් වීමක් නෙමේ වෙන්නේ දත්ත ගොනුවකට පොදු නමක් ලබාදීමක් වගේ දෙයක්.

මේ කරුණ පොඩ්ඩක් පැහැදිලි කරන්නම්. මේකෙන් කියන්නේ අපි අපේ document එකේ තියෙන දත්ත lot එකකට general value එකක් ලබාදෙනවා.

ඔබට දකින්න පුළුවන් අපේ දත්ත වගුවේ තිබෙනවා Gender කියන column එක. මේකේ තිබෙනවා Male Female කියන කොටස් දෙක. ඔබට පුළුවන් මේක generalize කරන්න Male Female නැතුව same value එකක් පාවිච්චි කරලා. අපි කියමු human කියල. මේකේ අවුල තමයි researcher කෙනෙක්ට උනත් දත්ත ලැබෙන්නේ අඩුවෙන්. human කෙනෙක්ගේ දත්ත ගත්ත කියල ඔහුට කවදාවත් male, female graphs අදින්න බැහැනේ.

4.  Suppression – මේකෙදි කරන්නේ දත්ත ඉවත් කිරීමක්. නමුත් ඉවත්       කරන්නේ දත්ත ගොනුවටම ගැලපෙන්නේ නැති දත්ත කිහිපයක් පමණයි. ඒ ඉවත් කිරීමෙන් ගොනුවේ දත්ත වලට විනිවිද භාවයක් එකතු වීමක් විතරයි වෙන්නේ.

Data Anonmization වල anonymity එක ගණනය කරන විදිහ සහ මේ ක්‍රම වලට hackersලා attack කරලා මේ personal data එලියට ගන්න ක්‍රම මේකට පස්සේ ලිපියෙන් කතා කරමු…

නැවත හමුවෙමු…

Comments

comments

NO COMMENTS

LEAVE A REPLY