Big Data සහ Hadoop Framework – 1

Big Data සහ Hadoop Framework – 1

2287
0
SHARE

මේ ලිපි මාලාව තුලින් අපි හිතුවේ ලෝකයේ දැනට trending topic එකක් විදිහට කතා කරන Big Data සහ ඒ එක්කම යන Hadoop Technology එක ගැන කතා කරන්න. Big Data කියන වචනය ගොඩනැගෙන්නේ දත්ත වලින්. එසේ මෙසේ දත්ත නෙමෙයි සැලකිය යුතු ප්‍රමාණයක් විශාල හෝ සංකීර්ණ භාවයෙන් යුක්ත ඒවා.

සාමාන්‍යයෙන් දත්ත කියන මාතෘකාවට ආවම, data capturing, storage, data analysis, search, sharing, transfer, visualization, querying, updating වගේම information privacy වගේ පැති ගණනාවකට මේ මාතෘකාව විහිදෙනවා. දත්ත නිර්මාණය කරන ක්‍රම ගණනාවක් තිබෙනවා, Research & Development, Satellites,  Aviation, Social Media, Mobile Devices, Remote Sensing, IoT devices, online shopping වගේ ක්‍රම රාශියක් තිබෙනවා. Big Data භාවිත කරන අවස්ථා ගණනාවක් මේ ලෝකයේ පවතිනවා. Google Search, Translate, Business, Ebay, Wallmart, eBay වගේම Facebook, Twitter, Public Services, Election forecasting, Weather Predictions වගේ ගොඩක් අවස්ථා ගණනාවකදී අපි Big Data තාක්ෂනය භාවිතා කරනවා.

Image result for big data

Big Data Eco System එක ගැන අහල තියෙනවද කලින්? මේක භාවිතා කරන්නේ ව්‍යාපාරයකට වඩා නිවැරදි analysis එකක් තුලින්, නිවැරදි decision making එකක් අරගන්න වගේම අවදානම් අඩු කිරීම මඟින් කොහොමද වියදම් අඩු කිරීමක් කරන්නේ සහ පාරිභෝගිකයන්ගේ ඉල්ලීම් තිබෙන්නේ මොනවටද වගේ දේවල් ගැන තොරතුරු ලබාගන්න.

තවත් මේ වගේම වචනයක් තමයි Data Lake කියන්නේ. අපි මේ විවිධ ක්‍රම වලින් ගන්න දත්ත තමන්ගේ natural format එකෙන්ම system එකක හෝ repository එකක store කරන ක්‍රියාවලියට අපි කියනවා data lake කියලා. මේ විදිහට ගබඩා කෙරෙන දත්ත, analyzing, reporting හා machine learning සඳහා භාවිතා කරනවා. Data Scientist කෙනෙක් කියන්නේ කවුද කියලා ඔබෙන් ඇහුවොත්? සාමාන්‍යයෙන් structured හා unstructured දත්ත, පාලනය කරන්නේ මොහු. මේවා නිවැරදිව organize කරන්න mathematical, statistical හා programming දැනුම භාවිත කරනවා. මේ ලෝකය තුල පවතින දත්තයන් වර්ග 3කට බෙදන්න පුළුවන්.

  1. structured data – Relational Data
  2. semi-structured data – XML දත්ත
  3. unstructured data  – photos, videos, documents, PDF, texts

ඔබ දන්නවද ලෝකයේ දත්ත ජනනය වන වේගය පිළිබඳව? 1980 වසරේ සිට සෑම වසර දෙකකට වරක්ම දිනකට 2.5 exabytes ප්‍රමාණයකින් දෙගුණ වෙනවා. exabyte එකක් කියන්නේ දහයේ දහ අටවෙනි බලයක් වෙනවා. තවත් විදිහකට කිවුවොත් ගිගා බිලියනයක්. මේ ගණනය කිරීම් වලට අනුව 2020 වෙනකොට ලෝකයේ දත්ත zettabytes 44ක ප්‍රමාණයක් සහ 2025 දෙනකොට දත්ත zettabytes 163 ක ප්‍රමාණයක් පවතින්න ඉඩ තිබෙනවා. මේ zettabyte 1ක් කියන්නේ Gigabytes බිලියන දහසක ප්‍රමාණයක්.

අපි ඉහත සරලව කියපු කරුණු ගැන මීළඟ ලිපියෙන් තවත් සාකච්ඡා කරමු…

නැවත හමුවෙමු…

Comments

comments

NO COMMENTS

LEAVE A REPLY