தரவு விஞ்ஞானம் (Data Science)

-நீலமேகம் ராமலிங்கம் சஹஸ்ரநாமன்

 

data

தரவு என்பது குறிப்பிட்ட சம்பவத்தின் அமைந்த நிகழ்வுகளாகும்.  உதாரணமாக, மாணவரின் மதிப்பெண் பட்டியலில், மாணவரின் பெயர், பிறந்த தேதி, பதிவு எண், பள்ளி அல்லது கல்லூரியின் பெயர், முகவரி, ஆகிய வகைகள் தரவுகளாகும். தரவுகள் கோப்புகளிலும் , கணினியில்  டேட்டாபேஸ்களாகவும் சேமித்து வைக்கப்படுகின்றது.  சேமிக்கப்பட்ட தரவுகள் புள்ளியியல் (Statistics) மூலம் ஆய்வுகள் செய்து தீர்மானங்கள் எடுப்பதற்கு ஏதுவாக அமைகிறது. அலைபேசி (Mobile) மூலம் பெறப்படும் தகவல்கள், குறுஞ்செய்திகளின் (SMS)  உண்மைத் தன்மையினை ஆராய்ந்து, இவைகள் உண்மை என்றால் தரவுகளாக எடுத்துக் கொள்ளலாம்.. நிழற்படங்களின் தொகுப்புகள், வீடியோ பதிவுகளைத்  தரவுகளாக மாற்றம் செய்து கொள்ளலாம். பெரிய தரவு பல்வேறு வடிவங்களாக உள்ளது.

உரைநடை வடிவம், டேட்டா பேஸ் வடிவம், ஒலி (Audio) , ஒளி (Video) வடிவங்களாகத் தரவுகள் எட்டு திசைகளிலிருந்தும் (கிழக்கு, மேற்கு, வடக்கு, தெற்கு, தென் கிழக்கு, தென் மேற்கு, வட கிழக்கு, வட மேற்கு) கிடைக்கப் பெறுகின்றது. விஞ்ஞானம், , தகவல் தொழில்நுட்பம், பொறியியல், புள்ளியியல் , பொருளாதாரம் சார்ந்த தரவுகள் பெரிய தரவின் காரணிகளாக அமைந்துள்ளது. அப்பாச்சி பவுண்டேஷனின் (Apache Foundation) இணையதளம் பெரிய தரவு தொழில் நுட்பத்தில் அமைந்துள்ளது. 19990இல் கூகுள் நிறுவனம் Distributed Data Processing System மற்றும் அதற்கான அல்காரித்தை வெளியிட்டது. ஸ்டான் போர்ட் பல்கலைக்கழகத்தின் டவுக், எரிக் பெரிவர், முனைவர் ஸ்டோன் பெரிக்கர் (Nutch Search Engine),  யாஹூ (yahoo) தரவு விஞ்ஞானத் துறை வளர்வதற்குப் பங்களித்து வருகின்றனர். பெரிய தரவு பற்றிய அறிவை அறிந்தால் எளிதாக பெரிய வரவைப் பெறலாம். தரவுப் பகுப்பாய்வு என்பது தரவுத் தொகுப்பை அடிப்படையாக வைத்துக் கணனியின் சிறப்பு அமைப்பு,  மென்பொருள் மூலம் கிடைக்கும் தீர்மானம் மற்றும் கணிப்பு பற்றிய செயல் முறையாகும்.

 

பதிவாசிரியரைப் பற்றி

Leave a Reply

Your email address will not be published. Required fields are marked *