தரவு விஞ்ஞானம் (Data Science)
-நீலமேகம் ராமலிங்கம் சஹஸ்ரநாமன்
தரவு என்பது குறிப்பிட்ட சம்பவத்தின் அமைந்த நிகழ்வுகளாகும். உதாரணமாக, மாணவரின் மதிப்பெண் பட்டியலில், மாணவரின் பெயர், பிறந்த தேதி, பதிவு எண், பள்ளி அல்லது கல்லூரியின் பெயர், முகவரி, ஆகிய வகைகள் தரவுகளாகும். தரவுகள் கோப்புகளிலும் , கணினியில் டேட்டாபேஸ்களாகவும் சேமித்து வைக்கப்படுகின்றது. சேமிக்கப்பட்ட தரவுகள் புள்ளியியல் (Statistics) மூலம் ஆய்வுகள் செய்து தீர்மானங்கள் எடுப்பதற்கு ஏதுவாக அமைகிறது. அலைபேசி (Mobile) மூலம் பெறப்படும் தகவல்கள், குறுஞ்செய்திகளின் (SMS) உண்மைத் தன்மையினை ஆராய்ந்து, இவைகள் உண்மை என்றால் தரவுகளாக எடுத்துக் கொள்ளலாம்.. நிழற்படங்களின் தொகுப்புகள், வீடியோ பதிவுகளைத் தரவுகளாக மாற்றம் செய்து கொள்ளலாம். பெரிய தரவு பல்வேறு வடிவங்களாக உள்ளது.
உரைநடை வடிவம், டேட்டா பேஸ் வடிவம், ஒலி (Audio) , ஒளி (Video) வடிவங்களாகத் தரவுகள் எட்டு திசைகளிலிருந்தும் (கிழக்கு, மேற்கு, வடக்கு, தெற்கு, தென் கிழக்கு, தென் மேற்கு, வட கிழக்கு, வட மேற்கு) கிடைக்கப் பெறுகின்றது. விஞ்ஞானம், , தகவல் தொழில்நுட்பம், பொறியியல், புள்ளியியல் , பொருளாதாரம் சார்ந்த தரவுகள் பெரிய தரவின் காரணிகளாக அமைந்துள்ளது. அப்பாச்சி பவுண்டேஷனின் (Apache Foundation) இணையதளம் பெரிய தரவு தொழில் நுட்பத்தில் அமைந்துள்ளது. 19990இல் கூகுள் நிறுவனம் Distributed Data Processing System மற்றும் அதற்கான அல்காரித்தை வெளியிட்டது. ஸ்டான் போர்ட் பல்கலைக்கழகத்தின் டவுக், எரிக் பெரிவர், முனைவர் ஸ்டோன் பெரிக்கர் (Nutch Search Engine), யாஹூ (yahoo) தரவு விஞ்ஞானத் துறை வளர்வதற்குப் பங்களித்து வருகின்றனர். பெரிய தரவு பற்றிய அறிவை அறிந்தால் எளிதாக பெரிய வரவைப் பெறலாம். தரவுப் பகுப்பாய்வு என்பது தரவுத் தொகுப்பை அடிப்படையாக வைத்துக் கணனியின் சிறப்பு அமைப்பு, மென்பொருள் மூலம் கிடைக்கும் தீர்மானம் மற்றும் கணிப்பு பற்றிய செயல் முறையாகும்.