Peer Reviewedஆய்வுக் கட்டுரைகள்

(Peer Reviewed) சங்க இலக்கியங்களில் கணினித் தொழில்நுட்ப வழி பனுவல் சார் பயன்பாடுகள் – முன்னோட்டம்

இரா.சண்முகம்
Team Manager, CTS Bengaluru | shanfaace@gmail.com

முன்னுரை

ஒலைச்சுவடிகள் மூலம் தொடங்கிய சங்க இலக்கியப் பதிப்பு, இன்று வானுயுரத்திற்கு வளர்ந்து நிற்கிறது. எண்ணற்ற அரிய நூல்கள் அழிந்து போனாலும் இன்றும் நம் வரலாற்றை உரைக்கப் பல நூல்கள் துணை நிற்கின்றன என்பது மறுக்க முடியாத உண்மை. கால மாற்றத்திற்கேற்ப நாமும் நம் தேவைகளை மாற்றிக்கொண்டே வருகிறோம். ஒரு காலத்தில் “ஆலும் வேலும் பல்லுக்குக்குறுதி” என்று வாழ்ந்தவர்கள், இன்று பற்குச்சிகளைப் பயன்படுத்த ஆரம்பித்துவிட்டோம். நம் வசதிக்காக நம்மை மாற்றிக்கொள்ளும் போதுதான் வளர்ச்சி ஆரம்பிக்கிறது. இத்தகைய வளர்ச்சியை அனைத்துத் துறைகளிலும் ஏற்றுக்கொள்ள நாம் பழகிவிட்டோம். தமிழ் வளர்ச்சியில் இதை நாம் ஒரு குறிப்பிட்ட அளவிற்கே ஏற்றுக்கொண்டிருக்கிறோம் என்றால் அது மிகையாகாது. கணினித் தொழில்நுட்ப வளர்ச்சி, ஆட்கள் தேவையைக் குறைத்ததோடு, பன்மடங்கு நேரத்தை மிச்சப்படுத்தியுள்ளது. இத்தகு கணினிப் பயன்பாடு இன்று எல்லாத் துறைகளிலும் முத்திரை பதித்து வருகிறது. ஆங்கிலம் இன்று உலகப் பொதுமொழி என்று வளர்ந்ததற்குக் கணினியும் பெரும் பங்கு வகித்ததை நாம் மறுப்பதற்கில்லை. எனவே மொழியின் வளர்ச்சியில் கணினித் தொழில்நுட்பத்தின் பங்கு மிக அவசியமானது அத்தகைய தொழில்நுட்பங்கள் மூலம் சங்க இலக்கியப் படைப்புகளுக்கு எப்படிப்பட்ட கருவிகளை உருவாக்கலாம் என்பதே இந்தக் கட்டுரையின் நோக்கமாகும்.

கணினித் தொழில்நுட்பம் (Computer Technologies)

கணினியில் தமிழைத் தட்டச்சு செய்வதும் அதற்கான எழுத்துருக்களை உருவாக்குவதுமே கணினித் தமிழ் வளர்ச்சிக்குப் போதுமானது என்று இருந்துவிட்டால், நாம் தமிழை அடுத்த கட்ட வளர்ச்சிக்கு நகர்த்த விரும்பவில்லை என்றே பொருள்படும். ஆங்கில மொழியின் அசுர வளர்ச்சிக்கு அதற்கென சொல்திருத்தி, இலக்கணத் திருத்தி, சொற்பொருள் களஞ்சியம் எனக் கருவிகள் அதிகரித்ததைக் காரணமாகக் கூறலாம். அதுபோன்ற கருவிகளை நம் தாய்மொழியில் உருவாக்கினால் ஆங்கிலத்திற்கு இணையாகத் தமிழின் வளர்ச்சி இருக்கும் என்பதில் ஐயமில்லை.

சங்க இலக்கியத்திற்கென நம்மிடம் உள்ள கருவிகள் எத்தனை? சங்க இலக்கியச் சொற்களுக்கென நம்மிடம் பிரத்தியேக இணைய அகராதி (online dictionary) உள்ளதா, ஆசிரியர் குறிப்பு (author information), நூற்குறிப்பு (poem information), சொல்லடைவு (index), தொடரடைவு (concordance), சொற்பிறப்பு (etymology), பிற மொழி சொற்கலப்பு (non native language words), உரையாசிரியர் வரலாறு, உரையாசிரியர் வழி பொருள் விளக்கம், மொழிபெயர்ப்பு என இவையனைத்தையும் அறிந்துகொள்ள நம்மிடம் வசதியுள்ளதா என்பதைச் சிந்தித்துப் பார்ப்பது மிக அவசியமானது.

கணினி மொழியியல் (Computational Linguistics)

மொழியில் உள்ள இலக்கணக் கூறுகளைக் கணினியில் வழி மாற்றுவதற்கான அறிவியலைக் கணினி மொழியியல் எனலாம். இது இயற்கை மொழியாய்வுக்கு (மனிதன் மொழியைப் புரிந்துகொள்வது போல கணினியும் புரிந்துகொள்ள வழிவகை செய்வது) அடிப்படை ஆகும். கணினி மொழியியல் வழி இத்தகைய பணிகளை மேற்கொள்வது ஆய்வுக்கு நன்மை பயப்பதோடு தமிழ்க் கணினி மொழியியலிலும் ஒரு வளர்ச்சியை உண்டாக்கும். பெரும்பாலும் கணினி மொழியியலில் நவீன தமிழுக்கே பலர் கருவிகளை உருவாக்கி வருகின்றனர். இதைச் சங்க இலக்கிய படைப்புகளுக்குப் பயன்படுத்தும் போது கணினி மொழியியலின் நெகிழ்வுத்தன்மை வெளிப்படும். ஏனெனில், சங்க இலக்கியப் படைப்புகளும் தமக்கே உரிய இலக்கணங்களைப் பெற்றுள்ளன.

பொதுவாக, மொழி என்பது கணிதப் பண்புகளை உடையது. அதன் ஒவ்வோர் இலக்கண மாற்றத்தையும் விதிகள் மூலம் நம்மால் வரையறுக்க முடியும்.  சான்றாக “உயிர் வரின் உக்குரல் மெய்விட்டோடும்” (உப்பு +ஐ = உப்ப் +ஐ) என்ற புணர்ச்சி விதியைக் கூறலாம். இது போலவே யாப்பையும் நம்மால் வரையறுக்க முடியும்.

சங்க இலக்கியப் பாடல் ஒன்றை உள்ளீடாகக் கொடுப்பதன் மூலம், அப்பாடல் எந்த வகை யாப்பைச் சார்ந்தது என்பதைக் கணினியால் யூகிக்க முடியும். யாப்புக்குரிய இலக்கணங்களை விதிகளாக மாற்றியமைப்பதன் மூலம் இதைச் செய்யலாம். இவ்வகைக் கருவிகள், ஆய்வாளர்களுக்கு எல்லா விதத்திலும் பயனளிக்க முடியும்.

குறிப்புத் தொடர்கள் (Regular Expressions)

குறிப்புத் தொடர்களை ஒரு சொல்லைக் கோப்பில் இருந்து தேடிப் பெறத் துணைபுரியும் கருவி எனலாம். ஸ்டிபன் கோலே கிளினி என்ற அறிஞர் 1950ஆம் ஆண்டு இதை அறிமுகப்படுத்தினார். குறிப்பிட்ட ஒரு சொல்லை முழுவதுமாகவோ அல்லது அதன் பகுதியையோ அது இடம்பெற்றிருக்கும் வாக்கியத்தோடு பெறும் வசதியை நமக்கு அளிக்கும் தொழில்நுட்பமே குறிப்புத் தொடர்களாகும். காட்டாகப் புத்தகம் என்ற ஒரு சொல்லை நாம் நம் கோப்பில் தேட வேண்டுமெனில் அதற்கான குறியமைப்பு, பின்கண்டவாறு அமைய வேண்டும்.

/புத்தகம்/ = “கண்ணன் கடையில் புத்தகம் வாங்கினான்”. தற்போது கணினி ஆவணங்களில் நாம் பயன்படுத்தும் தேடு (find), பதிலிடு (Replace) என அனைத்துமே இதனைக் கொண்டே வடிவமைக்கப்பட்டுள்ளன. ஒரு சொல்லின் வடிவத்தை வைத்து அது இடம்பெற்றிருக்கும் வாக்கியத்தைத் தேட, இது நமக்கு உதவுகிறது. சங்க இலக்கியங்களில் இடஞ்சுட்டி பொருள் விளக்குதல் , தலைவி கூற்று, தலைவன் கூற்று, நற்றாய் கூற்று, செவிலி கூற்று என எந்த வாக்கியத்தையும் மிகத் தெளிவாகக் கண்டறிய இந்தக் குறிப்புத் தொடர்கள் பெரிதும் பயன்படும். ஏனெனில் எந்த ஒரு சங்க இலக்கியப் பாடலுக்கும் அதன் தன்மைகேற்ப தனியொரு அடையாளம் இருக்கவே செய்கிறது. இப்பாடல்களின் இயல்புகளின் ஆய்வை (feature analysis) அதாவது அப்பாடலின் நூல், ஆசிரியர் பெயர், பயன்படுத்தப்பட்டுள்ள மொத்த சொற்கள், காலம், விளக்கவுரை, எதுகைப் பட்டியல், மோனைப் பட்டியல், ஓசை, எந்த வகை இலக்கணம், மொழிபெயர்ப்பு, உவமை என அனைத்துமே ஒரு பாடலின் சிறப்பியல்புகளில் அடக்கம். இதை மேற்கொள்வது மூலம் நாம் நம் கணினிசார் தேவைகளைப் பூர்த்தி செய்ய முடியும். சங்க இலக்கியத்திற்கு இது போன்ற ஒரு கருவி
இருந்தால் அது மாணவருக்கு எந்த அளவிற்குப் பயன்படும் என்பதை நாம் சிந்தித்துப் பார்க்க வேண்டும். இன்றைய சூழ்நிலையில் முனைவர் பட்ட ஆய்வாளர்கள் பலர், சங்க இலக்கியங்களின் பல்வேறு தலைப்புகளின் கீழ் தங்களது ஆய்வை மேற்கொண்டு வருகின்றனர் இது போன்ற கருவிகள் உருவாக்கம் அவர்களை ஊக்கவிப்பதோடு மேலும் பல ஆய்வுகள் தொடர நிச்சயம் வழி வகுக்கும்.

சங்க இலக்கியத் தரவுகளைக் கணினித் தொழில்நுட்பத்திற்கேற்ப தகவமைப்பது எப்படி?

சங்க இலக்கியங்களுக்குப் பல்வேறு கருவிகள் உருவாக்கப்பட சாத்தியம் வெகுவாக உள்ள நிலையில் அதைக் கணினிப் பயன்பாட்டிற்கென தகவமைப்பது அவசியமாகிறது. இந்தத் தகவமைப்பு எந்த விதத்திலும் அதன் தரத்தைப் பாதிக்காது. எந்தவொரு கணினிசார் பயன்பாட்டுக்கும் தரவுத்தளம் என்பது மிக அவசியமானது எதை மையமாக நாம் கருதுகிறோமோ அதைத் தரவுத் தளமாக, நம் அவசியத்திற்கேற்ப வடிவமைக்க வேண்டும்.

மேலே நாம் விவாதித்த பல்வேறு விதமான கருவிகளைச் செய்ய நம்முடைய சங்க இலக்கியத்தையே நாம் தரவுத் தளமாகப் பயன்படுத்த வேண்டும். இது நிரல் மொழிக்கு ஏற்ற வகையில் இருப்பது மேலும் சிறப்பானது. காட்டாகப் பத்துப் பாட்டுக்கு ஒரு தொடரடைவி செய்ய வேண்டுமெனில் அதை ஒரு நோட்பேடில் .txt வடிவத்தில் சேகரித்து வைத்துக்கொண்டால் அது ஒரு சிறந்த தரவுத்தளமாகப் பயன்படும். பயனர் எந்தவொரு சொல்லை விரும்புகிறாரோ அந்த சொல்லின் பயிலிடத்தை நம்மால் எளிமையாகக் இதன் மூலம் கண்டறிய முடியும். ஒப்பீட்டு ஆய்வுக்கும் இது துணைபுரியும் (comparative analysis).

Html, xml அல்லது mdb வடிவத்தில் இருந்தால் அது இணையக் கருவிகள் (Internet Applications) செய்வதற்குப் பயன்படும். இதன் மூலம் உலகின் எந்த மூலையில் இருந்தும் இக்கருவியைப் பயன்படுத்துவது சாத்தியமாகிறது. மின் புத்தகங்கள் போல சங்க இலக்கியமும் இணையத்தில் முழுவதும் கிடைத்தால் அது இன்றைய இளைஞர்களையும் சென்றடையும். குறிப்பாகச் செவ்வியல் இலக்கியங்களுக்கு இது போன்ற ஒரு கருவியின் தேவை அவசியமாகிறது.

முடிவுரை

சங்க இலக்கியங்களுக்கெனத் தனியொரு இணையத்தளத்தைத் நாம் ஏற்படுத்திட வேண்டும். அவ்விணையத்தளத்தை நாம் மேற்சொன்ன வசதிகளோடு உருவாக்க வேண்டும். ஏற்கனவே அரிய பல தமிழ் சொற்களை ஆங்கிலத்தின் ஆதிக்கத்தால் நாம் இழந்து வருகிறோம். படிக்காத பலரும் கூட ஆங்கிலம் எனத் தெரியாமலே தமிழோடு ஆங்கிலத்தைப் பயன்படுத்தும் அவலங்கள் இன்று அரங்கேறி வருவதை நம்மில் பலர் கண்டிருக்கிறோம்.

தமிழறிஞர்கள் பலரும் தங்கள் இலக்கியத் திறனாய்வுக்கெனப் பல மணி நேரங்களைச் செலவழிக்கின்றனர் அவர்களின் தேவைகளை உடனுக்குடன் பூர்த்தி செய்ய ஒரு மென்பொருள் இருந்தால் தமிழுக்கு மேலும் சிறந்த பல படைப்புகள் கிடைக்க அது வழிவகுக்கும். பொருண்மை ஆய்வைத் தவிர மற்ற எல்லா விதமான ஆய்வுகளையும் தற்போது மேற்கொள்ள முடியும். பொருண்மையை ஆராய்வதற்கான சாத்தியக்கூறுகளும் தற்போது பரிசீலனையில் உள்ளன. இது போல் கணினி மொழியியல் அடிப்படை ஆய்வுகள் தமிழ் மொழியின் வளர்ச்சிக்கு மென்மேலும் வலுசேர்ப்பதோடு மொழிக் கருவிகளின் தரத்தை மேம்படுத்தவும் பெரிதும் துணைபுரியும்.

நூற்பட்டியல்

A grammar of contemporary literary Tamil by Pon.kothandaran
Speech and Language Processing by Danial jurafsky

கட்டுரை

கணினித் தமிழ் வளர்ச்சிக்கான அடிப்படைத் திட்டப் பணிகள் – பேரா.ந.தெய்வசுந்தரம் 2010,  உலகத் தமிழ் இணைய மாநாடு.

=========================================================================

ஆய்வறிஞர் கருத்துரை (Peer Review):

தமிழ் இலக்கியங்களை – குறிப்பாகச் சங்க இலக்கியங்களை ஓலைச்சுவடித் தொழில்நுட்பம் எவ்வாறு தமிழ் வரலாற்றில் சேமித்து, பாதுகாத்து வந்துள்ளது என்பதைக் குறிப்பிடுகிற கட்டுரை ஆசிரியர் , இன்றைய கணினித் தொழில்நுட்பத்தில் அந்த முக்கியப் பொறுப்பைக் கணினித் தொழில்நுட்பம் எவ்வாறு ஏற்றுக்கொள்கிறது, ஏற்றுக்கொள்ள வைக்கவேண்டும் என்பதை மிகத் தெளிவாக வலியுறுத்தியுள்ளார். கணினித் தமிழ் என்பதானது கணினியில் தட்டச்சு செய்வதோடு நின்றுவிடுவதில்லை ; மாறாக, தமிழ் மொழியைக் கணினி புரிந்துகொண்டு, பலவேறுபட்ட கணினிவழி மொழிச் செயல்பாடுகளை மேற்கொள்ள வைப்பதே ஆகும் என்று தெளிவாக எடுத்துரைக்கிறார். மேலும் தமிழாய்வை எவ்வாறு கணினிவழி மேற்கொள்ள முடியும் என்பதைச் சில எடுத்துக்காட்டுகளுடன் ஆசிரியர் விளக்குகிறார். அவ்வாறு கணினி மேற்கொள்வதற்கு ஆய்வாளர்கள் எவ்வாறு கணினிக்குத் தமிழ் அமைப்பைக் கணித அடிப்படையில் விளக்க வேண்டும் என்பதையும் கூறுகிறார்.

கணினித் தொழில்நுட்பத்தின் அடிப்படையே கணிதம் என்பதைத் தெளிவாக உணர்ந்துள்ள கட்டுரை ஆசிரியர், தமிழின் அமைப்பைக் கணித அடிப்படையில் வழங்க இயலும் என்று கூறுவது, தமிழ் இலக்கணத்தின் சிறப்பை எடுத்துக்காட்டி நிற்கிறது. செய்யுள்களின் யாப்பிலக்கணம்கூட கணித அடிப்படையில்தான் அமைந்துள்ளது என்பதைக் கூறுகிற ஆசிரியர், தமிழ் இலக்கியங்களைப் பல்வேறு நோக்கில் ஆய்வு செய்வதற்குக் கணினித் தொழில்நுட்பம் ஏற்றதே என்பதை மிக உறுதிபடச் சொல்கிறார். அதைத் தொடர்ந்து, சங்க இலக்கிய ஆய்வுக்கு எவ்வாறு தரவக மொழியியல் அடிப்படைகளைப் பயன்படுத்தலாம் என்பதை விளக்குகிறார். சங்க இலக்கியங்கள் அனைத்தும் மின்னூல் வடிவத்தைப் பெறவேண்டும் என்று வலியுறுத்துகிறார். அதனை அடிப்படையாகக் கொண்டு, சங்க இலக்கியத் தரவகம் எவ்வாறு தகவமைக்கப்பட வேண்டும் என்பதையும் அவ்வாறு உருவாக்கப்பட்ட அந்தத் தரவகத்தை எவ்வாறெல்லாம் தமிழ் ஆசிரியர்கள், ஆய்வாளர்கள், மாணவர்கள் பயன்படுத்தலாம் என்பதையும் நன்றாகவே விளக்குகிறார்.

மேற்கூறிய அடிப்படையில் இக்கட்டுரையானது வல்லமை ஆய்விதழில் வெளியிடுவதற்குரிய தகுதியைப் பெற்றுள்ளது என்பதைத் தெரிவித்துக்கொள்கிறேன்.

=========================================================================

Print Friendly, PDF & Email
Download PDF
Share

உங்கள் கருத்துகளைத் தெரிவிக்க