தமிழ் உருபனியல் பகுப்பாய்வி (Tamil Morphological Parser) உருவாக்கம்

-முனைவர் ஆர். சண்முகம்  

கட்டுரைச் சுருக்கம்

 தமிழ் இன்று கணினியில் உலா வரத் துவங்கியுள்ளது என்பது மிகவும் வரவேற்கத்தகுந்த ஒன்றாகும். ஆயினும் அது ஆங்கிலத்தை அரவணைத்துக்கொண்டே உலா வருவது நாம் அனைவரும் சற்றுச் சிந்திக்க வேண்டிய ஓன்றாகும். தனித்து இயங்கல் என்பது செம்மொழியாக அறிவிக்கப்படுவதற்கு உள்ள தகுதிகளுள் ஒன்றாகும் அதை ஒருங்கே பெற்றதால் தமிழ் அத்தகுதியைப் பெற்றது. தமிழ்க் கணினியில் தனித்து இயங்க வேண்டுமெனில் அதற்கென மொழிக்கருவிகள் உருவாக்கப்படுவதென்பது மிகவும் அவசியமாகும் இதற்காக மேற்கொள்ளப்படும் ஆய்வை இயற்கை மொழி ஆய்வு என்கிறோம் அதாவது மனித மூளை போன்று கணினியும் மொழியைப் புரிந்து கொள்ளும் விதத்தில் அதனை வடிவமைப்பதாகும். இப்பணியை நாம் மேற்கொள்ள சில அடிப்படைக் கருவிகளை உருவாக்குவது தவிர்க்க இயலாத ஓன்று. அத்தகைய அடிப்படைக் கருவிகளுள் உருபனியல் பகுப்பாய்வி (Morphological Parser) ஒன்றாகும். இவ்வுருபனியல் பகுப்பாய்வியை எவ்வாறு தமிழுக்கு உருவாக்கலாம் என்பதும் அதற்குத் தேவையானவை எவை என்பதையும் விளக்குவதே இக்கட்டுரையின் நோக்கமாகும்.

அறிமுகம்

தமிழின் இன்றைய வளர்ச்சி அதனைப் பல்வேறு துறைகளுக்கு அழைத்துச் சென்றுள்ளது என்பது மறுக்க முடியாத உண்மை. கலைகள் மற்றும் இலக்கியங்கள் வாயிலாக வாழ்ந்துவந்த தமிழ் தற்போது இணையம் மூலம் உலகெங்கும் பயணிக்கத் துவங்கியுள்ளது. குறிப்பாகத் தகவல் தொழில்நுட்பத் துறையில் தினமும் முன்னேற்றம் காண ஆரம்பித்துள்ளது. மொழித் தொழில்நுட்பத்திலும் (Language Technology) தமிழ் முத்திரை பதிக்கத் தவறவில்லை. அத்தகைய மொழித் தொழில்நுட்பத்திற்கு வலு சேர்க்கும் ஆய்வுகளில் ஒன்று இயற்கை மொழி ஆய்வு (Natural Language Processing). அதாவது மனிதனைப் போலவே கணினியானது, மொழியைக் கையாளும் விதத்தில் அதனை மேம்படுத்துவதை இயற்கை மொழி ஆய்வு என்கிறோம். இயற்கை மொழி ஆய்வின் முதல் நிலையாக உருபனியல் பகுப்பாய்வியைக் கூறலாம்.  ஏன் எனில் நாம் பயன்படுத்துகிற அனைத்து வாக்கியங்களுக்கும் அடிப்படை அது கொண்டுள்ள சொற்களும் அச்சொற்களுக்கிடையே அமைந்துள்ள பொருண்மைத் தொடர்புகளுமே  (Semantic Relationship between words) ஆகும்.  இதனைப் பொறுத்தே ஒரு முழுச் வாக்கியத்தின் பொருள் அமைகிறது. எனவே சொற்களைப் பற்றியும் அவற்றுக்கிடையே உள்ள பொருண்மை தொடர்புகளைப் பற்றியும் அறிவது அவசியமாகிறது. சொற்களைப்பற்றி அறிய உருபனியல் பகுப்பாய்வியும் (Morphological Parser) , அவற்றுக்கிடையே உள்ள பொருண்மைத் தொடர்பறிய தொடரியல் பகுப்பாய்வியும் (Syntactic Parser) துணைபுரிகின்றன. இதனை உருவாக்கத் துணைபுரியும் அறிவியலைக் கணினி மொழியியல் (Computational Linguistics) என்கிறோம். அதாவது மொழியில் உள்ள கணினி மூலம் கையாளத் தகுந்த மொழியியல் கூறுகளை (Linguistic Properties)   படிக்கப் பயன்படும் அறிவியலாக இதைக் கூறலாம். 

உருபனியல்  பகுப்பாய்வி

ஒரு சொல்லில் உள்ள விகுதிகளைக் கண்டறிந்து அதன் இலக்கணக் குறிப்பையும் அச்சொல்லின் முழு இலக்கணக் குறிப்பையும் வெளியிடும் கருவியை உருபனியல் பகுப்பாய்வி என்கிறோம். 1958-ஆம் ஆண்டு பெர்க்கோ என்ற அறிஞர் முதன்முதலில் மக்களின் உருபன் பற்றிய அறிவையும் இரு வெவ்வேறு சொற்களுக்கிடையே உள்ள ஒற்றுமைக்கான காரணங்களைப் பற்றியும் உளவியல் மொழியியல் நோக்கில் (psycho linguistics) ஆராய்ந்தார். இச்சோதனைகளின் முடிவில் அவர் மனிதர்களுக்கு இரு வேறு சொற்களுக்கு இடையே உள்ள உறவுகளைக் கணிப்பதில் மிகுந்த சிரமம் இல்லாததை உணர்ந்தார். இவரைத் தொடர்ந்து  டெர்விங் (1976) மற்றும் ஸ்மித்(1977) ஆகியோரும் இதே போன்று பல சோதனைகளை மேற்கொண்டு உருபன் அறிதலின் (Morpheme Recognition) முக்கியத்துவத்தை உணர்ந்தனர். இதன் விளைவாகக் கர்ட்டுனன் , ஆண்ட்வொர்த்  மற்றும் கொஸ்க்கினிமி (1983) ஆகியோர் இதைக் கணினிவழி மேற்கொள்ள ஏதுவாகச் சில கோட்பாடுகளை நிறுவினர். இரட்டை நிலை உருபனியல் (two-level Morphology)மற்றும் கிம்மோ உருபன் பகுப்பாய்வியும் (Kimmo parser) இதற்குத் தக்கச் சான்றுகளாகும். இதனால் தமிழுக்கும் இதைச் செயல்படுத்த தேவையான நடவடிக்கைகள் மேற்கொள்ளப்பட்டன , மேற்கொள்ளப்பட்டு வருகின்றன. சென்னைப் பல்கலைக்கழகம் , அண்ணாமலைப் பல்கலைக்கழகம் ஆகியவற்றின் மொழியியல் பிரிவுகள் இதில் பெரும் ஆர்வம் செலுத்தின. அண்ணா பல்கலைக்கழகமும் இதில் ஆர்வம் காட்டியது. இன்றளவும் உருபன் பகுப்பாய்வியைச் செவ்வனே உருவாக்குவதற்கான முயற்சிகள் தொடர்ந்து பல்வேறு நிறுவனங்களின் மூலம் நடைபெற்று வருகிறது.

உருபன்  பகுப்பாய்வியை   உருவாக்கத்  தேவையானவைகள்

ஒரு மொழிக்கென உருபன் பகுப்பாய்வியை உருவாக்கிடக் கீழ்க்கண்டவை மிகவும் முக்கியமானவை,

1.தரவுத்தளம் (Database)

2.சந்தி விதிகள (Morphophonemics Rules)

3.உருபன்கள் (Morphemes)

4.உருபன் வரிசைமுறை (Morphotactics)

5.கணினி மொழியியல் கோட்பாடுகள் மற்றும் நிரல் மொழி.

தரவுத்தளம்

கணினியால் மனித மூளை போன்று ஒரு சொல் தன்னுடைய மொழியைச் சார்ந்ததா அல்லது இல்லையா என்பதை கண்டறிய இயலாது. பூஜ்ஜியமும் ஒன்று என்ற எண்ணுமே அதற்குப் பரிச்சயம். இதனைச் செயல்படுத்தத் தரவுத்தளம் மிகவும் உதவிகரமாக இருக்கும். பொதுவாகத் தரவுத்தளம் என்பது ஒரே வகையைச் சார்ந்த சொற்களின் பட்டியல் ஆகும். இதை இரண்டாகப் பிரிக்கலாம் வேர்ச்சொல் தரவுத்தளம் மற்றும் விகுதித் தரவுத்தளம். வேர்ச்சொற்களின் பட்டியல் அடங்கிய கோப்பைத் வேர்ச்சொல் தரவுத்தளம் என்கிறோம். பொதுவாக உருபனியல் பகுப்பாய்வுக்கென முதன்மை இலக்கண வகைகளான பெயர்ச்சொல், வினைச்சொல், வினையடை மற்றும் பெயரடை ஆகியவற்றைப் வேர்ச்சொல் தரவுத்தளத்திற்குப் பயன்படுத்தலாம். விகுதித் தரவுத்தளம் என்பது விகுதிகளின் பட்டியல் அதாவது பெயர்ச்சொல்லுக்குரிய பன்மை, வேற்றுமை விகுதிகள் மற்றும் பின்னொட்டுக்கள், வினைச்சொல்லுக்குரிய கால இடைநிலைகள், திணையெண்பால் விகுதிகள் வினைப்பாங்கு மற்றும் வினைநோக்கு விகுதிகள் ஆகியவற்றைக் கூறலாம். இத்தரவுத்தளத்தைப் பயன்படுத்துவதன் மூலம் கணினியால் பயனாளர் மூலம் உள்ளிடப்பட்ட சொல்லையும் அது கொண்டுள்ள விகுதிகளையும் சரியானவை எனத் தீர்மானிக்க முடியும். இத்தரவுத்தளத்தில் இடம்பெற்றுள்ள சொற்களின் எண்ணிக்கையைப் பொறுத்தே உருபனியல் பகுப்பாய்வியின் தரம் அமையும் எனலாம்.

சந்தி விதிகள்

வேர்ச்சொல்லோடு விகுதிகளோ அல்லது விகுதிகளுடன் விகுதிகளோ சேரும்போது அவைகளுக்கிடையே தோன்றல்,திரிதல்,கெடுதல் ஆகியவற்றை உள்ளடக்கிய மாற்றங்கள் நிகழும் இவற்றைத் தக்க விதிகளைக் கொண்டு நிறுவ முடியும் காட்டாக அம் இறுதிப்பெயர்ச்சொற்கள் ஓரசையாக இல்லாதவிடத்து விகுதிகளோடு குறிப்பாக வேற்றுமைகளோடு சேரும்போது அத்துச்சாரியை பெறுவதைக் கூறலாம் (மரம்+ஐ = மரத்தை). இதுபோல ஒவ்வொரு மாற்றங்களையும் தக்க விதிகள் மூலம் நிறுவுவதால் சொற்களைப் விகுதிகளில் இருந்து பிரிக்க முயலும்போது மிகச்சில இடங்களைத் தவிர பெரும்பாலும் பிரிப்பது சாத்தியமாகிறது. மிகச்சில இடங்கள் என இங்குக் குறிப்பிட்டது பொருள் மயக்கம் தரும் இடங்களாகும். காட்டாக “காலை” என்னும் சொல் காலை வேளையையும் கால் + ஐ வேற்றுமை விகுதியை உள்ளடக்கிய சொல் போலவும் தோன்றும் இதுபோன்ற இடங்களில் கணினியால் பகுப்பாய்வைச் செவ்வனே மேற்கொள்ள இயலாது. அச்சொல் பயின்று வந்துள்ள சூழலைப்பொறுத்தே இதனை நம்மால் முடிவு செய்ய இயலும். நம் தமிழ் இலக்கணத்தில் உள்ள சந்தி விதிகள் அனைத்தையும் கணினிக்குப் புரியும் விதத்தில் விதிகளாக மாற்றியமைப்பது சொற்களை எளிமையாகப் பிரிப்பதற்குத் துணைபுரியும்.

உருபன்கள்

 நாம் பொதுவாக விகுதிகளை உருபன்கள் என்கிறோம். காட்டாக வேற்றுமை விகுதிகள், (-ஐ,-ஆல்,-கு,-இன்,-அது,-கண்) கால இடைநிலைகள்(நிகழ்,இறந்த,எதிர் கால இடைநிலைகள்), பின்னொட்டுக்கள் (விட,பற்றி), மிதவை ஒட்டுக்கள் (மட்டும்,மாத்திரம்) ஆகியவற்றைக் கூறலாம். இவையனைத்தும் தனித்தியங்கும் ஆற்றலற்றவை என்பதால் இவற்றை கட்டுருபன்கள் என்கிறோம். பெயர், வினை, வினையடை, பெயரடை ஆகியவை தனித்தியங்கும் ஆற்றலுள்ளவை என்பதால் அவற்றை தனித்தியங்கும் உருபன்கள் என்கிறோம்.ஒரு உருபன் பகுப்பாய்வியை உருவாக்க அந்த குறிபிட்ட மொழியிலுள்ள மொத்த உருபன்களைப் பற்றிய விவரங்கள் மிகவும் இன்றியமையாததாகும்.

உருபன்  வரிசைமுறை

உருபன் வரிசைமுறை என்பது ஒவ்வொரு விகுதிக்குப் பின்னும் எவ்விதமான விகுதிகள் வர வேண்டும் என்று வரிசைப்படுத்துவதாகும். காட்டாக ஒரு பெயர்ச்சொல் உடனடியாகப் பன்மையையும் அதன்பிறகு வேற்றுமையையும் அதற்குப்பிறகு பின்னொட்டு மற்றும் மிதவை ஒட்டுக்களைக் கொண்டு அமையலாம். இந்த அமைப்பு சீராகவே இருக்கும் மிதவை ஒட்டுக்களையும் சாரியைகளையும் தவிர எந்த ஒரு விகுதியும் தன்னுடைய வகையைச் சார்ந்த மற்றொரு விகுதியுடன் சேர்ந்து வராது. (கடலைப்பற்றிமட்டுந்தானாடா , மரத்தினைக்கூட). இதைப்போலவே வினைச்சொல்லும் வினையடிச்சொல்லுக்குப் பிறகு கால இடைநிலைகளையும், திணையெண்பால் விகுதிகளையும் அதன் பிறகு மிதவை ஒட்டுக்களையும் கொண்டு வரலாம். இவ்வுருபன் வரிசை முறையைப் பயன்படுத்தி உருபன் பகுப்பாய்வியை வடிவமைப்பது சற்று எளிதாகிறது காட்டாக, உருபன் பகுப்பாய்வி எந்த உருபை முதலில் கையாளவேண்டும் போன்ற பல்வேறு செயல்முறைகளுக்கு இது மிகவும் பயன்படுகிறது இதனால் பகுப்பாய்வியின் வேகத்தையும் குறிப்பிட்ட அளவு அதிகரிக்க முடியும். மேலும் உள்ளீடு செய்யப்பட்ட சொல்லில் எந்தெந்த உருபன்கள் இடம்பெற்றுள்ளன என்பதையும் அவற்றின் இலக்கணக்குறிப்பையும் எளிதாக நம்மால் அறிய முடியும். 

 கணினி மொழியியல்   கோட்பாடுகள்   மற்றும்   நிரல் மொழி

இக்கோட்பாடுகள் கணினிக்கு ஏற்ற வகையில் நம் இலக்கண விதிகளை மாற்றியமைக்கவும், கணினிக்கு உணர வைக்கவும் மிகவும் பயன்படுகின்றன. காட்டாகக் குறிப்புத் தொடர்கள் (Regular Expression) மற்றும் FSA ஆகியவற்றைக் கூறலாம். இவை கணினிக்கு ஒரு சொல்லையோ அல்லது அதன் பகுதியையோ கண்டறிய பெரிதும் உதவுகின்றன. பகுப்பாய்விக்குச் சொல்லையும் அதன் பகுதியாகிய அது கொண்டுள்ள விகுதியையும் உணர்ந்து அறிவது அவசியமாகிறது நாம் இத்தகைய கோட்பாடுகளைப் பயன்படுத்துவது அதனை எளிமைப்படுத்துகிறது. காட்டாக, தமிழில் உள்ள மொத்த கால இடைநிலைகளையும் கணினி உணர வேண்டும் எனில் கீழ்க்கண்ட ஒரு குறிப்புத் தொடர் வாக்கியம் போதுமானது.

நிரல் மொழி என்பது கணினியுடன் நாம் ஊடாடுவதற்கு உதவக்கூடிய ஒன்று இதனைக் கணினிக்கும் நமக்கும் இடையே உள்ள ஒரு மொழிப்பெயர்ப்பாளர் என்று சொன்னால் மிகையாகாது. குறிப்பாக இயற்கை மொழி ஆய்வுகளுக்கு பெரும்பாலும் நிரலாளர்கள் பைத்தான், பேர்ல், ஜாவா, சி++ போன்ற நிரல்களைத் தேர்வு செய்வார்கள். இவற்றுள் பைத்தான் நிரல் மொழி மிகவும் நெகிழ்வுடன் இருக்கும். ஏன் எனில் இந்நிரல் மொழியில் ஏற்கனவே இயற்கை மொழி ஆய்வுக்கென பல வல்லுனர்கள் வடிவமைத்த நிரல்திட்டங்கள் பயன்படுத்தும் வடிவத்தில் கிடைக்கின்றன. எனவே மேற்கூறிய தலைப்புகளில் கவனம் செலுத்துவதன்மூலம் ஒரு மொழிக்கு உருபனியல் பகுப்பாய்வியை உருவாக்குவது எளிதாகிறது. இவ்வாறு உருவாக்கப்படும் உருபனியல் பகுப்பாய்வியின் வெளியீடு (output) தொடரியல் பகுப்பாய்வி (Syntactic Parser)எனப்படும் கருவிக்கு உள்ளீடாக வழங்கப்பட்டு இயந்திர மொழிபெயர்ப்பை (Machine Translation) மேற்கொள்ள மிகவும் துணைபுரியும். இதுபோன்ற கருவிகளைத் தமிழாசிரியர்களும் , மொழியியல் வல்லுனர்களும் , கணினி வல்லுனர்களும் இணைவதன்மூலம் மட்டுமே துல்லியமாகச் செய்ய இயலும்.

துணைநூற்பட்டியல்

1.Chomsky, Noam. Logical syntax and Semantics – Their linguistic Relevance- Language Volume 31. No.1 (Jan-Mar 1995).

2.Cook, Vivian – Mark Newson. Chomsky’s Universal grammar- Blackwell Publications

3.Daniel , Jurafsky – James H. Martin Speech and Language Processing – 2000, A Simon & Schuster Company

4.DeivaSundaram N. கணினித்தமிழ் வளர்ச்சிக்கான அடிப்படைத்திட்டப் பணிகள் – An article presented in infitt conference 2010.

5.Kothandaraman-.Pon. A grammar of contemporary literary Tamil.  IITS -1997.

6 Kothandaraman-.Pon. Tamil studies selected papers. Ambuli Publication-2001.

7.Kothandaraman-.Pon. ‘நீங்களும் தவறின்றித் தமிழில் எழுதலாம்’. Ambuli Publication-2001.

8.Krishnamoorthy, Badriraju. The Dravidian Languages. Cambridge University Press -2003

9.Verma S.K, N. Krishanaswami. Modern Linguistics -An Introduction- Oxford University Press – 1989.

 

 

 

Share

About the Author

has written 1070 stories on this site.

Write a Comment [மறுமொழி இடவும்]

Security Question: (* Solve this math to continue) *


Copyright © 2015 Vallamai Media Services . All rights reserved.
வல்லமை மின்னிதழில் வெளியாகும் ஆக்கங்கள், ஆக்கியவரின் தனிப்பட்ட கருத்துகளே; வல்லமையின் கருத்துகளாகக் கொள்ள வேண்டாம்.