இயற்கை மொழிச் செயலாக்கங்களின் தற்போதைய போக்குகள் & சவால்கள்
முனைவர் மோ. ஜெயகார்த்திக்
உதவி இயக்குநர் (கல்வி), தமிழ் இணையக் கல்விக்கழகம்,
கோட்டூர், சென்னை – 25
மின்னஞ்சல்: jeya_karthic@yahoo.com
முன்னுரை
இயற்கை மொழிச் செயலாக்கம் (Natural Language Processing) என்பது கணினி விஞ்ஞானத்தில் அதிக ஆராய்ச்சிகளை உள்ளடக்கிய ஒரு துறையாகும். NLP, கணினிகள் மற்றும் மனித மொழிகளுக்கிடையில் ஒரு பரஸ்பர தொடர்பினை ஏற்படுத்துகின்றது. இயற்கை மொழி ஆய்வுக் குறியீடுகள் மற்றும் செயற்பாட்டுத் தொகுப்புகள் மற்றும் மாதிரி தரவுகள் என்பனவற்றைத் தன்னகத்தே உள்ளடக்கி இருப்பதால் இயற்கை மொழிச் செயலாக்கத்தை (Natural Language Processing) எளிதில் நடைமுறைப்படுத்த முடியும். பொதுவாக இயற்கை மொழி செயலாக்கத்திற்குத் (NLP) தேவையான முக்கிய செயற்பாடுகளைப் பற்றி விளக்குவதே இந்தக் கட்டுரையின் நோக்கம்.
தமிழில் இயற்கை மொழி ஆய்வுக்கான முன்னேற்பாடுகள்
இந்திய மொழிகள் அனைத்தும் கணிப்பொறி அறிவியலில் உரிய இடத்தைப் பெறுவதற்காக நடுவண் அரசும் மாநில அரசும் பல்கலைக்கழகங்களும் ஆராய்ச்சி நிறுவனங்களும் தனியார் நிறுவனங்களும் பல்வேறு முயற்சிகளில் ஈடுபட்டு வருகின்றன. நடுவண் அரசின் தகவல் தொழில்நுட்ப வளர்ச்சி (TDIL- Technology Development of Indian Language) என்ற திட்டத்தை உருவாக்கிச் செயல்பட்டு வருகிறது. இதற்காக நாடு முழுவதும் 13 பல்கலைக்கழகங்கள் மற்றும் ஆய்வு நிறுவனங்களைத் தேர்ந்தெடுத்து, பல கோடி ரூபாய் நிதி உதவி அளித்து வருகிறது. இத்திட்டத்தின் கீழ், இந்திய மொழிகள் பலவற்றின் தொழில்நுட்ப வளர்ச்சிக்கான பல்வேறு ஆய்வுகள் நடைபெற்று வருகின்றன.
கடந்த ஐந்தாண்டுகளில் தமிழகத்திலும் மாநில அரசானது தமிழ்மொழியின் தொழில்நுட்ப வளர்ச்சிக்காகப் பல்வேறு திட்டங்களைச் செயல்படுத்தியுள்ளது. தமிழ் மென்பொருள் வளர்ச்சிக்கான பல திட்டங்களை அறிவித்துச் செயல்படுத்தி வருகிறது. இதனடிப்படையில் தமிழ் இணைய மாநாடுகள் நடைபெற்று, தமிழ் இணையக் கல்விக் கழகமும் நிறுவப்பட்டது. சென்னைப் பல்கலைக்கழகம், அண்ணா பல்கலைக்கழகம், அண்ணாமலைப் பல்கலைக்கழகம், தமிழ்ப் பல்கலைக்கழகம், பாரதியார் பல்கலைக்கழகம் முதலான பல்கலைக்கழகங்களும் தமிழ் மென்பொருள் உருவாக்கத்திற்காக மானிய உதவியைப் பெற்றுள்ளன என்பது குறிப்பிடத்தக்கது.
மொழி உருவாக்கம் (Language formulation)
மொழியியல் என்பது மொழியை அறிவியல்பூர்வமாக ஆராய்வது. ஒலியனியல் நிலை, உருபனியல் நிலை, பொருண்மையியல் நிலை ஆகியப் படிநிலை அமைப்பில் வரும் மொழி அலகுகளாகப் பிரித்தாய்ந்து மொழியின் கட்டமைப்பைப் புரிந்துகொள்ளக் கணிப்பொறியைப் பயன்படுத்தலாம். மேலும், சிறிய மொழிக் கூறுகளிலிருந்து பெரிய மொழிக் கூறுகளை ஆக்கலாம். இதனை மொழிப் பகுப்பாய்வு என்றும் மொழி ஆக்கம் என்றும் அழைக்கலாம்.
இலக்கண விதிகளை எளிமைப்படுத்திக் கணினிக்கு உணர வைக்க, மொழியியல் கோட்பாடுகள் அவசியமாகின்றன. இவை ஒரு சொல்லையோ அல்லது அதன் பகுதியையோ கணினி அறியப் பயன்படுகின்றது. கணினியுடன் தொடர்புகொள்வதற்குத் துணை நிற்பது நிரல்மொழி. ஜாவா, பேர்ல், சி, சி++, பைத்தான் போன்ற நிரல்களை இயற்கை மொழி ஆய்வுகளுக்கு ஆய்வாளர்கள் தேர்வு செய்கிறார்கள். இவற்றின் மூலம் உருபனியல் பகுப்பாய்வியை உருவாக்குவது என்பது எளிதாக நடைமுறைப்படுத்தப்படுகிறது. மேலும் இதன் வெளியீடானது தொடரியல் பகுப்பாய்வுக்கு உள்ளீடாகக் கொடுக்கப்படுகிறது. இது இயந்திர மொழிபெயர்ப்புக்கு உதவியாக அமைகின்றது.
இயற்கை மொழி ஆய்வு
கணிப்பொறி ஒரு மொழியாய்வுக் கருவி. செய்திகளை 1,0 என்ற எண்களால் ஆய்வது தான் கணிப்பொறி. மனித மூளை 0,1 என்ற அடிப்படை எண்களை வைத்துக்கொண்டு இயந்திர மொழி மூலம் எழுத்துகளும், எண்களும் தனித்தன்மையான குறியீடுகளும் (Special Symbols) உருப்படுத்தம் செய்யப்படுகின்றன. மொழியியலார் கணினியை மொழியின் கடினமான செயல்பாடுகளைச் செய்யும் கருவியாகப் பயன்படுத்தும் காலம் வந்துவிட்டது. மொழியியல் சார் கணிப்பொறி ஆய்வைக் கணினி மொழியியல் ஆய்வு அல்லது இயற்கை மொழி ஆய்வு என்பர். இவ்வாய்வுப் பேச்சைத் தெரிந்துகொள்ளுதல், பேச்சை உருவாக்குதல், உரைகளை பேச்சாக்குதல், பேச்சுகளை உரை ஆக்குதல், இயந்திர மொழிபெயர்ப்பு, விரிதரவுகளை ஆய்தல், உரைகளை ஆய்தல், மொழி அலகுகளைப் பகுப்பாய்வு செய்தல் என்பனவற்றை உள்ளடக்கும். மொழியாய்வு மொழியைப் புரிந்துகொள்ளுதல் என்பதுடன் உரை அல்லது பேச்சுச் செய்திகளைப் பொருள் கொண்டுப் புரிந்துகொள்ளுதல், மொழிபெயர்த்தல், உரைகள் அல்லது பேச்சுச் செய்திகளை உருவாக்குதல் முதலானவற்றையும் ஆய்வதாக அமைகின்றது.
இயற்கை மொழி ஆய்வின் அணுகுமுறைகள்
இயற்கை மொழிச் செயலாக்க அடிப்படையில் இரண்டு பகுதிகளாக வகைப்படுத்தலாம். 1. இயற்கை மொழிப் புரிதல் என்பது, இயற்கை மொழியில் கொடுக்கப்படுகின்ற உள்ளீட்டைப் பயனுள்ள அமைப்புகளாக அல்லது குறியீடுகளாகப் பொருத்துவது, மற்றும் மொழியின் பல்வேறு அம்சங்களைப் பகுப்பாய்வு செய்தல் என்பதைக் குறிக்கின்றது. 2. இயற்கை மொழி உருவாக்கம் என்பது இயற்கை மொழியின் உள்ளீட்டுக் குறியீடுகளிலிருந்து பொருண்மை பொதிந்த சொற்றொடர்களையும் வாக்கியங்களையும் உருவாக்கும் செயல்முறையாகும். இச்செயல்முறை உரைத் திட்டமிடல், வாக்கியத் திட்டமிடல், உரை உணர்தல் என்ற உட்கூறுகளில் செயல்படுகிறது. மேலும், இயற்கை மொழியைப் புரிந்துகொள்ளுதல் என்பது இயற்கை மொழி உருவாக்கத்தைவிடக் கடினமானது ஆகும்.
இயற்கை மொழி ஆய்வின் படிநிலைகள்
இயற்கை மொழி ஆய்வில் ஐந்து படிநிலைகள் உள்ளன.
1. சொல் பகுப்பாய்வு என்பது சொற்களையும் சொற்களஞ்சியத்தையும் உள்ளடக்கிய மொழி ஆய்வு ஆகும்.
2. தொடரியல் பகுப்பாய்வு என்பது வாக்கியங்களைத் தொடர்களாகவும் சொற்களாகவும் பிரித்து அவற்றின் தொடரியல் மற்றும் சொல் வகையிலான பண்புகளை அடையாளப்படுத்தும் நடைமுறையாகும்.
3. பொருண்மையியல் ஆய்வானது மொழியில் உள்ள சொற்களின் பொருண்மையை அறிவியல் நோக்கில் ஆராய்வதாகும்.
4. சொல்லாடல் என்பது மொழியில் பொருண்மையைக் கொடுப்பதும் பெறுவதுமாக நிகழும் பரிமாற்றமாகும்.
5. சூழ்பொருளியல் ஆய்வானது சொற்றொடரின் பொருளுக்கும் பேசுபவரின் பொருளுக்கும் இடையே உள்ள தொடர்புகளை ஆராய்வது.
இயற்கை மொழி ஆய்வின் போக்குகள்
இயற்கை மொழியை மற்றொரு மொழிக்கு மொழிபெயர்க்கும்போது, சிக்கலான மொழி பழக்கத்திற்கு உட்படுகின்றது. ஒலியனியல் பகுப்பாய்வு, உருபனியல் பகுப்பாய்வு, பொருண்மையியல் பகுப்பாய்வு, பயன்வழியியல் பகுப்பாய்வு, கருத்தாடல் பகுப்பாய்வு ஆகியவை கணினி மொழியியலுக்கு அடிப்படை ஆய்வுகளாகும்.
ஒலியனியல் பகுப்பாய்வு, ஒலி அடையாளக் குறிகளிடமிருந்து அல்லது கேட்கும் அடையாளக் குறிகளிடமிருந்து சொற்களைப் பிரித்தெடுக்கும் பேச்சைத் தெரிந்துகொள்ளும்.
ஒலிகள் → சொற்கள்
/b/+/ɔ:/ +t ® bɔ:t/ ‘boat’
க் + ஆ+ல்+அ+ம் காலம்
உருபன்களிலிருந்து சொற்களைப் பெறல், சொற்களை உருபன்களாகப் பகுத்தல் என்பனவற்றை உள்ளடக்கும்.
உருபன்கள் → சொற்கள்
சிலை+கள் சிலைகள்
தொடரியல் பகுப்பாய்வில் சொற்களின் வரிசை அமைப்பிலிருந்து வாக்கிய அமைப்பைப் பெறுவது அல்லது வாக்கியங்களைச் சொற்களாகப் பிரித்தல் என்பனவற்றை உள்ளடக்கும்.
சொல்வரிசை → வாக்கிய அமைப்பு
இராமன் சீதையை மணந்தான் என்ற சொல் வரிசையில்,
இராமன் + சீதை யை+ மணந்தான்
(பெ.தொ.) (வே.தொ.) (வி.தொ.)
(பெ.)+ (பெ.)+(வே.உ)+ (வி.)
பொருண்மையியல் பகுப்பாய்வு என்பது வாக்கிய அமைப்பு சொற்பொருண்மையில் இருந்து வாக்கிய பொருண்மையைப் பெறலாம். எ.கா. இராமன் சீதையை மணந்தான் என்று பகுப்பில் இருந்து மணந்தான் இராமன், சீதை என்பதைப் பெறமுடியும்.
பயன்மொழியியல் பகுப்பாய்வில் வாக்கியப்பொருள் மற்றும் சூழல் இவற்றிலிருந்து சரியான பொருளைப் பெறமுடியும். இது பொது அறிவையும் முன்னர் வந்த கூற்றின் அறிவையும் உள்ளடக்கும். எ.கா. அவன் சீதையை மணந்தான் என்ற வாக்கியத்தில் வரும் பதிலீட்டுப் பெயர் (அவன்) முன்னர் வந்த வாக்கியத்தின் அறிவால் அவன்= ராமன் என்று புரிந்துகொள்ளப்படும்.
முடிவுரை
மொழி ஆய்வில் கணினி பெரிதும் பயன்பட்டு வருகின்றது. கணினியில் தமிழைக் கையாளுதல் என்பது சில சமயங்களில் சிக்கலுக்குரிய செயலாக உள்ளது. அச்சிக்கலைக் களைவதற்கு மொழியியல் அறிஞர்களும் கணினித் தொழில்நுட்ப வல்லுனர்கள் இணைந்து செயல்பட்டால் இயற்கை மொழி ஆய்வில் ஏற்படும் இடர்ப்பாடுகளைக் களையலாம்.
பார்வை நூல்கள்
- Agesthialingom, S. 1967, Generative Grammar of Tamil, Annamalai University, Annamalai Nagar.
- Chomsky, N. 1965, Aspects of theory of Syntax, MIT Press, Cambridge.
- அரங்கன், கி. 1975, தொடரியல் மாற்றிலக்கண அணுகுமுறை, தமிழ்ப் பல்கலைக்கழகம், தஞ்சாவூர்.
- இராசேந்திரன், ச. 2019, கணினி மொழியியலும் தமிழ்மொழியின் தொழில்நுட்ப வளர்ச்சியும், கோயம்புத்தூர்.
- சண்முகம், செ. 1998, சாம்ஸ்கியின் புது மாற்றிலக்கணம், கவிதா பதிப்பகம், சென்னை.