இயற்கை மொழிச் செயலாக்கங்களின் தற்போதைய போக்குகள் & சவால்கள்

0

முனைவர் மோ. ஜெயகார்த்திக்
உதவி இயக்குநர் (கல்வி), தமிழ் இணையக் கல்விக்கழகம்,
கோட்டூர், சென்னை – 25
மின்னஞ்சல்: jeya_karthic@yahoo.com 

முன்னுரை

இயற்கை மொழிச் செயலாக்கம் (Natural Language Processing)  என்பது கணினி விஞ்ஞானத்தில் அதிக ஆராய்ச்சிகளை உள்ளடக்கிய ஒரு துறையாகும். NLP, கணினிகள் மற்றும் மனித மொழிகளுக்கிடையில் ஒரு  பரஸ்பர தொடர்பினை ஏற்படுத்துகின்றது. இயற்கை மொழி ஆய்வுக் குறியீடுகள் மற்றும் செயற்பாட்டுத்  தொகுப்புகள் மற்றும் மாதிரி தரவுகள்  என்பனவற்றைத் தன்னகத்தே உள்ளடக்கி இருப்பதால் இயற்கை மொழிச் செயலாக்கத்தை (Natural Language Processing) எளிதில் நடைமுறைப்படுத்த  முடியும். பொதுவாக இயற்கை மொழி செயலாக்கத்திற்குத் (NLP) தேவையான முக்கிய செயற்பாடுகளைப் பற்றி விளக்குவதே இந்தக் கட்டுரையின் நோக்கம்.

தமிழில் இயற்கை மொழி ஆய்வுக்கான முன்னேற்பாடுகள்

இந்திய மொழிகள் அனைத்தும் கணிப்பொறி அறிவியலில் உரிய இடத்தைப் பெறுவதற்காக நடுவண் அரசும் மாநில அரசும் பல்கலைக்கழகங்களும் ஆராய்ச்சி நிறுவனங்களும் தனியார் நிறுவனங்களும் பல்வேறு முயற்சிகளில் ஈடுபட்டு வருகின்றன. நடுவண் அரசின் தகவல் தொழில்நுட்ப வளர்ச்சி (TDIL- Technology Development of Indian Language) என்ற திட்டத்தை உருவாக்கிச் செயல்பட்டு வருகிறது. இதற்காக  நாடு முழுவதும் 13 பல்கலைக்கழகங்கள் மற்றும் ஆய்வு நிறுவனங்களைத் தேர்ந்தெடுத்து, பல கோடி ரூபாய் நிதி உதவி அளித்து வருகிறது. இத்திட்டத்தின் கீழ், இந்திய மொழிகள் பலவற்றின் தொழில்நுட்ப வளர்ச்சிக்கான பல்வேறு ஆய்வுகள் நடைபெற்று வருகின்றன.

கடந்த ஐந்தாண்டுகளில் தமிழகத்திலும் மாநில அரசானது தமிழ்மொழியின் தொழில்நுட்ப வளர்ச்சிக்காகப் பல்வேறு திட்டங்களைச் செயல்படுத்தியுள்ளது. தமிழ் மென்பொருள் வளர்ச்சிக்கான பல திட்டங்களை அறிவித்துச் செயல்படுத்தி வருகிறது. இதனடிப்படையில் தமிழ் இணைய மாநாடுகள் நடைபெற்று, தமிழ் இணையக் கல்விக் கழகமும் நிறுவப்பட்டது. சென்னைப் பல்கலைக்கழகம், அண்ணா பல்கலைக்கழகம், அண்ணாமலைப் பல்கலைக்கழகம், தமிழ்ப் பல்கலைக்கழகம், பாரதியார் பல்கலைக்கழகம் முதலான பல்கலைக்கழகங்களும் தமிழ் மென்பொருள் உருவாக்கத்திற்காக மானிய உதவியைப் பெற்றுள்ளன என்பது குறிப்பிடத்தக்கது.

மொழி உருவாக்கம் (Language formulation)

மொழியியல் என்பது மொழியை அறிவியல்பூர்வமாக ஆராய்வது. ஒலியனியல் நிலை, உருபனியல் நிலை, பொருண்மையியல் நிலை ஆகியப் படிநிலை அமைப்பில் வரும் மொழி அலகுகளாகப் பிரித்தாய்ந்து மொழியின் கட்டமைப்பைப் புரிந்துகொள்ளக் கணிப்பொறியைப் பயன்படுத்தலாம்.  மேலும், சிறிய மொழிக் கூறுகளிலிருந்து பெரிய மொழிக் கூறுகளை ஆக்கலாம். இதனை மொழிப் பகுப்பாய்வு என்றும் மொழி ஆக்கம் என்றும் அழைக்கலாம்.

இலக்கண விதிகளை எளிமைப்படுத்திக் கணினிக்கு உணர வைக்க, மொழியியல் கோட்பாடுகள் அவசியமாகின்றன. இவை ஒரு சொல்லையோ அல்லது அதன் பகுதியையோ கணினி அறியப் பயன்படுகின்றது. கணினியுடன் தொடர்புகொள்வதற்குத் துணை நிற்பது நிரல்மொழி. ஜாவா, பேர்ல், சி, சி++, பைத்தான் போன்ற நிரல்களை இயற்கை மொழி ஆய்வுகளுக்கு ஆய்வாளர்கள் தேர்வு செய்கிறார்கள். இவற்றின் மூலம் உருபனியல் பகுப்பாய்வியை உருவாக்குவது என்பது எளிதாக நடைமுறைப்படுத்தப்படுகிறது. மேலும் இதன் வெளியீடானது தொடரியல் பகுப்பாய்வுக்கு உள்ளீடாகக் கொடுக்கப்படுகிறது. இது  இயந்திர மொழிபெயர்ப்புக்கு உதவியாக அமைகின்றது.

இயற்கை மொழி ஆய்வு

கணிப்பொறி ஒரு மொழியாய்வுக் கருவி. செய்திகளை 1,0 என்ற எண்களால் ஆய்வது தான் கணிப்பொறி. மனித மூளை 0,1 என்ற அடிப்படை எண்களை வைத்துக்கொண்டு இயந்திர மொழி மூலம் எழுத்துகளும், எண்களும் தனித்தன்மையான குறியீடுகளும் (Special Symbols) உருப்படுத்தம் செய்யப்படுகின்றன. மொழியியலார் கணினியை மொழியின் கடினமான செயல்பாடுகளைச் செய்யும் கருவியாகப் பயன்படுத்தும் காலம் வந்துவிட்டது. மொழியியல் சார் கணிப்பொறி ஆய்வைக் கணினி மொழியியல் ஆய்வு அல்லது இயற்கை மொழி ஆய்வு என்பர். இவ்வாய்வுப் பேச்சைத் தெரிந்துகொள்ளுதல், பேச்சை உருவாக்குதல், உரைகளை பேச்சாக்குதல், பேச்சுகளை உரை ஆக்குதல், இயந்திர மொழிபெயர்ப்பு, விரிதரவுகளை ஆய்தல், உரைகளை ஆய்தல், மொழி அலகுகளைப் பகுப்பாய்வு செய்தல் என்பனவற்றை உள்ளடக்கும். மொழியாய்வு மொழியைப் புரிந்துகொள்ளுதல் என்பதுடன் உரை அல்லது பேச்சுச் செய்திகளைப் பொருள் கொண்டுப் புரிந்துகொள்ளுதல், மொழிபெயர்த்தல், உரைகள் அல்லது பேச்சுச் செய்திகளை உருவாக்குதல் முதலானவற்றையும் ஆய்வதாக அமைகின்றது.

இயற்கை மொழி ஆய்வின் அணுகுமுறைகள்

இயற்கை மொழிச் செயலாக்க அடிப்படையில் இரண்டு பகுதிகளாக வகைப்படுத்தலாம். 1. இயற்கை மொழிப் புரிதல் என்பது, இயற்கை மொழியில் கொடுக்கப்படுகின்ற உள்ளீட்டைப் பயனுள்ள அமைப்புகளாக அல்லது குறியீடுகளாகப் பொருத்துவது, மற்றும் மொழியின் பல்வேறு அம்சங்களைப் பகுப்பாய்வு செய்தல் என்பதைக் குறிக்கின்றது. 2. இயற்கை மொழி உருவாக்கம் என்பது இயற்கை மொழியின் உள்ளீட்டுக் குறியீடுகளிலிருந்து பொருண்மை பொதிந்த சொற்றொடர்களையும் வாக்கியங்களையும் உருவாக்கும் செயல்முறையாகும். இச்செயல்முறை  உரைத் திட்டமிடல், வாக்கியத் திட்டமிடல், உரை உணர்தல் என்ற உட்கூறுகளில் செயல்படுகிறது. மேலும், இயற்கை மொழியைப் புரிந்துகொள்ளுதல் என்பது இயற்கை மொழி உருவாக்கத்தைவிடக் கடினமானது ஆகும்.

இயற்கை மொழி ஆய்வின் படிநிலைகள்

இயற்கை மொழி ஆய்வில் ஐந்து படிநிலைகள் உள்ளன.

1. சொல் பகுப்பாய்வு என்பது சொற்களையும் சொற்களஞ்சியத்தையும் உள்ளடக்கிய மொழி ஆய்வு ஆகும்.

2. தொடரியல் பகுப்பாய்வு என்பது வாக்கியங்களைத் தொடர்களாகவும் சொற்களாகவும் பிரித்து அவற்றின் தொடரியல் மற்றும் சொல் வகையிலான பண்புகளை அடையாளப்படுத்தும் நடைமுறையாகும்.

3. பொருண்மையியல் ஆய்வானது மொழியில் உள்ள சொற்களின் பொருண்மையை அறிவியல் நோக்கில் ஆராய்வதாகும்.

4. சொல்லாடல் என்பது மொழியில் பொருண்மையைக் கொடுப்பதும் பெறுவதுமாக நிகழும் பரிமாற்றமாகும்.

5.  சூழ்பொருளியல் ஆய்வானது சொற்றொடரின் பொருளுக்கும் பேசுபவரின் பொருளுக்கும் இடையே உள்ள தொடர்புகளை ஆராய்வது.

இயற்கை மொழி ஆய்வின் போக்குகள்

இயற்கை மொழியை மற்றொரு மொழிக்கு மொழிபெயர்க்கும்போது, சிக்கலான மொழி பழக்கத்திற்கு உட்படுகின்றது. ஒலியனியல் பகுப்பாய்வு, உருபனியல் பகுப்பாய்வு, பொருண்மையியல் பகுப்பாய்வு, பயன்வழியியல் பகுப்பாய்வு, கருத்தாடல் பகுப்பாய்வு ஆகியவை கணினி மொழியியலுக்கு அடிப்படை ஆய்வுகளாகும்.

ஒலியனியல் பகுப்பாய்வு, ஒலி அடையாளக் குறிகளிடமிருந்து அல்லது கேட்கும் அடையாளக் குறிகளிடமிருந்து சொற்களைப் பிரித்தெடுக்கும் பேச்சைத் தெரிந்துகொள்ளும்.

ஒலிகள்   →   சொற்கள்

      /b/+/ɔ:/ +t ® bɔ:t/ ‘boat’

     க் + ஆ+ல்+அ+ம்                  காலம்

உருபன்களிலிருந்து சொற்களைப் பெறல், சொற்களை உருபன்களாகப் பகுத்தல் என்பனவற்றை உள்ளடக்கும்.

உருபன்கள்  →   சொற்கள்

சிலை+கள்             சிலைகள்

தொடரியல் பகுப்பாய்வில் சொற்களின் வரிசை அமைப்பிலிருந்து வாக்கிய அமைப்பைப் பெறுவது அல்லது  வாக்கியங்களைச் சொற்களாகப் பிரித்தல் என்பனவற்றை உள்ளடக்கும்.

சொல்வரிசை    →    வாக்கிய அமைப்பு

இராமன் சீதையை மணந்தான் என்ற சொல் வரிசையில்,

இராமன் +  சீதை யை+  மணந்தான்

(பெ.தொ.)  (வே.தொ.)  (வி.தொ.)

(பெ.)+        (பெ.)+(வே.உ)+  (வி.)

பொருண்மையியல் பகுப்பாய்வு என்பது வாக்கிய அமைப்பு சொற்பொருண்மையில் இருந்து வாக்கிய பொருண்மையைப் பெறலாம். எ.கா. இராமன் சீதையை மணந்தான் என்று பகுப்பில் இருந்து மணந்தான் இராமன், சீதை என்பதைப் பெறமுடியும்.

பயன்மொழியியல் பகுப்பாய்வில் வாக்கியப்பொருள் மற்றும் சூழல் இவற்றிலிருந்து சரியான பொருளைப் பெறமுடியும். இது பொது அறிவையும் முன்னர் வந்த கூற்றின் அறிவையும் உள்ளடக்கும்.  எ.கா. அவன் சீதையை மணந்தான் என்ற வாக்கியத்தில் வரும் பதிலீட்டுப் பெயர் (அவன்) முன்னர் வந்த வாக்கியத்தின் அறிவால் அவன்= ராமன் என்று புரிந்துகொள்ளப்படும்.

முடிவுரை

மொழி ஆய்வில் கணினி பெரிதும் பயன்பட்டு வருகின்றது.  கணினியில் தமிழைக் கையாளுதல் என்பது சில சமயங்களில் சிக்கலுக்குரிய செயலாக உள்ளது. அச்சிக்கலைக் களைவதற்கு மொழியியல் அறிஞர்களும் கணினித் தொழில்நுட்ப வல்லுனர்கள் இணைந்து செயல்பட்டால் இயற்கை மொழி ஆய்வில் ஏற்படும்  இடர்ப்பாடுகளைக் களையலாம்.

பார்வை நூல்கள்

  1. Agesthialingom, S. 1967, Generative Grammar of Tamil, Annamalai University, Annamalai Nagar.
  2. Chomsky, N. 1965,   Aspects of theory of Syntax, MIT Press, Cambridge.
  3. அரங்கன், கி. 1975, தொடரியல் மாற்றிலக்கண அணுகுமுறை, தமிழ்ப் பல்கலைக்கழகம், தஞ்சாவூர்.
  4. இராசேந்திரன், ச. 2019, கணினி மொழியியலும் தமிழ்மொழியின் தொழில்நுட்ப வளர்ச்சியும், கோயம்புத்தூர்.
  5. சண்முகம், செ. 1998, சாம்ஸ்கியின் புது மாற்றிலக்கணம், கவிதா பதிப்பகம், சென்னை.

பதிவாசிரியரைப் பற்றி

Leave a Reply

Your email address will not be published. Required fields are marked *