குறியீட்டு முறைகளில் உள்ள நடைமுறைச் சிக்கல்கள் – பகுதி 1

0

-பேரா. முனைவர். வெ.இராமன்

தமிழில் இதுவரை உருவாக்கியுள்ள அனைத்துக் குறியீட்டு முறைகளையும் இதுவரை அலசியிருந்த போதும்  அனைத்துக் குறியீட்டு முறைகளும் பயன்பாட்டில் இருந்த விதம் விளக்கப்படவில்லையாதலால், அவை பயன்பாட்டில் இடம் பெற்றது குறித்தும், நடைமுறையில் உள்ள சிக்கல்களும் அவற்றிற்கான காரணங்களையும் இனி விரிவாகக் காணலாம்.

இஸ்கி (ISCII) குறியீட்டு முறை[i] இந்திய அரசால் கொண்டுவரப்பட்ட முறையாகும். இது பெரும்பாலும் தேவநாகரி முறையினைச் சார்ந்து அமைக்கப்பட்டிருந்தது. அதுதவிர இந்திய அரசு மாநில மொழிகளின் வளர்ச்சிக்கென பெரிய திட்டங்கள் எதனையும் கொண்டிருக்கவில்லை என்பது வல்லுநர்களின் கருத்து. எனவே இஸ்கி முறையானது தமிழ் மொழியின் மீது எந்தவொரு தாக்கத்தையும் கொண்டிருக்கவில்லை எனலாம். எனவே இஸ்கி குறியீட்டு முறையானது தமிழர்களிடையே பரவவில்லை என்பதே கண்கூடு. அதுதவிர இந்தியாவிற்கு வெளியே தமிழர்கள் அதிகம் வசிக்கும் இலங்கை, மலேசியா, சிங்கப்பூர், கனடா, இந்தோனேசியா போன்ற நாடுகளில் இஸ்கியின் ஆக்கம் குறித்து அந்த நாட்டில் வசித்த+ நன்பல ஆசினி தமிழ் மக்கள் அறிந்திருக்கவில்லை என்பது தொழில்நுட்ப வல்லுனர்களின் கருத்தாகும்.

திஸ்கி (TSCII) குறியீட்டு முறை[ii] உலகம் சார்ந்த தமிழ் வல்லுநர்களின் கூட்டுறவு முயற்சியால் உருவான குறியீட்டு முறையாகும். இது உலகம் முழுவதுமுள்ள கணினி உபயோகிப்பாளர்களிடம் பெரும் வரவேற்பைப் பெற்றதுடன் தமிழ் உபயோகத்தில் புழக்கத்தில் இருந்த குறியீட்டு முறையாகும். வலைத்தளங்கள், மின்னஞ்சல் போன்ற கணினி உபயோகத்தில் மிகவும் பயன் உடைய குறியீட்டு முறையாகத் திகழ்ந்தது. பல்வேறு இலக்கிய நூல்கள் இக்குறியீடு முறையில் உருவாக்கப்பட்டு வலைத்தளங்களில் வெளியிடப்பட்டது இங்கு குறிப்பிடத்தக்கது. உதராணமாக நூற்றுக்கணக்கான தமிழ் இலக்கிய நூல்கள் இக்குறியீட்டு முறையில் புதுப்பிக்கப்பட்டு ’மதுரைத் திட்டம்’ வலைத்தளத்தில் வெளியிட்டதை இங்கு சுட்டிக்காட்டலாம். ஆயினும் உலகெங்கும் பரவிய ஒருங்குறி குறியீட்டு முறையானது கால வெள்ள நீரோட்டத்தில் திஸ்கி முறையினை அடித்துக் கொண்டு சென்றுவிட்டது எனலாம்.

வ்ட்ட்தனிப்பட்டவர்கள் உண்டாக்கிய குறியீட்டு முறைகள் என்பது ஆரம்பத்திலிருந்தே தனித்தீவுகளாகவே இருந்து வந்தன. இம்முறையினைப் பயன்படுத்தி இருவர் தொடர்பு கொள்ள வேண்டுமெனில் இருவரிடமும் அக்குறியீட்டு முறைகான மென்பொருள் இருப்பது அவசியமாகிறது. மற்றவர் வேறு மென்பொருள் வைத்திருப்பினும் அல்லது மென்பொருட்கள் இல்லாதிருந்தாலும்  தமிழ் எழுத்துருக்களானது படிக்க இயலாத குறியீடுகளாகவே தோன்றும். இக்குறியீட்டு முறையில் நூற்றுக்கணக்கான மென்பொருட்கள் உலகெமெங்குமிருந்து தோன்றியிருந்தன. அவை அனைத்தையும் பற்றி அறிந்திருக்கவோ, வாங்கிப் பயன்படுத்தவோ இயலாது. இக்குறியீட்டு முறைகள் தன்னிச்சையாக உருவாக்கப்பட்டிருந்தால் தரப்படுத்தலுக்கும் வழியின்றி முறைப்படுத்த வழியில்லாத முறைகளாகவே திகழ்ந்தன. எனவே கணினி உபயோகிப்பாளர்களிடம் இக்குறியீட்டு முறைகள் வரவேற்பைப் பெறாமல் பயன்பாட்டிற்கு வராமலே போயின.

டேம், டேப் (TAM, TAB) குறியீட்டு முறைகள்[iii] ஏற்கனவே குறிப்பிட்டது போல் விசைப்பலகை பயன்படுத்த வழிகாட்டுதல் இல்லாமை, தமிழகத்திற்கு வெளியே வசிக்கும் தமிழர்களிடையே கொண்டு சேர்க்கும் காரணிகள் இல்லாமை ஆகியவை இக்குறியீட்டு முறைகள் பரவாமல் போனதற்கு முக்கிய காரணங்களாகும்.

அதுதவிர அரசியல் காரணங்களாலும் இக்குறியீட்டு முறை பெரிதும் பாதிப்படைந்தது. இதை அறிமுகப்படுத்தி அரசாணை பிறப்பித்த அரசு ஆட்சிக்குப்பின்னர் வந்த அரசு இதனை கண்டுகொள்ளவில்லை எனலாம். அதுதவிர இம்முறையில் அரசு வழங்கிய எழுத்துருக்கள் அரசியல் தலைவர்களின் பெயர்களைக் கொண்டிருந்ததை பின்னர் வந்த அரசு விரும்பவில்லை. எனவே அவை பயன்படுத்தப்படாமலேயே ஒதுக்கப்பட்டன.

இவற்றை எல்லாம் தாண்டி ஒருங்குறி செயலாக்கத்திற்காக 2010 ஜூன் மாதம் 23ஆம் தேதி அன்று தமிழக அரசு அரசாணை[iv] எம்.எஸ் எண் 29, தகவல் தொழில்நுட்பத்துறை மூலம் ஓர் அரசாணையை வெளியிட்டது. அதன்படி அரசு முன் வெளியிட்ட டேப், டேம் (TAB, TAM) உட்பட அனைத்து 8பிட் குறியீட்டு முறைகளையும் நிறுத்துவதுடன் 16 பிட் குறியீட்டிற்கு மாறுவதாக அறிவித்தது. அத்துடன் தமிழ் கணினியில் உபயோகப்படுத்தப்படும் இடங்களிலெல்லாம் 16 பிட் ஒருங்குறி முறைதான் முக்கிய குறியீட்டு முறையாகும் எனவும் அரசாணை பிறப்பித்தது. இத்துடன் டேப், டேம் (TAB, TAM) குறியீட்டு முறையானது முடிவுக்கு வந்தது எனலாம்.

ஒருங்குறி குறியீட்டு முறை[v] தற்போது நடைமுறைப் படுத்தப்பட்டுள்ள குறியீட்டு முறையாகும். ஒருங்குறிக்கு முக்கியத்துவம் இருந்தபோதிலும் தமிழின் கணினிப் பயன்பாட்டை தரப்படுத்துவதற்காக தமிழக அரசு ஒரு அரசாணை (அரசாணை எம்.எஸ் எண் 653 தேதி 08.10.1998) மூலம் பேராசிரியர் முனைவர் எம். அனந்தகிருஷ்ணன் அவர்களைத் தலைவராகக் கொண்டு, தமிழக முதலமைச்சர் தலைமையின்கீழ் செயல்படும் தகவல் தொழில்நுட்ப மாநில செயற்குழுவின் கீழ் தமிழ் தொழில்நுட்பத்திற்காக ஒரு துணைக்குழுவை அமைத்தது. இக்குழுவானது 1999ம் பிப்ரவரி 7 மற்றும் 8 தேதிகளில் சென்னையில் ’தமிழ்நெட்99’[vi] எனும் மாநாட்டை நடத்தியது. டேம், டேப் (TAM, TAB) எனும் குறியீட்டு முறைகளை இம்மாநாடு அறிமுகப்படுத்தியது. இருப்பினும் ஒருங்குறி வளர்ந்து வருவதைக் கண்டு ஒருங்குறி கூட்டமைப்பில் தமிழக அரசு இணை உறுப்பினராகவும் இம்மாநாடு வலியுறுத்தியது. தமிழ் இணையப் பல்கலைக்கழகத்துடன் இத்துணைக்குழுவானது இணைந்து ஒருங்குறையைப் பற்றி ஆராயத்துவங்கியது. இவ்வாரய்ச்சியின் விளைவாக கீழ்காணும் கருத்துகள் வெளிப்பட்டன.

1999-இல் வெளியிடப்பட்ட இந்த ஒருங்குறியின் தரமானது தமிழ்க் கணினி உபயோகத்திற்கு திறமையாகச் செயல்பட போதுமானது இல்லை எனக் கருதப்பட்டது. அதற்கான காரணங்களாவன[vii]:

  1. ஒருங்குறியில் தமிழ் குறியீடானது 247 எழுத்துக்களுக்குப் பதிலாக 31 எழுத்துக்களை மட்டுமே உள்ளீடு செய்திருந்தது. இந்த 31 எழுத்துக்களாவன 12 உயிரெழுத்துக்கள், 18 அகரமேறிய உயிர்மெய் எழுத்துக்கள் மற்றும் ஒரு ஆயுத எழுத்து. இதுதவிர 5 கிரந்த அகரமேறிய உயிர்மெய் எழுத்துக்களையும் ஒருங்குறி உள்ளீடு செய்திருந்தது. எனவே தமிழ் எழுத்துக்களில் 10% மட்டுமே தமிழ் எழுத்துக்களுக்காக ஒதுக்கப்பட்டு இருந்தது.
  2. ஒதுக்கப்பட்ட உயிர்மெய் எழுத்துக்கள் ஒவ்வொன்றும் தனி எழுத்துக்களே. அவை எழுத்துக்களின் துணை வடிவங்களோ அல்லது இணை எழுத்துக்களோ அல்ல.
  3. பொதுவாக தமிழ் எழுத்துவடிவக்கட்டுரைகளில் உயிர்மெய் எழுத்துக்களானது 64% முதல் 70% வரையிலும், உயிர் எழுத்துக்களானது 5% முதல் 6% வரையிலும், மற்றும் மெய் எழுத்துக்களானது 25% முதல் 30% வரையிலும் இருக்கும் என ஆய்வுகள் சுட்டுகின்றன. எனவே உயிர்மெய் எழுத்துக்களை இணை எழுத்துக்களாக உடைப்பது திறமையான கணினி உபயோகத்திற்கு வழிவகுக்காது.
  4. கணினியில் எழுத்துக்கள் ஒழுங்கமைவுக்கு (rendering) இந்த குறியீட்டு முறையானது சரியான வழியாக அமையாது. தமிழின் இயற்கை மொழி செயல்முறைக்கும் (Natural Language Process), எழுத்துக்களை வரிசைப்படுத்துவதற்கும் இம்முறை ஒத்துழைக்காது. மேலும் அதிக நேரம், இடம் ஆகியவற்றைக் கணினியில் எடுத்துக் கொள்வதுடன் திறமையான செயல்பாட்டிற்கு எதிராக அமையும்.
  5. இக்குறியீட்டு முறையானது இஸ்கி – 1988 (ISCII – 1988) குறியீட்டு முறையின் அடிப்படையிலானது. இதனால் எழுத்துக்கள் இயற்கையான வரிசையில் அமைந்திருக்காது. இதனை இயற்கை வரிசைக்குக் கொண்டு வருவதற்கு சிக்கலான தொகுப்பு வழிமுறை நிரல் தேவைப்படும்.
  6. தனி ஒரு எழுத்து அமைப்பதற்கு பல கூட்டுக் குறிகள் தேவைப்படும். இந்த பல கூட்டுக் குறிகள் பாதுகாப்புக் குறைபாடு, குழப்பமான கூட்டு ஆகியவற்றிற்கு வழி வகுப்பதுடன் இயல்பு நிலைப்படுத்துதல் செயல்பாட்டையும் செய்ய வேண்டியிருக்கும்.
  7. சாதாரண எண்ணுதல், வரிசைப்படுத்துதல், தேடுதல் போன்றவை திறமையற்று இருக்கும்.
  8. சட்டவிரோத கூட்டு எழுத்துக்களைத் தவிர்ப்பதற்காக தனி விதிவிலக்கு அட்டவணை தேவைப்படும்.
  9. தேவநாகரியின் அடிப்படையில் இது அமைக்கபட்டுள்ளதால் அதே எழுத்தை எழுதும் போது குழப்பமேற்படுத்தும்.
  10. இது 23 உயிர் மெய் எழுத்துக்களை கொண்டு அதை மெய் எழுத்து என வழங்குவது தமிழ் இலக்கணத்துக்கு எதிரானது.
  11. பேச்சிலிருந்து எழுத்திற்கும், எழுத்திலிருந்து பேச்சிற்கும் மாற்றுவது இயற்கைக்கு மாறாக அமைந்துள்ளது.
  12. சேமிப்பதற்கும், மாற்றுவதற்கும் மற்றும் திரும்பப் பெறுவதற்கும் திறனற்ற வகையில் அமைந்துள்ளது.
  13. தமிழ் எழுத்துக்களை இது கூட்டெழுத்தாகக் சுட்டுகிறது. உதாரணமாக ச + ெ◌ + ◌ா =சொ என்கிறது. சொ என்பது இங்கு கூட்டெழுத்து ச, ெ◌, ◌ா என்பவை எழுத்துக்கள். இது தமிழ் இலக்கணத்துக்கு எதிரானது.
  14. எழுத்துக்களை எண்ணுவதற்கும் இம்முறை பயன்படாது. உதாரணமாக மணிவண்ணன் என்ற பெயர் ஆறெழுத்துக் கொண்டது. ஆனால் இங்கு அது ’ம ண ◌ி வ ண ◌் ண ன ◌்’ என்ற ஒன்பது எழுத்தாகக் காட்டப்படும்.
  15. இக்குறியீட்டு முறை சட்ட பிரச்சனைகளையும் ஏற்படுத்தக்கூடும். உதராணமாக ஒரு பத்திரத்தின் வாசகமானது ’வீட்டின் முழு உரிமையையும் திருமதி ரோஜாவுக்குக் கொடுத்து விடுகிறேன்”. ஆனால் சில மென்பொருட்களில் கிரந்த எழுத்துக்களான ஜ, ஷ, ஹ போன்ற எழுத்துக்கள் பிழைபட்டு விடுகின்றன. இவை “’வீட்டின் முழு உரிமையையும் திருமதி ரோf◌ாவுக்குக் கொடுத்து விடுகிறேன்” என்று தோன்றக்கூடும். இது ’திருமதி ரோஜா’ அல்லது ’திருமதி ரோஷா’ என்று குழப்பம் ஏற்படுத்தக்கூடும்.

இதுபோன்ற குழப்பங்களைக் களைவதற்காக 2006ம் ஆண்டு நவம்பர் மாதம் 11ம் தேதி அன்று தமிழக அரசானது ஒரு அரசாணை[viii] வழியாக (அரசாணை எம்.எஸ். எண் 13, தகவல் தொழில்நுட்பத்துறை, தமிழ்நாடு) பேராசிரியர் எம்.அனந்தகிருஷ்ணன் அவர்களைத் தலைவராகவும், முனைவர் எம்.பொன்னவைக்கோ அவர்களைத் துணைத்தலைவராகவும், முனைவர் பி.ஆர்.நக்கீரன் அவர்களை கூட்டுநராகவும் மற்றும் 10 வல்லுனர்களை உறுப்பினர்களாகவும் கொண்ட செயல் குழு ஒன்றை அமைத்தது. இக்குழுவானது புதிய தமிழ் 16 – பிட் குறியீட்டு முறைக்கான வழிவகைகளை ஆராய ஆரம்பித்தது. இக்குறியீட்டு முறை டேஸ் 16 (TACE 16 – Tamil All Character Encoding – 16 Bit)[ix] வழங்கப்பட்டது. அதாவது 16 பிட் குறியீட்டு முறையில் அனைத்து தமிழ் எழுத்துக்கள் மற்றும் கிரந்த எழுத்துக்களை அமைக்கும் முறையாகும்.

இரு ஆண்டுகள் சோதனைகளுக்குப் பிறகு இக்குழுவானது தனது அறிக்கையினைச் சமர்ப்பித்தது.

  1. டேஸ் 16 ஆனது ஒருங்குறியைவிட தரவு சேமிப்பு உபயோகத்தின்போது 46% முதல் 11.94% வரை திறன் பெற்று விளங்குகிறது.
  2. டேஸ் 16 ஆனது ஒருங்குறியைவிட தரவு தலைப்புகள் வரிசைப்படுத்தலின்போது 69% முதல் 22.99% வரை திறன் பெற்று விளங்குகிறது.
  3. டேஸ் 16 ஆனது ஒருங்குறியைவிட அனைத்துத் தரவுகளும் தமிழில் உள்ளபோது 39% அதிகத் திறன் பெற்று விளங்குகிறது.
  4. டேஸ் 16 ஆனது ஒருங்குறியைவிட வரிசைப்படுத்தலின்போது 31% முதல் 16.96% வரை வேகமாக செயல்படுகிறது.
  5. டேஸ் 16 ஆனது ஒருங்குறியைவிட தலைப்புகள் உருவாக்கத்தின் போது 7% வேகமாகச் செயல்படுகிறது.

இதுபோன்ற பல்வேறு சோதனை முடிவுகளையும் காரணங்களையும் சுட்டிக்காட்டி ஒருங்குறியில் தமிழின் அனைத்து எழுத்துக்களையும் டேஸ்-16 அடிப்படையில் அமைக்கக் கோரியது.

இது குறித்த முழு விவர அறிக்கையினை L2/08-101 என்ற எண்ணின்[x] கீழ் ஒருங்குறி கூட்டமைப்பிடம் சமர்ப்பித்தது. ஆயினும் ஒருங்குறி கூட்டமைப்பானது வரிசைப்படுத்துதல், இயற்கை மொழி செயல்முறை ஆகிய காரணங்களை நிராகரித்ததுடன் அனைத்து எழுத்துக்கள் முறை கோரிக்கையையும் நிராகரித்தது. இது ஒருங்குறி கூட்டமைப்பின் தத்துவத்திற்கு எதிராக அமைந்துள்ளதால் நிராகரிக்கப்படுவதாகக் காரணமும் கூறியுள்ளது. எனவே தற்போதுள்ள ஒருங்குறி முறையே நடைமுறையில் தொடரும் என்றும் கூறிவிட்டது.

இருப்பினும் தமிழக அரசானது டேஸ்-16 குறியீட்டு முறையை அங்கீகரித்துடன் அதற்கான எழுத்துருக்களையும் தமிழ் இணையப்பல்கலைக்கழக வலைத்தளத்தில் வழங்கி வருகிறது. அச்சுத்துறை, சில மென்பொருட்கள் ஆகியவற்றின் பயன்பாட்டில் ஒருங்குறி பயன்பாடு போதுமானதாக இல்லை எனவே அவ்விடங்களில் டேஸ்-16 குறியீட்டு முறையை உபயோகப்படுத்திக் கொள்ளவும் அனுமதித்துள்ளது. 

விரிவாக்கப்பட்ட தமிழ் – ஆதரிப்பும், எதிர்ப்பும்

தமிழ் ஒருங்குறி எழுத்துருவின் பயன்பாட்டை இன்னும் விரிவாக்கும் முகமாக இன்னும் சில எழுத்துக் குறியீடுகளை சேர்த்து “விரிவாக்கப்பட்ட தமிழ்” (extended Tamil) என்ற எழுத்துருவையும் புழக்கத்தில் கொண்டுவர வேண்டும் என்று தமிழ் மென்பொருள் ஆர்வலர்கள் சிலர் ஒருங்குறி நிர்வாகத்திற்கு யோசனை தெரிவித்துள்ளனர். ஒருங்குறி நிர்வாகக் குழுவினருக்கு அனுப்பப்பட்ட “விரிவாக்கப்பட்ட தமிழ்” குறியீட்டு முறை தொடர்பாகப் பல குழப்பங்கள் நிகழ்ந்துவரும் காரணத்தினால், அது குறித்துச் சில அடிப்படையை விளக்கங்கள் தரப்பட வேண்டிஉள்ளது என்கிறார் ஆய்வாளர் வினோத் ராஜன்[xi].

தற்சமயத்தில் இணையம் எங்கும் தமிழ் ஒருங்குறி கோடு சார்ட்டில் (Unicode Code Chart) தமிழில் கூடுதலாக 26 கிரந்த எழுத்துக்கள் சேர்க்கப்படுவதற்கான முயற்சிகள் நடைபெறுவதாக சில தேவையற்ற குழப்பங்கள் நிலவி வருகின்றன. “விரிவாக்கப்பட்ட தமிழ்” என்பது ஒரு தனி விஷயம் இதற்கும் கிரந்தத்துக்கும் சம்பந்தமே இல்லை. இது போன்ற குழப்பங்களுக்கு, “விரிவாக்கப்பட்ட தமிழுக்கான” ஒருங்குறி முன்மொழிவை திறந்து கூட பார்க்காதது தான் காரணம் என்று தெள்ளத்தெளிவாக தெரிகிறது. அதில் மிகத்தெளிவாகவே, முன்மொழியப்பட்ட “விரிவாக்கப்பட்ட தமிழ்” அட்டவணையில் துணை எண்களுடன் கூடிய தமிழ் எழுத்துக்கள் தான் உள்ளன.

கிரந்த எழுத்துமுறையானது பாரம்பரியமாக சமஸ்கிருதத்தை எழுத பெருமளவு பழங்காலத்தில் பயன்பாட்டில் இருந்தது, பழங்கால தமிழர்கள் கிரந்த லிபி கொண்டே சமஸ்கிருதத்தைக் கற்றனர். நம்முடைய பழைய கல்வெட்டுகளில் பலவற்றிலும் கிரந்த லிபி உள்ளது. கிரந்த லிபியானது இப்போதும் கூட சிறு அளவில் இன்னும் பயன்படுத்தப்பட்டு வருகிறது. தமிழிலிருந்து தனிப்பட்ட எழுத்துமுறை அது. அதை தனியாகத்தான் ஒருங்குறியில் ஏற்ற முடிவு செய்யப்பட்டு, அதற்கான முயற்சிகள் மேற்கொள்ளப்பட்டு வருகின்றன. நம்முடைய பாரம்பரிய கிரந்த லிபியானது இன்னும் ஏறக்குறைய ஓராண்டில் ஒருங்குறியில் ஏறிவிடும். கிரந்த லிபியானது தமிழ் ஒருங்குறிக்குச் சம்பந்தமற்றதாக தனியாக ஒருங்குறியில் ஏறவிருக்கிறது. இத்தோடு கிரந்த சம்பந்தம் முற்றிற்று.

கிரந்த எழுத்துமுறைக்கான முன்மொழிவை ஒருங்குறி நிறுவனத்திடம், சென்ற ஆண்டு அளித்த போது, மேற்கத்தியர் ஒருவர், ஏன் கிரந்தத்தையும் தமிழையும் ஒன்றிணைக்கக்கூடாது, தமிழ் ஒருங்குறியில் நிறைய காலி இடங்கள் உள்ளனவே, ஏன் தேவை இல்லாமல் கிரந்தத்தை தனியாக ஒருங்குறியில் ஏற்றப்பட வேண்டும் என்ற பரிந்துரையை ஒருங்குறி நிறுவனத்திடம் சமர்பித்தார். அப்போதே, அதை மறுத்து, சில எழுத்துக்கள் இரண்டுக்கும் பொதுவாக இருந்தாலும், தமிழ் லிபியும், கிரந்த லிபியும் ஒன்றல்ல. இரண்டும் வெவ்வேறான பாரம்பரிய லிபிகள். எனவே தமிழில் இருந்து தனியாகத்தான் கிரந்தம் ஒருங்குறியில் இணைக்கப்பட வேண்டும் என்று உடனே மறுமொழி, இதே விரிவாக்கப்பட்ட தமிழை முன்மொழிந்த தரப்பினால், ஒருங்குறி அமைப்பிடம் கொடுக்கப்பட்டது, தனியாகவே கிரந்தம் இப்போது ஒருங்குறியில் சேர்க்கப்படவிருக்கிறது.

இந்த நிகழ்வை ஒருங்குறி நிறுவனத்தில் உறுப்பினராக உள்ளவர்களும், கிரந்த லிபியை ஒருங்குறியில் சேர்க்க முயன்றவர்களும் நன்றாக அறிவர். இந்த “விரிவாக்கப்பட்ட தமிழ்” முன்மொழிவானது அனுப்பப்பட்டு, ஒருங்குறி தொழில்நுட்ப குழுவினரின் பரிசீலனைக்கும் சென்றது. இதுவும் ஒருங்குறி உறுப்பினர்களாக உள்ளவர்களுக்கு நிச்சயம் தெரிந்த விஷயம். அப்போதே கூட தொழில்நுட்ப ரீதியான ஆட்சேபணைகள் தெரிவிக்கப்படவில்லை. மற்ற இந்திய எழுத்துமுறைகளை போல் அல்லாது தமிழில் kha, gha, jha, dha, ba போன்ற எழுத்துக்களுக்கு வடிவமில்லை. ஆகவே, தமிழில் சமஸ்கிருதம் உட்பட்ட பிற இந்திய மொழிகளை மூல உச்சரிப்பு மாறாமல் அச்சிட விரும்பியவர்கள், தமிழ் எழுத்துக்களுடன் 2,3,4 முதலிய எழுத்துக்களை சேர்த்து க² க⁴ ஜ² த⁴ ப³ என்றவாறு தமிழில் இல்லாத வர்க்க எழுத்துக்களை குறிக்க பயன்படுத்தினர். பல ஆண்டுகளாக இது வழக்கில் உள்ள ஒரு முறை. இது இலத்தீன் எழுத்துக்களை grave, accent, caret போன்ற துணைக்குறியீடுகளை இணைத்து புதிய ஒலிகளை குறிப்பிடுவது போலத்தான். உதாரணமாக, e என்ற எழுத்து è é ê ë xஎன்றவாறாக பல்வேறு துணைகுறியீடுகளை ஏற்றுக்கொண்டு பல்வேறு ஒலிகளை வெளியிடுவது போல. இதே போல், தமிழிலும் துணைஎண்களுடன் கூடிய இது போன்ற எழுத்துக்களையே, தமிழ் அட்டவணையில், ஒரு “விரிவாக்கப்பட்ட தள”த்தை உருவாக்கி, அதில் இவ்வெழுத்துக்களைச் சேர்க்க வேண்டுகோள் விடுக்கப்பட்டது.

இலத்தீன் எழுத்துமுறை ஆங்கிலம் உட்பட உலகின் பல்வேறு மொழிகளை குறிக்க பயன்படுத்தப்படுகிறது. ஆகவே, ஒவ்வொரு மொழிக்கும் ஏற்றவாறு, துணைக்குறிகளுடன் கூடிய எழுத்துக்களையும் இன்னபிற புது எழுத்துக்களையும் சேர்த்துக்கொண்டது. அடிப்படை எழுத்துக்களை மீறிய இதுபோன்ற துணைக்குறிகள் கொண்ட கூடுதல் எழுத்துக்கள் பல்வேறு விரிவாக்கப்பட்ட ஒருங்குறி பகுதிகளில் சேர்க்கப்பட்டது. இலத்தீன் எழுத்துமுறைக்கு, LATIN-1 SUPPLEMENT, LATIN EXTENDED-A, LATIN EXTENDED-B , LATIN EXTENDED-C, LATIN EXTENDED-D, LATIN EXTENDED ADDITIONAL என்றவாறும், ரஷ்ய சிரில்லிக் எழுத்துமுறையில் CYRILLIC SUPPLEMENT , CYRILLIC EXTENDED-A CYRILLIC EXTENDED-B என்றவாறும், ஜப்பானிய மொழியை எழுதுவதையே பிரதானமாக கொண்ட ஜப்பானிய எழுத்துக்களுக்கு கூட சிறுபான்மை மொழியான ஐனு மொழியை எழுத, Katakana Phonetic Extensions என தனியே கூடுதல் எழுத்துக்கள் சேர்க்கப்பட்டுள்ளன.

ஒருங்குறியின் தேவநாகரி அடிப்படை அட்டவணையில் கூட சமஸ்கிருத ஒலிகளை மட்டும் அல்லாது, எ, ஒ, ற, ழ, ள, ன போன்ற திராவிட மொழி ஒலிகளுக்கான எழுத்துக்களும், சிந்தி, காஷ்மீரி மொழிகளை எழுதுவதற்காக பயன்படுத்துப்படும் எழுத்துக்களும் இணைக்கப்பட்டுள்ளன. இதனால் சமஸ்கிருதம், ஹிந்தி முதலான வடமொழி கணினி முயற்சிகளோ, அல்லது மென்பொருள் செயல்பாடுகளோ செயலற்று போய்விடவில்லை. சமஸ்கிருதம் மற்றும் பிற வட மொழிகளை எழுதுவோர் அவ்வெழுத்துக்களைப் பயன்படுத்தப்போவதில்லை.

காஷ்மீரி மொழியை எழுத முனைவோர் தங்களுக்கு தேவையான எழுத்துக்களை பயன்படுத்தப்போகின்றனர். 19ஆம் நூற்றாண்டு மேற்கத்திய மொழியியலாளர்கள் சிருஷ்டித்த புதிய தேவநாகரி வடிவங்கள் மற்றும் அவெஸ்தன் மொழியை எழுதுவதற்கு தேவையான எழுத்துக்கள் கூட தேவநாகரி ஒருங்குறியில் சேர்க்க முன்மொழியப்பட்டுள்ளது.

[தொடரும்]

*****

குறிப்புகள்

[1] http://tdil.mit.gov.in/Standards/ISCII.aspx

[2] http://www.tscii.org/

[3] http://www.tamilvu.org/Tamilnet99/index.htm

[4] Tamilnadu Government, Information Technology Department, GO (Ms) No.29, dated 23.06.2010

[5] http://unicode.org/

[6] http://www.tamilvu.org/Tamilnet99/order.htm

*****

கட்டுரையாளர்
முதன்மையர், இரத்தினம் கலை அறிவியல் கல்லூரி, கோயம்புத்தூர் – 641021
மின்னஞ்சல்: raman600@gmail.com

 

 

பதிவாசிரியரைப் பற்றி

Leave a Reply

Your email address will not be published. Required fields are marked *


The reCAPTCHA verification period has expired. Please reload the page.