இயற்கை மொழி பகுப்பு – இ.மொ.ப

இயற்கை மொழிமுறை பகுப்பு:

(இ.மொ.ப)ஆய்வு முறை:

முன்னுரை:

இயற்கை மொழி பகுப்பு முறை விதி சார்ந்து அமைக்கப்படும் அணுகுமுறை முக்கியத்துவம் வாய்ந்தது. ஒரு சொல்லுக்கு இலக்கணக் குறிப்பு அதன் பின்னோட்டு சொல் முறை நிலைப்படுத்தும் காலமிது.
தமிழில் இலக்கணம், இலக்கை அக்கணமே தெரிவிப்பதை இலக்கணம் என்போம்.
மொழியை நாம் உச்சரிக்க எடுத்துக்கொள்ளும் உறுப்பு, வாய். ‘எழு ‘ ‘வாய்’ என்ற நம் வாயை உச்சரிக்கச் செய்வதால் தமிழில் பெயரை ‘எழுவாய்’ என்கிறோம்.
நம் செயலின் ‘பயன் நிலை’யை குறிப்பிடுவதால் ‘பயனிலை’ என்கிறோம்.
நமக்கு ‘பயன்படு’கின்ற ‘பொருள் ‘குறிப்பிடுவதால் ‘பயன்படுபொருள்’ என்கிறோம்.
தமிழில் எழுவாய், பயன்படுபொருள், பயனிலை, சொற்றொடரை முறையாக அமைக்க உதவும் இலக்கண அடிப்படைக் குறிப்பு.
இலக்கணம்:
தமிழன் வளர்கிறான்.
தமிழன் வளர்ந்தான்.
தமிழன் வளர்வான்.
ஒரு செயலையோ அல்லது வினையைக் குறிக்க வளர்கிறான், வளர்ந்தான், வளர்வான் என கால அளவை நிர்ணயித்துக் கூறுவோம்.
‘ றான் ‘ என்பது வளர்கின்றதை குறித்து
நியமிக்கும் சொல் ஆகும்.
இச்சொல் செயலின் உடனிலை குறிப்பு அணி சொல்லாகும்.
தமிழன் என்ற பெயருடன் அவன் வளர்கின்றதை விளக்கும் சொல்லாகும்.
எல்லா மொழிகளுக்கும் இந்த முறையே
அடிப்படை ஆகாது.
எனவே இந்த முறைமையை எல்லா மொழிகளுக்கும் மாற்றப் படும் பொழுது அவற்றிற்கு உள்ள தமிழ் இலக்கண அடிப்படை ஒப்பந்த முறைக்கு மாற்றுவது சாலச் சிறந்தது.
அந்தாதித் தொடை
‘முற்சுட்டு, அந்தாதி தொடை’ என்ற தமிழ் சொல் ‘ Anaphora ‘ என்ற ஆங்கில சொல் ‘Anapharein’ கிரெக்க மொழியில் மீண்டும் செயல்படுத்து, பார்த்தலாகும்.
இந்த குறியீடுகளை பேசும் பொழுது அறிந்து கொண்டு
பெயர், செயல் அல்லது வினையை என அறிந்து கொள்கிறோம்.
இந்த அடிப்படையில் அறிந்து கொள்ளும் பொழுது பேசுபவரின் நிலையை புரிந்து கொள்வோம்.
எந்த குறியீடு மாற்றம் ஒவ்வொரு நிலையை அறிந்து கொள்ளப் பயன்படுகிறது என்பதை முடிவாக தெரிந்து கொள்வோம்.
தொடராக நடைபெறும் செயல்களை அறிந்து கொள்ள ‘தொடரியில்’, ‘சொற்பொருள்’ என்று தமிழில் சொல்லக்கூடிய ‘Syntactic, Semantic’ என்ற ஆங்கிலச் சொல்லை நாம் பயன்படுத்துகிறோம்.
உருபனியல் பகுப்பு ஆய்வு இயற்கை மொழி முறைக்கு முக்கியமான ஒன்றாகும்.
கொடுக்கப்பட்டு உள்ள ஒரு தமிழ் சொல்லின் பின்னோட்டு இலக்கணத் தகவல்கள் உருபனியல் பகுப்பு ஆய்வு முறைக்கு உகந்ததாக இருக்கும்.
தமிழ் உருவ(Morphological) முறையில் ஒரு சொல்லை கணினியில் உள்ளிடு செய்வதும், இலக்கண அமைப்பில் வெளி வருவதும் ஆகும்.
உருவ இயல் பகுப்பு ஆய்வில் தகவல் மீட்பு,
தேடு பொறி, உச்சரிப்பு, இலக்கணத்தை சரிபார்த்தல், இயந்திர மொழி பெயர்ப்பு, அகராதி சரிபார்த்தல், தகவல் பிரித்தெடுத்தல், உள்ளடக்க ஆய்வு, கேள்வி பதில் ஆகியவற்றிற்கு உண்டான கருவிகள் இயற்கை மொழி முறைமைக்கு தேவையானதாக கருதலாம்.
முக்கிய வார்த்தைகள்:
உருவ இயல் பகுப்பு, பழங்கால தமிழ், இயற்கை மொழி பகுப்பு முறை (இ.மொ.ப) தமிழ்.
ஒரு சொல்லின் உட்கூறுகளின் உருவ இயல் பகுப்பு படிப்பு முறையாகும். உருவ இயல் பகுப்பில் ஒரு மொழியில் சொல்லின் இலக்கண முறை அறிதலை கட்டுருபன்(morpheme) என்று கூறுகிறோம்.
தேடு பொருளில் ஒரு சொல்லை கொடுத்தவுடன் அச்சொல்லுக்கு உண்டான ஆவணங்களை தேடி தரும் நிறுவுதல் சிறப்பாகும். இந்த முறைமை தமிழில் அதிக கோப்புகளுக்கு தேடுவதற்கு உண்டான பயன்பாட்டை நிலைப்படுத்தும்.
பாரம்பரிய தமிழ் சொற்களை கண்டுபிடித்து அதற்கு உண்டான தேடு பொறியை கண்டு பிடிக்க உதவும் கருவியாக இந்த இ.மொ.ப இருக்கும்.
தமிழ் அடிப்படை சொற்கள் அமைப்பதற்க்கு சொற்பொருட்கள், சொல் இலக்கண மாற்றம் ஆகியவற்றிற்கு உண்டான கருவிகளை எடுத்துக் கொள்வோம்.
ஒரு சொல்லுருவில் பயன்படுத்துவதற்கு அதனுடைய வேர்ச் சொற்களை சொற்பொருள், சொல் இலக்கணமாற்ற தகவல் ஆகியவைகளை எடுத்துக் கொண்டு வகைபடுத்துவதும், கூட்டிஅமைப்பதற்கும் பயன்படுத்துவோம்.
தமிழ் மொழிச் சொற்களுக்கு அண்ணா பல்கலைக் கழகம், இந்திய மொழி- இந்திய மொழி பொறி மாற்ற நிறுவனம், மத்திய இந்திய மொழி மாற்ற நிறுவனங்கள் ஆகியவைகளில் சொற் களஞ்சியம் உள்ளது.
ஓரு பொருளைப் பற்றிய முழுமையான இலக்கியத் தொகுப்பு தோராய அடிப்படை மாதிரியாகவும் கலப்பு அணுகுமுறையில் பல்வேறு இடங்களில் பெறலாம்.
உருவ இயல் பகுப்பு முறையில் கூட்டுச் சொல்லுக்கு உண்டான சொல்விதி, சொற்பொருள் போன்ற முக்கிய தகவல் அடங்கியதாகும்.
தற்பொழுதைய பகுப்பு ஆய்வு அமைப்புகள்:
பேராசிரியர் ராஜேந்திரன், தமிழ் பல்கலை கழகம் தமிழ் மொழியில் இருந்து இந்தி மொழிக்கு பகுத்தாய்ந்து உள்ளார். அண்ணா பல்கலைகழகம் KB சந்திரசேகர் மையம் (AU-KBC)தமிழ் மொழியில் பகுத்து உள்ளது, உருவாக்கப்படவில்லை.
‘அச்சரம்’ என்ற பகுப்பு ஆய்வு முறையை அண்ணா பல்கலைகழகம்-KBC , RCILTS என்ற தொழில் நுட்ப தீர்வு மையம் தமிழ் எழுத்து உருவ பகுப்பு தயார் செய்து உள்ளது.
2000 ஆண்டுகளுக்கு முன்னரே எழுத்து உருவாக்கம் ஆகி உள்ளது.
இந்த தமிழ் எழுத்துருவாக்கம், கல்வெட்டில் இருக்கும் பொழுது ஓலைச்சுவடியில் அமையும் பொழுதும் காகிதத்தில் அச்சு செய்யும் பொழுதும் அதற்கு தகுந்தவாறு பதிவேற்றம் மாறி உள்ளது
தற்பொழுது கணினி, எணினி என பயன்படும் சூழ்நிலைக்கு தமிழ் மொழி இயற்கை மொழி மாறுபாட்டு முறைமைக்கேற்ப எழுத்துக்கள் தமிழ் இலக்கண முறைப்படியும் பகுப்பு மாற வேண்டி உள்ளது.
அகராதி, கலைக்களஞ்சியக் குறிப்பு, சங்க கால இலக்கியக் குறிப்புகள் இ.மொ.ப தகவல் கிடங்குகள் சேகரிக்கப்பட்டு முறைமைப் படுத்த வேண்டும்.
ஒவ்வொரு வேர்ச்சொல்லும் அகரச் சுருக்க கோவையில்(XML) இருந்து சேகரிக்கப்பட்டு தமிழ் மெய் ஆவணமாக தயாரிக்கப்பட வேண்டி உள்ளது.
தமிழ் சொல் வகைக் குறியிடும் கருவி (POS tagger)
செய்வதன் மூலம் பல்பொருள் ஒரு சொல் போன்ற தெளிவிலா உரையை தெளிவு படுத்த பயன்படும்.
சொற்களின் வகை(POS) யை இலக்கண அடிப்படையிலும் முறைமைப் படுத்தப்பட வேண்டும்.
சொல்லின் மூல ஆவணம், ஆதாரம், ஏற்ற சொல், ஒருமை, பன்மை, காலநிலை, இடநிலை முதலானவற்றினை நிலைப்படுத்த வேண்டும்.
இலக்கண அமைப்பு முறையில் முன்னோட்டு, பின்னோட்டு குறியீடுகள் மூல ஆதாரச் சொற்களுடன் இணைக்கப்பட வேண்டும்.
கணினி முறையில் ஆம், இல்லை என்ற முறைமை தொகுப்பை தமிழ் மொழி எழுத்துருவுக்கள் தன்னிரவுத் தமிழ்ச் சொற்களின் தகவல் திரட்டு நெறிமுறைப்படி
தொகுக்கப்பட வேண்டும்.
தமிழில் 12,000 பக்கங்கள் கொண்ட தமிழ்ச் சொற்பிறப்பியல் அகர முதலியில் ஏறத்தாழ 500,000 தமிழ்ச்சொற்கள் உள்ளன.
இந்த அகர முதலியில் மொத்தம் 31 தொகுதிகள். 37 ஆண்டுகளாக உழைத்து உருவாக்கப்பட்ட தமிழ் சொற்பிறப்பியல் அகர முதலித் திட்டம் (Tamil etymological Dictionary project) அண்மையில் முழுமையடைந்தது.
பழந்தமிழ் சொற்களின் அமைப்பில் 500,000 சொற்கள் அமைக்கலாம் என்கின்றனர்.
இந்தச் சொற்கள் வேர்ச் சொல் தேடுவதற்கு பழைமை நூற்கள் பல அடிப்படைத் தகவல்கள் திரட்டு தேவைப்படுகிறது.
இயந்திரத் தகவல்களை சீரமைத்தால் சீர்படுத்தப்படலாம்.

முடிவுரை :
இந்த இ.மொ.ப முறை பழைய நூற்களின் தகவல் தொகுப்புத் திரட்டின் மூலம் கணினியில், எணினியின் மூலமும் முறைப்படுத்தப்படலாம் என்பதையும் சொற்களின் வேர்ச் சொல்லின் உருவாக்கம் புரிந்து கொள்ளலாம். சொற்கள், பொருட்களின் அடிப்படையிலும் அறிந்து கொண்டு நல்முறையில் கணினியிலும் தமிழ் மொழிச் சொற்களை நிலைப்படுத்துவோம்.

Author: THANGAVELU CHINNASAMY

செயல் மன்ற பதிவர் - செ ம SEYALMANTRAM. 24 Subha Akila Nagar Airport TRICHY. TAMILNADU INDIA