இயற்கை மொழி செயலாக்கம் -அறிமுகம்

 

இயற்கை மொழி செயலாக்கம் என்றால் என்ன?

இயற்கை மொழி செயலாக்கம் (NLP) என்பது கணினி அறிவியலின் கிளையைக் குறிக்கிறது-மேலும் குறிப்பாக, செயற்கை நுண்ணறிவு அல்லது AI-யின் கிளை, கணினிகளுக்கு உரை மற்றும் பேசும் சொற்களைப் புரிந்துகொள்ளும் திறனைக் கொடுக்கும்.

 

NLP ஆனது கணக்கீட்டு மொழியியல்-மனித மொழியின் விதி அடிப்படையிலான மாடலிங்-புள்ளியியல், இயந்திர கற்றல் மற்றும் ஆழமான கற்றல் மாதிரிகளுடன் ஒருங்கிணைக்கிறது. ஒன்றாக, இந்த தொழில்நுட்பங்கள் மனித மொழியை உரை அல்லது குரல் தரவு வடிவில் செயலாக்க கணினிகளுக்கு உதவுகிறது மற்றும் பேச்சாளர் அல்லது எழுத்தாளரின் எண்ணம் மற்றும் உணர்வுடன் முழுமையாக அதன் முழு அர்த்தத்தையும் 'புரிந்துகொள்ள' உதவுகிறது.

 

NLP கணினி நிரல்களை இயக்குகிறது, அவை உரையை ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு மொழிபெயர்க்கின்றன, பேசும் கட்டளைகளுக்கு பதிலளிக்கின்றன மற்றும் பெரிய அளவிலான உரைகளை விரைவாகச் சுருக்கமாகக் கூறுகின்றன. குரல் மூலம் இயக்கப்படும் ஜிபிஎஸ் அமைப்புகள், டிஜிட்டல் அசிஸ்டென்ட்கள், ஸ்பீச்-டு-டெக்ஸ்ட் டிக்டேஷன் சாஃப்ட்வேர், வாடிக்கையாளர் சேவை சாட்போட்கள் மற்றும் பிற நுகர்வோர் வசதிகள் போன்ற வடிவங்களில் நீங்கள் NLP உடன் தொடர்புகொள்வதற்கான நல்ல வாய்ப்பு உள்ளது. ஆனால் வணிகச் செயல்பாடுகளை ஒழுங்குபடுத்தவும், பணியாளர்களின் உற்பத்தித் திறனை அதிகரிக்கவும், பணி-முக்கியமான வணிகச் செயல்முறைகளை எளிதாக்கவும் உதவும் நிறுவனத் தீர்வுகளில் NLP வளர்ந்து வரும் பங்கு வகிக்கிறது.

 

என்எல்பி பணிகள்

உரை அல்லது குரல் தரவின் நோக்கத்தை துல்லியமாக தீர்மானிக்கும் மென்பொருளை எழுதுவதை நம்பமுடியாத அளவிற்கு கடினமாக்கும் தெளிவற்ற தன்மைகளால் மனித மொழி நிரம்பியுள்ளது. ஹோமோனிம்கள், ஹோமோஃபோன்கள், கிண்டல், மொழிச்சொற்கள், உருவகங்கள், இலக்கணம் மற்றும் பயன்பாட்டு விதிவிலக்குகள், வாக்கிய அமைப்பில் உள்ள மாறுபாடுகள்-இவை மனித மொழியின் சில முறைகேடுகளைக் கற்றுக்கொள்வதற்கு பல ஆண்டுகள் ஆகும், ஆனால் புரோகிராமர்கள் இயற்கையான மொழி சார்ந்த பயன்பாடுகளை அடையாளம் கண்டுகொள்ள கற்றுக்கொடுக்க வேண்டும். அந்த பயன்பாடுகள் பயனுள்ளதாக இருக்கும் என்பதை தொடக்கத்தில் இருந்தே துல்லியமாக புரிந்து கொள்ளுங்கள்.

 

பல NLP பணிகள் மனித உரை மற்றும் குரல் தரவை உடைக்கும் வழிகளில் கணினி எதை உட்கொள்கிறது என்பதைப் புரிந்துகொள்ள உதவுகிறது. இந்த பணிகளில் சில பின்வருவனவற்றை உள்ளடக்குகின்றன:

 

பேச்சு அங்கீகாரம், பேச்சு-க்கு-உரை என்றும் அழைக்கப்படுகிறது, இது குரல் தரவை நம்பகத்தன்மையுடன் உரைத் தரவாக மாற்றும் பணியாகும். குரல் கட்டளைகளைப் பின்பற்றும் அல்லது பேசப்படும் கேள்விகளுக்குப் பதிலளிக்கும் எந்தவொரு பயன்பாட்டிற்கும் பேச்சு அங்கீகாரம் தேவை. பேச்சு அறிதலை குறிப்பாக சவாலாக ஆக்குவது என்னவென்றால், மக்கள் பேசும் விதம்-விரைவாக, வார்த்தைகளை ஒன்றாகச் சேர்த்து, மாறுபட்ட முக்கியத்துவம் மற்றும் ஒலிப்புடன், வெவ்வேறு உச்சரிப்புகளில், மற்றும் அடிக்கடி தவறான இலக்கணத்தைப் பயன்படுத்துகிறது.

பேச்சு குறிச்சொல்லின் ஒரு பகுதி, இலக்கண குறிச்சொல் என்றும் அழைக்கப்படுகிறது, இது ஒரு குறிப்பிட்ட வார்த்தையின் பேச்சின் பகுதியை அல்லது அதன் பயன்பாடு மற்றும் சூழலின் அடிப்படையில் உரையின் பகுதியை தீர்மானிக்கும் செயல்முறையாகும். பேச்சின் ஒரு பகுதியானது, ‘என்னால் காகித விமானத்தை உருவாக்க முடியும்என்பதில் வினைச்சொல்லாகவும், ‘உனக்கு சொந்தமான கார் என்ன?’ என்பதில் பெயர்ச்சொல்லாகவும்உருவாக்குஎன்பதை அடையாளப்படுத்துகிறது.

வார்த்தை உணர்வு தெளிவின்மை என்பது, கொடுக்கப்பட்ட சூழலில் மிகவும் அர்த்தமுள்ளதாக இருக்கும் வார்த்தையைத் தீர்மானிக்கும் சொற்பொருள் பகுப்பாய்வு செயல்முறையின் மூலம் பல அர்த்தங்களைக் கொண்ட ஒரு வார்த்தையின் பொருளைத் தேர்ந்தெடுப்பதாகும். எடுத்துக்காட்டாக, வார்த்தை உணர்வின் தெளிவின்மை, 'மேக் தி கிரேடு' (அடையுங்கள்) மற்றும் 'மேக் பெட்' (இடம்) என்பதில் உள்ள 'மேக்' என்ற வினைச்சொல்லின் பொருளை வேறுபடுத்த உதவுகிறது.

பெயரிடப்பட்ட நிறுவன அங்கீகாரம் அல்லது NEM, சொற்கள் அல்லது சொற்றொடர்களை பயனுள்ள உட்பொருளாக அடையாளப்படுத்துகிறது. NEM ஆனது 'கென்டக்கி' ஒரு இருப்பிடமாக அல்லது 'Fred' ஒரு மனிதனின் பெயராக அடையாளப்படுத்துகிறது.

இணை-குறிப்புத் தீர்மானம் என்பது இரண்டு சொற்கள் ஒரே பொருளைக் குறிப்பிடுகின்றனவா என்பதை அடையாளம் காணும் பணியாகும். மிகவும் பொதுவான உதாரணம், ஒரு குறிப்பிட்ட பிரதிபெயர் குறிப்பிடும் நபர் அல்லது பொருளைத் தீர்மானிப்பது (.கா., 'அவள்' = 'மேரி'), ஆனால் இது உரையில் ஒரு உருவகம் அல்லது சொற்றொடரை அடையாளம் காண்பதை உள்ளடக்கியது (.கா., இதில் ' கரடி ஒரு விலங்கு அல்ல, ஆனால் ஒரு பெரிய கூந்தல் நபர்).

உணர்வு பகுப்பாய்வு என்பது அகநிலை குணங்களை - மனப்பான்மை, உணர்ச்சிகள், கிண்டல், குழப்பம், சந்தேகம் - உரையிலிருந்து பிரித்தெடுக்க முயற்சிக்கிறது.

இயற்கையான மொழி உருவாக்கம் சில நேரங்களில் பேச்சு அங்கீகாரம் அல்லது பேச்சு-க்கு-உரைக்கு எதிரானதாக விவரிக்கப்படுகிறது; இது மனித மொழியில் கட்டமைக்கப்பட்ட தகவல்களை வைக்கும் பணியாகும்.

"NLP vs. NLU vs. NLG: மூன்று இயற்கை மொழி செயலாக்கக் கருத்துக்களுக்கு இடையிலான வேறுபாடுகள்" என்ற வலைப்பதிவு இடுகையைப் பார்க்கவும், இந்தக் கருத்துகள் எவ்வாறு தொடர்புபடுகின்றன என்பதை ஆழமாகப் பார்க்கவும்.

 

NLP கருவிகள் மற்றும் அணுகுமுறைகள்

பைதான் மற்றும் இயற்கை மொழி கருவித்தொகுப்பு (NLTK)

Python நிரலாக்க மொழியானது குறிப்பிட்ட NLP பணிகளைத் தாக்குவதற்கான பரந்த அளவிலான கருவிகள் மற்றும் நூலகங்களை வழங்குகிறது. இவற்றில் பல இயற்கை மொழி கருவித்தொகுப்பு அல்லது NLTK, நூலகங்கள், திட்டங்கள் மற்றும் NLP திட்டங்களை உருவாக்குவதற்கான கல்வி ஆதாரங்களின் திறந்த மூல சேகரிப்பில் காணப்படுகின்றன.

 

NLTK ஆனது மேலே பட்டியலிடப்பட்டுள்ள பல NLP பணிகளுக்கான நூலகங்களையும், வாக்கியப் பாகுபடுத்துதல், வார்த்தைப் பிரிப்பு, ஸ்டெம்மிங் மற்றும் லெமடிசேஷன் (சொற்களை அவற்றின் வேர்களைக் குறைக்கும் முறைகள்) மற்றும் டோக்கனைசேஷன் (சொற்றொடர்கள், வாக்கியங்கள், பத்திகளை உடைப்பதற்கான முறைகள்) போன்ற துணைப் பணிகளுக்கான நூலகங்களையும் உள்ளடக்கியது. மற்றும் டோக்கன்களில் உள்ள பத்திகள் கணினிக்கு உரையை நன்கு புரிந்துகொள்ள உதவும்). சொற்பொருள் பகுத்தறிவு, உரையிலிருந்து பிரித்தெடுக்கப்பட்ட உண்மைகளின் அடிப்படையில் தர்க்கரீதியான முடிவுகளை அடையும் திறன் போன்ற திறன்களை செயல்படுத்துவதற்கான நூலகங்களும் இதில் அடங்கும்.

 

புள்ளியியல் NLP, இயந்திர கற்றல் மற்றும் ஆழ்ந்த கற்றல்

ஆரம்பகால NLP பயன்பாடுகள் கையால் குறியிடப்பட்டவை, சில NLP பணிகளைச் செய்யக்கூடிய விதிகள் அடிப்படையிலான அமைப்புகள், ஆனால் முடிவில்லாத விதிவிலக்குகள் அல்லது அதிகரித்து வரும் உரை மற்றும் குரல் தரவுகளுக்கு இடமளிக்க எளிதாக அளவிட முடியவில்லை.

 

புள்ளியியல் NLP உள்ளிடவும், இது கணினி வழிமுறைகளை இயந்திரக் கற்றல் மற்றும் ஆழமான கற்றல் மாதிரிகளுடன் தானாகப் பிரித்தெடுக்கவும், வகைப்படுத்தவும் மற்றும் உரை மற்றும் குரல் தரவின் கூறுகளை லேபிளிடவும், பின்னர் அந்த உறுப்புகளின் சாத்தியமான ஒவ்வொரு அர்த்தத்திற்கும் ஒரு புள்ளியியல் சாத்தியத்தை ஒதுக்குகிறது. இன்று, ஆழமான கற்றல் மாதிரிகள் மற்றும் கன்வல்யூஷனல் நியூரல் நெட்வொர்க்குகள் (சிஎன்என்கள்) மற்றும் தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குகள் (ஆர்என்என்கள்) ஆகியவற்றின் அடிப்படையிலான கற்றல் நுட்பங்கள் என்எல்பி அமைப்புகளை செயல்படுத்துகின்றன. மற்றும் குரல் தரவு தொகுப்புகள்.

 

இந்த தொழில்நுட்பங்கள் மற்றும் அவற்றின் கற்றல் அணுகுமுறைகளுக்கு இடையே உள்ள நுணுக்கங்களை ஆழமாகப் பார்க்க, "AI vs. மெஷின் லேர்னிங் எதிராக. ஆழமான கற்றல் மற்றும் நரம்பியல் நெட்வொர்க்குகள்: என்ன வித்தியாசம்?" என்பதைப் பார்க்கவும்.

 

NLP பயன்பாட்டு வழக்குகள்

இயற்கை மொழி செயலாக்கம் என்பது பல நவீன நிஜ உலக பயன்பாடுகளில் இயந்திர நுண்ணறிவின் உந்து சக்தியாகும். இதோ சில உதாரணங்கள்:

 

ஸ்பேம் கண்டறிதல்: ஸ்பேம் கண்டறிதலை NLP தீர்வாக நீங்கள் நினைக்காமல் இருக்கலாம், ஆனால் சிறந்த ஸ்பேம் கண்டறிதல் தொழில்நுட்பங்கள் ஸ்பேம் அல்லது ஃபிஷிங்கை அடிக்கடி குறிப்பிடும் மொழிக்கான மின்னஞ்சல்களை ஸ்கேன் செய்ய NLP இன் உரை வகைப்பாடு திறன்களைப் பயன்படுத்துகின்றன. இந்தக் குறிகாட்டிகளில் நிதிச் சொற்களின் அதிகப்படியான பயன்பாடு, குணாதிசயமான மோசமான இலக்கணம், அச்சுறுத்தும் மொழி, பொருத்தமற்ற அவசரம், தவறாக எழுதப்பட்ட நிறுவனத்தின் பெயர்கள் மற்றும் பலவற்றை உள்ளடக்கலாம். ஸ்பேம் கண்டறிதல் என்பது சில NLP சிக்கல்களில் ஒன்றாகும், இது 'பெரும்பாலும் தீர்க்கப்பட்டது' என்று நிபுணர்கள் கருதுகின்றனர் (இது உங்கள் மின்னஞ்சல் அனுபவத்துடன் பொருந்தவில்லை என்று நீங்கள் வாதிடலாம்).

இயந்திர மொழிபெயர்ப்பு: Google Translate என்பது வேலையில் பரவலாகக் கிடைக்கும் NLP தொழில்நுட்பத்திற்கு ஒரு எடுத்துக்காட்டு. உண்மையிலேயே பயனுள்ள இயந்திர மொழிபெயர்ப்பு என்பது ஒரு மொழியில் உள்ள வார்த்தைகளை மற்றொரு மொழியின் வார்த்தைகளால் மாற்றுவதை விட அதிகம். பயனுள்ள மொழிபெயர்ப்பானது உள்ளீட்டு மொழியின் பொருளையும் தொனியையும் துல்லியமாகப் படம்பிடித்து, வெளியீட்டு மொழியில் அதே பொருள் மற்றும் விரும்பிய தாக்கத்துடன் உரைக்கு மொழிபெயர்க்க வேண்டும். இயந்திர மொழிபெயர்ப்பு கருவிகள் துல்லியத்தின் அடிப்படையில் நல்ல முன்னேற்றம் அடைந்து வருகின்றன. எந்தவொரு இயந்திர மொழிபெயர்ப்பு கருவியையும் சோதிப்பதற்கான ஒரு சிறந்த வழி, உரையை ஒரு மொழிக்கு மொழிபெயர்த்து பின்னர் அசல் மொழிக்கு மாற்றுவதாகும். அடிக்கடி குறிப்பிடப்படும் ஒரு உன்னதமான உதாரணம்: நீண்ட காலத்திற்கு முன்பு, ஆங்கிலத்திலிருந்து ரஷ்ய மொழிக்குஆவி தயாராக உள்ளது, ஆனால் சதை பலவீனமானதுஎன்று மொழிபெயர்த்து, “ஓட்கா நல்லது, ஆனால் இறைச்சி அழுகியதுஎன்று மீண்டும் வந்தது. இன்று, அதன் விளைவு "ஆவி விரும்புகிறது, ஆனால் சதை பலவீனமானது", இது சரியானது அல்ல, ஆனால் ஆங்கிலத்திலிருந்து ரஷ்ய மொழிபெயர்ப்பில் அதிக நம்பிக்கையைத் தூண்டுகிறது.

விர்ச்சுவல் ஏஜெண்டுகள் மற்றும் சாட்போட்கள்: ஆப்பிளின் சிரி மற்றும் அமேசானின் அலெக்சா போன்ற மெய்நிகர் முகவர்கள் குரல் கட்டளைகளில் உள்ள வடிவங்களை அடையாளம் காண பேச்சு அங்கீகாரத்தைப் பயன்படுத்துகின்றன மற்றும் பொருத்தமான செயல் அல்லது பயனுள்ள கருத்துகளுடன் பதிலளிக்க இயற்கை மொழி உருவாக்கம். தட்டச்சு செய்த உரை உள்ளீடுகளுக்கு பதிலளிக்கும் விதமாக சாட்போட்கள் அதே மேஜிக்கைச் செய்கின்றன. இவற்றில் சிறந்தவை, மனித கோரிக்கைகள் பற்றிய சூழ்நிலை துப்புகளை அடையாளம் கண்டு, காலப்போக்கில் இன்னும் சிறந்த பதில்கள் அல்லது விருப்பங்களை வழங்க அவற்றைப் பயன்படுத்துகின்றன. இந்தப் பயன்பாடுகளுக்கான அடுத்த மேம்பாடு கேள்வி பதில், நமது கேள்விகளுக்கு-எதிர்பார்த்தாலும் இல்லாவிட்டாலும்-அவர்களின் சொந்த வார்த்தைகளில் பொருத்தமான மற்றும் பயனுள்ள பதில்களுடன் பதிலளிக்கும் திறன்.

சமூக ஊடக உணர்வு பகுப்பாய்வு: சமூக ஊடக சேனல்களிலிருந்து மறைக்கப்பட்ட தரவு நுண்ணறிவுகளை வெளிக்கொணர NLP இன்றியமையாத வணிகக் கருவியாக மாறியுள்ளது. தயாரிப்புகள், விளம்பரங்கள் மற்றும் நிகழ்வுகளுக்கு பதிலளிக்கும் வகையில் அணுகுமுறைகள் மற்றும் உணர்ச்சிகளைப் பிரித்தெடுக்க சமூக ஊடக இடுகைகள், பதில்கள், மதிப்புரைகள் மற்றும் பலவற்றில் பயன்படுத்தப்படும் மொழியை உணர்ச்சி பகுப்பாய்வு பகுப்பாய்வு செய்யலாம்-தகவல் நிறுவனங்கள் தயாரிப்பு வடிவமைப்புகள், விளம்பரப் பிரச்சாரங்கள் மற்றும் பலவற்றில் பயன்படுத்தலாம்.

உரைச் சுருக்கம்: உரைச் சுருக்கமாக்கல் NLP நுட்பங்களைப் பயன்படுத்தி டிஜிட்டல் உரையின் பெரிய தொகுதிகளை ஜீரணிக்கவும், சுருக்கங்கள் மற்றும் சுருக்கங்களை உருவாக்கவும் குறியீடுகள், ஆராய்ச்சி தரவுத்தளங்கள் அல்லது முழு உரையைப் படிக்க நேரமில்லாத பிஸியான வாசகர்கள். சிறந்த உரை சுருக்கப் பயன்பாடுகள், சுருக்கங்களுக்கு பயனுள்ள சூழல் மற்றும் முடிவுகளைச் சேர்க்க சொற்பொருள் பகுத்தறிவு மற்றும் இயற்கை மொழி உருவாக்கம் (NLG) ஆகியவற்றைப் பயன்படுத்துகின்றன.

கருத்துகள்