- കുതിരവട്ടം പപ്പു, “ചന്ദ്രലേഖ”യില്.
ആണവ (അറ്റോമിക്) ചില്ലുകള്, ജോയിനറുകള്, ZWJ, ZWNJ തുടങ്ങിയ വാക്കുകള് ഉപയോഗിച്ചു കുറേക്കാലമായി സിബു, റാല്മിനോവ്, അനിവര്, പ്രവീണ്, സുറുമ, സന്തോഷ് തോട്ടിങ്ങല് തുടങ്ങിയവര് തിരിച്ചും മറിച്ചും സാങ്കേതികവും സര്ക്കാസ്റ്റിക്കും ആയി പോസ്റ്റുകള് ഇറക്കുന്നുണ്ടു്. ഇതൊക്കെ വായിച്ചു് ചന്ദ്രലേഖയിലെ പപ്പുവിനെപ്പോലെ “എന്താ ഈ ആണവചില്ല്?” എന്നു ചോദിച്ചു് അന്തം വിട്ടു കുന്തം വിഴുങ്ങി ഇരിക്കുന്ന ബ്ലോഗുവായനക്കാര്ക്കു വേണ്ടിയുള്ളതാണു് ഈ പോസ്റ്റ്.
എന്തുകൊണ്ടു ഞാന് ഇതെഴുതുന്നു എന്നു ചോദിച്ചാല്,
- മലയാളഭാഷയെപ്പറ്റി കുറെയൊക്കെ അറിഞ്ഞിരുന്നെങ്കിലും യൂണിക്കോഡിനെപ്പറ്റിയുള്ള അജ്ഞത മൂലം ഞാനും കുറേക്കാലം ഇങ്ങനെ കുന്തം വിഴുങ്ങി ഇരുന്നിട്ടുണ്ടു്. പിന്നെ കാര്യങ്ങള് കുറേശ്ശെ വ്യക്തമായി. വ്യക്തമായതെങ്ങനെ എന്നു വിശദീകരിച്ചാല് ഇപ്പോള് കുന്തം വിഴുങ്ങിയിരിക്കുന്നവര്ക്കു് സഹായകമാകും എന്നൊരു ചിന്ത.
- അറ്റോമിക് ചില്ലുകളെപ്പറ്റിയുള്ള ചര്ച്ചകളിലെ ഭാഷാപരമായ കാര്യങ്ങളില് അഭിപ്രായം പറഞ്ഞിട്ടുണ്ടെങ്കിലും, ഞാന് ഇതു വരെ അവയെ അനുകൂലിച്ചോ എതിര്ത്തോ പറഞ്ഞിട്ടില്ല. ഈ വിഷയത്തെപ്പറ്റി എനിക്കുള്ള അഭിപ്രായം വ്യക്തമാക്കാന് കൂടിയാണു് ഈ ലേഖനം.
യൂണിക്കോഡിനെപ്പറ്റിയും അതില് മലയാളം ഉപയോഗിക്കുന്നതിനെപ്പറ്റിയും നല്ല പല ലേഖനങ്ങളും ഇതിനകം ഉണ്ടായിട്ടുണ്ടു്. ഈ കാര്യങ്ങള് ക്രോഡീകരിച്ചു് സിബു വരമൊഴി വിക്കിയില് ഇട്ടിട്ടുള്ള ഈ ലേഖനം ആണു് അവയില് ഒന്നു്. ഇതു വായിക്കുന്നതിനു മുമ്പു് അതു വായിക്കുന്നതു നന്നായിരിക്കും.
ആദ്യമേ ഒരു അറിയിപ്പു്: മൈക്ക് ടെസ്റ്റിംഗ്, വണ്, ടൂ, ത്രീ,…
ദയവായി ഈ പോസ്റ്റ് ഈ ബ്ലോഗില്ത്തന്നെ വായിക്കുക. ഫീഡ് റീഡര്, ഈ-മെയില് തുടങ്ങിയവയിലൂടെ കടന്നു പോയാല് പല ജോയിനറുകളും നഷ്ടപ്പെട്ടു് ഉദ്ദേശിച്ചതു തെറ്റും എന്നതുകൊണ്ടാണു് ഇതു്. മറ്റു രീതിയില് വായിക്കുന്നവര്ക്കായി ഈ പോസ്റ്റിന്റെ ലിങ്ക്: http://malayalam.usvishakh.net/blog/archives/288.
അതുപോലെ ന് (ന + വിരാമം + ZWJ) എന്നതിനെ ന് എന്ന ചില്ലക്ഷരമായി കാണിക്കുന്ന (ന് എന്നു നയുടെ കൂടെ ചന്ദ്രക്കല ഇട്ടതല്ല) ഏതെങ്കിലും ഓപ്പറേറ്റിംഗ് സിസ്റ്റം/ബ്രൌസര് ഉപയോഗിക്കുക.
എന്റെ അറിവില് താഴെപ്പറയുന്ന കോംബിനേഷനുകള് ശരിയായി ചില്ലുകള് കാണിക്കുന്നു:
- Windows + IE
- Windows + Firefox 3.0
- Windows + Firefox 2.0 + IE tab
- Linux + Firefox 3.0 + Rachana/Meera font
- Linux + Firefox 2.0 + Rachana/Meera font + Suruma’s Pango patch
അല്ലെങ്കില് താഴെയുള്ളതു നല്ല തമാശയായിരിക്കും. ശയും ഷയും ഒരു പോലെ ഉച്ചരിക്കുന്ന ഒരുത്തന് ഒരിക്കല് എന്നോടു് “ഉമേഷേ, ഉമേഷിന്റെ പേരു ശരിക്കു് ഉമേശ് എന്നല്ലേ പറയേണ്ടതു്, അതെന്തിനാ ഉമേഷ് എന്നു പറയുന്നതു്?” എന്നു ചോദിച്ചതും ഞാന് അന്തം വിട്ടു നിന്നതും ഓര്മ്മ വരുന്നു
ഒരു ഉദാഹരണം:
ഒരു ഉദാഹരണത്തില് തുടങ്ങാം.
ആദ്യമായി ചില്ലക്ഷരങ്ങളെ കാണിക്കുന്ന ഏതെങ്കിലും ഓപ്പറേറ്റിംഗ് സിസ്റ്റം/ബ്രൌസര്/ഫോണ്ട്/സേര്ച്ച് എഞ്ചിന് ഉപയോഗിച്ചു് അവന് എന്ന വാക്കൊന്നു സേര്ച്ചു ചെയ്തു നോക്കുക. വിന്ഡോസ് എക്സ് പി/ഇന്റര്നെറ്റ് എക്സ്പ്ലോറര് 7/കാര്ത്തിക/ഗൂഗിള് ഉപയോഗിച്ചു ഞാന് നടത്തിയ തിരയലിന്റെ ഫലം താഴെ.
അവന് എന്നതു തിരഞ്ഞപ്പോള് കിട്ടിയതു് അവന് എന്നാണു് എന്നു തോന്നും. ഇവയില് ഏതെങ്കിലും ഒരു ഫലത്തില് ക്ലിക്കു ചെയ്തു നോക്കിയാല് അതു് അവന് എന്നു തന്നെയാണെന്നു കാണാം. അതായതു്, സേര്ച്ച് എഞ്ചിന് ശരിയായ വാക്കു തന്നെ കണ്ടുപിടിച്ചെങ്കിലും സേര്ച്ച് ലിസ്റ്റില് അതിനെ നാം കാണുമ്പോള് അതു് അവന് എന്നായി മാറി. (എല്ലാ ഓപ്പറേറ്റിംഗ് സിസ്റ്റം/ബ്രൌസര്/സേര്ച്ച് എഞ്ചിന് കോംബിനേഷനുകളിലും ഇതുണ്ടാവണമെന്നു നിര്ബന്ധമില്ല. ചിലതില് ഉണ്ടെന്നേ ഞാന് പറയുന്നുള്ളൂ.)
ഇതെങ്ങനെ സംഭവിച്ചു?
ചില്ലക്ഷരമായ ന് എന്നതിനെ ഇപ്പോള് സൂചിപ്പിക്കുന്നതു് (ഫോണ്ടുകള്, ഇന്പുട്ട് മെതേഡുകള് തുടങ്ങിയവ. യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് ഇതിനെപ്പറ്റി ഒന്നും പറയുന്നില്ല) ന + വിരാമം + ZWJ എന്നാണു്. എവിടെയോ വെച്ചു് ആ ZWJ (സീറോ വിഡ്ത്ത് ജോയിനര്) നഷ്ടപ്പെട്ടു പോയിട്ടു നമുക്കു കിട്ടിയതു് ന + വിരാമം എന്നു മാത്രമാണു്. അതാണു് ന് എന്നു കാണുന്നതു്.
ദേ പിന്നെയും വന്നു കോണ്ടസാ. എന്താ ഈ ജോയിനര്, വിരാമം എന്നൊക്കെ പറയുന്നതു്?
ഓ, സോറി. അതു പറയാം.
ആസ്കി ഫോണ്ടുകളില് (ഉദാ: ദീപിക പത്രത്തിലെ ഫോണ്ടു്) ല എന്നതും ല്ല എന്നതും രണ്ടു കാര്യങ്ങളാണു്. തമ്മില് യാതൊരു ബന്ധവുമില്ലാത്ത രണ്ടു് അക്ഷരങ്ങള്. അവയെ സൂചിപ്പിക്കാന് രണ്ടു വ്യത്യസ്ത ആസ്കി കോഡുകള് ഉപയോഗിക്കുന്നു.
യൂണിക്കോഡില് സംഗതി വ്യത്യസ്തമാണു്. അവിടെ ല എന്നതും ല്ല എന്നതും ഒരു ബന്ധവുമില്ലാത്ത രണ്ടു കാര്യങ്ങളല്ല. അവിടെ ല്ല എന്നൊരു അക്ഷരമില്ല. അതു് ല + വിരാമം + ല എന്നു മൂന്നു സംഗതികള് ചേര്ന്നതാണു്. വിരാമം എന്നതു് അതിനു തൊട്ടു മുമ്പുള്ള അക്ഷരത്തെ ചില രീതിയില് വ്യത്യാസപ്പെടുത്തുന്ന ഒരു സ്പെഷ്യല് കാരക്ടര് ആണു്. ഇവിടെ അതു് ല എന്നതിലെ അകാരത്തെ കളഞ്ഞിട്ടു് ല് എന്ന ശുദ്ധവ്യഞ്ജനമാക്കുന്നു. സാധാരണയായി അതു ചെയ്യുന്നതു് ഒരു ചന്ദ്രക്കല ഇട്ടു് ആയതു കൊണ്ടു് ചിലര് അതിനെ “ചന്ദ്രക്കല” എന്നു പറയാറുണ്ടു്. പക്ഷേ വിരാമം ഉള്ളിടത്തൊക്കെ ചന്ദ്രക്കല ഉണ്ടാവണമെന്നില്ല. ഉദാഹരണം ല്ല എന്നതു തന്നെ.
അല്പം കൂടി വലിയ ഒരു കൂട്ടക്ഷരം നോക്കാം. ഗ്ദ്ധ എന്ന അക്ഷരം യൂണിക്കോഡില് എപ്പോഴും ഗ + വിരാമം + ദ + വിരാമം + ധ ആണു്. അതു കാണിക്കുന്ന ഫോണ്ടുകള് അതിനെ ഒറ്റ അക്ഷരമായോ ഗ + ചന്ദ്രക്കല + ദ്ധ എന്നോ ഗ്ദ + ചന്ദ്രക്കല + ധ എന്നോ ഗ + ചന്ദ്രക്കല + ദ + ചന്ദ്രക്കല + ധ എന്നോ കാണിച്ചെന്നിരിക്കും. (ഫോണ്ടിലോ ഓപ്പറേറ്റിംഗ് സിസ്റ്റത്തിലെ ലേ ഔട്ട് എഞ്ചിനോ ബഗ്ഗുണ്ടെങ്കില് വേറേ രീതിയിലും കണ്ടെന്നിരിക്കാം.) എങ്കിലും ആ യൂണിക്കോഡ് ടെക്സ്റ്റ് സൂക്ഷിച്ചിരിക്കുന്ന ഒരു ഫയലില് എപ്പോഴും 0D17(ഗ), 0D4D(വിരാമം), 0D26(ദ) 0D4D (വിരാമം), 0D27 (ധ) എന്നു് അഞ്ചു യൂണിക്കോഡ് കോഡുകളേ ഉണ്ടായിരിക്കുകയുള്ളൂ. യൂണിക്കോഡിലെ (പതിപ്പു് 5.0) മലയാളം കോഡുകള് ഏതൊക്കെയാണെന്നു് ഇവിടെ വായിക്കാം.
ഏതു തരം എന്കോഡിംഗ് ആണുപയോഗിക്കുന്നതു് എന്നതിനെ ആശ്രയിച്ചു് ഫയലിലുള്ള ബൈറ്റുകള്ക്കു് വ്യത്യാസമുണ്ടായിരിക്കും. ഉദാഹരണമായി മലയാളത്തിലെ ഓരോ കോഡിനും മൂന്നു ബൈറ്റു് ഉപയോഗിക്കുന്ന utf-8 എന്ന രീതിയില് (ഇതാണു് ഭൂരിഭാഗം വെബ്പേജുകളില് ഉപയോഗിക്കുന്നതു്) ഗ്ദ്ധ എന്നതിലെ അഞ്ചു യൂണിക്കോഡ് കോഡുകളെ E0 B4 97 E0 B5 8D E0 B4 A6 E0 B5 8D E0 B4 A7 എന്നു പതിനഞ്ചു ബൈറ്റുകള് കൊണ്ടു സൂചിപ്പിക്കുമ്പോള് മലയാളം കോഡുകള്ക്കു രണ്ടു ബൈറ്റു വീതം ഉപയോഗിക്കുന്ന utf-16 രീതിയില് അതിനെ 0D 17 0D 4D 0D 26 0D 4D 0D 27 എന്നു പത്തു ബൈറ്റുകളില് സൂചിപ്പിക്കുന്നു.
ഇനി വിദഗ്ദ്ധന് എന്നെഴുതുന്ന ഒരാള്ക്കു് അതു് ഗ + ചന്ദ്രക്കല + ദ്ധ എന്നു തന്നെ കാണണം എന്നു നിര്ബന്ധമുണ്ടെന്നിരിക്കട്ടേ. അതിനുള്ള വഴിയാണു് ZWNJ. Zero Width Non-Joiner എന്നതിന്റെ ചുരുക്കം. ഇവിടെ ഗ്ദ്ധ എന്നതിനെ ഗ, വിരാമം, ZWNJ, ദ, വിരാമം, ധ എന്നു സൂചിപ്പിക്കുന്നു-ഗ്ദ്ധ എന്നു കാണുവാന് വേണ്ടി.
മിക്കവാറും ടെക്സ്റ്റ് എഡിറ്ററുകളും ബ്രൌസറുകളും ഗയെയും ദ്ധയെയും വേര്തിരിച്ചു തന്നെ കാണിക്കും. പക്ഷേ, ഈ ടെക്സ്റ്റ് നെറ്റ്വര്ക്കിലൂടെ യാത്ര ചെയ്യുമ്പോഴോ ഡാറ്റാബേസുകളില് ശേഖരിച്ചിട്ടു തിരിച്ചെടുക്കുമ്പോഴോ ഈ-മെയില്, ഫീഡ് റീഡറുകള് തുടങ്ങിയ സ്ഥലങ്ങളില് പരിവര്ത്തനം ചെയ്യുമ്പോഴോ ഈ ZWNJ നഷ്ടപ്പെട്ടു പോയേക്കാം. കാരണം യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് അനുസരിച്ചു് അതൊരു ഡീഫോള്ട്ട് ഇഗ്നോരബിള് കാരക്ടര് ആണു്. അങ്ങനെ സംഭവിച്ചാലും ഗ്ദ്ധ (ഗ + ചന്ദ്രക്കല + ദ്ധ) എന്നതു് ഗ്ദ്ധ (ഒറ്റ ഗ്ലിഫ്) ആയിപ്പോകുമെന്നേ ഉള്ളൂ. ഇതൊരു വലിയ പ്രശ്നമല്ല-കാണാന് അല്പം അലോസരം ഉണ്ടാക്കിയാലും.
ഇതു പോലെയുള്ള മറ്റൊരു ഡീഫോള്ട്ട് ഇഗ്നോറബിള് കാരക്ടര് ആണു് ZWJ (Zero Width Joiner). രണ്ടു കാരക്ടരുകളെ ഒന്നിച്ചേ കാണിക്കാവൂ എന്നാണു് ഇതിന്റെ അര്ത്ഥം. ഒരു ഉദാഹരണം ഇംഗ്ലീഷില് fi എന്നെഴുതുമ്പോള് അവ രണ്ടും ചേര്ത്തെഴുതി എന്നു കാണിക്കാന് f, ZWJ, i എന്നെഴുതുന്നതാണു്. ഇതു് fi എന്നു കാണിക്കും. ഇതിലെ ZWJ നഷ്ടപ്പെട്ടു fi എന്നായാലും വലിയ കുഴപ്പമൊന്നുമില്ലാത്തതിനാല് ഇവിടെ ZWJ ഉപയോഗിച്ചതില് തെറ്റില്ല. (ചേര്ന്നു നില്ക്കുന്ന fi-യ്ക്കും ഒരു പ്രത്യേക കോഡ് പോയിന്റുണ്ടെന്നതു മറ്റൊരു കാര്യം.)
മിക്കവാറും എല്ലാ സ്ക്രിപ്റ്റുകള്ക്കും ഈ ജോയിനറുകള് ഫോര്മാറ്റ് കാരക്ടറുകള് (അക്ഷരങ്ങള്ക്കു bold, italics തുടങ്ങിയ സ്വഭാവങ്ങള് കൊടുക്കുന്ന മാര്ക്കറുകള്) പോലെയാണു്. നഷ്ടപ്പെട്ടാലും അര്ത്ഥവ്യത്യാസമുണ്ടാവുന്നില്ല.
ചുരുക്കം ചില സ്ക്രിപ്റ്റുകളില് ജോയിനറുകള് ഫോര്മാറ്റ് വ്യത്യാസത്തില് അല്പം കൂടി കൂടിയ സെമാന്റിക് വ്യത്യാസമുണ്ടാക്കുന്നുണ്ടു്. കൂട്ടക്ഷരങ്ങള് (conjuncts) ഉള്ള ഇന്ത്യന് ഭാഷകളും അറബിയുമാണു് ഇവയില് പ്രധാനം. കൂട്ടക്ഷരങ്ങള് ഉണ്ടാക്കുമ്പോള് കര്ത്താവിന്റെ അഭിരുചിക്കനുസരിച്ചുള്ള രൂപം വരാന് ജോയിനറുകള് ഉപയോഗിക്കാതെ നിവൃത്തിയില്ല. പക്ഷേ ഇവിടെയും ജോയിനറുകള് അര്ത്ഥവ്യത്യാസമുണ്ടാക്കാതിരിക്കേണ്ടതു് ആവശ്യമാണു്.
അപ്പോള് സദ്വാരം, ഉമേശ്വരന്, വന്യവനിക, കണ്വലയം,…?
സദ്വാരം (സ + ദ്വാരം, സദ് + വാരം), ഉമേശ്വരന് (ഉമാ + ഈശ്വരന്, ഉമേശ് + വരന്) തുടങ്ങിയവയ്ക്കു രണ്ടര്ത്ഥം പറയാമെങ്കിലും അതു ഭാഷയുടെ പ്രത്യേകതയും പലപ്പോഴും സൌന്ദര്യവുമാണു്. (ഇതു സുറുമയും എവിടെയോ പറഞ്ഞിട്ടുണ്ടെന്നാണു് ഓര്മ്മ.) “പരമസുഖം ഗുരുനിന്ദ കൊണ്ടുമുണ്ടാം” എന്ന വരിയിലെ “പരമസുഖം” എന്ന വാക്കിനു ജോയിനറുകള് ഇല്ലാതെ തന്നെ രണ്ടു പിരിവുകള് (പരമ + സുഖം, പരം + അസുഖം) ഉണ്ടാകുന്നതു പോലെയാണിതു്. “സഭംഗശ്ലേഷം” എന്നാണു് ഇതിനെ കാവ്യശാസ്ത്രത്തില് പറയുന്നതു്. അര്ത്ഥശങ്ക ഉണ്ടാകരുതു് എന്നു നിര്ബന്ധമാണെങ്കില് പിരിച്ചു തന്നെ എഴുതുകയോ (സദ്-വാരം) ബ്രായ്ക്കറ്റിലോ ഫുട്ട്നോട്ടിലോ കൊടുക്കുകയോ ചെയ്യുക. വന്യവനിക (വന്യ-വനിക, വന്-യവനിക), കണ്വലയം (കണ്വ-ലയം, കണ്-വലയം) തുടങ്ങിയവയുടെയും സ്ഥിതി ഇതു തന്നെ. ഇതു ചില്ലുവാദത്തിനു് അനുകൂലമോ പ്രതികൂലമോ ആയ വസ്തുതയാണെന്നു് എനിക്കു തോന്നുന്നില്ല.
എന്തുട്ടാ ഈ ഐഡിയെന്നും സ്പൂഫിംഗും?
അറ്റോമിക് ചില്ലിനെ അനുകൂലിച്ചും എതിര്ത്തും ആളുകള് വാദിച്ചപ്പോള് IDN-നെപ്പറ്റിയും സ്പൂഫിങ്ങിനെപ്പറ്റിയും വളരെ പറഞ്ഞിരുന്നു. തികച്ചും ബാലിശമായ വാദങ്ങളാണു് അവ. ഒരു വെബ്പേജിന്റെ അഡ്രസ്സു പോലെ കാഴ്ചയ്ക്കു തോന്നുന്ന മറ്റൊരു അഡ്രസ് ഉപയോഗിച്ചു് ഉപഭോക്താക്കളെ വഴി തെറ്റിക്കുന്നതാണു് ഇവിടെ ഉദ്ദേശിക്കുന്നതു്. ഇതു് ഇന്റര്നെറ്റ് സെക്യൂരിറ്റി ഇഷ്യൂ ആണു്; യൂണിക്കോഡുമായി ബന്ധപ്പെട്ടതല്ല. ഉദാഹരണമായി, a എന്ന ആകൃതിയുള്ള അക്ഷരം പല ഭാഷകളിലുമുണ്ടു്. ഒന്നിനു പകരം മറ്റൊന്നുപയോഗിച്ചു് സ്പൂഫിംഗ് ചെയ്യാം. (“Paypal spoofing” എന്നൊന്നു സേര്ച്ചു ചെയ്തു നോക്കൂ. കൂടുതല് വിവരങ്ങള് കിട്ടും.)
മലയാളത്തിലും സ്പൂഫിംഗ് ഉണ്ടാക്കാന് ചില്ലുകള് എന്കോഡ് ചെയ്യുകയോ ചെയ്യാതിരിക്കുകയോ വേണ്ട. (രണ്ടു പക്ഷക്കാരുടെയും വാദങ്ങള് കേട്ടു മടുത്തു!) ഥ എന്ന മലയാള അക്ഷരത്തിനു പകരം മ (ம) എന്ന തമിഴ് അക്ഷരം ഉപയോഗിക്കാം. ട എന്ന മലയാള അക്ഷരത്തിനു പകരം എസ് (s) എന്ന ഇംഗ്ലീഷ് അക്ഷരം ഉപയോഗിക്കാം. മലയാളത്തില്ത്തന്നെ ന് എന്ന ചില്ലിനു പകരം 9 (൯) എന്ന അക്കവും ര് എന്ന ചില്ലിനു പകരം 4 (൪) എന്ന അക്കവും ഉപയോഗിക്കാം. അനുസ്വാരവും ഠ എന്ന അക്ഷരവും ഒ (o) എന്ന ഇംഗ്ലീഷ് അക്ഷരവും 0 എന്ന അക്കവും ൦ എന്ന മലയാള അക്കവും ഉപയോഗിച്ചും സ്പൂഫിംഗ് നടത്താം.
സ്പൂഫിംഗ് തടയുന്നതു് കൂടുതല് സങ്കീര്ണ്ണമായ വിഷയമാണു്. അറ്റോമിക് ചില്ലുകള് എന്കോഡ് ചെയ്യുന്നതും അതുമായി കൂട്ടിക്കുഴയ്ക്കുന്നതു് വിഷയത്തില് നിന്നു വ്യതിചലിക്കലാണു്.
അപ്പോള്പ്പിന്നെ എന്തിനാണു് അറ്റോമിക് ചില്ലുകള്? പാല് എന്നും പാല് എന്നും എഴുതിയാല് അര്ത്ഥം മാറുന്നില്ലല്ലോ?
മുകളില് പറഞ്ഞതു പോലെ, ജോയിനറുകള് നഷ്ടപ്പെടുന്നതു കൊണ്ടു വരുന്ന വിഷ്വല് ഡിസ്റ്റോര്ഷന് അറ്റോമിക് ചില്ലുകളെ അനുകൂലിക്കാനോ എതിര്ക്കാനോ ഉള്ള മതിയായ കാരണമല്ല. കാരണമാവണമെങ്കില് ജോയിനര് നഷ്ടപ്പെടുന്നതിനു മുമ്പും പിമ്പുമുള്ള രൂപങ്ങള് തികച്ചും വ്യത്യസ്തങ്ങളാവണം. അവയ്ക്കു് അങ്ങോട്ടുമിങ്ങോട്ടും മാറ്റാന് പറ്റാത്ത വിധം വ്യത്യസ്തങ്ങളായ അര്ത്ഥം ഉണ്ടാവണം.
ഇതു് ഒരു കാര്യത്തിലേ ഉണ്ടാകുന്നുള്ളൂ. അതാണു് അറ്റോമിക് ചില്ലു വാദികള് തങ്ങളുടെ തുറുപ്പുചീട്ടായി മുന്നില് വെയ്ക്കുന്നതു്. ആ കാരണമാകട്ടേ, മതിയായ കാരണമാണു താനും.
സംവൃതോകാരത്തെ ചില്ലില് നിന്നു വ്യവച്ഛേദിക്കുന്നതാണു് ആ കാരണം.
ദാ, അടുത്ത സാധനം. എന്താ ഈ സംവൃതോകാരം?
പണ്ടു് എന്നു പറയുമ്പോള് അവസാനം വരുന്ന ശബ്ദമാണു സംവൃതോകാരം. അതു് അ അല്ല, ഉ അല്ല, സംവൃതവുമല്ല. ഭാഷാശാസ്ത്രജ്ഞര് അതിനെ Schwa എന്നു വിളിക്കുന്നു. പല ഭാഷകളിലുമുള്ള ഒരു ശബ്ദമാണതു്. ഇതിനെ പ്രത്യേകമായി എഴുതിക്കാണിക്കാറുണ്ടു് എന്നതാണു് മലയാളത്തിന്റെ ഒരു പ്രത്യേകത.
പണ്ടു് എന്ന വാക്കിനെ പല തരത്തില് എഴുതിപ്പോന്നിരുന്നു. വളരെ പഴയ മലയാളത്തില് പണ്ട എന്നായിരുന്നു എഴുതിയിരുന്നതു്. ഗുണ്ടര്ട്ടു മുതലായ പാതിരിമാര് അതിനെ പണ്ടു എന്നെഴുതി. (“സ്ത്രീയേ, നിനക്കു എന്തു?” എന്നു പഴയ ബൈബിളില്.) അതേ സമയത്തു തന്നെ വളരെപ്പേര് (പ്രധാനമായും വടക്കന് കേരളത്തിലുള്ളവര്) അതിനെ പണ്ട് എന്നെഴുതി. (പണ്ടു എന്നതിനെ ‘പാതിരിമലയാളം’ എന്നു കളിയാക്കുകയും ചെയ്തു.) ഈ കാര്യങ്ങളൊക്കെ ഏ. ആര്. രാജരാജവര്മ്മ “കേരളപാണിനീയ”ത്തിന്റെ പീഠികയില് വിശദമായി പറഞ്ഞിട്ടുണ്ടു്. ഏ. ആറിന്റെ കാലത്താണു സംവൃതോകാരത്തിന്റെ പല രൂപങ്ങളെ ചേര്ത്തു പണ്ടു് എന്ന രൂപം സാര്വ്വത്രികമായതു്. ഇതു വളരെയധികം ആളുകള് ഉപയോഗിച്ചെങ്കിലും ഒരു നല്ല ശതമാനം ആളുകളും സംവൃതോകാരാത്തിനു ചന്ദ്രക്കല മാത്രം ഉപയോഗിക്കുന്ന രീതി തുടര്ന്നു വന്നു. 1970-കളില് പുതിയ ലിപി വ്യാപകമായപ്പോള് അതുപയോഗിക്കുന്ന എല്ലാവരും തന്നെ ഉകാരത്തിന്റെ ചിഹ്നമിടാതെ സംവൃതോകാരം എഴുതിത്തുടങ്ങി. ഇപ്പോള് അതാണു ബഹുഭൂരിപക്ഷം ആളുകളും ഉപയോഗിക്കുന്നതു് എന്നതാണു വാസ്തവം.
(ഇതിനെപ്പറ്റി ഉദാഹരണങ്ങളുള്ള പേജുകളുടെ പടങ്ങള് ചേര്ത്തു് സിബു പണ്ടു പ്രസിദ്ധീകരിച്ചതു് ഇവിടെ.)
എഴുത്തു തുടങ്ങിയപ്പോള് മുതല് ഉകാരത്തിന്റെ ചിഹ്നത്തോടു കൂടി മാത്രമേ ഞാന് സംവൃതോകാരം എഴുതിയിട്ടുള്ളൂ. ഇപ്പോഴും അതു തുടരുന്നു. ഒരു കാലത്തു് അതു മാത്രമാണു ശരി എന്നു ഞാന് ഘോരഘോരം വാദിച്ചിട്ടുണ്ടു്. (ഞാന് രണ്ടു കൊല്ലത്തിനു മുമ്പെഴുതിയ സംവൃതോകാരം, സംവൃതോകാരവും ലിപിപരിഷ്കരണങ്ങളും, സംവൃതോകാരത്തെപ്പറ്റി വീണ്ടും എന്നീ ലേഖനങ്ങള് കാണുക.) സംവൃതോകാരത്തെ ഉകാരത്തിന്റെ ചിഹ്നത്തോടൊപ്പം ചന്ദ്രക്കലയിട്ടെഴുതുന്നതു തെറ്റല്ല എന്നാണു് ഇപ്പോഴും എന്റെ വിശ്വാസം. എങ്കിലും അതു മാത്രമാണു ശരി എന്ന കടുംപിടുത്തത്തില് നിന്നു വളരെയധികം പിറകോട്ടു പോയിരിക്കുന്നു. പുതിയ ലിപി പ്രാവര്ത്തികമാകുന്നതിനു മുമ്പു തന്നെ (സത്യം പറഞ്ഞാല്, സംവൃതോകാരത്തെ പണ്ടു് എന്നു് എഴുതുന്നതിനു മുമ്പു തന്നെ) ചന്ദ്രക്കല മാത്രം ഉപയോഗിച്ചു സംവൃതോകാരം എഴുതിയിരുന്നു എന്ന അറിവും, ഇന്നുള്ള മലയാളപുസ്തകങ്ങളില് ഭൂരിപക്ഷവും ഉകാരത്തിന്റെ ചിഹ്നമില്ലാതെ ചന്ദ്രക്കല മാത്രമായാണു സംവൃതോകാരത്തെ എഴുതുന്നതു് എന്ന കണ്ടെത്തലുമാണു് ഇതിനു കാരണം.
ചുരുക്കം പറഞ്ഞാല് സംവൃതോകാരത്തെ ഉകാരത്തിന്റെ ചിഹ്നമില്ലാതെ ചന്ദ്രക്കല മാത്രം ഇട്ടു് (ഇട്ട് എന്ന്) എഴുതിത്തുടങ്ങിയതു പലരും പറയുന്നതു പോലെ പുതിയ ലിപി എഴുപതുകളില് പ്രാബല്യത്തില് വന്നപ്പോഴല്ല. അതൊരു തെറ്റാണെങ്കില് അതു തിരുത്താന് നാം വൈകിയതു മുപ്പത്തെട്ടു വര്ഷമല്ല, നൂറില് ചില്വാനം വര്ഷമാണു്.
മലയാളഭാഷ ഉപയോഗിക്കുന്ന ഭൂരിപക്ഷം എഴുത്തുകാരും അവലംബിക്കുന്ന ഒരു രീതി തെറ്റും പ്രാചീനവും നവീനവുമല്ലാത്ത ഇടയ്ക്കൊരു ചെറിയ കാലഘട്ടത്തില് മാത്രം (ഏകദേശം 70 വര്ഷം) കൂടുതല് പ്രാവര്ത്തികമായിരുന്നതുമായ ഒരു രീതി മാത്രം ശരിയും ആണു് എന്നു് ഈ അടുത്ത കാലത്തു വരെ ഞാനും ഇപ്പോഴും രചന, സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിംഗ് തുടങ്ങിയവരും ഉന്നയിക്കുന്ന വാദം വളരെ ബാലിശമാണു്. കഥകളുടെയും കവിതകളുടെയും മറ്റു പുസ്തകങ്ങളുടെയും കാര്യം അവിടെ നില്ക്കട്ടേ. മലയാളഭാഷയിലെ തെറ്റുകള് തിരുത്താനായി വളരെയധികം പുസ്തകങ്ങള് എഴുതിയിട്ടുള്ള പന്മന രാമചന്ദ്രന് നായരുടെ പുസ്തകങ്ങളിലും സംവൃതോകാരം ചന്ദ്രക്കല മാത്രമായാണു് അച്ചടിച്ചിരിക്കുന്നതു്. അതു തെറ്റാണെന്ന തോന്നല് അദ്ദേഹത്തിനുണ്ടായിരുന്നെങ്കില് അങ്ങനെ അച്ചടിച്ച ഒരു പുസ്തകം വെളിച്ചം കാണാന് അദ്ദേഹം സമ്മതിക്കില്ലായിരുന്നു.
ഇതും ആറ്റോമിക് ചില്ലുവാദവും തമ്മില് എന്തു ബന്ധം?
പണ്ടു്, വാക്കു്, തൈരു് തുടങ്ങിയ വാക്കുകളെ പണ്ട്, വാക്ക്, തൈര് എന്നിങ്ങനെയും എഴുതുന്നതു തെറ്റല്ല എന്ന വസ്തുതയാണു് അറ്റോമിക് ചില്ലുവാദികള്ക്കു് അനുകൂലമായ വസ്തുത.
ഇതനുസരിച്ചു്, അവനു് എന്ന വാക്കിനെ അവന് എന്നും എഴുതാം. നു് എന്നതു് ന + ഉ (ചിഹ്നം) + വിരാമം ആണു്. (യൂണിക്കോഡില് വിരാമം ഒരു വ്യഞ്ജനത്തിനു ശേഷം അതിലുള്ള സ്വരം കളയാന് മാത്രമാണുള്ളതു് എന്നൊരു വാദം വേറെ ഒരിടത്തു നടക്കുന്നുണ്ടു്. അവരാരും സംവൃതോകാരം എഴുതുന്ന രീതി കണ്ടിട്ടില്ലെന്നു തോന്നുന്നു.) ന് എന്നതു ന + വിരാമം എന്നും. ഇപ്പോള് ന് എന്ന ചില്ലക്ഷരം യൂണിക്കോഡില് എഴുതുന്നതു് ന + വിരാമം + ZWJ എന്നാണു്. മുന്പറഞ്ഞ പ്രകാരം ഇതിലെ ZWJ നഷ്ടപ്പെട്ടാല് ന് എന്ന ചില്ലക്ഷരം ന് എന്നാകും. അതായതു്, അവന് എന്നതിനും അവന് എന്നതിനും വ്യത്യാസമില്ലാതെ പോകും. ഇതു് അനുവദിക്കാന് സാദ്ധ്യമല്ല. ഇതു മുകളില്പ്പറഞ്ഞ സഭംഗശ്ലേഷമല്ല.
അവന്/അവനു് എന്നതു് ഒരുദാഹരണം മാത്രം. ഇതുപോലെ ചിന്താക്കുഴപ്പത്തിനു വഴി തെളിക്കുന്ന അനേകം വാക്കുകള് മലയാളത്തിലുണ്ടു്. ഈ ചിന്താക്കുഴപ്പം ഒഴിവാക്കേണ്ടതുണ്ടു്.
എന്താണു അറ്റോമിക് ചില്ലുവാദികള് പറയുന്നതു്?
ചില്ലക്ഷരങ്ങളെ മൂലവ്യഞ്ജനം + വിരാമം + ZWJ എന്നല്ലാതെ ഒരു പ്രത്യേക കോഡു കൊണ്ടു സൂചിപ്പിക്കുക. അപ്പോള് ഒരിക്കലും ഒന്നു മറ്റേതാകുന്ന പ്രശ്നം ഉണ്ടാവില്ല. ഏതു ബ്രൌസറിലും ഓപ്പറേറ്റിംഗ് സിസ്റ്റത്തിലും ചില്ലക്ഷരങ്ങള് കാണാന് കഴിയും.
എന്റെ അഭിപ്രായം:
മുകളില്പ്പറഞ്ഞ കാരണങ്ങള് കൊണ്ടു് എനിക്കു് ഇപ്പോള് അറ്റോമിക് ചില്ലുകള് വേണം എന്ന വാദത്തിനോടാണു യോജിപ്പു്. അതിനെ എതിര്ക്കുന്ന യുക്തിയുക്തമായ വാദം കേട്ടാല് ഈ അഭിപ്രായം തിരുത്താന് ഞാന് തയ്യാറാണു്. പക്ഷേ, ആ വാദം “അവനു് എന്നതിനെ അവന് എന്നെഴുതുന്നതു തെറ്റാണു്” എന്നതാവരുതു് എന്നു മാത്രം.
വാല്ക്കഷണം
ഇതു ഫയര് ഫോക്സ് 2-വില് വായിക്കുന്നവര് ചില്ലായ ന്, ചില്ലല്ലാത്ത ന് എന്നിവ ഒരുപോലെ കണ്ടു് അന്തം വിട്ടിരിക്കുന്നുണ്ടാവാം. അവര് ഈ പോസ്റ്റിന്റെ ആദിയിലുള്ള മൈക്ക് ടെസ്റ്റിംഗ് ഒന്നു കൂടി വായിക്കുക.
അറ്റോമിക് ചില്ലുണ്ടായിരുന്നെങ്കില് ഈ കുഴപ്പമൊന്നുമുണ്ടാവില്ലായിരുന്നു. ഭാവിയിലെങ്കിലും ബ്ലോഗ് വായനക്കാര്ക്കു് ഈ പ്രശ്നമുണ്ടാവില്ല എന്നു പ്രത്യാശിക്കാം.
ഇതിന്റെ ചില കമന്റുകള്ക്കു മറുപടി:
[2008-02-05]
സുരേഷ് (സുറുമ?) ഈ കമന്റില് ഇങ്ങനെ പറയുന്നു:
പ്രചാരം കൂടുതലാണു് എന്നതുകൊണ്ടുമാത്രമായിരിക്കും ഉദാഹരിക്കാന് ഉമേഷ് ഗൂഗ്ള് തെരെഞ്ഞെടുത്തതു് എന്നു കരുതുന്നു
.സ്വതന്ത്രസോഫ്റ്റ്വെയന് ആയ ബീഗ്ള് GNU/Linux സിസ്റ്റങ്ങളില് ഡെസ്ക്ടോപ് സെര്ച്ചിനു് ഉപയോഗിച്ചുപോരുന്നുണ്ടു്.അതുപയോഗിച്ചു് നടത്തിയ തെരച്ചിലിന്റെ പടം കൂടി ഒന്നിടണമെന്നു് അഭ്യര്ത്ഥിക്കുന്നു.ഒന്നും വേണ്ട, യാഹൂ,msn എന്നിയും ഇതുപോലുള്ള ഫലമാണോ തരുന്നതു് എന്നുകൂടി വ്യക്തമാക്കൂ.
അതായതു്, ഇതു് ഗൂഗിളിലെ ഒരു ബഗ്ഗാണെന്നു്, അല്ലേ? ഇനി, ഈ പോസ്റ്റെഴുതാന് വേണ്ടി ഞാന് ഗൂഗിള് കോഡില് കയറി ഈ ബഗ് അവിടെ ഉണ്ടാക്കി എന്നു പറയില്ലല്ലോ, അല്ലേ? (തമാശയല്ല, ജീമെയിലില് ജോയിനര് കളയുന്നതു സിബു മനഃപൂര്വ്വം ഉണ്ടാക്കിയ ഒരു ബഗ് ആണെന്നു് അനിവറാണെന്നു തോന്നുന്നു ഒരിക്കല് പറഞ്ഞിരുന്നു
)
ഇനി, യാഹൂ, എം. എസ്. എന്. എന്നിവയ്ക്കു് ഈ കുഴപ്പമില്ല എന്ന വാദത്തെപ്പറ്റി, ദാ അവ താഴെ. മറ്റുള്ള കാര്യങ്ങള്ക്കു വ്യത്യാസമില്ല. വിന്ഡോസ് എക്സ്. പി., ഇന്റര്നെറ്റ് എക്സ്പ്ലോറര്, കാര്ത്തിക ഫോണ്ട്.
ആദ്യമായി, അതേ സേര്ച്ച് യാഹൂ ഉപയോഗിച്ചു്:
അവനെയും അവനെയും കണ്ടല്ലോ? യാഹുവിന്റെ അവന് ഗൂഗിളിന്റെ അവനുമായി വ്യത്യാസമൊന്നുമില്ല എന്നും കണ്ടല്ലോ?
ഇനി, അതു തന്നെ എം. എസ്. എന്. ലൈവ് സേര്ച്ച് ഉപയോഗിച്ചു്:
ക്ഷമിക്കണം, ബീഗിള് ഇപ്പോള് കൈവശമില്ല. ഇനി അതില് ജോയിനര് കളയുന്നില്ല എന്നതു കൊണ്ടു് ഞാന് പറഞ്ഞതു കൊണ്ടു വ്യത്യാസമൊന്നും വരാനില്ല. ജോയിനറുകള് എപ്പോഴും നഷ്ടപ്പെടും എന്നു ഞാന് പറഞ്ഞില്ല, നഷ്ടപ്പെട്ടേയ്ക്കാം എന്നേ പറഞ്ഞുള്ളൂ.
ഇനി മുതല്, ദയവായി ആരോപണം ഉന്നയിക്കുന്നതിനു മുമ്പു് അതൊന്നു പരീക്ഷിച്ചു നോക്കുന്നതു നന്നായിരിക്കും. ഓരോന്നും പരീക്ഷിച്ചു നോക്കി സ്ക്രീന്ഷോട്ടെടുത്തു് അപ്ലോഡു ചെയ്തു പോസ്റ്റു തിരുത്താന് അല്പം ബുദ്ധിമുട്ടാണേ, അതുകൊണ്ടാണു്
[2008-02-13]
ഗൂഗിള്, യാഹൂ, ലൈവ് സേര്ച്ച്, വെബ് ദുനിയാ എന്നീ സേര്ച്ച് എഞ്ചിനുകള് ജോയിനറുകളെ കൈകാര്യം ചെയ്യുന്നതിനെപ്പറ്റി കമന്റുകള് ഉണ്ടായിരുന്നു. ഞാന് കണ്ടെത്തിയതു താഴെ:
Xഅവന്Y എന്നതു് (X, Y എന്നിവ ഏതെങ്കിലും ഫോര്മാറ്റ് സ്ട്രിംഗുകള്) ചില്ലോടെ കാണണമെങ്കില് X-അ-വ-ന-വിരാമം-ZWJ-Y എന്നിവ ഉണ്ടാവണം. അതായതു്, U+0D05 U+0D35 U+0D28 U+0D4D U+200D എന്നീ കോഡ്പോയിന്റുകള് ഫോര്മാറ്റിംഗ് കാരക്ടേഴ്സ് ആയ X, Y എന്നിവയ്ക്കു് ഇടയില് വരണം.
ഗൂഗിള് സേര്ച്ച് റിസല്റ്റുകള് കാണിക്കുന്ന പേജില് ZWJ-യെ ഒഴിവാക്കുന്നു. <b->-അ-വ-ന-വിരാമം-<-/-b-> (U+003C U+0062 U+003E U+0D05 U+0D35 U+0D28 U+0D4D U+003C U+002F U+0062 U+003E) എന്നേ ഉള്ളൂ. ZWJ (U+200D)-യെ ഒഴിവാക്കി.
യാഹൂ ZWJ കളയുന്നില്ല. പക്ഷേ, അവന് എന്നതു കാണിക്കുമ്പോള് <b->-അ-വ-ന-വിരാമം-ZWJ-<-/-b-> (U+003C U+0062 U+003E U+0D05 U+0D35 U+0D28 U+0D4D U+200D U+003C U+002F U+0062 U+003E) എന്നതിനു പകരം <b->-അ-വ-ന-വിരാമം-<-/-b->-ZWJ (U+003C U+0062 U+003E U+0D05 U+0D35 U+0D28 U+0D4D U+003C U+002F U+0062 U+003E U+200D) എന്നു കാണിക്കുന്നു. (അതായതു്, </b>-നെ ZWJ-നു ശേഷം ചേര്ക്കുന്നതിനു പകരം മുമ്പു ചേര്ക്കുന്നു.) അതു കൊണ്ടാണു് ബ്രൌസറില് ചില്ലക്ഷരം കാണാത്തതു്.
മൈക്രോസോഫ്റ്റ് ലൈവ് സേര്ച്ച് ചിലയിടത്തു യാഹൂ ചെയ്തതു പോലെ ചെയ്യുന്നു. മറ്റു ചിലടത്തു് ZWJ-യെ ZWNJ ആക്കുന്നുമുണ്ടു്. എന്തായാലും ജോയിനര് കളയുന്നില്ല എന്നു തോന്നുന്നു.
വെബ്ദുനിയാ ഒരു കുഴപ്പവും ഇല്ലാതെ ഇതു കൈകാര്യം ചെയ്യുന്നു. ZWJ-യെ കളയുന്നുമില്ല, അ-വ-ന-വിരാമം-ZWJ- എന്നു തന്നെ കാണിക്കുകയും ചെയ്യുന്നു. അതുകൊണ്ടു ചില്ലക്ഷരങ്ങള് ഹൈലൈറ്റു ചെയ്തു കാണാം. (എന്നു് എനിക്കു തോന്നി. കൂടുതല് താഴെ വായിക്കുക.)
ഇതില് നിന്നു് മലയാളത്തോടു് ഏറ്റവും നീതി പുലര്ത്തുന്നതു വെബ് ദുനിയാ ആണെന്നും, ഏറ്റവും മോശമായി മലയാളം സേര്ച്ചു ചെയ്യുന്നതു ഗൂഗിള് ആണെന്നും പറയാമോ?
വരട്ടേ. സ്വപ്നം (U+0D38 U+0D4D U+0D35 U+0D2A U+0D4D U+0D28 U+0D02) എന്നും സ്വപ്നം (U+0D38 U+0D4D U+0D35 U+0D2A U+0D4D U+200C U+0D28 U+0D02) എന്നും ഒന്നു സേര്ച്ചു ചെയ്തു നോക്കൂ. ഇവ തമ്മിലുള്ള വ്യത്യാസം പ, ന എന്നിവയെ വേര്തിരിച്ചു കാണിക്കാന് ഒരു ZWNJ ഇട്ടിട്ടുണ്ടു് എന്നു മാത്രമാണു്.
| സേര്ച്ച് എഞ്ചിന് | സ്വപ്നം ഫലങ്ങള് | സ്വപ്നം ഫലങ്ങള് |
| ഗൂഗിള് | 13200 | 13200 |
| യാഹൂ | 3270 | 445 |
| ലൈവ് സേര്ച്ച് | 221 | 65 |
| വെബ് ദുനിയാ | 104 | 104 |
യാഹൂവും ലൈവ് സേര്ച്ചും ജോയിനര് ഉള്ളതും ഇല്ലാത്തതും രണ്ടായി കണ്ടിട്ടു് രണ്ടു ഫലങ്ങള് തരുന്നു. ഗൂഗിളും വെബ്ദുനിയയും ഒരേ ഫലങ്ങളും. (ഗൂഗിള് കൂടുതല് ഫലങ്ങള് തരുന്നു എന്നതു് ഇവിടെ പ്രസക്തമല്ല.)
വെബ് ദുനിയയെപ്പറ്റിയുള്ള എന്റെ അഭിപ്രായം പിന്നെയും കൂടി. കൊള്ളാമല്ലോ, മലയാളത്തിനു പറ്റിയ സേര്ച്ച് എഞ്ചിന് തന്നെ!
പിന്നെ, നമ്മുടെ പഴയ അവനവന് കടമ്പ (പ്രയൊഗത്തിനു കടപ്പാടു് സുറുമയ്ക്കു്) തന്നെ ഒന്നു സേര്ച്ചു ചെയ്തു നോക്കി.
അവന് എന്നതു് വെബ്ദുനിയായില് സേര്ച്ചു ചെയ്തതു് ഇവിടെ:
അവന് എന്നതു വെബ്ദുനിയായില് സേര്ച്ചു ചെയ്തതു് ഇവിടെ.
ഇവ രണ്ടിലും വന്നിട്ടുള്ള സൂര്യഗായത്രി പോസ്റ്റിന്റെ ഫലം ശ്രദ്ധിക്കുക. (ചുവന്ന ചതുരത്തില് കാണിച്ചിട്ടുണ്ടു്) ഒരേ പോസ്റ്റിനെ രണ്ടു വാക്കുകള് കൊണ്ടു സേര്ച്ചു ചെയ്തപ്പോള് കാണിക്കുന്നതു വ്യത്യസ്തമായാണു് എന്നു കാണാം. ഇതെങ്ങനെ സംഭവിച്ചു? സൂര്യഗായത്രിയുടെ പോസ്റ്റില് പോയി നോക്കിയാല് “അവന്” എന്നാണെന്നു കാണാം. പിന്നെങ്ങനെ വെബ് ദുനിയാ “അവന്” എന്നു കാണിച്ചു?
ആകെ സംശയമായി. വെബ് ദുനിയാ നമ്മള് സേര്ച്ചു ചെയ്ത പദം ഈ പേജില് മാറ്റി വെയ്ക്കുന്നുണ്ടോ?
കൂടുതല് നോക്കിയപ്പോള് കാരണം വ്യക്തമായി. വെബ് ദുനിയാ ചെയ്യുന്നതു Partial search ആണു്. അവന് എന്നതു് അവന് + ZWJ ആയതിനാല് അതും ഫലത്തില് വന്നു എന്നു മാത്രം.
എങ്കിലും ജോയിനറുകളെ ഒഴിവാക്കിയാണു വെബ് ദുനിയായും സേര്ച്ചു ചെയ്യുന്നതു് എന്നു കാണാന് കഴിയും. കണ്മണി, കണ്മണി, കണ്മണി എന്നിവ ഒരേ എണ്ണം ഫലങ്ങളാണു തരുന്നതു്. അതു പോലെ വെണ്മ, വെണ്മ, വെണ്മ എന്നിവയും. യാഹുവും ലൈവ് സേര്ച്ചും ഇവയ്ക്കു് വ്യത്യസ്ത എണ്ണം ഫലങ്ങളാണു തരുന്നതു്.
ഇതു പൂര്ണ്ണമായും ശരിയാണോ എന്നു പറയാന് കഴിയില്ല. വെബ് ദുനിയായുടെ സേര്ച്ച് അല്പം കൂടി intelligent ആയതിനാലാവാം. ഒന്നിനെ സേര്ച്ചു ചെയ്യുമ്പോള് മറ്റു പലതും കൂടി ഉള്ക്കൊള്ളിക്കുന്ന രീതി ഒരു പക്ഷേ മലയാളത്തിനു വേണ്ടി വളരെ നന്നാക്കിയതാവാം. എങ്കിലും കണ്മണി, കണ്മണി എന്നിവ തിരഞ്ഞപ്പോള് എനിക്കു് ഈ പേജു കിട്ടി. ഇതില് കണ്മണി ഇല്ല. കണ്ണും വെണ്മണിയും ഉണ്ടു്.
വെബ് ദുനിയാ തികച്ചും ഒരു വ്യത്യസ്ത സേര്ച്ച് എഞ്ചിന് ആണെന്നേ എനിക്കു പറയാന് പറ്റുന്നുള്ളൂ
![]()
യാഹുവും ലൈവ് സേര്ച്ചും ജോയിനര് കളയാതെ സേര്ച്ചു ചെയ്യുന്നു. അവന്/അവന് എന്ന കാര്യത്തില് ചില്ലിന്റെ ഇപ്പോഴത്തെ വികലമായ എന്കോഡിംഗ് മൂലം അതു നന്നായി ഭവിക്കുന്നു. എന്നാല് സ്വപ്നം/സ്വപ്നം തുടങ്ങിയവയില് അതു് ആവശ്യത്തിനു ഫലങ്ങള് തരുന്നുമില്ല.
ഗൂഗിളിനെ ന്യായീകരിക്കാനോ അവരുടെ പരസ്യത്തിനു വേണ്ടിയോ അല്ല ഇതെഴുതിയതു്. ജോയിനറുകള് കളഞ്ഞു സേര്ച്ചു ചെയ്തതിനു് അവര്ക്കു് അതിന്റേതായ കാരണങ്ങള് ഉണ്ടാവും എന്നു കാണിക്കാന് ആണു്. ഇങ്ങനെ ജോയിനര് വേണ്ടെന്നു വെയ്ക്കാന് യൂണിക്കോഡ് സ്റ്റാന്ഡേര്ഡ് എതിരുമല്ല.
പിന്നെ, ചില ആപ്ലിക്കേഷനുകള് ജോയിനറുകളെ കണക്കാക്കാതെ ഇരുന്നേക്കാം എന്നു കാണിക്കാനായി മാത്രമായിരുന്നു ആ ഉദാഹരണം. ഗൂഗിളും വെബ് ദുനിയായും ജോയിനറുകളെ കണക്കാക്കുന്നില്ല എന്നും നാം കണ്ടു. യാഹുവും ലൈവ് സേര്ച്ചും ജോയിനര് കളയുന്നില്ല. അവ കളയുന്നുണ്ടെന്നു ഞാന് തെറ്റായി പറഞ്ഞതു് അവര് അതു ഹൈലൈറ്റു ചെയ്യുന്നതിലെ അപാകത കൊണ്ടായിരുന്നു. (ചൂണ്ടിക്കാട്ടിയ റാല്മിനോവിനു നന്ദി.) ഈ പോസ്റ്റിന്റെ ഉദ്ദേശ്യം ഏതൊക്കെ ആപ്ലിക്കേഷനുകള് എന്തൊക്കെ ചെയ്യുന്നു, ഏതിലൊക്കെ ബഗ്ഗുകളുണ്ടു് എന്നുള്ളതല്ല, മറിച്ചു് ജോയിനറുകളില് മാത്രമുള്ള വ്യത്യാസം ഗണ്യമാകത്തക്ക വിധത്തില് അവയെ ഉപയോഗിക്കാമോ എന്നതാണു്. നമുക്കു വിഷയത്തിലേക്കു വരാം.
സന്തോഷ് തോട്ടിങ്ങല് | 05-Feb-08 at 4:21 am | Permalink
ഉമേഷ്ജി, യൂണിക്കോഡിന്റെ ഇന്ഡിക് മെയിലിങ്ങ് ലിസ്റ്റിലുണ്ടായിരുന്നോ എന്നറിയില്ല. അവിടെ ഈ പ്രശ്നങ്ങളൊക്കെ ചര്ച്ച ചെയ്തിരുന്നു. ഇതു വായിക്കുന്നവര്ക്ക് അനുബന്ധമായി ആ ചര്ച്ചകളും വായിക്കാവുന്നതാണു്.
http://www.unicode.org/~ecartis/indic/indic.2008-01 ,
http://www.unicode.org/~ecartis/indic/indic.2008-02 എന്നീ പേജുകളിലെ ചര്ച്ചകള് വായിക്കാവുന്നതാണു്. New Malayalam codepoints എന്ന സബ്ജക്ടിലെ മെയിലുകളാണു് വായിക്കേണ്ടതു്. യൂസര്നെയിമും പാസ്സ്വേഡും ചോദിക്കുമ്പോള് കൊടുക്കേണ്ടതു് ഇതാണു്. Username: unicode-ml password: unicode
സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് ആണവചില്ലിനെതിരെ UTC യ്ക്കു് സമര്പ്പിച്ച വാദങ്ങളും വായിക്കുക. http://images.wikia.com/fci/images/2/23/SMC_Unicode_5.1.pdf
ഇനി സെര്ച്ച് റിസള്ട്ടുകള് ചില്ലുകളയുന്നു എന്നു പറഞ്ഞല്ലോ. ഇതിനെപ്പറ്റിയുള്ള ചര്ച്ചക്കിടയില് James Kass എന്നൊരാള് പറഞ്ഞതു താഴെക്കൊടുക്കുന്നു.
“Let’s suppose you are involved with a hypothetical search engine
company called “DataQuest” and, for one reason or another, decide
to research the frequency of web pages which offer text in the
fictional Klingon language/script using the ConScript Unicode
Registry’s Private Use Area Unicode encoding.
You might proceed by entering some common words into the
search box of your engine. If your engine restricts P.U.A. characters,
or maps them all to zero, your search results would be nothing.
However, since you pulled those common words from a web page
in the first place, you know that such pages exist. Would this
be a good indication that it is time to change the settings? Or
would it be better to encode Klingon in TUS? (smile)
If that hypothetical situation is too far-fetched, suppose you
are working for a real company and Malayalee users were complaining
about search results being too fuzzy because your collation interface
was stripping certain characters for comparison purposes.”
ഉമേഷ്ജീ, ലേഖനം മുഴുവനായില്ലല്ലോ? Canonical equivalence, How to handle existing text etc…
Aravind | 05-Feb-08 at 6:07 am | Permalink
ഹും….ദീര്ഘനിശ്വാസം.
എന്തരോ എന്തോ…
തര്ക്കത്തിന് തീരുമാനമാവാന് വോട്ട് വേണങ്കില് പറേണേ ഉമേഷ്ജി, പറയുന്നിടത്ത് കുത്താം..
ഈ പരിപാടിയില് എന്നെക്കൊണ്ട് അത്രയൊക്കേ പറ്റൂ. ഹല്ല പിന്നെ.
Aravind | 05-Feb-08 at 6:33 am | Permalink
പ്ലീസ് നോട്ട് : ഞാന് മുന്പിട്ട കമന്റിലെ ഈ വിഷയത്തിലെ നിസ്സഹായത എന്റെ അതി കഠിനമായ സമയക്കുറവ് മൂലം മാത്രമാണെന്നും, ബുദ്ധിപരമോ ഭാഷാജ്ഞാനപരമൊ ആയ യാതൊരു പരിമിതികളും കൊണ്ടല്ലെന്നും എല്ലാവരേയും വീണ്ടും വീണ്ടും ഓര്മിപ്പിക്കുകയാണ്.
ആരും തെറ്റിദ്ധരിക്കല്ലേ…….
;-)
കണ്ണൂരാന് | 05-Feb-08 at 7:07 am | Permalink
കുറെക്കാലമായി ഈ കോണ്ടസയുടെ പിന്നാലെ നടക്കുന്നു. ഇപ്പോഴാ വല്ലതുമൊക്കെ മനസ്സിലായത്. നന്ദി ഉമേഷ്ജി.
സിബു | 05-Feb-08 at 8:20 am | Permalink
സത്യത്തില് ആ ജെയിംസ് സായ്വെന്താണ് പറയുന്നത് എന്ന് മനസ്സിലായില്ല. എന്കോഡിംഗിന് എന്തു പ്രശ്നങ്ങളുണ്ടെങ്കിലും കമ്പനികള് അതിന് എന്തെങ്കിലും വര്ക്കെറൌണ്ട് കണ്ടുപിടിക്കുമെന്നോ.. ആയിരിക്കാം. അതുകൊണ്ട് എന്കോഡിംഗിന്റെ പ്രശ്നം പ്രശ്നമല്ലാതാവുമോ? അങ്ങനെയാണെങ്കില് യുണീക്കോഡ് തന്നെ ആവശ്യമില്ലായിരുന്നല്ലോ. നമുക്ക് ദീപികയും മനോരമയും ഒക്കെ ആയിത്തന്നെ പോകാമായിരുന്നു. കമ്പനികള് ആ സൈറ്റുകള് സെര്ച്ച് ചെയ്യാനും എന്തെങ്കിലും വഴികള് കണ്ടുപിടിക്കുമായിരുന്നല്ലോ.
സ്റ്റാന്റേഡെന്നാല് കുറേ എക്സപ്ഷന്സല്ലല്ലോ.. എല്ലാത്തിന്റേയും കണ്സപ്റ്റിലും സ്പെക്സിലും ഉള്ള ഏകീകരണമല്ലേ. എക്സപ്ഷന്സുകൊണ്ട് മലയാളത്തെ ഏച്ചുകെട്ടാനാണെങ്കില് ഇപ്പോള് പറഞ്ഞ ഫോണ്ട് എന്കോഡിംഗുകള് അതാണല്ലോ ചെയ്യുന്നത് - എക്സപ്ഷനുകളുടെ എക്സ്റ്റ്രീം.
പ്രവീണ് | 05-Feb-08 at 9:07 am | Permalink
ഉമേഷ്ജി ഒരു കാര്യം മാത്രം ചോദിച്ചോട്ടെ. ഈ ZWJ, ZWNJ എന്നീ അക്ഷരങ്ങെന്തിനാണെന്നാലോചിച്ചിട്ടുണ്ടോ? കാഴ്ചയില് വ്യത്യാസമുണ്ടാക്കാന്. അപ്പോള് കാണിയ്ക്കുമ്പോള് അവ ഒഴിവാക്കുന്നതു് യൂണികോഡിന്റെ പ്രശ്നമാണോ? യൂണികോഡ് പ്രയോഗത്തില് വരുത്താനറിയാത്തവര്ക്കു് വേണ്ടിയാണോ നമ്മള് യൂണികോഡ് മാറ്റേണ്ടതു്? അവന്/അവന് എന്നിവയില് അകരാദിക്രമത്തിലേതു് വേണമെങ്കിലും മുന്നില് വരാം എന്നും മാത്രമേ അവയ്ക്കു് കൊളേഷന് വെയിറ്റില്ല എന്നതിനര്ത്ഥം. കാണിയ്ക്കുമ്പോള് തീര്ച്ചയായും അവ ഒഴിവാക്കാന് പറ്റില്ല.
വിശദമായി പിന്നീടെഴുതാം.
Moorthy | 05-Feb-08 at 11:20 am | Permalink
കമന്റുകള് മെയിലില് കിട്ടാന് ഇത്…
Priya Unnikrishnan | 05-Feb-08 at 2:07 pm | Permalink
അപ്പൊ അതാണല്ലേ ഈ കോണ്ടസാ കോണ്ടസാ
suresh | 05-Feb-08 at 2:11 pm | Permalink
സിബു:
“സ്റ്റാന്റേഡെന്നാല് കുറേ എക്സപ്ഷന്സല്ലല്ലോ.. എല്ലാത്തിന്റേയും കണ്സപ്റ്റിലും സ്പെക്സിലും ഉള്ള ഏകീകരണമല്ലേ.”
ഭാഷയില് നിലനില്ക്കുന്ന exceptions മാറ്റുന്നതു് യൂണിക്കോഡിന്റെ തലവേദനയല്ല.അവ എല്ലാ ഭാഷകളിലും ഉള്ളതുതന്നെയാണു്.
ഉമേഷ് പറഞ്ഞ അവന്/അവനു് വ്യവഛേദനത്തിന്റെ കാര്യം:
ഉദാഹരണത്തിനു് “ന്’” എന്നതിനു് രണ്ടു രീതിലും ഉച്ചാരണം ആവാം;ചില്ലായിട്ടും സംവൃതോകാരമായിട്ടും.അവയെ വേര്തിരിച്ചു് കാണിക്കാനും സംവിധാനം നിലവിലുണ്ടു്.”ന്” എന്നു രേഖപ്പെടുത്തിയാല് ചില്ലായി;”നു്” എന്നായാല് സംവൃതോകാരവുമായി.
ഇനി ആണവ”ന്” വരുകയാണെന്നു കരുതുക. പദമധ്യേ ഇവന് പ്രശ്നക്കാരനാകും.ഉദാ:വാല്മീകി/വാല്മീകി, കല്ക്കത്ത/കല്ക്കത്ത തുടങ്ങിയവ.തിരച്ചിലില് ഇതു പ്രശ്നമാകും.ഉച്ചാരണം,അര്ത്ഥം,നിഷ്പത്തി,അക്ഷരവിന്യാസം എന്നിയിലൊന്നും യാതൊരും ഭേദവും ഇല്ലാതെ കേവലം എഴുത്തുരീതിയില് മാത്രം വ്യത്യാസം പ്രകടമാക്കുന്നു എന്ന ഒറ്റ കാരണം കൊണ്ടു് ഇത്തരം വാക്കുകളെ വേര്തിരിക്കുന്നതു് മലയാളത്തിനു യോജിച്ചരീതിയാണോ എന്നുകൂടി പറയുക.
ZWJ-നെ ഒഴിവാക്കിയതുകൊണ്ടുമാത്രമാണു് മേല്പറഞ്ഞ പ്രശ്നം ഗൂഗ്ള് കാണിച്ചതു്.
.സ്വതന്ത്രസോഫ്റ്റ്വെയന് ആയ ബീഗ്ള് GNU/Linux സിസ്റ്റങ്ങളില് ഡെസ്ക്ടോപ് സെര്ച്ചിനു് ഉപയോഗിച്ചുപോരുന്നുണ്ടു്.അതുപയോഗിച്ചു് നടത്തിയ തെരച്ചിലിന്റെ പടം കൂടി ഒന്നിടണമെന്നു് അഭ്യര്ത്ഥിക്കുന്നു.ഒന്നും വേണ്ട, യാഹൂ,msn എന്നിയും ഇതുപോലുള്ള ഫലമാണോ തരുന്നതു് എന്നുകൂടി വ്യക്തമാക്കൂ.
പ്രചാരം കൂടുതലാണു് എന്നതുകൊണ്ടുമാത്രമായിരിക്കും ഉദാഹരിക്കാന് ഉമേഷ് ഗൂഗ്ള് തെരെഞ്ഞെടുത്തതു് എന്നു കരുതുന്നു
-സുരേഷ്
Umesh:ഉമേഷ് | 05-Feb-08 at 3:16 pm | Permalink
ആഹാ, ചില്ലുവാദികളും ചില്ലുവിരോധികളും എത്തിയിട്ടുണ്ടല്ലോ!
സംവാദങ്ങള് സ്വാഗതം ചെയ്യുന്നു. പക്ഷേ ഇതു് ഇന്ഡിക് ലിസ്റ്റു പോലെ തെറിവിളിയും വ്യക്തിഹത്യയുമായാല് ആ കമന്റുകള് ഞാന് ഡിലീറ്റ് ചെയ്യും എന്നു നേരത്തേ പറയുന്നു.
സന്തോഷ്, ഇന്ഡിക് ലിസ്റ്റു ഞാന് പണ്ടേ കാണാറുണ്ടു്. ചില്ലുകളെപ്പറ്റി ആദ്യം സംവാദം നടന്നപ്പോള് മുതല്. രചന അക്ഷരവേദി ആദ്യം ഒരു സൂപ്പര് സീക്രട്ട് ഡോക്യുമെന്റ് ഇറക്കി “യൂട്ടീസി അല്ലാതെ നീയൊന്നും ഇത്ര മഹത്തായ സാധനം കാണണ്ടാ” എന്നു പറഞ്ഞു പൂഴ്ത്തി വെച്ച കാലത്തും. സന്തോഷ് പറയുന്നതു് 2008-ലെ കാര്യമല്ലേ? അതും കണ്ടിരുന്നു, ജെയിംസ് കാസ്സിന്റെ മെയിലുകളും. ബൂലോഗത്തിലെ മലയാളം തെറികള് കേട്ടു മടുക്കുമ്പോള് ചിലപ്പോള് ഇന്ഡിക് ലിസ്റ്റില് പോകാറുണ്ടു്, ഇംഗ്ലീഷ് തെറികള് കേള്ക്കാന്
സന്തോഷ്, പ്രവീണ്, സിബു, സുരേഷ് തുടങ്ങിയവര്ക്കു് ഇനിയും പറയാന് എന്തുണ്ടെന്നു നോക്കട്ടേ. മറുപടി ഒന്നിച്ചു പറയാം.
സുരേഷിന്റെ കമന്റില് ജോയിനര് കളയുന്ന ഒരേയൊരു സേര്ച്ച് എഞ്ചിന് ഗൂഗിളാണെന്നും യാഹൂ, എം. എസ്. എന്. തുടങ്ങിയവ അതു ചെയ്യുന്നില്ലെന്നും കണ്ടു. കൂടാതെ ഞാന് ഗൂഗിളില് സേര്ച്ച് ചെയ്യുന്നതിനെപ്പറ്റി ഒരു കുത്തുവാക്കും. യാഹുവിലും എം. എസ്. എന്നിലും സേര്ച്ചു ചെയ്തതിന്റെ സ്ക്രീന് ഷോട്ടുകളും ചേര്ത്തിട്ടുണ്ടു്. കാണുക, ആനന്ദതുന്ദിലരാകുക.
അരവിന്ദോ,
ഇവിടെ വോട്ടും ശക്തിപ്രകടനവും പെറ്റീഷന് അയയ്ക്കലും ഒന്നുമില്ല. ഞാന് പറയുന്നതു വെള്ളം തൊടാതെ വിഴുങ്ങുകയും വേണ്ടാ. അടുത്ത കാലത്തെ ചില പോസ്റ്റുകള് കണ്ടാല് അറ്റോമിക് ചില്ലുകള് എന്തോ മലയാളഭാഷയെ കൊന്നു കൊലവിളിക്കുന്ന ഒരു സാധനമാണെന്നു തോന്നുമായിരുന്നു. എന്താണു സാധനം എന്നു രണ്ടു പക്ഷവും പറയുന്ന (അവസാനം എന്റെ അഭിപ്രായവും) ഒരു പോസ്റ്റെന്നു മാത്രമേ ഉദ്ദേശിച്ചിട്ടുള്ളൂ.
മൂര്ത്തീ,
ഈ ബ്ലോഗ് തുടങ്ങിയപ്പോള് മുതല് ഈ കമന്റ് സബ്സ്ക്രിപ്ഷന് ഞാന് ഇതില് ഇട്ടിട്ടുണ്ടായിരുന്നു. അതു വര്ക്കു ചെയ്യുന്നുണ്ടല്ലേ? സന്തോഷം!
എല്ലാവര്ക്കും നന്ദി.
suresh | 05-Feb-08 at 4:42 pm | Permalink
‘യാഹൂ’വില് സെര്ച്ചു് ഫലം ഇവിടെ => http://surumafonts.googlepages.com/yahoo-search.jpeg
‘msn’-ല് സെര്ച്ചു് ഫലം ഇവിടെ => http://surumafonts.googlepages.com/msn-search.jpeg
രണ്ടും Iceweasel-2.0.0.11 (read Firefox) നല്കിയതു്.
യാഹൂ ZWJ-നെ കളയുന്നില്ല.രണ്ടുതരം ഫലങ്ങളും തരുകയും ചെയ്യുന്നു.
msn ആകട്ടെ ചിലയിടത്തു് അതിനെ കളയുകയും മറ്റിടത്തു് നിലനിര്ത്തുകയും ചെയ്യുന്നു.രണ്ടിലും റെന്ഡറിങ് വീഴ്ചകള് നിലനില്ക്കുന്നതുകൊണ്ടു് ചില്ലുകള് രൂപപ്പെടുന്നില്ല എന്നുമാത്രം.
ശത്രു പക്ഷത്തോടു് സംസാരിക്കുന്നു എന്ന തോന്നല് ഉള്ളതുകൊണ്ടാവാം ഉമേഷിനു് കുത്തുവാക്കായി തോന്നിയതു്(സ്മൈലി കണ്ടില്ലേ).അങ്ങനെ നോക്കുകയാണെങ്കില് മേല്ക്കമന്റില് രചനയെപ്പറ്റിപ്പറയുമ്പോഴും താങ്കള് കുത്തുവാക്കല്ലെ ഉപയോഗിച്ചതു്?
-സുരേഷ്
സന്തോഷ് തോട്ടിങ്ങല് | 05-Feb-08 at 5:09 pm | Permalink
ഉമേഷ്ജീ,
ഞാനുപയോഗിക്കുന്നതു് ഡെബിയന് ലെന്നിയില് ഐസ്വീസല് ആണു്. റിസള്ട്ട് പേജില് റെന്ഡറിങ്ങ് ശരിയാവുന്നില്ല എന്നൊരു പ്രശ്നം മാത്രമേ യാഹൂ സെര്ച്ചിനു് കണ്ടുള്ളൂ. ഉമേഷ് ഉപയോഗിയ്ക്കുന്ന Internet Exploiter ല് റെന്ഡരിങ്ങ് പ്രശ്നമാണോന്നു് നോക്കാന് ആ സെര്ച്ച് റിസള്ട്ട് ഒരു ടെക്സ്റ്റ് എഡിറ്ററിലേയ്ക്കു പേസ്റ്റി നോക്കൂ.
ഇനി പറയൂ, ആര്ക്കാ പ്രശ്നം?
ജീമെയിലില് ബഗ്ഗുണ്ടായിരുന്നെന്നും അതു് ഇപ്പോള് തിരുത്തിയെന്നതും എല്ലാവരും അറിഞ്ഞുകാണുമല്ലോ…
സന്തോഷ് | 05-Feb-08 at 5:34 pm | Permalink
ഭാഷാസ്നേഹികളും കമ്പ്യൂട്ടിംഗ് വിദഗ്ദ്ധരും വിഷയത്തെപ്പറ്റി പഠിച്ചിട്ട് അഭിപ്രായം പറയേണ്ടുന്ന സമയമായി എന്ന് ഇന്ഡിക് ലിസ്റ്റ് വായിക്കുമ്പോള് പലപ്പോഴും തോന്നാറുണ്ട്. ഈ ലേഖനം ആ ലക്ഷ്യം കൈവരിക്കാന് സഹായിക്കുമെന്ന് വിശ്വസിക്കുന്നു.
(മാന്യ മഹാജനങ്ങളേ, MSN സേര്ച്ച് എന്നൊരു സാധനമില്ല!!
)
നിങ്ങള് ഉദ്ദേശിക്കുന്ന സാധനത്തിനെ ലൈവ് സേര്ച്ച് എന്നു തന്നെ പറയണം. അറിയാമെങ്കിലും തെറ്റു പറയുന്നവര്ക്ക് മാപ്പില്ല.
ഇഞ്ചിപ്പെണ്ണ് | 05-Feb-08 at 7:20 pm | Permalink
അവസാനം ഈ ചില്ല് പ്രശ്നം എന്തെങ്കിലുമൊക്കെ മനസ്സിലായിത്തുടങ്ങി.
എന്തായാലും എന്നെപ്പോലെ അധികം ടെക്നിക്കല് വിവരമില്ലാത്ത സാധാരണ ആളുകള്ക്ക് എന്റെ ഐഇയില് ഗൂഗിള് സേര്ച്ചില് അവന് എന്ന് സേര്ച്ചിയാല് അവന് എന്ന് കിട്ടോ അതോ അവന് എന്ന് കിട്ടോ? ഇത് എപ്പൊ അവന് എന്ന് കിട്ടുമെന്ന് മാത്രം അറിഞ്ഞാല് മതി എനിക്ക്. അല്ലെങ്കില് എന്താ അതിതുവരേയും അവന് എന്ന് വെച്ചുകൊണ്ടിരിക്കുന്നതെന്നും.
* ഞാന് ഐയിയാണ് ഉപയോഗിക്കുന്നതു. ഗൂഗിള് സേര്ച്ചും.
(ഇതാണ് ഞങ്ങള് നേരത്തേ അവള് എന്ന് പേരിട്ടത്, ഞങ്ങള്ക്ക് ഈ വക ആറ്റോമിക്ക് പ്രശ്നങ്ങളില്ല.)
ഇഞ്ചിപ്പെണ്ണ് | 05-Feb-08 at 7:22 pm | Permalink
ഓഹോ! ഇപ്പൊ ചെയ്തു നോക്കി. അവള് എന്നതിനു അവള് എന്നാണല്ലേ കിട്ടാ? അതു ശരി. എല്ലാത്തിനും അപ്പൊ അതാണല്ലേ കിട്ടാ?
സെബിന് | 05-Feb-08 at 8:28 pm | Permalink
‘ചില്ലു മേടയിലിരുന്നെന്നേ…’ എന്നു പാടിയതു് ഈ ചില്ലിനെ പറ്റിയാണോ?
സിബു | 05-Feb-08 at 8:34 pm | Permalink
ഗൂഗിളും യാഹൂവും മറ്റും ZWJ-നെ എന്തു ചെയ്യുന്നു എന്നത് ഒന്നിന്റേയും വാദമുഖമല്ല. ഞാന് നേരത്തേ പറഞ്ഞപോലെ, യുണീക്കോഡ് തന്നെ ഇല്ലാതെ, എല്ലാം ഫോണ്ട് എന്കോഡിംഗ് ആയിരുന്നാല് പോലും കമ്പനികള് എന്തെങ്കിലും സെന്സിബിള് ആയിട്ടുള്ളത് ചെയ്തേനേ.
A എന്ന ഒരു റെപ്രസെന്റേഷനില് നിന്നും B എന്നൊരു റിപ്രസന്റേഷനിലേയ്ക്ക് മാറ്റുമ്പോള് B യുടെ ആവശ്യത്തിനുപകരിക്കാത്തതൊക്കെ B എടുത്തുകളയും എന്നത് സ്വാഭാവികമാണ്. ഒരു 3ഡി ചിത്രത്തിനെ പേപ്പറില് വരയ്ക്കുമ്പോള് അതിലെ ഡെപ്ത് പോയ്പ്പോകുന്ന പോലെ.
ഇപ്പറഞ്ഞതിനുസമാനമായ പ്രോഗ്രാമുകളിലെ ഒരു ഉദാഹരണം നോക്കുക. ഒരു വെബ് പേജില് ഒരു വാക്ക് ബോള്ഡാക്കി കാണിക്കാന് ഉപയോഗിക്കുന്ന ബോള്ഡ് ഫോര്മാറ്റിംഗ് കോഡ് 333 ആണെന്നുവയ്ക്കുക. അങ്ങനെ ബോള്ഡ് ഫോര്മാറ്റിംഗ് കോഡ് ഇട്ട് ബോള്ഡാക്കിയ ഒരു വാക്കിനെ ഒരു നോട്ട് പാഡിലേയ്ക്ക് കോപ്പിചെയ്യുന്നു എന്നും വയ്ക്കുക. നോട്ട് പാഡ് എന്ന പ്രോഗ്രാമില് വാക്കുകളെ ബോള്ഡാക്കിക്കാണിക്കാനുള്ള ഉപാധി ഇല്ലാത്തതിനാല് അത് 333 എന്നുകണ്ടാല് അതിനെയൊക്കെ പെറുക്കിക്കളയും. തിരിച്ച് നോട്ട്പാഡില് നിന്നും ബ്രൌസറിലേയ്ക്ക് കോപ്പിചെയ്താല് ആ വാക്കുകളൊന്നും ബോള്ഡായിരിക്കുകയില്ല. നോട്ട് പാഡിന് ബോള്ഡ് എന്താണെന്നറിയില്ല; ഒരു യൂസര് പ്രതീക്ഷിക്കുന്ന രീതിയും ഇതുതന്നെയാണ്. ഇതില് ഒരു പൊരുത്തക്കേടുമില്ല.
ഇനി മലയാളം യുണീക്കോഡ് സ്റ്റാന്റേഡ് ഇങ്ങനെ ഒരു ക്ലോസ് കൊണ്ടുവരുന്നു എന്ന് വയ്ക്കുക: ഒരു മലയാളം അക്ഷരത്തെ കൂട്ടക്ഷരമാക്കാന് അക്ഷരങ്ങള്ക്കിടയില് 333 ഇട്ടാല് മതി എന്ന്. ഇപ്പോള് എന്തുസംഭവിക്കും? മലയാളം വാചകങ്ങള് നോട്ട്പാഡിലേയ്ക്ക് കോപ്പിചെയ്താല് കൂട്ടക്ഷരങ്ങള് മുഴുവന് തെറ്റായിപ്പോകും. എന്തുകൊണ്ടാണ് മലയാളത്തില് മാത്രം ഇങ്ങനെ സംഭവിച്ചത്? 333 എന്ന കോഡിന്റെ സ്വാഭാവികമായ അര്ത്ഥത്തില് നിന്നും വ്യതിചലിച്ച് പ്രതേകമായൊരു അര്ഥം അതിന് മലയാളത്തിന്റെ കാര്യത്തില് മാത്രം കൊടുത്തതുകൊണ്ടാണ്. അപ്പോള് നോട്ട്പാഡ് എഴുതിയിരിക്കുന്ന പ്രോഗ്രാമില്, കോപ്പിചെയ്തത് മലയാളമാണെങ്കില് മാത്രം, 333 എടുത്തുകളയരുത് എന്ന് പ്രത്യേകം എഴുതിച്ചേര്ക്കേണ്ടിവരും. ഇത് എളുപ്പമോ ബുദ്ധിമുട്ടോ ആവുന്നത് ആ പ്രോഗ്രാം എങ്ങനെ ഡിസൈന് ചെയ്തിരിക്കുന്നു എന്നതിനെ ആശ്രയിച്ചിരിക്കും. ലോകത്തിലെ പല ലിപികളുടേയും കമ്പ്യൂട്ടറിലെ ഉപയോഗം വച്ചു നോക്കുമ്പോള് മലയാളം സപ്പോര്ട്ടിനുള്ള പ്രയോരിറ്റി ഇന്നും വളരെ കുറവാണ്. അതുകൊണ്ട് അധികം റിസോര്സസില്ലാത്ത ഡെവലപ്പര്മാരും കമ്പനികളും വിചാരിക്കും ‘ഓ.. ഈ മലയാളം ഭാഷയിലൊക്കെ ആരെഴുതാനാ? അതില്ലാത്ത സപ്പോര്ട്ട് ഒക്കെ മതി’. ഒരു ഉദാഹരണം ഇതാ. തീര്ച്ചയായും ആ അപ്ലിക്കേഷന് കുറെ യൂസര്മാരെ നഷ്ടപ്പെടും. എന്നാല് എന്നെ സംബന്ധിച്ചിടത്തോളം പ്രശ്നം, പല പ്രോഗ്രാമുകളിലും മലയാളം സപ്പോര്ട്ട് ശരിയല്ലാതാവുന്നതാണ്. മലയാളത്തിനുവേണ്ടി പ്രത്യേകം കോഡെഴുതാതെ തന്നെ യുണീക്കോഡില് എഴുതിയ മലയാളം കാണിക്കുകയോ വിനിമയം ചെയ്യുകയോ വേണം എന്നതാണ് എന്റെ ആഗ്രഹം.
മുകളില് പറഞ്ഞ ഉദാഹരണത്തിന്ന് വളരെ സമാനമാണ് ഇന്നത്തെ ചില്ലുകളുടെ സ്ഥിതി. അറ്റോമിക് ചില്ലുവരുമ്പോള് ഇങ്ങനെ ഒരു ഫോര്മാറ്റിം കോഡ് ഉപയോഗിച്ച് ചില്ലുകളെ അവതരിപ്പിക്കേണ്ട അവസ്ഥയില്ല; മലയാളത്തിന് വേണ്ടി പ്രത്യേകം അപ്ലിക്കേഷനുകള് മാറ്റേണ്ടതില്ല. അതുകൊണ്ടാണ് അറ്റോമിക് ചില്ലുകള് മലയാളത്തിന് ഗുണകരമാവുന്നത്.
Ralminov | 06-Feb-08 at 12:14 am | Permalink
‘ഉദാഹരണമായി മലയാളത്തിലെ ഓരോ കോഡിനും മൂന്നു ബൈറ്റു് ഉപയോഗിക്കുന്ന utf-8 എന്ന രീതിയില്”
മുകളില് പറഞ്ഞിരിക്കുന്നതില് ഒരു തിരുത്തു് വേണമല്ലോ. UTF-8 സിങ്കിള് ബൈറ്റ് ആണു്, പേരു് സൂചിപ്പിക്കുന്നതു് പോലെ. അതിലെ ഏഴ് ബിറ്റുകള് അക്ഷരങ്ങളെയും ഒന്നു് ഭാഷയെയും കുറിക്കാനുപയോഗിക്കുന്നുവെന്നാണു് ഞാന് മനസ്സിലാക്കിവെച്ചിരിക്കുന്നതു്.
എ.ആര് റഹ്മാന് എന്നല്ല എ.ആര് റഹ്മാന് എന്നാണു് എപ്പോഴും കാണിക്കേണ്ടതു്. ഗൂഗ്ള് ഒരിക്കലും അതു് കാണിക്കില്ല, രചന ഫോണ്ട് ഉപയോഗിക്കുന്നവരെ.
മരം വെട്ടറിയാത്തതിനു് കോടാലിക്കു് തെറിയും.
Ralminov | 06-Feb-08 at 12:35 am | Permalink
UTF-8 നെപറ്റിയുള്ള എന്റെ പരാമര്ശത്തിലും പിശകുണ്ടെന്നു് തോന്നുന്നു.
Anyway, it must be a single byte scheme.
Ralminov | 06-Feb-08 at 12:41 am | Permalink
എന്റെ പരാമര്ശത്തിലാണു് പിശകു്. I stand corrected.
മലയാളം UTF8 മൂന്നു് ബൈറ്റ് തന്നെയാണു്.
Umesh:ഉമേഷ് | 06-Feb-08 at 12:47 am | Permalink
കോടാലിയ്ക്കും മരത്തിനും എത്ര ബിറ്റുകള് വേണമെന്നറിയില്ല, പക്ഷേ utf-8-ല് ഒരു ബിറ്റു ഭാഷയ്ക്കും ഏഴു ബിറ്റു് അക്ഷരങ്ങളെയും കാണിക്കുന്നു എന്നു റാല്മിനോവ് പറഞ്ഞതു തെറ്റാണു്.
utf-8-ല് സിംഗിള് ബൈറ്റുകളുടെ ശ്രേണിയായാണു ടെക്റ്റ് സൂക്ഷിക്കുന്നതു്. പക്ഷേ അതില് ഒരു യൂണിക്കോഡ് കോഡ് (അക്ഷരം എന്നു പറയാം) സൂക്ഷിക്കുന്നതു ഒന്നോ രണ്ടോ മൂന്നോ നാലോ ബൈറ്റിലാണു്.
മലയാളത്തിനു യൂണിക്കോഡില് മൂന്നു ബൈറ്റുകള് ആവശ്യമാണു്. മലയാളം മാത്രമല്ല, മറ്റു കുറേ ഭാഷകള്ക്കും. ഈ 24 ബിറ്റുകളില് 8 ബിറ്റുകള് അതൊരു മൂന്നു ബൈറ്റിന്റ്റെ ശ്രേണിയാണു് എന്നു സൂചിപ്പിക്കുന്നു. ബാക്കി 16 ബിറ്റുകളിലാണു് അക്ഷരങ്ങളുടെ സംഖ്യകള് സൂക്ഷിക്കുന്നതു്.
കൂടുതല് വിവരങ്ങള്ക്കു് വിക്കിപീഡിയ ലേഖനം നോക്കുക.
ഭാഷ സൂചിപ്പിക്കാന് ഒരു ബിറ്റു മതിയെങ്കില് ആകെ രണ്ടു ഭാഷയേ ഉള്ളോ റാല്മിനോവേ യൂണിക്കോഡില്? ഒരു ബിറ്റു കൊണ്ടു രണ്ടു വ്യത്യസ്ത കാര്യങ്ങള് മാത്രമേ സൂചിപ്പിക്കാന് പറ്റൂ എന്നാണു് എന്റെ അറിവു്.
Umesh:ഉമേഷ് | 06-Feb-08 at 12:50 am | Permalink
റാല്മിനോവിന്റെ ആദ്യത്തെ കമന്റ് മാത്രമേ മറുപടി എഴുതുമ്പോള് കണ്ടിരുന്നുള്ളൂ. ഞാന് എഴുതിയപ്പോഴേയ്ക്കു റാല്മിനോവ് രണ്ടു കമന്റുകള് കൂടിയിട്ടു.
അപ്പോള് utf8-ന്റെ കാര്യത്തില് ഒരു തീരുമാനമായി. അല്ലേ?
suresh | 06-Feb-08 at 2:13 am | Permalink
തിരിഞ്ഞുതിരിഞ്ഞു് സിബു വീണ്ടും ഫോര്മാറ്റു് കണ്ട്രോള് വാദത്തില് ചെന്നെത്തി.അതുകൊണ്ടു് മുന്പു പറഞ്ഞതുതന്നെ ആവര്ത്തിക്കുന്നു.ജോയ്നറുകളെ bold/italic ഫോര്മാറ്റുകളുമായി താരതമ്യം ചെയ്യാനൊക്കില്ല(എങ്ങനെ നിര്വചിച്ചിരിക്കുന്നു എന്നതല്ല,എങ്ങനെ പ്രവര്ത്തിക്കുന്നു എന്നതിനെ ആധാരമാക്കി വേണം കളയണോ വേണ്ടയോ എന്നു് തീരുമാനിക്കാന്).വേണമെങ്കില് -നോടു് താരതമ്യം ആവാം.ശൂന്യതയല്ലെ എന്നു കരുതി എല്ലാ -ഉം എടുത്തുകളഞ്ഞാല് എന്താകും സ്ഥിതി! (ചില ഭാഷകള്ക്കു് സ്പേസ് ആവശ്യമായി വരുന്നില്ല.അവ പ്രശ്നമൊന്നും കാണിക്കുകയുമില്ല).പരിചരണവേളയില് അപ്ലിക്കേഷനുകള്ക്കു് അധികപ്പടിയായവ ഉപേക്ഷിക്കാം എന്നുമാത്രം.
അപ്പോള് പ്രധാനകാര്യം ഇതുതന്നെ:
“അതുകൊണ്ട് അധികം റിസോര്സസില്ലാത്ത ഡെവലപ്പര്മാരും കമ്പനികളും വിചാരിക്കും ‘ഓ.. ഈ മലയാളം ഭാഷയിലൊക്കെ ആരെഴുതാനാ? അതില്ലാത്ത സപ്പോര്ട്ട് ഒക്കെ മതി’.”
അതായതു് ‘വെണ്ടര്മാര് വാഴ്ക’ എന്നു്.
വെണ്ടറോ ഭാഷയോ പ്രധാനം എന്നു് വായിക്കുന്നവര് തീരുമാനിക്കുക.ടൈപ്റൈറ്ററിനുവേണ്ടി ലിപിയെ മുറിച്ചു.ഇന്നു ടൈപ്റൈറ്റര് ആവശ്യമില്ല.മുറിച്ചെഴുതിയതെല്ലാം അങ്ങനെത്തന്നെ കിടക്കുന്നു.ചരിത്രപരമായ മണ്ടത്തരങ്ങളും ആവര്ത്തിക്കേണ്ടതാണെന്നോ?
-സുരേഷ്
suresh | 06-Feb-08 at 2:22 am | Permalink
മേല്ക്കമന്റില് തിരുത്തു്:
… വേണമെങ്കില് Space-നോടു് താരതമ്യം ആവാം.ശൂന്യതയല്ലെ എന്നു കരുതി എല്ലാ Space-ഉം …
Verbatim തരാവില്ല അല്ലേ:( കമന്റ് പ്രിവ്യുവിനു് ഏതെങ്കിലും wordpress plugin ഉപയോഗിച്ചാല് തരക്കേടില്ലായിരുന്നു.
-സുരേഷ്
സിബു | 06-Feb-08 at 2:39 am | Permalink
സുരേഷ്, തീര്ച്ചയായും വിയോജിപ്പുണ്ട്. കേരളത്തിലെ കോടതിയില് വിധിപ്രസ്താവിക്കേണ്ടത് ഭരണഘടന നോക്കിയല്ല; ബീഹാറിലും തമിഴ്നാട്ടിലേയും നാട്ടുനടപ്പ് എങ്ങനെയാണ് എന്നു നോക്കിയാണ് എന്നുപറയും പോലെ അസംബന്ധമാണിത്.
സ്റ്റാന്റേഡുകളിലെ നിര്വചനങ്ങള് തന്നെയാണ് ഏതൊരു ഇമ്പ്ലിമെന്റേഷന്റേയും ആധാരം. ഉദാഹരണത്തിന് ആരും ഗൂഗിള് എങ്ങനെയാണ് HTML ഇമ്പ്ലിമെന്റ് ചെയ്തിരിക്കുന്നത് എന്നുനോക്കിയല്ല സ്വന്തം HTML പ്രോട്ടോക്കോള് ഇമ്പ്ലിമെന്റ് ചെയ്യുന്നത് - അങ്ങനെ ചെയ്യാന് പാടില്ല താനും. ഇനി സ്റ്റാന്റേഡിന്റെ നിര്വ്വചനങ്ങളില് പ്രശ്നങ്ങളുണ്ടെങ്കില് അത് സ്റ്റാന്റേഡിനെ തിരുത്തിത്തന്നെയാണ് തീര്ക്കേണ്ടത്.
ZWJ എന്നത് ഒരു ഭാഷാപരമായി ഒരേ അര്ഥമുള്ള രണ്ടു രൂപങ്ങളെ വേര്തിരിച്ചു കാണിക്കാനുപയോഗിക്കുന്ന ഫോര്മാറ്റിംഗ് ചിഹ്നമാണ് എന്നത് ആവര്ത്തിക്കട്ടേ. ഉമേഷ് ഇത് ഗ്ദ്ധ കൂട്ടക്ഷരത്തിന്റെ ഉദാഹരണംകൊണ്ട് വിശദമാക്കിയിട്ടുണ്ട്. അതുകൊണ്ട് തന്നെ, അതിനെ ‘-‘ ആയി താരതമ്യം ചെയ്യുന്നതും ശരിയല്ല.
suresh | 06-Feb-08 at 3:47 am | Permalink
സിബൂ,
നേരത്തെ കമന്റ് തൊടുത്തുവിട്ടപ്പോള് പറ്റിയ തെറ്റ് തിരുത്തിയതു് കണ്ടുകാണുമല്ലോ.
അതെ, ഭരണഘടന അനുസരിക്കേണം.എന്നാല് മറ്റൊരു വശമുണ്ടു്.ഭരണഘടന വേദപുസ്തകങ്ങള് പോലെയല്ല.അബദ്ധങ്ങള് ഒഴിവാക്കാനും കാലികപ്രസക്തിക്കും വേണ്ടി അവ കാലാനുസൃതമായി തിരുത്താറുണ്ടു്.
വിചിത്രമായ ഭരണഘടന പലരാജ്യങ്ങളിലും നിലനിന്നിരുന്നു/നിലനില്ക്കുന്നു.അവ നിരാകരിക്കേണ്ടതായി വരും.പിന്നീടു് ഭരണത്തിനു് വിവേകം വരുമ്പോള് അവ പലതും തിരുത്തിനു് വിധേയമാവുകയും ചെയ്യും.ഇന്നുള്ള മനുഷ്യാവകാശങ്ങള് പലതും അങ്ങനെ കൈവന്നവയാണു്.
ഒരു സാങ്കല്പിക ചിത്രം:
തലതിരിഞ്ഞ സൌന്ദര്യസങ്കല്പം മൂലം ഒരു ഭരണാധികാരി ഭരണഘടയില് ചേര്ക്കുന്നു, അംഗവൈകല്യമുള്ള എല്ലാ വ്യക്തികളേയും നിര്മാജ്ജനം ചെയ്യണമെന്നു്.അതു പ്രകാരം എല്ലാവരും പ്രവര്ത്തിച്ചാല് എന്താകും സ്ഥിതി? പിന്നിടു് വരുന്ന ഒരു പരിണതപ്രജ്ഞനു് നഷ്ടപ്പെട്ടവരെയെല്ലാം തിരിച്ചുകൊണ്ടവരാന് കഴിയുമോ?
-സുരേഷ്
പ്രവീണ് | 06-Feb-08 at 4:32 am | Permalink
ഉമേഷ്ജി എന്റെ ചോദ്യത്തിനുത്തരം തന്നില്ല. ഈ കൊളേഷന് എന്നു് പറയുന്ന സാധനം എന്താണെന്നൊന്നു് വിശദീകരിയ്ക്കാമോ?
സിബു | 06-Feb-08 at 4:34 am | Permalink
തീര്ച്ചയായും ഇപ്പോഴത്തെ യുണീക്കോഡില് ചില്ലുകള് പ്രശ്നക്കാരാണ്. അത് നേരെയാക്കുകയാണല്ലോ അടുത്ത വെര്ഷനില് സംഭവിക്കുന്നത്. ആ രീതിയില് സുരേഷ് പറഞ്ഞപോലെ തന്നെ, വളരെ മുമ്പേ നടക്കേണ്ടിയിരുന്ന ഒരു തിരുത്തലാണ് ഇപ്പോള് നടക്കുന്നത്.
കോവാല കൃഷ്ണന് | 06-Feb-08 at 4:44 am | Permalink
വന്നല്ലോ പ്രാവീണ്യമുള്ളവന്, പ്രവീണന്. കൊളേഷന് അറിയാത്ത പ്രവീണാണോ “പൂച്ചക്ക് പാലു കൊടുക്കുന്നത്”? ഒരു കാര്യം ചെയ്യ്. കൊളേഷന് എന്താണെന്ന് പ്രവീണിനറിയാവുന്ന കാര്യം ഇങ്ങോട്ട് പറ. ബാക്കി പറയാന് ഞാനും കൂടാം. റാല്മിനോവന് UTF-8 പറഞ്ഞതു പോലെ ആവല്ലേ.
പ്രവീണ് | 06-Feb-08 at 4:56 am | Permalink
വെബ്ദുനിയയിലെ ഫലം
പ്രവീണ് | 06-Feb-08 at 5:23 am | Permalink
റാല്മിനോവന് പറഞ്ഞതിനെന്താ കുഴപ്പം? തെറ്റു് മനസ്സിലാക്കി തിരുത്തിയതോ? തെറ്റാണെന്നറിഞ്ഞാലും കെട്ടിപ്പിടിച്ചിരിയ്ക്കണമെന്നാണോ കോവാലന് പറയുന്നതു്?