မြန်မာ ယူနီကုဒ်

ယူနီကုဒ် (Unicode) ဆိုသည်မှာ နိုင်ငံတိုင်းတွင် အသုံးပြုလျက်ရှိသော အက္ခရာစာလုံးများအတွက်

  • မည်သည့် Platform တွင် ဖြစ်စေ
  • မည်သည့် Program တွင် ဖြစ်စေ
  • မည်သည့် စကား language တွင် ဖြစ်စေ
Myanmar
RangeU+1000..U+109F
(160 code points)
PlaneBMP
ScriptsMyanmar (script)
အဓိက အက္ခရာများမြန်မာစာ
မွန်
ကရင်
ကယား
ရှမ်း
ပလောင်
Assigned160 code points
အသုံးမပြု0 reserved code points
ယူနီကုဒ် ဗားရှင်းသမိုင်း
3.078 (+78)
5.1156 (+78)
5.2160 (+4)
မှတ်စု: [1]
Myanmar Extended-A
RangeU+AA60..U+AA7F
(32 code points)
PlaneBMP
ScriptsMyanmar
အဓိက အက္ခရာများခန္တီးရှမ်း
Aiton
Assigned32 code points
အသုံးမပြု0 reserved code points
ယူနီကုဒ် ဗားရှင်းသမိုင်း
5.228 (+28)
7.032 (+4)
မှတ်စု: [2][3]
Myanmar Extended-B
RangeU+A9E0..U+A9FF
(32 code points)
PlaneBMP
ScriptsMyanmar
အဓိက အက္ခရာများပါဠိ, Tai Laing
Assigned31 code points
အသုံးမပြု1 reserved code points
ယူနီကုဒ် ဗားရှင်းသမိုင်း
7.031 (+31)
မှတ်စု: [4][5]

သီးခြားသတ်မှတ်ပေးထားသည့် နံပါတ်များဖြစ်သည်။ ယူနီကုဒ် ဆိုသည်မှာ ကမ္ဘာသုံးစကား အားလုံးမှ အက္ခရာစာလုံး တစ်လုံးတိုင်းအတွက် တိကျသော နံပါတ် တစ်လုံးတည်းသာ သတ်မှတ်ပေးသော ဘုံသုံးစနစ်ဟူ၍လည်း ခေါ်ဆိုကြသည်။

ယူနီကုဒ်ဖြင့် စကားပေါင်း များစွာကို Font တစ်ခုတည်းတွင် ထည့်သွင်းနိုင်ပြီး မည်သည့် ကွန်ပျူတာစနစ်တွင်မဆို အသုံးပြုနိုင်ရမည်ဖြစ်သည်။ ကွန်ပျူတာ ဆိုသည်က ကိန်းဂဏန်းများကိုသာ သိသည်ဟု ယေဘုယျအားဖြင့် ပြောနိုင်သည်။ ကွန်ပျူတာတွင် ဖတ်မှတ်ခြင်း၊ သိမ်းဆည်းခြင်းများကို ကိန်းဂဏန်းများဖြင့်သာ ပြုလုပ်နိုင်သည်။ ယူနီကုဒ်ကို မတီထွင်မီက ကိန်းဂဏန်းတစ်ခုကို သိရှိနိုင်ရန်အတွက် လျှို့ဝှက်ကိန်းစနစ်များစွာကို အသုံးပြုကြရသည်။ စကား တစ်ခုအတွက် ပြည့်စုံလုံလောက်သော encoding စနစ်များ မရှိပေ။

ယူနီကုဒ်စနစ်တွင် မြန်မာအက္ခရာတစ်လုံးချင်းစီအတွက် U 1000 မှ U 109F အတွင်းတွင် သီးခြားသတ်မှတ်ပေးထားသည်။ မြန်မာယူနီကုဒ်တွင် မွန်၊ ကရင်၊ ကယား၊ ရှမ်း နှင့် ပလောင်ဘာသာစကားများအတွက် ပါဝင်ပြီး ပါဠိနှင့် သက္ကရိုက်ဘာသာစကားကိုလည်း အသုံးပြုနိုင်သည်။

မြန်မာ[1]
Unicode Consortium မှ ကုဒ်ဇယား (PDF)
 0123456789ABCDEF
U+100x က
U+101x
U+102x
U+103x      
U+104x
U+105x
U+106x
U+107x
U+108x
U+109x
မှတ်ချက်
၁။^ ယူနီကုဒ် ဗားရှင်း 8.0 အရ
မြန်မာ ထပ်တိုးအက္ခရာ-က[1]
Unicode Consortium မှ ကုဒ်ဇယား (PDF)
 0123456789ABCDEF
U+AA6x
U+AA7x ꩿ
Notes
1.^ ယူနီကုဒ် ဗားရှင်း 11.0 အရ
မြန်မာ ထပ်တိုးအက္ခရာ-ခ[1][2]
Unicode Consortium မှ ကုဒ်ဇယား (PDF)
 0123456789ABCDEF
U+A9Ex
U+A9Fx
Notes
1.^ ယူနီကုဒ် ဗားရှင်း 11.0 အရ
2.^ မီးခိုးရောင်အကွက်သည် ကုဒ်ပွိုင့် မထည့်ထားသောနေရာဖြစ်သည်

မြန်မာယူနီကုဒ် သမိုင်း

ASCII Code ပေါ်တွင် မြန်မာစာကို encode လုပ်၍ အသုံးပြုခဲ့ကြသည်။ အင်္ဂလိပ် Character set ယာယီ ငှားသုံးခဲ့ကြခြင်းဖြစ်သည်။ ဥပမာ- မြန်မာစာ “က” သည် အင်္ဂလိပ်အက္ခရာ U (ASCII code point 117) ပေါ်တွင် encode လုပ်ထားခြင်းဖြစ်သည်။ သို့သော် ယူနီကုဒ်တွင် “က” နှင့် "u" သည် အက္ခရာတစ်ခုစီ ကွဲပြားနေသည်။ ကွန်ပျူတာက စံတစ်ခုကို သိလာမှသာ တစ်ကမ္ဘာလုံး မည်သည့်ကွန်ပျူတာကမဆို မြန်မာစာကို နားလည်လာပါမည်။ ကွန်ပျူတာက လက်ခံနိုင်သည့် စံ ဆိုသည်မှာ ကကြီးကို U+1000 နှင့် ခခွေးကို U + 1001 အဖြစ် ကုဒ်အနေဖြင့် ပုံသေ သတ်မှတ်ပေးရပါလိမ့်မည်။ သတ်မှတ်ရုံသာမက တစ်ကမ္ဘာလုံးရှိ Software Developer များ သိစေရန်နှင့် တပြေးညီအသုံးပြုနိုင်စေရန် သတ်မှတ်ပြီး ကြေညာထားကြရပါလိမ့်မည်။ ထိုသို့ သတ်မှတ်ကြေညာမှုကို ISO က စံထားပြီးသတ်မှတ်ပေးသည်။

ယူနီကုဒ် ၁.ဝ တွင် ယခုလက်ရှိသုံးနေသော မြန်မာယူနီကုဒ်သည် တိဘက်စကားအောက်တွင် ရှိခဲ့သည်။ ယူနီကုဒ် ၁.၁ တွင် ယူနီကုဒ်တွင် မြန်မာစာကို ဖယ်ထုတ်ခဲ့ပီး ၂.ဝ တွင် အခြား ကုဒ်နံပါတ်များအောက်တွင် ပြန်လည်ထည့်သွင်းခဲ့သည်။

၁၉၉၅ မတ်လ ၁၂ ရက်တွင် မိုက်ကယ်အီဗာဆင်မှ ယူနီကုဒ် WG2 တွင် Title: Names of Burmese characters: comment on Unicode Technical Report #1 အမည်ဖြင့်စာတမ်းတစ်စောင် စတင်တင်သွင်းခဲ့သည်။[6]

၁၉၉၆ တွင် မိုက်ကယ်အီဗာဆင်မှ proposal စတင်တင်သွင်းခဲ့သည်။[7]

၁၉၉၈ တွင် မိုက်ကယ်အီဗာဆင်မှပင် amendment တင်သွင်းခဲ့သည်။[8]

၁၉၉၈ ဇူလိုင် ၂၄ တွင် ကိုဇော်ထွဋ်မှ Response to Myanmar Proposal N1729 (Expert Contribution to Unicode Consortium) ကိုရေးသားခဲ့သည်။[9]

၁၉၉၈ အောက်တိုဘာတွင်London, UK ၌ ကျင်းပသော WG 2 meeting 35 သို့ မြန်မာနိုင်ငံမှ ဒေါက်တာအောင်မော် (CE) ၊ ဦးခင်မောင်လွင် (ကွန်ပျူတာပညာရှင်အသင်း)၊ ဒေါက်တာကျော်သိန်း (ကွန်ပျူတာတက္ကသိုလ်)၊ ဦးသောင်းတင် (KMD) နှင့် ဦးသိန်းထွဋ် (Geocomp) တို့သည် လေ့လာသူအဖြစ်တက်ရောက်ကာ မြန်မာစာအကြောင်းကို ပြည့်စုံစွာတင်ပြခဲ့ပြီး မြန်မာယူနီကုဒ်ကို မြန်မာလူမျိုးပညာရှင်များလက်သို့ စတင် မျိုးစေ့ချပေးခဲ့သည်။[10]

ဤဆွေးနွေးပွဲတွင် မြန်မာပညာရှင်များကိုယ်တိုင် တက်ရောက်ဆွေးနွေးခဲ့ခြင်း မပြုနိုင်ပါက ယခုအချိန်တွင် မြန်မာလူမျိုးများသည် မြန်မာစာကို ပြင်ပမှသာလေ့လာတတ်မြောက်ထားသော နိုင်ငံခြားပညာရှင်များ၏ proposal ဖြင့် ပေါ်ထွက်လာမည့် မြန်မာယူနီကုဒ်ကိုသာ အသုံးပြုကြရမည်ဟု ယူဆနိုင်သည်။

အခြေခံ မြန်မာယူနီကုဒ် Unicode Character Code 3.0 ကို 1998 ခုနှစ်တွင် သတ်မှတ်အတည်ပြု ပြဋ္ဌာန်းခဲ့ပြီးဖြစ်ပါသည်။ သို့သော် ထိုအချိန်တွင် ယူနီကုဒ်ကို လိုက်လံအကောင်အထည်ဖော် တီထွင်ဆောင်ရွက်မည့်သူ တစ်ဦးမျှ မြန်မာနိုင်ငံတွင် မရှိခဲ့ပေ။ 1999 ခုနှစ် နောက်ပိုင်းမှ 2002 ခုနှစ်အထိ မြန်မာစာ ယူနီကုဒ်ကို သုံးစွဲနိုင်အောင် လုပ်ဆောင်နေသူများကို လေ့လာကြည့်ရာတွင် Graphite enabled Padauk မှ လွဲပြီး အခြား မည်သူတစ်ဦးတစ်ယောက်မျှ မရှိခဲ့ပါ။

မြန်မာစာကို ယူနီကုဒ်အဖြစ် သတ်မှတ်ပေးခဲ့စဉ်က ယူနီကုဒ် Consortium အဖွဲ့ကြီးတွင် မြန်မာစာကို ကောင်းစွာ တတ်ကျွမ်းသူ မရှိသည့်အပြင် မြန်မာနိုင်ငံတွင်လည်း Unicode related technologies များကို နားလည်သူ တစ်ဦးမျှ ထွက်ပေါ်လာခြင်း မရှိသေးသဖြင့် ယူနီကုဒ်ဆိုသည်မှာ ချိုနှင့်လား ပြန်မေးရမည့် အချိန်ဖြစ်သည်။ ပေးကားပေး၏၊ မရသေးသည့်သဘောဖြစ်ခဲ့ပါသည်။

2002 ခုနှစ်၊ ဒီဇင်ဘာလ ရောက်မှ ကိုငွေထွန်း က မြစေတီ ယူနီကုဒ် စနစ်ကို တီထွင်နိုင်ခဲ့ပြီး 2003 ခုနှစ်၊ ဇန်နဝါရီလတွင် etrademyanmar.com ၌ ပထမဦးဆုံး စတင် အသုံးပြုနိုင်ခဲ့သည်။ ကိုငွေထွန်းသည် မြစေတီယူနီကုဒ်ကို ရန်ကုန်မြို့ရှိ စာချုပ်စာတမ်းများ မှတ်ပုံတင်ရုံးတွင် ကုန်အမှတ်တံဆိပ် မှတ်ပုံတင်ပြီး တရားဝင်သုံးစွဲခဲ့ကြောင်း သိရှိရသည်။

သို့ရာတွင် ထိုစဉ်က မြန်မာယူနီကုဒ်စနစ်မှာ Virama စနစ်ပေါ်တွင်အခြေခံထားသောကြောင့် မြစေတီယူနီကုဒ်စနစ်မှာ ယူနီကုဒ်စံကို အပြည့်အဝလိုက်နာထားသော စနစ်ဟု မဆိုနိုင်ပေ။ ထိုပြင် ထိုစဉ်က မြစေတီယူနီကုဒ်စနစ်မှာ အဆမတန်ဈေးကြီးခြင်း အသုံးပြုခွင့်လိုင်စင်မှာလည်း ယခုလက်ရှိပေါ်ထွက်လာသော လိုင်စင်များကဲ့သို့ Open Source လိုင်စင်များ မဟုတ်ခြင်း စသည့် အချက်များကြောင့် ကျယ်ကျယ်ပြန့်ပြန့် သုံးစွဲနိုင်ခဲ့ခြင်း မရှိခဲ့ပါ။

2002 ခုနှစ်တွင် မြန်မာနိုင်ငံ၌ အတည်မပြုနိုင်သေးသည့် ယူနီကုဒ်စနစ်ကို မြန်မာနိုင်ငံ ကွန်ပျူတာအသင်းချုပ်မှ တာဝန်ယူ လုပ်ဆောင်ကြရန် ဝိုင်းဝန်း တိုက်တွန်းကြပါသည်။ ယူနီကုဒ်စနစ်ကို နိုင်ငံတော်စံတစ်ခုအနေဖြင့် အသုံးပြုနိုင်ရေးအတွက် လုပ်ငန်းစတင်ရန် ဘဏ္ဍာရေးအထောက်အပံ့များ စတင်ရှာဖွေခဲ့ကြသည်။ နိုင်ငံတော်အကြီးအကဲများသည် မြန်မာ့စံယူနီကုဒ်ဖြစ်မြောက်ရေးအတွက် ကျပ်သိန်း ၅၀ ကို စတင်ထောက်ပံ့ပေးခဲ့ပါသည်။ ဤသို့ဖြင့် ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့ Myanmar Unicode and NLP Research Centre သည် မြန်မာနိုင်ငံ ကွန်ပျူတာ သင်းချုပ်ကြီး၏ အစီအမံဖြင့် ဖွဲ့စည်းနိုင်ခဲ့သည်။ NLP အဖွဲ့ကြီးသည် 2002 ခုနှစ်မှစပြီး နိုင်ငံတော်အတွက် ယူနီကုဒ်တာဝန်များကို အချိန်ပြည့် စတင်တာဝန်ယူ လုပ်ဆောင်ခဲ့သည် ဟု ဆိုနိုင်သည်။

ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့

မြန်မာစာစနစ်အကောင်အထည်ဖော်ခြင်းအဖွဲ့ (Myanmar Unicode and NLP Research Centre) ကို NLP ဟုလည်း ခေါ်ကြသည်။ NLP ဆိုသည်မှာ Natural Language Processing ကို ခေါ်ဆိုခြင်းဖြစ်သည်။ NLP အဖွဲ့ကြီးသည် NGO (non-government organization) တစ်ခု ဖြစ်သလို NPO (non-profit organization) အဖွဲ့လည်း ဖြစ်သည်။ ကိုယ်ကျိုးမဖက် အများအကျိုးသက်သက် သို့မဟုတ် နိုင်ငံတော်အကျိုးအတွက် သက်သက် ဆောင်ရွက်နေသည့် အဖွဲ့ကြီးဟူ၍လည်း ဆိုနိုင်သည်။

NLP ကို 2003 ခုနှစ်၊ နိုဝင်ဘာလ 27 ရက်နေ့တွင် စတင်ဖွဲ့စည်းနိုင်ခဲ့ပြီး အဖွဲ့ဝင် (၁၇) ဦးဖြင့် အကောင်အထည်ဖော်နိုင်ခဲ့သည်။ 2003 ခုနှစ် နိုဝင်ဘာလမှစပြီး Pentium IV Server ကွန်ပျူတာတစ်လုံးတပ်ဆင်ကာ မြန်မာနိုင်ငံ ကွန်ပျူတာအသင်းချုပ်ရှိ Incubation Centre တွင် မြန်မာယူနီကုဒ်စနစ်ကို စတင်လုပ်ဆောင်ခဲ့ကြသည်။

NLP အဖွဲ့တွင် မြန်မာစာစနစ်ကို အကောင်အထည်ဖော်နိုင်ရန်အတွက် အဖွဲ့၏ကြီးကြပ်မှုအောက်တွင် အချိန်ပြည့် ပရိုဂရမ်မာ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာဘွဲ့ရ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာတန်းတက်ရောက်နေသူ (၂)ဦးတို့နှင့် ခန့်ထားပြီး စတင်လုပ်ဆောင်ခဲ့ကြသည်။

မြန်မာတစ်မျိုးသားလုံးအသုံးပြုရန် စံအဖြစ်လုပ်ဆောင်ကြရသည်ဖြစ်သောကြောင့် မြန်မာယူနီကုဒ်ဖြစ်မြောက်ရေးအဖွဲ့တွင် နည်းပညာအရရော၊ မြန်မာစာစနစ်ဆိုင်ရာအတွက်ပါ မြန်မာစာအဖွဲ့မှ တတ်ကျွမ်းသူ ပညာရှင်များနှင့် ဖွဲ့စည်းထားခဲ့ပါသည်။ မြန်မာစာအဖွဲ့မှ ညွှန်ကြားရေးမှူးချုပ် ဦးစံလွင်၊ မြန်မာစာအဖွဲ့ဝင် ဦးထွန်းတင့် ၊ သမိုင်းအဖွဲ့ဝင် ဦးသော်ကောင်းတို့ ပါဝင်ကြသည်။ ကွန်ပျူတာနည်းပညာအတွက် ပညာရှင်များဖြစ်သော ဦးသိန်းထွဋ်၊ ဦးဇော်ထွဋ်၊ ဦးငွေထွန်း၊ ဦးဝေလင်းကျော် တို့က စိတ်ရောကိုယ်ပါ ယနေ့တိုင် အကူအညီပေး ဆောင်ရွက်လျက် ရှိကြသည်။ အတွင်းရေးမှူးမှာ ဒေါက်တာ ဒေါ်မြင့်မြင့်သန်း ဖြစ်သည်။

ကိုးကား

  1. Unicode character database The Unicode Standard 22 March 2013 တွင် ပြန်စစ်ပြီး။
  2. Unicode character database The Unicode Standard 2016-07-09 တွင် ပြန်စစ်ပြီး။
  3. Enumerated Versions of The Unicode Standard The Unicode Standard 2016-07-09 တွင် ပြန်စစ်ပြီး။
  4. Unicode character database The Unicode Standard 2016-07-09 တွင် ပြန်စစ်ပြီး။
  5. Enumerated Versions of The Unicode Standard The Unicode Standard 2016-07-09 တွင် ပြန်စစ်ပြီး။
  6. မော်ကွန်းတင်ပြီးမိတ္တူ 12 October 2008 တွင် မူရင်းအား မော်ကွန်းတင်ပြီး။ 28 March 2009 တွင် ပြန်စစ်ပြီး။
  7. မော်ကွန်းတင်ပြီးမိတ္တူ 9 August 2011 တွင် မူရင်းအား မော်ကွန်းတင်ပြီး။ 28 March 2009 တွင် ပြန်စစ်ပြီး။
  8. မော်ကွန်းတင်ပြီးမိတ္တူ 26 March 2010 တွင် မူရင်းအား မော်ကွန်းတင်ပြီး။ 28 March 2009 တွင် ပြန်စစ်ပြီး။
  9. မော်ကွန်းတင်ပြီးမိတ္တူ 26 March 2010 တွင် မူရင်းအား မော်ကွန်းတင်ပြီး။ 28 March 2009 တွင် ပြန်စစ်ပြီး။
  10. http://std.dkuug.dk/JTC1/SC2/WG2/docs/n1904r.doc
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.