RíomhairíCláir

UTF-8 - ionchódú carachtar

Tacaíonn Unicode beagnach gach tacair carachtar atá ann cheana féin. Tá an fhoirm is fearr de ionchódú a leagtar carachtar Unicode UTF-8 ionchódú. Tacaíonn sé chomhoiriúnacht le ASCII, friotaíocht chun saobhadh ar na sonraí, ar éifeachtúlacht agus éasca le próiseáil. Ach rudaí chéad chéad uair.

foirm códaithe

oibriú Ríomhairí ní hamháin mar uimhreacha rudaí teibí matamaiticiúla, chomh maith leis na teaglamaí na n-aonad stórála agus láimhseála sonraí a seasta-mhéid - beart agus focail 32-giotán. Ní mór caighdeán Ionchódú a chur san áireamh nuair a chinneadh conas a chur i láthair ar líon na carachtair.

I córais ríomhaireachta, na slánuimhreacha a stóráiltear i cealla gcuimhne ar 8 giotán (1 beart), 16 nó 32 giotán. Sainmhíníonn gach foirm a ionchódú Unicode, a bhfuil ord na cealla chuimhne slánuimhir ar comhréir le siombail ar leith. Sa an caighdeán tá trí fhoirmeacha éagsúla códaithe carachtar Unicode 8, 16 agus 32-giotán bloic. Dá réir sin, tá siad ar a dtugtar UTF-8, UTF-16 agus UTF-32. Seasann Ainm UTF do Unicode Format Athraithe. Tá gach ceann de na trí chineál modhanna ionchódú Tá carachtar Unicode comhionann ionadaíocht buntáistí in iarratais éagsúla.

Is féidir le criptiú sonraí a mbaintear úsáid astu mar carachtair sa chaighdeán Unicode. Dá bhrí sin, tá siad ag luí go hiomlán le réitigh do chúiseanna éagsúla, ag baint úsáide as cineálacha éagsúla códaithe. Is féidir le gach códú a thiontú gan athbhrí isteach aon cheann de an dá cheann eile gan aon chaillteanas sonraí.

prionsabal nenalozheniya

Gach ceann de na ionchódú foirmeacha Unicode a forbraíodh i bhfianaise forluí neamh páirteach. Mar shampla, foirmeacha Windows-932 na carachtair de cheann amháin nó dhá bytes de chód. Braitheann an fad ord ar an gcéad bheart, mar sin na luachanna beart tosaigh sa sraith de dhá-beart agus disjoint beart amháin. Mar sin féin, is féidir leis an luach a bhaineann le beart aonair agus trailing seicheamh dhá bheart an am céanna. Ciallaíonn sé seo, mar shampla gur féidir leis an cuardach a dhéanamh carachtar (cód 44) D a fháil ag dul isteach dhearmad isteach sa dara cuid leis an ord san dhá-beart carachtar "D" (cód 84 44). Chun a fháil amach cé acu ord ceart, ba cheart don chlár a chur san áireamh na bearta roimhe seo.

Is é an staid casta, más rud é an cluiche bytes rá agus trailing. Ciallaíonn sé seo go mbeidh d'fhonn a bhaint as an débhríocht a bheith ina athrú lookup bhaint amach roimh an tús an téacs nó an t-ord cód uathúil. Tá sé seo ní hamháin mí-éifeachtach, ach níl sé faoi chosaint ó earráidí is féidir, ós rud é go bhfuil ach amháin beart mícheart leis an téacs iomlán a bheith unreadable.

Formáid comhshó Unicode seachnaítear an fhadhb seo toisc nach bhfuil an luach de na tosaigh, trailing, agus aonad aonair de stórála an t-eolas céanna. Cinntíonn sé seo go bhfuil gach Unicode do chuardach agus comparáid a dhéanamh, ní thugann torthaí earráideach mar gheall ar an chomhtharlú na codanna éagsúla den chód carachtar. Ós rud é go na cineálacha códú an prionsabal a nenalozheniya idirdhealú, iad ó encodings il-beart hÁise Thoir eile.

Gné eile nonintersection encodings Unicode é go bhfuil gach carachtar teorainn atá sainithe go soiléir. deireadh leis an ngá a scanadh líon éiginnte de siombailí roimhe. Tá an gné seo Uaireanta tugtar ionchódú féin-clogáil. Beidh Saobhadh na n-aonad cód isteach shaobhadh ach aon charachtar amháin, agus tá na carachtair máguaird fós slán. In athrúchán fhormáid 8-giotán, más rud é na pointí pointeoir chuig an beart, ag tosú le 10xxxxxx (i cód dénártha) chun teacht ar an tús an tsiombail is gá chun 02:59 haistrithe athrú.

comhsheasmhacht

Tacaíonn Unicode Consortium go hiomlán ar fad 3 cineál encodings. Tá sé tábhachtach gan cur i gcoinne UTF-8 agus Unicode, mar go léir formáidí comhshó - chomh foirmeacha bailí ar embodiment an Unicode caighdeán carachtar-ionchódú.

Beart-treoshuíomh

Ionadaíocht a UTF-32 carachtair a bhfuil gá aonad cód 32-giotán, atá comhthráthach leis an cód Unicode. UTF-16 - 01:59 aonad 16-giotán. A UTF-8 Úsáideann suas go dtí 4 bytes.

Tá ionchódú UTF-8 deartha chun a bheith ag luí leis na córais ASCII-bhunaithe beart atá dírithe ar. An chuid is mó de na bogearraí agus cleachtas na teicneolaíochta faisnéise atá ann ar feadh i bhfad ag brath ar an léiriú carachtar i seicheamh na mbeart. prótacail il ag brath ar an seasmhacht ionchódú ASCII agus úsáideann ceachtar seachnaítear na carachtair rialú speisialta. Bealach simplí a chur in oiriúint do staideanna féidir Unicode, ag baint úsáide as 8-giotán códaithe as ionadaíocht carachtair Unicode, aon charachtar ASCII choibhéis nó carachtar rialaithe. Chuige sin, agus tá sé UTF-8 ionchódú.

ilfhaid

UTF-8 - códú na ilfhaid, comhdhéanta d'aonaid stórála 8-giotán, na píosaí uachtair a léiríonn cén chuid den t-ord de gach beart ar leith mbaineann. raon Ceann de luachanna a leithroinneadh ar an chéad ghné den seicheamh cód, ceann eile - le haghaidh an chéad cheann eile. Soláthraíonn an ionchódú disjointness.

ASCII

cóid ASCII Tá ionchódú UTF-8 tacaíocht iomlán (0x00-0x7F). Ciallaíonn sé seo go bhfuil na carachtair Unicode U + 0000-U + 007F thiontú i bheart aonair 0x00-0x7F UTF-8 agus dá bhrí sin a bheith aitheanta ó ASCII. Thairis sin, athbhrí a sheachaint, an luach 0x00-0x7F nach n-úsáidtear a thuilleadh i ionadaíocht bheart aonair de charachtair Unicode. A ionchódú siombailí neideograficheskih seachas ASCII, ag baint úsáide as sraith de dhá bytes. Siombailí raon U + 0800-U + FFFF Tá ionadaíocht ag trí bytes, agus a cheangal ar cóid breise le níos mó ná U + FFFF ceithre bytes.

réimse iarratais

ionchódú UTF-8 ghnáth thabhairt rogha sa phrótacal HTML, agus a leithéidí.

Tá XML bheith ar an gcéad caighdeánach le tacaíocht iomlán do UTF-8 ionchódú. Molann eagraíochtaí um Chaighdeáin freisin é. fadhb tacaíochta sa seoladh URL atá éagsúil ó na ASCII-carachtair Réitíodh, nuair a tháinig an W3C cuibhreannas agus grúpa innealtóireachta IETF ar chomhaontú maidir leis an códú gach seoltaí URL heisiach in UTF-8.

Éascaíonn Comhoiriúnacht ASCII an aistriú go dtí na bogearraí nua. Le oibreacha UTF-8 is eagarthóirí téacs, lena n-áirítear jEdit, Emacs, BBEdit, Eclipse, agus "Notepad" an córas oibriúcháin Windows. Ní féidir aon chineál eile ionchódú Unicode boast den sórt sin chun tacú leis an uirlis.

Is códaithe buntáiste go bhfuil sé comhdhéanta de shraith de bytes. Le UTF-8 teaghrán éasca a bheith ag obair i C agus teangacha cláir eile. Is é seo an fhoirm amháin de ionchódú, an t-ordú nach gá lipéid bytes BOM nó dearbhú ionchódú i XML.

féin-sioncrónaithe

I dtimpeallacht go n-úsáideann siombailí 8-giotán den phróiseáil i gcomparáid le tacair carachtar il-beart eile, tá na buntáistí seo a leanas UTF-8:

  • Tá eolas ar a fhad é an chéad seicheamh cód beart. Méadaíonn sé seo an éifeachtúlacht an gcuardach díreach.
  • Simplithe teacht ar an tús an tsiombail mar go bhfuil an beart ag tosú teoranta do réimse seasta de luachanna.
  • Níl luachanna dtrasnaíonn beart.

Déan comparáid idir na buntáistí

Is ionchódú UTF-8 dhlúth. Ach nuair a úsáidtear chun ionchódú carachtair na hÁise Thoir (Sínis, tSeapáinis, Cóiréis, scríbhneoireacht Sínis ag baint úsáide as comharthaí) a úsáidtear sraitheanna 3-beart. Chomh maith leis sin tá UTF-8 ionchódú níos lú ná cineálacha eile códaithe luas próiseála. A línte sórtáil dénártha Táirgeann an toradh céanna leis an dénártha sórtáil Unicode.

An scéim ionchódú carachtar

Cuimsíonn an scéim ionchódú carachtar foirm siombailí ionchódú agus modh chun aonaid Cód suímh beart amháin. Chun an scéim ionchódú Soláthraíonn Unicode caighdeán úsáid a bhaint as ordú beart marc tosaigh (ordú marc BOM, Beart) a chinneadh.

Nuair a bhíonn an Bhord Bainistíochta má UTF-8 tag gné teoranta amháin faoi threoir úsáid na mbealaí de códaithe. tá Fadhbanna a chinneadh an endian UTF-8, mar go bhfuil a mhéid aonad ionchódú beart amháin. Ag baint úsáide as an mBord Bainistíochta don saghas seo códaithe de dhíth le luach ná ní mholtar. D'fhéadfadh Bord Bainistíochta tarlú sa téacs a bheidh le comhshó ó codings eile ag baint úsáide ordú beart marc nó síniú do UTF-8 ionchódú. Is sraith de 3 bytes EF BB 16 16 BF 16.

Conas a shocrú ar an UTF-8 ionchódú

Tá an HTML códaithe Tá UTF-8 suiteáilte leis an cód seo a leanas:

Head

META http-equiv = "Content-Cineál" a bhfuil ann = "text / html; charset = utf-8" ˃

I PHP Tá UTF-8 ionchódú leagtha ag baint úsáide as an header () Feidhm ag tús an chomhaid tar éis a leagan an earráid luach leibhéal aschuir:

˂? Php

error_reporting (-1);

header ( "Content-Cineál: text / html; charset = utf-8 ');

Chun ceangal le bunachar sonraí MySQL Tá UTF-8 ionchódú leagtha:

˂? Php

mysql_set_charset ( 'utf8');

Is é an ionchódú CSS-comhad carachtair UTF-8 atá sonraithe mar seo a leanas:

@charset "utf-8";

Nuair a bheidh shábháil tú na comhaid de gach cineál a roghnaíonn UTF-8 ionchódú gan BOM, nó ní bheidh an suíomh ag obair. Chun seo a dhéanamh i DreamWeave gá a roghnú an mír roghchlár "Modhnuithe - Leathanach Airíonna - Teideal / Ionchódú" an ionchódú a athrú go UTF-8. Athluchtú ina dhiaidh sin an t-leathanach, bain an marc a sheiceáil ó "síniú Connect Unicode (BB)» agus beidh feidhm ag na hathruithe. Má tugadh isteach aon téacs ar an leathanach nó i mbunachar sonraí cineál eile códaithe, is gá a ath-iontráil nó ath-ionchódú. Nuair a bheidh tú ag obair le habairtí rialta, a bheith cinnte a bhaint as an mionathraithe u.

Is féidir leat freisin a shábháil an comhad ionchódú UTF-8 sa "Notepad" de Windows. Tar éis a roghnú an mír roghchlár "File - Save As ..." a shuiteáil an fhoirm chuí na ionchódú agus an comhad in UTF-8 a shábháil.

I Notepad eagarthóir téacs ++, má chruthaíonn seachas UTF-8, tríd an mír roghchlár "Tiontaigh go UTF-8 gan Bord Bainistíochta» athrú ar an carachtar agus a shábháil i UTF-8.

níl aon rogha eile

I gcomhthéacs an domhandaithe, i gcás ina bhfuil teorainneacha polaitiúla agus teanga scriosadh, is iad na tacair carachtar go bhfuil tréithe áitiúla, úsáid beag. Is Unicode sraith carachtar amháin thugann tacaíocht do gach localizations. A UTF-8 - sampla de chur i bhfeidhm cuí na Unicode, a bhfuil:

  • Tacaíonn sé le raon leathan de uirlisí, lena n-áirítear comhoiriúnacht le ionchódú ASCII;
  • Tá sé resistant a shonraí saobhadh;
  • simplí agus éifeachtach i gcóireáil;
  • Is ardán neamhspleách.

Le teacht an UTF-8 díospóireacht faoi cén fhoirm de ionchódú nó carachtar sraith is fearr, bíonn sé meaningless.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ga.birmiss.com. Theme powered by WordPress.