FoirmiúColáistí agus ollscoileanna

Cad é Corpus Teangeolaíochta?

Díreach cúpla scór bliain ó shin a uathoibriú an taighde teangeolaíoch, d'fhéadfadh eolaithe bhrionglóid ach de. Rinneadh an obair de láimh, meallann sé líon mór mac léinn, tá seans substaintiúil "míchúramach" botúin, agus is tábhachtaí - Ghlac sé seo go léir le fada, fada an lá.

Le go bhfuil forbairt na teicneolaíochta ríomhaireachta anois is féidir taighde a dhéanamh ar an ord méadaíochta níos tapúla, agus sa lá atá inniu tá sé ar cheann de na treoracha is bisiúla sa staidéar ar theanga a teangeolaíocht chorpais. Is é an ghné is mó an úsáid a bhaint suimeanna móra na faisnéise téacs, faisnéis i mbunachar sonraí amháin, ar bhealach ar leith agus ar a dtugtar an comhlacht marcáilte.

Go dtí seo, tá go leor foirgneamh a cruthaíodh le críoch éagsúil ar bhonn ábhair teanga éagsúla a chuimsíonn ó na milliúin go deich billiúin na n-aonad foclóireachta. Tá an treoir aithnítear mar tuar dóchais inti agus léiríonn dul chun cinn suntasach i dtreo na cuspóirí iarratais agus taighde. Saineolaithe, ar bhealach amháin nó déileáil eile le teanga nádúrtha, tá sé molta a fháil acquainted leis an gcomhlacht na téacsanna a laghad ag leibhéal bunúsach.

Stair na teangeolaíocht chorpais

Is é an foirmiú an treocht mar gheall ar an cruthú na Stát Aontaithe ag comhlacht Brown go luath sna 60-aí an chéid seo caite. sa bhailiúchán na téacsanna go léir 1 milliún foirmeacha focal, agus sa lá atá inniu go mbeadh an comhlacht ar an méid a bheith go hiomlán neamhiomaíoch. Tá sé seo den chuid is mó mar gheall ar an luas na forbartha na teicneolaíochta ríomhaireachta, chomh maith leis na héilimh atá ag fás ar acmhainní taighde nua.

I 90s teangeolaíocht chorpais chun cinn i ndisciplín iomlán agus neamhspleách, tá bailiúchán de théacsanna dréachtaithe agus marcáilte le haghaidh an iliomad teangacha. Sa tréimhse seo a cruthaíodh é, mar shampla, an British National Corpus 100 milliún comharthaí.

Le forbairt an cheantair seo de teangeolaíocht, tá méideanna téacs éirí níos mó agus níos mó (agus teacht billiúin na n-aonad Foclóir), agus tá an leagan amach ag éirí níos éagsúla. Go dtí seo, is féidir leis an spás Idirlíon a fháil conablaigh scríofa agus labhartha teanga, ilteangach, agus litríocht ealaíonta nó acadúil foghlama atá dírithe ar, chomh maith le go leor speiceas eile.

Cad iad na tithíochta

Is féidir na cineálacha Comhlacht sna teangeolaíocht gcorp a sholáthar ar chúiseanna éagsúla. Intuitively, is féidir leis an bunús le haicmiú ina theanga téacs (Rúisis, Gearmáinis), an modh rochtana (foinse oscailte, dúnta, tráchtála), an seánra an bhunábhair (ficsean, faisnéise, acadúil, iriseoireacht).

Gineann bhealach suimiúil ábhair den teanga labhartha. Ós rud é an taifeadadh d'aon ghnó cainte den sórt sin a chruthú timpeallacht shaorga do na freagróirí, agus nach bhféadfadh an t-ábhar mar thoradh air a dtugtar "spontáineach", tá teangeolaíocht nua-aimseartha corpus imithe ar an mbealach eile. Tá oibrí deonach feistithe le micreafón, agus i rith an lae a tháirgtear taifead de gach comhrá, ina bhfuil sí rannpháirteach. Daoine timpeall, ar ndóigh, d'fhéadfadh nach bhfuil a fhios i gcúrsa comhrá ó lá go lá a chuireann le forbairt na heolaíochta.

Níos déanaí fuair taifead stóráilte sa bhunachar sonraí agus tá siad ag gabháil leis an chineáil athscríbhinn téacs i gcló. Dá bhrí sin, bíonn sé marcála is féidir is gá a chruthú tithíocht chaint ó bhéal go laethúil.

iarratas

Aon uair is féidir úsáid a bhaint as teanga, agus b'fhéidir an úsáid foirgneamh téacsanna. Modhanna a chur i bhfeidhm ar an chabhail in teangeolaíocht fhéadfadh:

  • Ag cruthú clár a chinneadh an eochair, a úsáidtear go forleathan i gcúrsaí polaitíochta agus gnó súil a choinneáil ar na freagraí dearfacha agus diúltacha de vótálaithe agus custaiméirí a choinneáil, faoi seach.
  • Córas eolais Ceangal le foclóirí agus aistritheoirí chun feabhas a chur ar a gcuid feidhmíochta.
  • Tá éagsúlacht de thascanna taighde a chuireann le tuiscint ar an t-aonad teanga, an stair a fhorbairt agus réamhaisnéis na n-athruithe go luath amach anseo.
  • Forbairt ar chórais aisghabhála eolais bunaithe ar na gnéithe moirfeolaíocha, syntactic, shéimeantach agus eile.
  • Leas iomlán a bhaint de na córais eagsúla teangeolaíochta agus daoine eile.

Úsáid na bhfoirgneamh

Comhéadan acmhainní den chineál céanna a bhfuil inneall cuardaigh tipiciúil, agus leideanna an úsáideoir a chur isteach focal nó teaglaim de na focail chun cuardach a dhéanamh ar an mbonn eolais. Amach foirm is féidir leis an cheist cruinn a bhaint as an leagan feabhsaithe, a chuireann ar chumas chun teacht ar eolas théacsa ar aon chritéir beagnach teanga.

D'fhéadfadh bonn chuardaigh:

  • ballraíocht de ghrúpa áirithe codanna cainte;
  • Gnéithe gramadaí;
  • semantics;
  • dathú stíle agus mhothúchánach.

Is féidir leat freisin le chéile critéir chuardaigh do shraith de na focail, mar shampla, chun teacht ar gach uile chás den bhriathar san aimsir, an chéad duine atá i láthair uatha, a thagann i ndiaidh an réamhfhocal "i" agus an ainmfhocal sa tuiseal cuspóireach. Glacann an réiteach den sórt sin tasc simplí an t-úsáideoir cúpla soicind agus éilíonn ach a tharlaíonn cúpla luch sna réimsí sonraithe.

An próiseas a chruthú

Is féidir leis an cuardach féin a dhéanamh ar gach subcorpus agus ceann a roghnaíodh go sonrach, ag brath ar na riachtanais i sprioc faoi leith a bhaint amach:

  1. Is é an chéad chéim a shainiú a téacsanna mar bhonn le haghaidh an cás. Ar chúiseanna praiticiúla, tá sé in úsáid go minic iriseoireachta, scéalta nuachta, tuairimí ar líne. Tá an tionscadal taighde úsáid a bhaint as raon leathan de chineálacha phacáiste, ach ba chóir an téacs a roghnú de réir roinnt talamh coitianta.
  2. An bailiúchán de thoradh na dtéacsanna faoi réir pretreatment, tá ceartú earráidí, más ann, arna ullmhú ag cur síos bibleagrafaíochta agus seach-teanga an téacs.
  3. An bhfuil deireadh ar fad fhaisnéis nach mbeidh théacsa: Glan na grafaicí, pictiúir, táblaí.
  4. Is leithdháileadh comharthaí, a bhfuil de ghnáth urlabhra, le haghaidh tuilleadh próiseála.
  5. Mar fhocal scoir, rinne sé moirfeolaíocha, comhréire agus marcálacha eile a fuarthas iolrachas na n-eilimintí.

Is é an toradh na n-idirbheart arna ndéanamh ag struchtúr syntactic le dháileadh ann iolrachas na gnéithe, tá gach ceann acu aitheanta mar chuid cainte, gramadaí agus, i gcásanna áirithe, na tréithe shéimeantach.

Deacrachtaí i bhfoirgnimh a chruthú

Tá sé tábhachtach a thuiscint nach bhfuil go leor a chur le chéile le sraith de na focail nó abairtí don chomhlacht. Ar thaobh amháin, ba cheart bailiúchán de théacsanna bheith cothrom, is é sin, ionadaíocht a dhéanamh cineálacha éagsúla téacsanna i cion áirithe. Ar an taobh eile - ba cheart an t-ábhar ar an fhál a spásáil ar bhealach ar leith.

Is é an chéad fhadhb a réiteach trí chomhaontú: mar shampla, maidir le bailiú Áirítear 60% de théacsanna liteartha, 20% de na faisnéise, tá céatadán áirithe mar gheall ar go mbeidh ionadaíocht scríofa den teanga labhartha, reachtaíocht, oibreacha eolaíochta, etc. Níl feidhm ag foirfe oideas comhlacht cothrom sa lá atá inniu ann ...

An dara ceist, maidir leis an leagan amach ábhar, a réiteach dúshlánach. Tá cláir speisialta agus halgartaim úsáidfear do mharcáil uathoibríoch téacsanna, ach ní dhéanann siad a thabhairt de bharr foirfe, is féidir a chur faoi deara briseadh agus a cheangal ar rework láimhe. Déantar cur síos Deiseanna agus dúshláin ag déileáil leis an bhfadhb seo go mion i bpáipéar V. P. Zaharova na teangeolaíocht chorpais.

Tá marcáil téacs i bhfeidhm ag leibhéil éagsúla, a liosta muid thíos.

clibeáil moirfeolaíocha

Ón scoil, cuimhin linn go bhfuil sa teanga Rúisis, tá codanna éagsúla cainte, agus gach ceann acu a bhfuil a saintréithe féin. Mar shampla, tá catagóirí claonadh agus an t-am ag a bhfuil aon ainmfhocal an briathar. cainteoir dúchais gan leisce laghduithe ainmfhocail agus briathra comhchuingeach, ach chun ceiliúradh a dhéanamh ar an comhlacht ar 100 milliún. comharthaí obair láimhe ní obair. Is féidir le gach na n-oibríochtaí is gá fhorghníomhú an ríomhaire, mar sin féin, ar an ní mór é a mhúineadh.

clibeáil moirfeolaíocha, ní mór an ríomhaire "a thuiscint" gach focal mar chuid áirithe cainte a bhfuil gnéithe gramadaí áirithe. Ós rud é go bhfeidhmíonn an Rúise (agus aon teanga eile) roinnt rialacha rialta, is féidir a thógáil nós imeachta uathoibríoch chun anailís moirfeolaíocha, infheistiú sa charr ar feadh roinnt algartaim. Mar sin féin, tá eisceachtaí don riail, chomh maith le fachtóirí casta éagsúla. Mar thoradh air sin, tá anailís ar ríomhaire glan an lae inniu i bhfad ó idéalach, agus táirgeacht fiú 4 Earráid% le luach de 4 mln. Focail ar an comhlacht ar 100 milliún. Aonaid, á cheangal ar rework láimhe.

leabhar mionsonraithe cur síos ar an bhfadhb Zaharova V. P. "Corpus Teangeolaíocht".

anótáil comhréire

Parsáil nó parsáil - nós imeachta go gcinnfidh an gaol idir focail in abairt. Ag baint úsáide as sraith de halgartaim is féidir a chinneadh an téacs ar ábhar, predicate, sínithe, casadh éagsúla cainte. Faigh amach cad iad na focail atá an t-ord is mó, agus atá - ag brath, is féidir linn a bhaint go héifeachtach faisnéis ó téacs agus a mhúineadh ar an meaisín a eisiúint mar fhreagairt ar iarratas cuardaigh ach an t-eolas suimiúil dúinn.

Dála an scéil, a úsáid innill chuardaigh nua-aimseartha seo a thabhairt i gcrích uimhreacha ar leith in ionad na téacsanna fada mar fhreagra ar fhiosrúcháin ábhartha ar nós "cé mhéad calories i úll" nó "an t-achar ó Moscó chun St Petersburg." Mar sin féin, chun tuiscint a fháil ar fiú na bunghnéithe an phróisis a thuairiscítear de bharr an ghá dul i gcomhairle leis "Réamhrá leis an Teangeolaíochta Corpus" nó teagaisc bunúsach eile.

marcáil shéimeantach

Na semantics an focal - is é, i dtéarmaí simplí, an bhrí. Cur chuige go forleathan is infheidhme go dtí an anailís shéimeantach de clibeanna focal sannadh, rud a léiríonn a chuid a bhaineann le sraith de chatagóirí séimeantacha agus fochatagóirí. Tá faisnéis den sórt sin luachmhar chun barr feabhais a halgartaim anailís a ton téacs, achoimriú uathoibríoch agus tascanna modhanna eile teangeolaíocht chorpais.

Tá roinnt "fréamh" an chrainn, a léiríonn focal teibí le semantics an-leathan. Mar ina dtabharfaidh brainse den nóid crann atá déanta, ina bhfuil eilimintí níos mó agus níos sonraí foclóireachta. Mar shampla, d'fhéadfadh an focal "neach" a bheith bainteach le coincheapa ar nós "duine" agus "ainmhí". Beidh an chéad fhocal ar aghaidh ag brainse amach i ngairmeacha éagsúla, téarmaí gaol, náisiúntacht, agus an dara - ar ranganna agus cineálacha na n-ainmhithe.

An úsáid a bhaint as córais aisghabhála eolais

Clúdaíonn Réimsí úsáid teangeolaíocht chorpais réimsí éagsúla de ghníomhaíocht. Cásálacha a úsáidtear le haghaidh ullmhú agus a cheartú foclóirí, a chruthú córas aistriúcháin uathoibrithe, anótáil, fíricí aisghabháil, a chinneadh an ton agus a phróiseáil téacs eile.

Lena chois sin, na hacmhainní sin a úsáid go gníomhach i staidéar teangacha ar domhan agus meicníochtaí feidhmiú na teanga go ginearálta. Éascaíonn Rochtain ar líon mór faisnéise réamhullmhaithe staidéar tapa agus cuimsitheach ar na treochtaí teangacha forbartha, agus luachanna athrú neologisms foirmiú cobhsaí luas cainte aonaid foclóireachta agus daoine eile.

Ós rud é go n-éilíonn an obair le suimeanna móra den sórt sin sonraí uathoibrithe, tá lá atá inniu ann idirghníomhú dlúth idir an ríomhaire agus corpus teangeolaíocht.

Rúisis National Corpus

Áirítear leis seo cás (giorraithe NKRYA) roinnt subcorpus, ag ceadú an úsáid a bhaint as acmhainn do réimse leathan de thascanna.

An t-ábhar sa bhunachar sonraí roinnte NKRYA:

  • le foilseacháin i 90s agus 2000í na meáin ', idir dúchasacha agus eachtrannacha;
  • urlabhra taifeadta;
  • aktsentologicheski téacsanna marcáilte (.i, na marcanna de strus);
  • urlabhra canúint;
  • filíocht;
  • Ábhair le marcálacha comhréire agus eile.

Áirítear ar an gcóras eolais freisin Subcorpus le haistriúcháin comhthreomhar na n-oibreacha ó Rúisis go Béarla, Gearmáinis, Fraincis agus go leor teangacha eile (agus vice versa).

Chomh maith leis sin sa bhunachar sonraí tá alt téacsanna stairiúla, a ionadaíonn an óráid scríofa i Rúisis i dtréimhsí éagsúla dá bhforbairt. Is comhlacht oiliúna, is féidir a bheith úsáideach do shaoránaigh coigríche i leor an teanga Rúisis freisin.

Rúisis National Corpus Cuimsíonn 400 milliún aonad foclóireachta, agus i go leor bealaí chun tosaigh ar chuid shuntasach de theangacha comhlachtaí hEorpa.

ionchais

Tá Fíricí i bhfabhar a aithint an treocht ar fáil tuar dóchais inti teangeolaíocht chorpais saotharlainne in ollscoileanna Rúisis, chomh maith le eachtracha. Leis an úsáid a bhaint as agus taighde faoi chuimsiú faisnéise agus cuardaigh seo acmhainní i gceist le forbairt na gceantar áirithe i réimse na dteicneolaíochtaí ard, córais ceist-fhreagairt, ach tá sé a pléadh thuas.

Tá breis forbartha ar teangeolaíocht chorpais réamh-mheasta ag gach leibhéal, idir theicniúil agus ó thaobh chur i bhfeidhm halgartaim nua a bhaint as na próisis a chuardach agus phróiseála faisnéise, ríomhairí chumasú, níos mó RAM, agus le tomhaltóirí, mar go bhfuil úsáideoirí ar bhealaí níos mó agus níos mó a bhaint as an gcineál seo acmhainn i n-laethúil saol agus don obair.

Mar fhocal scoir

I lár na haoise seo caite i 2017 chuma todhchaí i bhfad i gcéin, i gcás ina spaceships taisteal tríd na Cruinne agus a dhéanann robots ar an obair ar fad do na daoine. Go deimhin, tá eolaíocht replete le "spotaí bána" agus ag déanamh iarrachtaí éadóchasach chun na ceisteanna an chine daonna feadh na gcéadta bliain ar leibhéal fhreagairt. Ceisteanna ag feidhmiú na teanga á saothrú anseo áit onóra, agus is féidir comh-aireachta agus ríomhaireachtúil teangeolaíocht cabhrú linn a dhéanamh den Ghaeilge.

Is féidir le a phróiseáil tacair shonraí mhóra chairt bhrath, roimhe inaccessible, a thuar le forbairt na gnéithe sonracha teanga a rianú ar an foirmiú na bhfocal i mbeagnach bhfíor-am.

Ar leibhéal praiticiúil, is féidir leis an iatán domhanda a bheith le feiceáil, mar shampla, mar uirlis d'fhéadfadh a mheas an meon an phobail - is é an Idirlíon téacsanna bhonn laethúil suas chun dáta i gcónaí éagsúla cruthaithe ag úsáideoirí fíor: an tuairimí agus athbhreithnithe, agus earraí, agus cineálacha eile go leor de na cainte.

Lena chois sin, ag obair le comhlachtaí a chuireann le forbairt ar na crua-earraí céanna, a bhfuil baint acu aisghabháil faisnéise, tá muid eolas maidir leis an tseirbhís "Google" nó "Yandex", aistriúchán uathoibríoch, foclóirí leictreonacha.

Is féidir linn a dhearbhú go muiníneach go ndéanfaidh an teangeolaíocht chorpais ach an chéad chéimeanna, agus beidh go luath amach anseo forás a dhéanamh.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ga.birmiss.com. Theme powered by WordPress.