| NYELVÉSZ http://seas3.elte.hu/nyelveszforum/ |
|
| Magyar szó-adatbázis http://seas3.elte.hu/nyelveszforum/viewtopic.php?f=5&t=235 |
Page 3 of 4 |
| Author: | kalman [ 2009. February 2, Monday, 17:24 ] |
| Post subject: | Re: Magyar szó-adatbázis |
fejes.lászló wrote: Persze, meg nyilván a j/ly különbség sem a fonémamegoszlást tükrözi, nem is beszélve a magánhangzók hosszúságáról... De azért nagyjáből mégis, nem? Hát ezt nem értem, ha csak "nagyjából" kell "fonémákban" számolni, annyira "nagyjából", hogy még azt is figyelmen kívül akarod hagyni, h a j és a ly ugyanaz a "fonéma", akkor mér kéne olyan ritka jelenségen és olyan jelentéktelen kérdésen fennakadni, hogy a dz egy "fonéma"-e, vagy kettőnek a szekvenciája?
|
|
| Author: | fejes.lászló [ 2009. February 2, Monday, 15:34 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Persze, meg nyilván a j/ly különbség sem a fonémamegoszlást tükrözi, nem is beszélve a magánhangzók hosszúságáról... De azért nagyjáből mégis, nem? Persze nem esett szó arról, hogy mire kell ez BS-nek, de hát ez nyelvészfórum, arról nem is szólva, hogy különben mit számít, mi a kettősbetű? Különben szerintem a dz esetében ez csak nagyon mellékes érv, az sokkal inkább, h sosem fordul elő olyan röviden, mint a c. Vö. edz és eddz! -- mindkettőben egyformán hosszúak. Persze vannak tények, amelyek kihívást jelentenek a fonémás elemzésenk, de nem ez. |
|
| Author: | rebrus [ 2009. February 2, Monday, 11:16 ] |
| Post subject: | Re: Magyar szó-adatbázis |
szigetva wrote: Nem véletlen írtam azt, hogy ,,dolog.'' Mert ugye akkor a TSZ-t is vehetnénk egy trigráfnak, vagy a TR-t digráfnak mondjuk. A TSZ-ben lehet valami igazad, hiszen ezt az esetek jelentős részében kötelezően hosszú c-nek ejtjük töveken belül (pl. játszik, metsz, tetszik) és a -sz személyrag miatt ragozott alakokban is (ez utóbbi igaz a TS, TJ, DJ stb-re is). Az, hogy ezeket nem "fonetikusan" írjuk, csak konvenció. A TR-t nem értem, a magyarban ez sztem "kompozicionális": összerakható a T és az R más pozícióbeli ejtéseiből (felpattanó T + pergetett/egyperdületű R). De BS asszem mást akart, hiszen az ipszilonos digráfokat kérdezte, lehet, hogy nem is a kiejtésre kíváncsi. |
|
| Author: | szigetva [ 2009. February 2, Monday, 8:58 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Nem véletlen írtam azt, hogy ,,dolog.'' Mert ugye akkor a TSZ-t is vehetnénk egy trigráfnak, vagy a TR-t digráfnak mondjuk. |
|
| Author: | kalman [ 2009. February 2, Monday, 8:11 ] |
| Post subject: | Re: Magyar szó-adatbázis |
rebrus wrote: Én nem naon szeretem ezt a fonéma-dolgot. Pont ezt akartam mondani, h ezen az alapon előbb rá kéne engedni a szövegre egy oan progit, ami minden szónak visszaállítja a "mögöttes" reprezentációját. |
|
| Author: | rebrus [ 2009. February 2, Monday, 1:27 ] |
| Post subject: | Re: Magyar szó-adatbázis |
fejes.lászló wrote: szigetva wrote: dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.) Na, ezért ez nem annyira "mondjuk", hiszen pont ez az egyik érv amellett, h nem fonéma! Én nem naon szeretem ezt a fonéma-dolgot. Mi köze egy hang- (fón- v. karaker-) statisztikához annak, hogy egy absztrakt, szótagolási reprezentációt tartozó elméletben a dz-t más kategória nem lévén a "fonéma" kukszliba vagy a "mássalhangzó-kapcsolat" kukszliba tuszakoljuk (-ják, pace Siptár) be? Ha valaki ien listára kíváncsi, akkor valószínűleg nem az elméleti fonológia (számomra elég öncélúnak tűnő) spekulációi érdeklik. Hangsúlyozom, ez akkor is igaz, ha valaki egyébként hisz a dz-nem-egy-fonéma-a-magyarban érvelésben, és az ennek alapjául szolgáló elmélet(ek)ben. Ne keverjük mán össze a megfigyelt tényeket (itt vmely korpuszban a karakterek/gráfok gyakoriságát) a hasonló dolgokat (pl. fonotaktika) vizsgáló elméletek modelljeivel. |
|
| Author: | fejes.lászló [ 2009. February 1, Sunday, 23:49 ] |
| Post subject: | Re: Magyar szó-adatbázis |
szigetva wrote: dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.) Na, ezért ez nem annyira "mondjuk", hiszen pont ez az egyik érv amellett, h nem fonéma! |
|
| Author: | fejes.lászló [ 2009. February 1, Sunday, 23:48 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Brain Storming wrote: Gondolom durva megközelítés lehet a betűgyakoriság megítélésére az, h pl egy értelmező szótárban hány címszó kezdődik egy adott abc-s tétellel? Nem! Egyes fonémák a szóban különböző pozíciókban szeretnek előfordulni! Pl. az e a leggyakoribb magyar betű, de mivel a magánghangzók nem annyira kedvelik a szókezdetet (na, ezt igencsak leegyszerűsítem: szóval a nyelv inkább az olyan szótagokat kedveli, amelyek mássalhangzóval kezdődnek), ezért az e-vel kezdődő szavak száma szinte biztosan alacsonyabb lesz, mint a k-val vagy t-vel kezdődőké. Ebben közrejátszik az is, h kevesebb magánhangzó van, mint mássalhangzó, viszont valamilyen magánhangzónak muszáj minden második-harmadik mássalhangzó után megjelennie, (milyen sok m!!!, sőt, milyen sok nazális!!!), ezért a magánhangzóknak nagyobb esélyük gyakorinak lenni. |
|
| Author: | szigetva [ 2009. February 1, Sunday, 23:46 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Elég durva, mert pl. ly-nal, meg ty-vel egy-egy, dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.) |
|
| Author: | Brain Storming [ 2009. February 1, Sunday, 23:43 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Gondolom durva megközelítés lehet a betűgyakoriság megítélésére az, h pl egy értelmező szótárban hány címszó kezdődik egy adott abc-s tétellel? |
|
| Author: | fejes.lászló [ 2009. February 1, Sunday, 20:48 ] |
| Post subject: | Re: Magyar szó-adatbázis |
szigetva wrote: Elenyésző azon esetek száma, amihez morfológiai elemzés kell. Lehet, de amíg nem nézzük meg, nem tudjuk, mennyit torzít.... |
|
| Author: | szigetva [ 2009. February 1, Sunday, 12:41 ] |
| Post subject: | Re: Magyar szó-adatbázis |
fejes.lászló wrote: Hát ezt morfológiai elemzés nélkül nem fogod megcsinálni. Másképp honnan tudnád, hogy az egészség szóban egy sz és egy z van, nem egy s és egy zs vagy két s és egy z. Ráadásul pl. egy hosszú ssz-t minek elemzel? Elenyésző azon esetek száma, amihez morfológiai elemzés kell.Itt van egy régi sortoló szkriptem, ami nem erre van, de tkp ilyesmit (is) csinál: egy karakterbe rántja a kettősbetűket: http://seas3.elte.hu/szigetva/etcetera/ ... rting.html Itt meg van ez a p2ogob nevű cucc: http://seas3.elte.hu/szigetva/etcetera/ ... puses.html Az ogob azt jelenti, hogy ,,one grapheme one byte'', amit tkp akarsz. |
|
| Author: | fejes.lászló [ 2009. February 1, Sunday, 10:50 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Brain Storming wrote: Itt állítólag 500.000 szóból állt össze a lista: http://www.bckelk.ukfsn.org/words/etaoin.html E A T L N S K O M Z R I G Á É Y D B V H J Ö F U P Ő Ó C Ü Í Ú Ű X W Q Ebben nincsenek kettősbetűk. Brain Storming wrote: A gyakorisági elemzések csak egyes karakterekkel foglalkoznak, nekem azonban a gy, ty, ly, stb gyakoriságára lenne szükségem! Hát ezt morfológiai elemzés nélkül nem fogod megcsinálni. Másképp honnan tudnád, hogy az egészség szóban egy sz és egy z van, nem egy s és egy zs vagy két s és egy z. Ráadásul pl. egy hosszú ssz-t minek elemzel? martonfi wrote: Biztos, hogy komolyan vehető egy 9620 betűn alapuló statisztika? Elvileg ugye 44 elemmel számolhatunk. Ez azt jelenti, hogy ha egyenlőek az esélyek, minden betűnek kb. 200-szor kellene felbukkannia. Az ettől való eltérések szerintem már jól mutatják a gyakorisági tendenciákat. De mindjárt jön prezzey, és elvégez egy chi-tesztet |
|
| Author: | Brain Storming [ 2009. February 1, Sunday, 10:43 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Hol vannak olyan szövegkorpusz elemző programok, ha vannak, amikkel a kettős betűket is tudom számolni? Van oan, amit találtam, de az is csak karaktert számlál: az Y-t mindenhol külön veszi a kettősökből, és a CS-ből, meg az SZ-ből meg ZS-ből is külön számolja az S-t. Bár a wikis listában ezek ugyanott vannak! vagy van vhol aktuális statisztika? |
|
| Author: | martonfi [ 2009. January 31, Saturday, 22:46 ] |
| Post subject: | Re: Magyar szó-adatbázis |
Brain Storming wrote: Itt állítólag 500.000 szóból állt össze a lista Nem csak állítólag. A magyar nyelv szépprózai gyakorisági szótára valóban ekkora szövegen alapul. De csak karakterstatisztika van benne. És már az élen is radikális különbség van a wikis listához képest, ugyanis 10,26% e-ről és 9,27% a-ról tud. És ez is csupán egyetlen regiszter egyetlen korszakát dolgozza fel (1965–1977, széppróza). De azt először is neked kell tudnod, hogy milyen statisztika érdekel, milyen célra. Mivel könnyedén feldolgozhatók manapság hatalmas szövegkorpuszok is, ezen statisztikák előállítása nem okozhat komolyabb problémát. (Én a te kettőd egyikét se venném túl komolyan: ez az utóbbi – megszorításokkal – jelent valamit, viszont a kétjegyű betűkről, amik neked kellenek, semmit nem mond, az előbbi teljességgel a vicc kategóriába tartozik.) |
|
| Page 3 of 4 | All times are UTC + 1 hour |
| Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/ |
|