NYELVÉSZ :: View topic - Magyar szó-adatbázis

Persze, meg nyilván a j/ly különbség sem a fonémamegoszlást tükrözi, nem is beszélve a magánhangzók hosszúságáról... De azért nagyjáből mégis, nem?

Nem véletlen írtam azt, hogy ,,dolog.'' Mert ugye akkor a TSZ-t is vehetnénk egy trigráfnak, vagy a TR-t digráfnak mondjuk.

Én nem naon szeretem ezt a fonéma-dolgot.

szigetva wrote:

dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.)

Na, ezért ez nem annyira "mondjuk", hiszen pont ez az egyik érv amellett, h nem fonéma!

dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.)

Gondolom durva megközelítés lehet a betűgyakoriság megítélésére az, h pl egy értelmező szótárban hány címszó kezdődik egy adott abc-s tétellel?

Elenyésző azon esetek száma, amihez morfológiai elemzés kell.

Hát ezt morfológiai elemzés nélkül nem fogod megcsinálni. Másképp honnan tudnád, hogy az egészség szóban egy sz és egy z van, nem egy s és egy zs vagy két s és egy z. Ráadásul pl. egy hosszú ssz-t minek elemzel?

Itt állítólag 500.000 szóból állt össze a lista:
http://www.bckelk.ukfsn.org/words/etaoin.html
E A T L N S K O M Z R I G Á É Y D B V H J Ö F U P Ő Ó C Ü Í Ú Ű X W Q

Ebben nincsenek kettősbetűk.

Brain Storming wrote:

A gyakorisági elemzések csak egyes karakterekkel foglalkoznak, nekem azonban a gy, ty, ly, stb gyakoriságára lenne szükségem!

Biztos, hogy komolyan vehető egy 9620 betűn alapuló statisztika?

Itt állítólag 500.000 szóból állt össze a lista

Author:	kalman [ 2009. February 2, Monday, 17:24 ]
Post subject:	Re: Magyar szó-adatbázis
fejes.lászló wrote: Persze, meg nyilván a j/ly különbség sem a fonémamegoszlást tükrözi, nem is beszélve a magánhangzók hosszúságáról... De azért nagyjáből mégis, nem? Hát ezt nem értem, ha csak "nagyjából" kell "fonémákban" számolni, annyira "nagyjából", hogy még azt is figyelmen kívül akarod hagyni, h a j és a ly ugyanaz a "fonéma", akkor mér kéne olyan ritka jelenségen és olyan jelentéktelen kérdésen fennakadni, hogy a dz egy "fonéma"-e, vagy kettőnek a szekvenciája?

Author:	fejes.lászló [ 2009. February 2, Monday, 15:34 ]
Post subject:	Re: Magyar szó-adatbázis
Persze, meg nyilván a j/ly különbség sem a fonémamegoszlást tükrözi, nem is beszélve a magánhangzók hosszúságáról... De azért nagyjáből mégis, nem? Persze nem esett szó arról, hogy mire kell ez BS-nek, de hát ez nyelvészfórum, arról nem is szólva, hogy különben mit számít, mi a kettősbetű? Különben szerintem a dz esetében ez csak nagyon mellékes érv, az sokkal inkább, h sosem fordul elő olyan röviden, mint a c. Vö. edz és eddz! -- mindkettőben egyformán hosszúak. Persze vannak tények, amelyek kihívást jelentenek a fonémás elemzésenk, de nem ez.

Author:	rebrus [ 2009. February 2, Monday, 11:16 ]
Post subject:	Re: Magyar szó-adatbázis
szigetva wrote: Nem véletlen írtam azt, hogy ,,dolog.'' Mert ugye akkor a TSZ-t is vehetnénk egy trigráfnak, vagy a TR-t digráfnak mondjuk. A TSZ-ben lehet valami igazad, hiszen ezt az esetek jelentős részében kötelezően hosszú c-nek ejtjük töveken belül (pl. játszik, metsz, tetszik) és a -sz személyrag miatt ragozott alakokban is (ez utóbbi igaz a TS, TJ, DJ stb-re is). Az, hogy ezeket nem "fonetikusan" írjuk, csak konvenció. A TR-t nem értem, a magyarban ez sztem "kompozicionális": összerakható a T és az R más pozícióbeli ejtéseiből (felpattanó T + pergetett/egyperdületű R). De BS asszem mást akart, hiszen az ipszilonos digráfokat kérdezte, lehet, hogy nem is a kiejtésre kíváncsi.

Author:	szigetva [ 2009. February 2, Monday, 8:58 ]
Post subject:	Re: Magyar szó-adatbázis
Nem véletlen írtam azt, hogy ,,dolog.'' Mert ugye akkor a TSZ-t is vehetnénk egy trigráfnak, vagy a TR-t digráfnak mondjuk.

Author:	kalman [ 2009. February 2, Monday, 8:11 ]
Post subject:	Re: Magyar szó-adatbázis
rebrus wrote: Én nem naon szeretem ezt a fonéma-dolgot. Pont ezt akartam mondani, h ezen az alapon előbb rá kéne engedni a szövegre egy oan progit, ami minden szónak visszaállítja a "mögöttes" reprezentációját.

NYELVÉSZ http://seas3.elte.hu/nyelveszforum/

Magyar szó-adatbázis http://seas3.elte.hu/nyelveszforum/viewtopic.php?f=5&t=235	Page 3 of 4

Author:	fejes.lászló [ 2009. February 1, Sunday, 23:49 ]
Post subject:	Re: Magyar szó-adatbázis
szigetva wrote: dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.) Na, ezért ez nem annyira "mondjuk", hiszen pont ez az egyik érv amellett, h nem fonéma!

Author:	szigetva [ 2009. February 1, Sunday, 23:46 ]
Post subject:	Re: Magyar szó-adatbázis
Elég durva, mert pl. ly-nal, meg ty-vel egy-egy, dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.)

Author:	Brain Storming [ 2009. February 1, Sunday, 23:43 ]
Post subject:	Re: Magyar szó-adatbázis
Gondolom durva megközelítés lehet a betűgyakoriság megítélésére az, h pl egy értelmező szótárban hány címszó kezdődik egy adott abc-s tétellel?

Author:	martonfi [ 2009. January 31, Saturday, 22:46 ]
Post subject:	Re: Magyar szó-adatbázis
Brain Storming wrote: Itt állítólag 500.000 szóból állt össze a lista Nem csak állítólag. A magyar nyelv szépprózai gyakorisági szótára valóban ekkora szövegen alapul. De csak karakterstatisztika van benne. És már az élen is radikális különbség van a wikis listához képest, ugyanis 10,26% e-ről és 9,27% a-ról tud. És ez is csupán egyetlen regiszter egyetlen korszakát dolgozza fel (1965–1977, széppróza). De azt először is neked kell tudnod, hogy milyen statisztika érdekel, milyen célra. Mivel könnyedén feldolgozhatók manapság hatalmas szövegkorpuszok is, ezen statisztikák előállítása nem okozhat komolyabb problémát. (Én a te kettőd egyikét se venném túl komolyan: ez az utóbbi – megszorításokkal – jelent valamit, viszont a kétjegyű betűkről, amik neked kellenek, semmit nem mond, az előbbi teljességgel a vicc kategóriába tartozik.)

Page 3 of 4	All times are UTC + 1 hour
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/

Author:	rebrus [ 2009. February 2, Monday, 1:27 ]
Post subject:	Re: Magyar szó-adatbázis
fejes.lászló wrote: szigetva wrote: dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.) Na, ezért ez nem annyira "mondjuk", hiszen pont ez az egyik érv amellett, h nem fonéma! Én nem naon szeretem ezt a fonéma-dolgot. Mi köze egy hang- (fón- v. karaker-) statisztikához annak, hogy egy absztrakt, szótagolási reprezentációt tartozó elméletben a dz-t más kategória nem lévén a "fonéma" kukszliba vagy a "mássalhangzó-kapcsolat" kukszliba tuszakoljuk (-ják, pace Siptár) be? Ha valaki ien listára kíváncsi, akkor valószínűleg nem az elméleti fonológia (számomra elég öncélúnak tűnő) spekulációi érdeklik. Hangsúlyozom, ez akkor is igaz, ha valaki egyébként hisz a dz-nem-egy-fonéma-a-magyarban érvelésben, és az ennek alapjául szolgáló elmélet(ek)ben. Ne keverjük mán össze a megfigyelt tényeket (itt vmely korpuszban a karakterek/gráfok gyakoriságát) a hasonló dolgokat (pl. fonotaktika) vizsgáló elméletek modelljeivel.

Author:	fejes.lászló [ 2009. February 1, Sunday, 23:48 ]
Post subject:	Re: Magyar szó-adatbázis
Brain Storming wrote: Gondolom durva megközelítés lehet a betűgyakoriság megítélésére az, h pl egy értelmező szótárban hány címszó kezdődik egy adott abc-s tétellel? Nem! Egyes fonémák a szóban különböző pozíciókban szeretnek előfordulni! Pl. az e a leggyakoribb magyar betű, de mivel a magánghangzók nem annyira kedvelik a szókezdetet (na, ezt igencsak leegyszerűsítem: szóval a nyelv inkább az olyan szótagokat kedveli, amelyek mássalhangzóval kezdődnek), ezért az e-vel kezdődő szavak száma szinte biztosan alacsonyabb lesz, mint a k-val vagy t-vel kezdődőké. Ebben közrejátszik az is, h kevesebb magánhangzó van, mint mássalhangzó, viszont valamilyen magánhangzónak muszáj minden második-harmadik mássalhangzó után megjelennie, (milyen sok m!!!, sőt, milyen sok nazális!!!), ezért a magánhangzóknak nagyobb esélyük gyakorinak lenni.

Author:	Brain Storming [ 2009. February 1, Sunday, 10:43 ]
Post subject:	Re: Magyar szó-adatbázis
Hol vannak olyan szövegkorpusz elemző programok, ha vannak, amikkel a kettős betűket is tudom számolni? Van oan, amit találtam, de az is csak karaktert számlál: az Y-t mindenhol külön veszi a kettősökből, és a CS-ből, meg az SZ-ből meg ZS-ből is külön számolja az S-t. Bár a wikis listában ezek ugyanott vannak! vagy van vhol aktuális statisztika?