NYELVÉSZ

Nyelvészeti vitafórum
It is currently 2020. February 21, Friday, 20:12

All times are UTC + 1 hour




Post new topic Reply to topic  [ 59 posts ]  Go to page Previous  1, 2, 3, 4  Next
Author Message
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 2, Monday, 17:24 
Offline

Joined: 2004. November 10, Wednesday, 21:53
Posts: 2548
fejes.lászló wrote:
Persze, meg nyilván a j/ly különbség sem a fonémamegoszlást tükrözi, nem is beszélve a magánhangzók hosszúságáról... De azért nagyjáből mégis, nem?
Hát ezt nem értem, ha csak "nagyjából" kell "fonémákban" számolni, annyira "nagyjából", hogy még azt is figyelmen kívül akarod hagyni, h a j és a ly ugyanaz a "fonéma", akkor mér kéne olyan ritka jelenségen és olyan jelentéktelen kérdésen fennakadni, hogy a dz egy "fonéma"-e, vagy kettőnek a szekvenciája?


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 2, Monday, 15:34 
Offline

Joined: 2007. September 9, Sunday, 18:13
Posts: 2367
Persze, meg nyilván a j/ly különbség sem a fonémamegoszlást tükrözi, nem is beszélve a magánhangzók hosszúságáról... De azért nagyjáből mégis, nem? Persze nem esett szó arról, hogy mire kell ez BS-nek, de hát ez nyelvészfórum, arról nem is szólva, hogy különben mit számít, mi a kettősbetű?

Különben szerintem a dz esetében ez csak nagyon mellékes érv, az sokkal inkább, h sosem fordul elő olyan röviden, mint a c. Vö. edz és eddz! -- mindkettőben egyformán hosszúak. Persze vannak tények, amelyek kihívást jelentenek a fonémás elemzésenk, de nem ez.

_________________
A hozzászólás tartalma magánvélemény, semmilyen közösségnek vagy intézménynek, legfőképpen pedig a hozzászóló munkahelyének hivatalos álláspontját nem tükrözi. (BIJE)


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 2, Monday, 11:16 
Offline

Joined: 2004. November 11, Thursday, 13:24
Posts: 381
szigetva wrote:
Nem véletlen írtam azt, hogy ,,dolog.'' Mert ugye akkor a TSZ-t is vehetnénk egy trigráfnak, vagy a TR-t digráfnak mondjuk.


A TSZ-ben lehet valami igazad, hiszen ezt az esetek jelentős részében kötelezően hosszú c-nek ejtjük töveken belül (pl. játszik, metsz, tetszik) és a -sz személyrag miatt ragozott alakokban is (ez utóbbi igaz a TS, TJ, DJ stb-re is). Az, hogy ezeket nem "fonetikusan" írjuk, csak konvenció. A TR-t nem értem, a magyarban ez sztem "kompozicionális": összerakható a T és az R más pozícióbeli ejtéseiből (felpattanó T + pergetett/egyperdületű R).

De BS asszem mást akart, hiszen az ipszilonos digráfokat kérdezte, lehet, hogy nem is a kiejtésre kíváncsi.


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 2, Monday, 8:58 
Offline

Joined: 2004. November 10, Wednesday, 18:20
Posts: 2183
Nem véletlen írtam azt, hogy ,,dolog.'' Mert ugye akkor a TSZ-t is vehetnénk egy trigráfnak, vagy a TR-t digráfnak mondjuk.


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 2, Monday, 8:11 
Offline

Joined: 2004. November 10, Wednesday, 21:53
Posts: 2548
rebrus wrote:
Én nem naon szeretem ezt a fonéma-dolgot.
Pont ezt akartam mondani, h ezen az alapon előbb rá kéne engedni a szövegre egy oan progit, ami minden szónak visszaállítja a "mögöttes" reprezentációját. :)


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 2, Monday, 1:27 
Offline

Joined: 2004. November 11, Thursday, 13:24
Posts: 381
fejes.lászló wrote:
szigetva wrote:
dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.)


Na, ezért ez nem annyira "mondjuk", hiszen pont ez az egyik érv amellett, h nem fonéma! :)


Én nem naon szeretem ezt a fonéma-dolgot. Mi köze egy hang- (fón- v. karaker-) statisztikához annak, hogy egy absztrakt, szótagolási reprezentációt tartozó elméletben a dz-t más kategória nem lévén a "fonéma" kukszliba vagy a "mássalhangzó-kapcsolat" kukszliba tuszakoljuk (-ják, pace Siptár) be?

Ha valaki ien listára kíváncsi, akkor valószínűleg nem az elméleti fonológia (számomra elég öncélúnak tűnő) spekulációi érdeklik.

Hangsúlyozom, ez akkor is igaz, ha valaki egyébként hisz a dz-nem-egy-fonéma-a-magyarban érvelésben, és az ennek alapjául szolgáló elmélet(ek)ben. Ne keverjük mán össze a megfigyelt tényeket (itt vmely korpuszban a karakterek/gráfok gyakoriságát) a hasonló dolgokat (pl. fonotaktika) vizsgáló elméletek modelljeivel.


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 23:49 
Offline

Joined: 2007. September 9, Sunday, 18:13
Posts: 2367
szigetva wrote:
dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.)


Na, ezért ez nem annyira "mondjuk", hiszen pont ez az egyik érv amellett, h nem fonéma! :)

_________________
A hozzászólás tartalma magánvélemény, semmilyen közösségnek vagy intézménynek, legfőképpen pedig a hozzászóló munkahelyének hivatalos álláspontját nem tükrözi. (BIJE)


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 23:48 
Offline

Joined: 2007. September 9, Sunday, 18:13
Posts: 2367
Brain Storming wrote:
Gondolom durva megközelítés lehet a betűgyakoriság megítélésére az, h pl egy értelmező szótárban hány címszó kezdődik egy adott abc-s tétellel?


Nem! Egyes fonémák a szóban különböző pozíciókban szeretnek előfordulni! Pl. az e a leggyakoribb magyar betű, de mivel a magánghangzók nem annyira kedvelik a szókezdetet (na, ezt igencsak leegyszerűsítem: szóval a nyelv inkább az olyan szótagokat kedveli, amelyek mássalhangzóval kezdődnek), ezért az e-vel kezdődő szavak száma szinte biztosan alacsonyabb lesz, mint a k-val vagy t-vel kezdődőké. Ebben közrejátszik az is, h kevesebb magánhangzó van, mint mássalhangzó, viszont valamilyen magánhangzónak muszáj minden második-harmadik mássalhangzó után megjelennie, (milyen sok m!!!, sőt, milyen sok nazális!!!), ezért a magánhangzóknak nagyobb esélyük gyakorinak lenni.

_________________
A hozzászólás tartalma magánvélemény, semmilyen közösségnek vagy intézménynek, legfőképpen pedig a hozzászóló munkahelyének hivatalos álláspontját nem tükrözi. (BIJE)


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 23:46 
Offline

Joined: 2004. November 10, Wednesday, 18:20
Posts: 2183
Elég durva, mert pl. ly-nal, meg ty-vel egy-egy, dz-vel meg egy se. (Mondjuk az utóbbi valószínűleg nem is egy dolog.)


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 23:43 
Offline

Joined: 2007. January 10, Wednesday, 0:41
Posts: 1152
Location: Hódmezővásárhely
Gondolom durva megközelítés lehet a betűgyakoriság megítélésére az, h pl egy értelmező szótárban hány címszó kezdődik egy adott abc-s tétellel? :?: :wink:

_________________
"Le a 'LY'-vel, é'jj'en a 'J'!"


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 20:48 
Offline

Joined: 2007. September 9, Sunday, 18:13
Posts: 2367
szigetva wrote:
Elenyésző azon esetek száma, amihez morfológiai elemzés kell.


Lehet, de amíg nem nézzük meg, nem tudjuk, mennyit torzít....

_________________
A hozzászólás tartalma magánvélemény, semmilyen közösségnek vagy intézménynek, legfőképpen pedig a hozzászóló munkahelyének hivatalos álláspontját nem tükrözi. (BIJE)


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 12:41 
Offline

Joined: 2004. November 10, Wednesday, 18:20
Posts: 2183
fejes.lászló wrote:
Hát ezt morfológiai elemzés nélkül nem fogod megcsinálni. Másképp honnan tudnád, hogy az egészség szóban egy sz és egy z van, nem egy s és egy zs vagy két s és egy z. Ráadásul pl. egy hosszú ssz-t minek elemzel?
Elenyésző azon esetek száma, amihez morfológiai elemzés kell.

Itt van egy régi sortoló szkriptem, ami nem erre van, de tkp ilyesmit (is) csinál: egy karakterbe rántja a kettősbetűket: http://seas3.elte.hu/szigetva/etcetera/ ... rting.html

Itt meg van ez a p2ogob nevű cucc: http://seas3.elte.hu/szigetva/etcetera/ ... puses.html Az ogob azt jelenti, hogy ,,one grapheme one byte'', amit tkp akarsz.


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 10:50 
Offline

Joined: 2007. September 9, Sunday, 18:13
Posts: 2367
Brain Storming wrote:
Itt állítólag 500.000 szóból állt össze a lista:
http://www.bckelk.ukfsn.org/words/etaoin.html
E A T L N S K O M Z R I G Á É Y D B V H J Ö F U P Ő Ó C Ü Í Ú Ű X W Q

Ebben nincsenek kettősbetűk.

Brain Storming wrote:
A gyakorisági elemzések csak egyes karakterekkel foglalkoznak, nekem azonban a gy, ty, ly, stb gyakoriságára lenne szükségem!


Hát ezt morfológiai elemzés nélkül nem fogod megcsinálni. Másképp honnan tudnád, hogy az egészség szóban egy sz és egy z van, nem egy s és egy zs vagy két s és egy z. Ráadásul pl. egy hosszú ssz-t minek elemzel?

martonfi wrote:
Biztos, hogy komolyan vehető egy 9620 betűn alapuló statisztika?


Elvileg ugye 44 elemmel számolhatunk. Ez azt jelenti, hogy ha egyenlőek az esélyek, minden betűnek kb. 200-szor kellene felbukkannia. Az ettől való eltérések szerintem már jól mutatják a gyakorisági tendenciákat. De mindjárt jön prezzey, és elvégez egy chi-tesztet :) (Persze ehhez tudni kéne az ereményeket is.)

_________________
A hozzászólás tartalma magánvélemény, semmilyen közösségnek vagy intézménynek, legfőképpen pedig a hozzászóló munkahelyének hivatalos álláspontját nem tükrözi. (BIJE)


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. February 1, Sunday, 10:43 
Offline

Joined: 2007. January 10, Wednesday, 0:41
Posts: 1152
Location: Hódmezővásárhely
Hol vannak olyan szövegkorpusz elemző programok, ha vannak, amikkel a kettős betűket is tudom számolni?

Van oan, amit találtam, de az is csak karaktert számlál: az Y-t mindenhol külön veszi a kettősökből, és a CS-ből, meg az SZ-ből meg ZS-ből is külön számolja az S-t. Bár a wikis listában ezek ugyanott vannak!

vagy van vhol aktuális statisztika?

_________________
"Le a 'LY'-vel, é'jj'en a 'J'!"


Top
 Profile  
 
 Post subject: Re: Magyar szó-adatbázis
PostPosted: 2009. January 31, Saturday, 22:46 
Offline

Joined: 2008. January 3, Thursday, 1:04
Posts: 587
Location: Budapest
Brain Storming wrote:
Itt állítólag 500.000 szóból állt össze a lista

Nem csak állítólag. A magyar nyelv szépprózai gyakorisági szótára valóban ekkora szövegen alapul. De csak karakterstatisztika van benne. És már az élen is radikális különbség van a wikis listához képest, ugyanis 10,26% e-ről és 9,27% a-ról tud. És ez is csupán egyetlen regiszter egyetlen korszakát dolgozza fel (1965–1977, széppróza).
De azt először is neked kell tudnod, hogy milyen statisztika érdekel, milyen célra. Mivel könnyedén feldolgozhatók manapság hatalmas szövegkorpuszok is, ezen statisztikák előállítása nem okozhat komolyabb problémát. (Én a te kettőd egyikét se venném túl komolyan: ez az utóbbi – megszorításokkal – jelent valamit, viszont a kétjegyű betűkről, amik neked kellenek, semmit nem mond, az előbbi teljességgel a vicc kategóriába tartozik.)


Top
 Profile  
 
Display posts from previous:  Sort by  
Post new topic Reply to topic  [ 59 posts ]  Go to page Previous  1, 2, 3, 4  Next

All times are UTC + 1 hour


Who is online

Users browsing this forum: No registered users and 1 guest


You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot post attachments in this forum

Search for:
Jump to:  
cron

Figyelem!
A faliújságon megjelentek nem képviselik többek közt a következő szervezetek hivatalos véleményét:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group