NYELVÉSZ

Nyelvészeti vitafórum
It is currently 2024. March 28, Thursday, 11:01

All times are UTC + 1 hour




Post new topic Reply to topic  [ 43 posts ]  Go to page Previous  1, 2, 3
Author Message
 Post subject:
PostPosted: 2007. June 16, Saturday, 12:47 
Offline

Joined: 2007. May 3, Thursday, 20:24
Posts: 27
aagnes wrote:
Ez nyilván foglalkozási ártalom :lol: de nekem az első, ami eszembe jutott, a WordNet :D
Bár az a szemantikára hajaz, de nagyon szép kis hierarchikus rendszer ;)
(és igen, az öt plane főnév közül az egyik (közvetett) fölöttese a vehicle)


Köszönöm, hogy felhívtad a figyelmem a WordNet-re, nem ismertem.

Az ontológiák felé kacsintgattam már: elég kézenfekvő, hogy egy jó gépi fordítónak rendelkeznie kellene valamiféle ontológiával. Ez az egyetlen mód, hogy megközelítsük azt a 'common sense'-t, ami alapján egy emberi fordító megkülönbözteti a vicces, abszurd fordításokat az értelmesektől. De milyen ontológiára van szükség? A lehetőségek száma végtelen. Önkényesen annyiféle ontológiát lehet kitalálni, amennyit csak akarunk. Én itt egyértelműen a bőség zavarát érzem. Éppen ezért arra gondoltam, hogy első körben egy nagyon-nagyon egyszerű ontológiát vizsgálok: egyetlen 'isa' reláció által kifeszített kategóriahierarchiát. Azt a kérdést teszem fel magamnak, hogy mi a maximum, amit ebből ki lehet hozni? És amikor már egyértelműen kitapintottam ennek a korlátait, csak akkor veszek fel egy esetleges bonyolultabb ontológiát. (Megihletett egy kicsit Chomsky, amikor bevezette a nyelvosztályok fogalmát, és szépen sorban megmutatta, hogy az egyszerűeknek hol vannnak a határai, és mikor muszáj az összetettebbek felé mennünk.)

Viszont arra is rájöttem, hogy ha egy egyszerű 'isa' hierarchiát akarok felépíteni, még akkor is végtelenül sok lehetőségem van, még mindig a bőség zavarával küzdök. Honnan tudhatom, hogy milyen hierarchia optimális egy gépi fordításhoz?
Ha jól értem varasdi szavait, az Arisztotelészi kategorizálás az önkényes, míg a természetes kategorizálás az valamilyen jól meghatározott tudományos kritériumok alapján térképezi fel a hierarchiát. (Javítsatok ki, ha rosszul értem.) Ebben az esetben tehát valószínűleg érdemes nekem is ezeket a természetes kategóriákat felvennem.

Olyan elképzeléseim is vannak, hogy kezdetben jobb híján önkényesen választom meg a kategóriahierarchiát, vagy pedig egyszerűen puskázok mondjuk a wordnetről. Ezen kategorizálás alapján elkészítem a megfelelő a szemantikai sémákat, (a szemantikai sémák mint már említettem, olyan patternek, amelyek a már szintaktikailag elemzett cuccra match-elődnek, amelyekre a rendszernek fel kell figyelnie, hogy 'jé ennek van értelme', és amelyek kiszorítanak más értelmezési alternatívákat).

Készítek egy jó nagy korpuszt, ami emberek választásait tartalmazza, hogy mely mondatok esetén melyik értelmezést választották... És akkor megpróbálok valami gépi tanuló (vagy inkább evolúciós) módszert kitalálni, ami éjjel nappal fut a számítógépemen, és megpróbálja apránként változtatgatni mind a kategóriahierarchiát, mind az erre alapuló sémákat. És akkor talán az én önkényes ontológiám elindul lassan az optimális irányban... Vagy nem, mert pillanatok alatt beáll valami lokális optimumba. Hamarosan kiderül... Illetve nem hamarosan, mert borzasztóan lassan haladok egyedül, szabadidőmben.


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 15, Friday, 10:10 
Offline

Joined: 2004. November 17, Wednesday, 12:43
Posts: 104
varasdi wrote:
Lassan kész lesz neki a magyar változata is.
kész?? :shock: hááát.. na jó, lassan ;) Arra, h mikor lesz kész, mindig azt szoktam mondani, h az angol wordnetet már 20 éve csinálják folyamatosan, mi meg csak 2 éve kezdtük el...


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 15:03 
Offline

Joined: 2004. November 11, Thursday, 12:46
Posts: 1080
aagnes wrote:
Ez nyilván foglalkozási ártalom :lol: de nekem az első, ami eszembe jutott, a WordNet :D
Bár az a szemantikára hajaz, de nagyon szép kis hierarchikus rendszer ;)
(és igen, az öt plane főnév közül az egyik (közvetett) fölöttese a vehicle)


Igen; persze ez egy "arisztotelészi alapú" nyelvi ontológia, nadam pedig mintha a klasszifikáció általános elvei iránt érdeklődött volna. A WN egy többé-kevésbé klasszikus isa hierarchia (legalábbis a főnévi tartományban, az igeiben a helyzet sokkal bonyolultabb), meg meg egy csomó egyéb relációt is felvesz (meroníma, stb.),így a szemantikai gráfok rokona. Lassan kész lesz neki a magyar változata is. A magyarra alkalmazható ontológiákkal kapcsolatosan a MEO-ontológia portálon vannak anyagok.


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 14:52 
Offline

Joined: 2004. November 17, Wednesday, 12:43
Posts: 104
Ez nyilván foglalkozási ártalom :lol: de nekem az első, ami eszembe jutott, a WordNet :D
Bár az a szemantikára hajaz, de nagyon szép kis hierarchikus rendszer ;)
(és igen, az öt plane főnév közül az egyik (közvetett) fölöttese a vehicle)


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 14:24 
Offline

Joined: 2005. June 21, Tuesday, 13:56
Posts: 906
Location: Budapest
nadam wrote:
Tebe wrote:
Váá, Varasdi megelőzött. :shock:
Egy kicsit konkretizálva:
http://www.oup.com/uk/catalogue/?ci=9780199266647

Neked is köszönöm, a leírása alapján úgy látom, hogy ez a könyv telitalálat.


Az előző kiadásoknak még az volt az alcíme, hogy "prototypes in linguistic theory" :)


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 13:51 
Offline

Joined: 2007. May 3, Thursday, 20:24
Posts: 27
Tebe wrote:
Váá, Varasdi megelőzött. :shock:
Egy kicsit konkretizálva:
http://www.oup.com/uk/catalogue/?ci=9780199266647

Neked is köszönöm, a leírása alapján úgy látom, hogy ez a könyv telitalálat.


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 13:36 
Offline

Joined: 2005. June 21, Tuesday, 13:56
Posts: 906
Location: Budapest
Váá, Varasdi megelőzött. :shock:
Egy kicsit konkretizálva:
http://www.oup.com/uk/catalogue/?ci=9780199266647


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 13:26 
Offline

Joined: 2007. May 3, Thursday, 20:24
Posts: 27
varasdi wrote:
Hát, a Rosch-féle kognitívpszicohológiai prototípuselméletnek voltak (vannak) bizonyos követői a nyelvészeti szemantikán belül is (prototípus szemantika). Őket alapvetően a természetes kategorizáció érdekli, amit kifejezetten nem-arisztotelészinek tekintenek. Szerintem írd be a Google-be, hogy prototype semantics, azon el tudsz indulni. Ha magyarul akarsz valamit, akkor pl. Kiefer Ferenc Jelentéselmélet című könyvében is van ezekről a dologról szó. Ha egy kicsit speciálisabb szinten érdekel, akkor tudom ajánlani Peter Gardenfors Conceptual Spaces című könyvét, vagy a neten lévő cikkeit.

Köszönöm szépen, elkezdem feldolgozni amit a gugli kiadott, ezzel elleszek egy ideig.


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 13:18 
Offline

Joined: 2004. November 11, Thursday, 12:46
Posts: 1080
Hát, a Rosch-féle kognitívpszicohológiai prototípuselméletnek voltak (vannak) bizonyos követői a nyelvészeti szemantikán belül is (prototípus szemantika). Őket alapvetően a természetes kategorizáció érdekli, amit kifejezetten nem-arisztotelészinek tekintenek. Szerintem írd be a Google-be, hogy prototype semantics, azon el tudsz indulni. Ha magyarul akarsz valamit, akkor pl. Kiefer Ferenc Jelentéselmélet című könyvében is van ezekről a dologról szó. Ha egy kicsit speciálisabb szinten érdekel, akkor tudom ajánlani Peter Gardenfors Conceptual Spaces című könyvét, vagy a neten lévő cikkeit.


Top
 Profile  
 
 Post subject:
PostPosted: 2007. June 14, Thursday, 12:37 
Offline

Joined: 2007. May 3, Thursday, 20:24
Posts: 27
Érdekelne, hogy ki mit tud arról, hogy mely nyelvészeti elméletek foglalkoznak a fogalmak kategóriahierarchiájával; hol érdemes ezután olvasnom stb...

Egy olyan modellt szeretnék körüljárni, ahol az emberi egyban lévő fogalmakat modellezzük. A modell szerint pl. egy egy természetesnyelvi főnévnek több diszkrét fogalom is megfelelhet, de ezek jól meghatározhatók. Pl. az angol 'plane' főnévhez egyértelműen tartozik olyan fogalom is, amely repülőgépet jelent, és olyan is ami síkot jelent. Nemsokára kitérek arra, hogy ezek a megkülönböztetett 'jelentések' miért olyan egyértelműen különülnek el.
A fogalmak az 'is a' reláció segítségével kategóriahierarchiát alkotnak, bármelyik fogalomnak lehet több gyereke, de több szülője is. A modellben vegyesen szerepelnek olyan kategóriák, amelyeket szintaktikainak tartunk, meg olyanok is, amelyeket szemnatikainak tartunk. Ezek nem különülnek el élesen. Az angol 'megszámlálhatatlan', vagy 'megszámlálható' kategóriák, amelyeket szintaktikainak tartunk,
ugyanúgy szerepelnek ebben a hierarchiában, mint az olyan fogalmak, mint 'élő'/'élettelen', amelyek inkább szemantikai fogalmak...
A szavak 'jelentései' azért tudnak szépen elkülönülni ebben a modellben, mert a kategórizálás miatt 'kénytelenek vagyunk' szétbontani egy szó jelentéseit annak érdekében, hogy a kategorizáció konzisztens maradjon.
Ez a kategoria hierarchia az alapja azoknak a 'szintaktikai' szabályoknak, amelyek alapján az agy valószínűleg 'parseolja' a mondatokat. Minden szóhoz elképzeli az agy az összes lehetséges 'jelentést' mint alternatívát, és az egyes alternatíva kombinációk esetén próbálja a mondatot olyan sémák alapján parseolni, ahol a sémákban a hierarchia magas fokán lévő elemek helyére annak leszármazottjai helyettesíthetőek. (Ennél azért bonyolultabb a parseolás, de most csak érzékeltetni akartam, hogy ez a kategóriahierarchia az alapja a parseolásnak.)
A kategóriák az alapjai azoknak a mechanizmusoknak is, amikor a beparseolt formákra értelmi kognitív sémákat próbál ráhúzni az agy. Ezek a sémák megintcsak olyan a hierarchiában lévő elemeket tartalmaznak, amik 'matchelnek' a leszármazottakra: Pl. egy ilyen kognitív séma egy eleme 'élő' kell legyen, egy másik 'közlekedési eszköz' stb... Ha nem sikerül ráhúzni kognitív sémát egy beparsolt alternatív szintaktikai lehetőségre, vagy egy másik lehetőségre erősebben illeszkedik egy másik értelmi kognitív séma, akkor a másik séma nyilván elnyomja az elsőt, így azt az agy 'eldobja.'

Minden ötlet érdekel az ilyen hierarchiák vizsgálatával kapcsolatban. Már utánanéztem annak, hogy az idegtudósok mit tudtak meg a perceptuális kategóriák észlelésével kapcsolatban. Itt az érdekelne, hogy a nyelvészet mire jutott ezzel kapcsolatban, mennyire központi témája a nyelvészetnek a kategóriák vizsgálata....

Az is érdekelne, hogy mik a gyengeségei a modellnek, amit felvázoltam, mik az ellenérvek; hátha lehet ezt finomítani...


Top
 Profile  
 
 Post subject:
PostPosted: 2007. May 3, Thursday, 23:39 
Offline

Joined: 2007. May 3, Thursday, 20:24
Posts: 27
Brain Storming wrote:
Jól gondolom, hogy a gépi fordítás inkább csak jól előrejelezhető, a fogalmak határozottan definiálható körét alkalmazó szövegek fordítására használható? Ezzel persze nem akarom csökkenteni a jelentőségét, csak azt akarom mondani, hogy pl míg szakszövegek fordítására alkalmas, addig lehet h az újságnyelvezettel nehezen boldogul?

vagy nagy hülyeséget írtam?:)

bár engem igazából mindig is a köztes nyelvek érdekeltek - arról tudsz nekem valami átfogó linket adni?


Csak a saját véleményemet tudom mondani, és csak a saját modelljeimre tudok hivatkozni, mert eléggé elszigetelten foglalkoztam ezzel az egésszel, mint egy remete.:)

Kétségtelenül könnyebb gépileg fordítani szakszöveget, mint egy általános újságcikket.
Szerintem 2 nagy problémakör van a gépi fordításkor: az egyik, ha egy szöveg nagyon 'egzotikus' nyelvtani szerkezeteket szeret felvonultatni; ezen azért szerintem könnyen elvérezhet egy még elég jól kidolgozott nyelvtani modell is. Nincs statisztikám erről, de gondolom, hogy egy szakszöveg inkább tipikusabb nyelvtani szerkezeteket használ, míg egy újságcikk által használt szerkezetek változatosabbak. Érdekes lenne erről valami statisztika... Abban biztos vagyok, hogy egy irodalmi mű változatosabb a nyelvtani szerkezetek tekintetében, mint egy hétköznapi szöveg.

A másik problémakör a szemantika.
Az én rendszeremben a nyelvtani elemző bottom-up parse-ol, és egy csomó alternatív lehetőséget terjeszt fel szemantikai ellenőrzésre. Ezen alternatívák lehetnek akár teljesen különböző struktúrák. (Pl. a 'Vonat nem vár' esetén (ha magyar-angol lenne a fordítóm és nem angol-magyar), akkor 2 teljesen különböző gráfot küldene fel a rendszer szemantikai ellenőrzésre.) Legtöbbször persze az elternatívák közötti különbség az, hogy a gráfban adott pontokon más-más jelentésű fogalom van. Pl. ha elhangzott a 'plane' szó, akkor felterjesztődik valami olyan gráf is, amiben a PLANE_REPULOGEP fogalom szerepel, de egy olyan is, amiben a PLANE_SIK fogalom szerepel.

Egy bizonyos szemantikai stabilitas mero kiszamolja az egyes alternativak szemantikai stabilitasat. Azt valasztja, amelyiknek a legnagyobb. A szemantikai stabilitast egyreszt az u.n. topic indikator-ok segitsegevel merem, illetve van egy olyan dolgom is, ami olyan mint a vonzatok kezelese, csak sokkal altalanosabb (maszkokat keres a szemantikai grafban)... Az egesz szemantika alapja nalam az, hogy a fogalmak halmazokba sorolhatok, es a halmazok is halmazokba sorolhatok. Egy halmaz tobb halmazba is sorolhato. Sot, ugyanez a halmazos adatbazis hasznalodik a nyelvtani szinten (vannak szofaj szeru halamzok is, ahol a halmazba sorolodas azt jelenti, hogy valkinek valamilyen gramatikai hajlnadosaga van.) Ezert nelam a grammatika es a szemantika eleg holisztikus:)

Nyilvan szakszoveg eseten sokkal egyszerubb a helyzet, hiszen a tema ilyenkor szuk, igy nagyon konnyu kiszurni a megfelelo jelenteseket.. Pl. egy informatikai szoveg eseten eleg trivialis a 'file' szónak az állomány jelentést adni a a reszelo helyett.

Az olyan szovegekkel mar nagyobb gondok vannak, ahol valaki hasznalni akarja a file szot mondjuk egy mondaton belul allomany es reszelo ertelemben is... Meg kell merni, hogy milyen gyakoriak az ilyen nehezen kezelheto esetek, es melyek azok amelyek kezelese eselytelennek tunik, es melyek azok, amelyeket kezelni lehetne a modell finomitasaval...


Top
 Profile  
 
 Post subject:
PostPosted: 2007. May 3, Thursday, 22:34 
Offline

Joined: 2007. January 10, Wednesday, 0:41
Posts: 1152
Location: Hódmezővásárhely
Jól gondolom, hogy a gépi fordítás inkább csak jól előrejelezhető, a fogalmak határozottan definiálható körét alkalmazó szövegek fordítására használható? Ezzel persze nem akarom csökkenteni a jelentőségét, csak azt akarom mondani, hogy pl míg szakszövegek fordítására alkalmas, addig lehet h az újságnyelvezettel nehezen boldogul?

vagy nagy hülyeséget írtam?:)

bár engem igazából mindig is a köztes nyelvek érdekeltek - arról tudsz nekem valami átfogó linket adni?

_________________
"Le a 'LY'-vel, é'jj'en a 'J'!"


Top
 Profile  
 
 Post subject: Gépi fordítás
PostPosted: 2007. May 3, Thursday, 20:53 
Offline

Joined: 2007. May 3, Thursday, 20:24
Posts: 27
Sziasztok, én új vagyok itt, az index tudomány fórumán hallottam erről a helyről.
Én évek óta foglalkozom a gépi fordítással. Nézzétek el nekem, hogy nyelvészeti ismereteim eléggé lyukacsosak (programozó vagyok). Az utóbbi években rengeteget gondolkodtam nyelvészeti problémákon, de kb. csak ennek egy huszadát töltöttem a nyelvészetről való olvasással. (Valószínűleg jópár spanyolviaszt feltaláltam, csak nem tudom, hogy minek mi a hivatalos neve.)

Ebben a topicban minden a gépi fordítással kapcsolatos véleményt szívesen látok. Melyik nyelvi elméletek azok, amelyek lendületet adhatnak ennek a területnek? Mit gondoltok, lesznek-e a közeljövőben ténylegesen használható gépi fordítók, lesz-e áttörés a témában a közeljövőben?

Miket tartotok a legnehezebb megoldatlan problémáknak?
Játszhatunk olyat is, hogy valaki említ egy problémát, a többiek pedig leírják esetleg, hogy talán hogyan lehetne kezelni.

Egyébként én ezerrel fejlesztem a saját gépi fordítómat. A http://www.cybertron.hu - ra felraktam 3 kis cikkemet a témában.

A közeljövőben keresek nyelvészt/nyelvészeket, akikkel ebben a nem titkoltan piacorientált projektben együtt tudnék működni. (Természetesen csak ha színvonalasnak tartjátok az eddig elkészült framework-öt) Reálisan egyedül a 'framework'-ot meg tudom írni, de a szabálybázis és az enciklopédia (szándékosan nem szótárat írtam:)) igényes kivitelezése annyira sok munka, hogy egyedül évek alatt sem végeznék, és elveszíteném a motivációmat. És természetesen szükségem van a jó ötletekre, és a szakértelemre.

Tudom, hogy a Morphologic és a Dativus már kijött egy-egy termékkel, de szerintem ezeknél lehet jobbat csinálni. A Morphologic fordítója grammatikában már elég erős, de 'szemantikában' még nagyon gyenge. (Persze óriási teljesítmény amit elértek, nem leszólni akarom, az én 2004-ben elkészült fordítóm sehol nem volt hozzájuk képest...)


Top
 Profile  
 
Display posts from previous:  Sort by  
Post new topic Reply to topic  [ 43 posts ]  Go to page Previous  1, 2, 3

All times are UTC + 1 hour


Who is online

Users browsing this forum: No registered users and 0 guests


You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot post attachments in this forum

Search for:
Jump to:  
cron

Figyelem!
A faliújságon megjelentek nem képviselik többek közt a következő szervezetek hivatalos véleményét:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group