Brain Storming wrote:
Jól gondolom, hogy a gépi fordítás inkább csak jól előrejelezhető, a fogalmak határozottan definiálható körét alkalmazó szövegek fordítására használható? Ezzel persze nem akarom csökkenteni a jelentőségét, csak azt akarom mondani, hogy pl míg szakszövegek fordítására alkalmas, addig lehet h az újságnyelvezettel nehezen boldogul?
vagy nagy hülyeséget írtam?:)
bár engem igazából mindig is a köztes nyelvek érdekeltek - arról tudsz nekem valami átfogó linket adni?
Csak a saját véleményemet tudom mondani, és csak a saját modelljeimre tudok hivatkozni, mert eléggé elszigetelten foglalkoztam ezzel az egésszel, mint egy remete.
Kétségtelenül könnyebb gépileg fordítani szakszöveget, mint egy általános újságcikket.
Szerintem 2 nagy problémakör van a gépi fordításkor: az egyik, ha egy szöveg nagyon 'egzotikus' nyelvtani szerkezeteket szeret felvonultatni; ezen azért szerintem könnyen elvérezhet egy még elég jól kidolgozott nyelvtani modell is. Nincs statisztikám erről, de gondolom, hogy egy szakszöveg inkább tipikusabb nyelvtani szerkezeteket használ, míg egy újságcikk által használt szerkezetek változatosabbak. Érdekes lenne erről valami statisztika... Abban biztos vagyok, hogy egy irodalmi mű változatosabb a nyelvtani szerkezetek tekintetében, mint egy hétköznapi szöveg.
A másik problémakör a szemantika.
Az én rendszeremben a nyelvtani elemző bottom-up parse-ol, és egy csomó alternatív lehetőséget terjeszt fel szemantikai ellenőrzésre. Ezen alternatívák lehetnek akár teljesen különböző struktúrák. (Pl. a 'Vonat nem vár' esetén (ha magyar-angol lenne a fordítóm és nem angol-magyar), akkor 2 teljesen különböző gráfot küldene fel a rendszer szemantikai ellenőrzésre.) Legtöbbször persze az elternatívák közötti különbség az, hogy a gráfban adott pontokon más-más jelentésű fogalom van. Pl. ha elhangzott a 'plane' szó, akkor felterjesztődik valami olyan gráf is, amiben a PLANE_REPULOGEP fogalom szerepel, de egy olyan is, amiben a PLANE_SIK fogalom szerepel.
Egy bizonyos szemantikai stabilitas mero kiszamolja az egyes alternativak szemantikai stabilitasat. Azt valasztja, amelyiknek a legnagyobb. A szemantikai stabilitast egyreszt az u.n. topic indikator-ok segitsegevel merem, illetve van egy olyan dolgom is, ami olyan mint a vonzatok kezelese, csak sokkal altalanosabb (maszkokat keres a szemantikai grafban)... Az egesz szemantika alapja nalam az, hogy a fogalmak halmazokba sorolhatok, es a halmazok is halmazokba sorolhatok. Egy halmaz tobb halmazba is sorolhato. Sot, ugyanez a halmazos adatbazis hasznalodik a nyelvtani szinten (vannak szofaj szeru halamzok is, ahol a halmazba sorolodas azt jelenti, hogy valkinek valamilyen gramatikai hajlnadosaga van.) Ezert nelam a grammatika es a szemantika eleg holisztikus:)
Nyilvan szakszoveg eseten sokkal egyszerubb a helyzet, hiszen a tema ilyenkor szuk, igy nagyon konnyu kiszurni a megfelelo jelenteseket.. Pl. egy informatikai szoveg eseten eleg trivialis a 'file' szónak az állomány jelentést adni a a reszelo helyett.
Az olyan szovegekkel mar nagyobb gondok vannak, ahol valaki hasznalni akarja a file szot mondjuk egy mondaton belul allomany es reszelo ertelemben is... Meg kell merni, hogy milyen gyakoriak az ilyen nehezen kezelheto esetek, es melyek azok amelyek kezelese eselytelennek tunik, es melyek azok, amelyeket kezelni lehetne a modell finomitasaval...