R_Gabor wrote:
Biztos, hogy így működik? Nem csak egy feature a sok közül? Valamikor még úgy hallottam, hogy a nyelvfelismerők többnyire n-gráfokkal dolgoznak... De nincs itt valaki, aki ért hozzá?
Nem értek hozzá, de ha van szótáram és morfológiai elemzőm minden nyelvhez, akkor én egyszerűen nagyjából szavakra tokenizálnám, majd megnézném, hogy melyik nyelven találok az adott szövegben a legtöbb valid szóelőfordulást.
Szerintem nem érdemes ennél tovább finomítani a dolgot, mert ez is (hacsak nem nagyon rövid és nagyon trükkös a szöveg) halálbiztos eredményt ad. Magyarul a nyelvfelismerés egy triviális feladat pl. a fordításhoz képest.
Esetleg a morfológiai elemzés sebességigénye miatt gondolkodnék valami kevésbé megbízható, de gyorsabb megoldáson. Vagy ha nem lenne szótáram és morfológiai elemzőm. (ekkor karakter n-esek statisztikájával dolgoznék)
más:
Egyébként nem tudja valaki, hogy a 'google translate' az teljesen tisztán statisztikai módon működik? Még morfológiai modelljük sincsen? (Mármint nem a nyelvfelismerésre gondolok most, hanem a fordításra.)
Én amúgy a szabálybázisú rendszerek felmelegítésében/újragondolásában/reneszánszában hiszek, vagy legalábbis a hibrid rendszerekben. Míg a mainstream most a statisztikai megközelítés.