Az elmúlt évtizedek, évszázadok során számos szakma esett a fejlődés és az automatizáció áldozatául: ma már nincs szükség lámpagyújtogatókra, írnokokra vagy telefonközpont kezelőkre, és ez csak néhány példa a sok közül. Ezek persze jórészt olyan egyszerű munkák, amelyek nem igényelnek különösebb szellemi erőfeszítést. A közelmúltban azonban több olyan áttörés született a gépi tanulás terén, amelyek alapján úgy tűnik, a művészek és egyéb kreatív szakemberek sem érezhetik magukat teljes biztonságban. A DeepBach algoritmus például egészen hallgatható Bach korálokat komponál,
Rövid esszémben egy bárki számára hozzáférhető gépi tanuló szoftvercsomag, az SRILM toolkit
A tömörség érdekében csak vázlatosan ismertetem az esszéhez használt módszereket. A tanulóalgoritmus bemenete mintegy 250 oldalnyi Nádasdy vers a Soványnak kéne lenni, Az az íz és a Verejték van a szobrokon kötetekből (ez nagyjából 16 500 szó). A tanulóalgoritmus egy tri-gram modell Kneser-Ney simítással (az n-gram modellek rövid leírása az esszé végén található). Innentől csak AutoNádasdy-ként hivatkozok rá. A betanítás után az AutoNádasdy segítségével egy 50 000 mondatos véletlenszerű Nádasdy szövegmintát generáltam. A verseket ebből válogattam össze részben kézzel, részben automatikus szűrők felhasználásával. A nullától tízig terjedő Nádasdy skála teljes mértékben a saját szubjektív ítéletemre alapul, és egy adott szöveg Nádasdy-szerűségét hívatott megragadni. A Gépradír című vers (Soványnak kéne lenni) például 10 pontot kap, az Egy festményem (Az az íz) 8 pontot, a szovjet K3 típusú szamovár használati utasítása 5 pontot, Petőfi Sándor Anyám tyúkja című verse pedig mindössze 2 pontot.
Elsőként egy teljesen véletlenszerű AutoNádasdy verset mutatok be. Ez a modell közvetlen kimenete, amit csak annyiban módosítottam, hogy kiszűrtem a túl hosszú, illetve túl rövid sorokat.
nyomás nincs villamost wagner valaha felé
dresszírozza büfések nyugtalan ha titkol zsebkendőt
az öreg mérni még hegy felét
hogy jól előtt ilyen fölugrált volt
időből nekik túl és míg töltve
valamerre évődne is bevágva kiemelésként szerep
Bár ez a vers kétségkívül érdekes, valljuk be, maga Nádasdy Ádám valószínűleg még erősen zavart állapotban sem írna ilyet. Noha AutoNádasdy remekül megragadta a valódi Nádasdy versek néhány központi témáját (titkok, idő, tömegközlekedés, stb.), a versből hiányzik a koherencia, és tele van nyelvtani hibákkal. Ennek megfelelően a Nádasdy skálán 3 pontot érdemel.
A következő vers sorait kézzel válogattam össze AutoNádasdy kimenetéből, tehát ilyen szempontból nem véletlenszerű, bár magát a szöveget továbbra is a modell generálta.
egyszer majd csupasz délután sűrű a
hideg gulyás ellenőrzés ha fogyóban volt
uram fölszerelkezem nem miként éhes majdnem-eket
szoktam szobakulcson érdektelen nőkkel feléd csöppet
elpakolok megjegyezni ez bőröm féli csikket
most meg örül komolyan izzadság fejcsóválva
Ez persze nem sokkal magasabb színvonalú, mint az előző vers, de nyomokban van benne némi koherencia, ezért 3,5 pontot adok neki. Mint alább láthatjuk, némi szerkesztői munkával egész olvasható verset faraghatunk belőle, bár fontos megjegyezni, hogy ez már nem az AutoNádasdy érdeme. Íme:
Egyszer majd csupasz délután – sűrű a
hideg gulyás! – az ellenőrzés ha fogyóban lesz,
Uram, fölszerelkezem. Nem miként éhes majdnem-eket
szoktam, szobakulcson, érdektelen nőkkel, feléd. Csöppet
elpakolok. Megjegyezni ezt: bőröm féli a csikket.
Most meg örül (komolyan!) az izzadságnak, fejcsóválva.
Bár valószínűleg ez a vers sem fogja megtéveszteni Nádasdy Ádám rendszeres olvasóit, ebben a formában már lényegesen közelebb áll Nádasdy költészetéhez. A Nádasdy skálán 6 pontra értékelem: még mindig nem éri el a valódi Nádasdy versek pontszámát, viszont a szamovár használati utasítását maga mögött hagyja, ami komoly eredmény.
Az utolsó vers, amit bemutatok, némileg eltérő technikával készült. A szöveget itt is AutoNádasdy generálta, de ezúttal nem teljesen magától: minden sor eleje adott volt, és ezt kellett folytatnia. A vers négy soros, és Petőfi Sándor Anyám Tyúkja című remekművére épül: a sorok első pár szavát meghagytam, a szöveg maradék része pedig AutoNádasdy alkotása. Íme az eredeti versrészlet:
Ej mi a kő! tyúkanyó, kend
A szobában lakik itt bent?
Lám, csak jó az isten, jót ád,
Hogy fölvitte a kend dolgát!
Alább pedig az AutoNádasdy változat olvasható (az új szöveg dőlt betűvel szedve):
Ej mi a kő van, az gyanús, az lelkesít!
A szobában majd izzó odafordulás szorgalmával –
Lám csak jó idejönni, menjünk havonta egyszer.
Hogy fölvitte az öröm, mint a suttogásomat.
Ez a vers 5 pontot ér a Nádasdy skálán, de ez megtévesztő, hiszen az eredeti Petőfi vers csupán 2 pontot kapott. Ez azt jelenti, hogy nem kevesebb, mint 3 ponttal sikerült növelnünk a vers Nádasdy-szerűségét. Érdemes megjegyezni, hogy a vers nem csak a Nádasdy skála mentén mozdult el: az eredeti 9 pontot érdemelt a Petőfi skálán, míg az új változat csak 4-et.
Foglaljuk össze a fenti eredményeket. Az AutoNádasdy önmagában nem képes meggyőző Nádasdy verseket alkotni, és szerkesztői segítséggel sem éri el a valódi Nádasdy művek szintjét. Ugyanakkor teljes kudarcnak sem nevezhető a kísérlet, hiszen az AutoNádasdy versek szövegileg és tematikailag is közel állnak a tanulókorpusz alkotásaihoz. Elsősorban a koherencia hiánya az, ami megkülönbözteti őket az eredeti versektől. Ez nem meglepő, hiszen az itt használt n-gram modellek csak szomszédos szavak közti rövidtávú függőségeket képesek megragadni egy szövegen belül.
A fentiek alapján tehát kijelenthetjük: Nádasdy Ádám nem automatizálható. Az eredeti versek mögött rejlő gondolatok és érzelmek hiányában a Nádasdy művek szórakoztató, ám értelmetlen szósalátává silányulnak. Nádasdy Ádámnak tehát nincs oka félelemre: a gépek egyelőre nem fogják elinni előle a reggeli pezsgőt.
Az n-gram nyelvi modellek igen egyszerű elven működnek: azt próbálják megjósolni, hogy egy adott szövegrészlet után mekkora valószínűséggel következik egy adott szó. Az „n” egy számra utal, és a jóslat alapját képező megelőző szövegrészlet méretét határozza meg. Egy bi-gram (2-gram) modell például csak az előző szót használja, míg egy tri-gram modell az előző két szót. A modell az eredeti szöveg alapján számolja ki a valószínűségeket. Például a „van egy” szövegrészlet gyakran fordul elő magyar szövegekben, míg a „van fut” szövegrészlet szinte soha. Ezalapján az „egy” szó valószínűsége viszonylag magas a „van” szó után, míg a „fut” szó valószínűsége alacsony (mivel itt csak az előző szót nézzük, ezek bi-gram valószínűségek). A valószínűségek kiszámolása után a modell segítségével új szövegrészletek generálhatók, amelyeken belül a szavak eloszlását a modellbeli valószínűségek határozzák meg.