Magyar nyelvű felirat készítése és angolra fordítása egy kávészünet alatt?

2021. május 04. 06:38 - rkovax

It’s gonna be Alrite

Nemrég megtalált egy izgalmas feladat, aminek az egyik kimenete egy 30-40 perces felvételről készített leirat kellett legyen, ráadásul időkódokkal. Táblázatos formában kellett előállítani, ahol az oszlopok rendre: ki beszél, mikortól beszél, mit mond. Azonnal a feliratfájlok jutottak eszembe, hiszen azok is egészen hasonló struktúrával operálnak, ilyen fájlok előállításában pedig már van némi gyakorlatom… de végül egy nem várt helyről érkezett a megoldás, a Régens Zrt. deep learning alapú beszédfelismerőjét, az Alrite-ot ajánlották a figyelmembe, és az első teszt után tátva maradt a szám.

srt-format.png

forrás: https://toolslick.com/tags/srt

 

De kezdjük az elején. Szóval ott tartottam, hogy feliratfájlra van szükségem - azon a pár apróságon felülemelkedve, hogy nem feltétlenül van benne a beszélő neve, tartalmazza a meddig beszél (vagy látszik a felirat, ugye) infóját, no meg egyszerre befogadható, elolvasható részekre van darabolva. De ha lenne egy feliratfájlom (például egy srt), akkor némi Notepad++-RegEx-Excel-varázslással már biztosan könnyen elérhetném a kívánt formátumot - gondoltam. Felidéztem, hogy egy videó-/hangfájl birtokában mi mindenre lesz szükségem, mely lépéseken keresztül jutok el az srt-hez és a végső fájlformátumhoz:

  1. google_docs.pngKell egy diktálásra alkalmas eszköz, szoftver, bármi, ami ráadásul kezelni is tudja a magyar nyelvet. (Hiába van például a Wordnek diktálás funkciója, a magyar még a béta verziók között sem szerepel.) A GoogleDocs-ba szerencsére már beépítettek egy ilyen eszközt is, magyarul is tud. Pipa.

  2. voicemeeter.jpgAz az átkozott hang. Magától értetődik az ötlet, hogy valamin lejátszom a felvételt, és a hangszóró elé teszek egy mikrofont, és kész is a diktálás helyzete. Az a szomorú hírem van, hogy nem működik. Rengeteg, a technika számára fontos információ elvész egy ilyen installációban. Adatvesztés és/vagy -torzulás történik a felvételkor, a lejátszáskor a hangszórón, és az újra felvételkor/diktáláskor a mikrofonnál, amit az emberi fül és agy ügyesen kompenzál, de a(z ingyenes) szoftverek (még) nem képesek ilyesmire. (Jusson csak eszünkbe a fénymásolat fénymásolatának fénymásolata. Ugye, hogy ugye?)
    Szóval valahogy vissza kell irányítani a hangot az eszközbe, amivel el akarjuk hitetni, hogy épp diktálunk. Erre pedig már elérhetők szoftveres megoldások, amik a kimeneti jelet nem a hangszóró felé küldik, hanem egy virtuális bemenetet hoznak létre, és arra továbbítják a jelet, kvázi mikrofonként viselkedve. Hoppá, máris kimaradt két lépcső az adatvesztésből, felhasználható kontentot tudunk küldeni a diktáláshoz. A Voicemeeter nevű alkalmazást használom erre a célra. Pipa.

  3. subtitle_edit_logo.pngVan leiratom, políroztam kicsit a nyers változatot, bekezdésekre bontottam, még időkódok kellenének hozzá. Szerencsére a sorozatok, filmek és a torrent térhódítása miatt számos, akár ingyenes eszközt is elérünk feliratok készítéséhez, fordításához, konvertálásához. Ebben a körben a SubtitleEdit mellett törtem lándzsát, betöltöm a tördelt leiratot, mellé a videót/hangfájlt, elindítom, és vadul nyomkodom az F9-F12 billentyűket, amikor valaki megszólal vagy elhallgat. Ehhez szükséges ugye, hogy legalább egyszer végighallgassam/-nézzem a felvételt, de még mindig sokkal szívesebben, minthogy nekem kelljen legépelni az egészet, aztán a lejtászóról lemásolni az időadatot minden megszólaláshoz. Ez is pipa.

  4. _gxav0gu_400x400.pngRegEx-varázslás Notepad++-ban. Aki mert már megnyitni szövegszerkesztővel srt-t, tudja, hogy valami ilyesmi a felépítése: sorszám, időkód a felirat láthatósághoz (mettől meddig, ezred másodpercekben, nyíllal elválasztva) és 1-2-3 sor felirat. A csak sorszámokat tartalmazó és az üres sorokat gyorsan elintézem egy-egy egyszerű keres-cserével ([\d]+\r\n); a sorok gyakorlatilag bekezdések, mert direkt úgy készítettem elő a leiratot, nincs vele teendő; a nyilat, a meddig látszódjon infót és az ezeket követő entert lecserélem egy-egy tabulátorra ([\s]-->[\s][\d]+:[\d]+:[\d]+,[\d]+\r\n); végül törlöm a kezdő időkód ezredmásodperc részét; és előállt a táblázatom alapanyaga, mehet Excelbe, Wordbe vagy ahova tetszik. Még egy pipa.

  5. Excelben beszúrok egy új sort az időkód oszlopa elé, két beszélő van, kitöltöm az egyikőjük nevével, és csak ott kell átírni, ahol a másikójuk beszél, vagy nemes egyszerűséggel beírom kézzel - mint az állatok - az aktuális megszólaló nevét, hogy elérjem a kívánt formátumot…

Valahol itt tartottam a megvalósításban, amikor egy ismerősöm - aki ugyanezt a feladatot próbálta megoldani, és valószínűleg sosem hallott még a RegExről, de talán még feliratok szerkesztéséről sem - a figyelmembe ajánlotta az Alrite nevű alkalmazást.

Bevallom, szkeptikus voltam. Elég csak ránézni a fenti listára, eszközigényére, a kialakításához szükséges, sokéves lokalizációs tapasztalatra… Erre feltűnik az ismeretlenből egy cég, akiről sosem hallottam, és megoldja itt nekem az első három lépést? Kíváncsi vagyok én arra - szólalt meg bennem az önérzet.

Kicsit utánajártam a budapesti székhelyű Régens Zrt.-nek, meggyőző eredmények, kiterjedt szolgáltatási kör, hiteles honlap, és mint kiderült, mostanában AI alapokon deep learning megoldásokon (is) dolgoznak: beszédfelismerés, képfelismerés, szövegértelmezés. A beszédfelismerés vonal pedig egy webes és mobilon is elérhető alkalmazásban teljesedett ki, ez lett az Alrite.

“Jó, jó, de olyan workflow-m van, hogy már csak egy oktatóvideót kell hozzá gyártani, beárazni, és meghódítom vele a lokalizációs ipart” - gondoltam továbbra is szerényen. “Nézzük, mit tud ez az izé a Rákóczi híd tövéből!”

Gyors regisztrációt követően feltűrtem az ingujjam, hogy most aztán kihasználom azt a havi 1 órás keretet, ami az ingyenes fiókkal jár, bedobtam a majd’ 45 perces videómat (a pontosság kedvéért: mp4-et), és három sávban kezdett tölteni a program: videó konvertálás, leirat készítése, felirat kódolása. Egy kávét nem volt időm lefőzni, és készen volt mindhárom folyamattal. Elkészült a teljes leirat, bekezdésekre tagolva, mellette a feliratfájl tartalma, és ott az azonnal felirattal nézhető felvétel is.
(Az ingyenes - vagy ahogy ők nevezik: Starter - csomag értelmében a leirat teljes egészében letölthető, a feliratfájlból pedig egy olyan verzió, ami az első két percet tartalmazza.)

Minőség

Hajtott a kíváncsiság, ezért elkészítettem a GoogleDocs-os verziót is a leiratból, hogy össze tudjam hasonlítani őket. (3-4 alkalommal játszottam le a Google-nak a felvételt, közben javított, ügyesedett, háromszor döglött meg teljesen az oldal és legalább egy tucatszor spontán leállt a gépeléssel. Nem sajnáltam az időt, és minden esélyt megadtam neki.) Aztán a két leiratra ráengedtem egy Word összehasonlítást. Azt kell mondjam, hogy ránézésre 85-90%-os egyezés volt a két doksi között, de az Alrite pontosabban “értette” a szöveget (pl. Focus álltam vs. fókuszáltam vagy ovidon túl vs. Covidon túl), ügyesebben találta el a mondathatárokat - ahol nem is félt mondatvégi írásjeleket használni -, nem mellesleg helyenként bekezdésekre tagolta a szöveget!

Sebesség

A 45 perces anyag feldolgozásához a kávéfőzést mint az idő egy mértékegységét jelöltem meg, ez szimplán annyit jelent, hogy nem mértem, de piszok gyors volt. Ezért elvégeztem egy újabb tesztet egy 15 perces anyaggal*. Egyébként is: egy mérés nem mérés, ugye.

 A korábban zseniálisnak gondolt folyamat időigénye viszont egész könnyen kiszámítható (támaszkodva a tapasztalataimra):

  • Leirat készítése hallás útján, gépelve: kb. háromszor kell hozzá meghallgatni a szöveget. Ezt váltotta ki a lejátszó+Voicemeeter+GoogleDocs: itt is érdemes 3-4 alkalommal lejátszani az anyagot, hogy tisztuljon, de legalább már nem kell gépelnünk - cserébe felügyelni kell a törékeny technikát, hogy közbe tudjunk lépni, ha elhalálozni méltóztatna valamely eleme. Legyünk nagyvonalúak: mivel nem kell gépelnünk, számoljuk 0 percnek.
  • Leirat javítása, mert “félrehall” dolgokat, nem központoz, nem jó helyen központoz, kihagyhat részeket és nem tagol. Tapasztalat alapján átlagosan másfélszer kell végighallgatni a felvételt a javításhoz.
  • Felirat helyes tördelése/tagolása és időzítése. Ügyes szoftverrel is legalább 2 alkalommal végig kell néznünk az anyagot, hogy jól tördelve, jól időzítve jelenjen meg minden felirat. Aztán úgyis le fogjuk játszani még egyszer az egészet egyben, hogy ellenőrizzük.

Ha ügyesek és gyakorlottak vagyunk, épp kedvező a csillagok állása, akkor egy 15 perces videó feliratának elkészítéséhez legalább 52 percre van szükségünk. (Legyünk azért kicsit realisztikusak: ez meglesz bruttó 2-3 óra is a végére.)
Ez áll szemben az Alrite bő 4 percével + az egyszeri átnézéssel, ami felfelé kerekítve is 20 perc.

Hogy még általánosabban fejezzük ki magunkat, és a szükséges időre koncentrálunk - akár mi dolgozunk, akár a gép -, akkor valami ilyesmi jön ki - ha @-tel jelöljük az eredeti anyag hosszát:

Voicemeeter +
GoogleDocs +
SubtitleEdit
(komoly gyakorlás után!)

Alrite
(gyakorlattól függetlenül)

  • Leirat készítése: 3×@
  • Leirat javítása: > 1,5×@
  • Felirat tördelése és igazítása: 3×@
  • Forrásanyag feltöltése: <0,5×@
  • Leirat készítése: <0,5×@
  • Felirat javítása: 1×@
Összesen: min. 7,5×@

 Összesen: max. 2×@

 

Ár

Voicemeeter + GoogleDocs + SubtitleEdit

Tök ingyen van, ez vitathatatlan. :)

Alrite

A tesztelés idejére nekem bőven elég volt az ún. Starter csomag is, de ezen felül két konstrukcióban lehet előfizetni. Igaz, hogy minimum 10 órányi keretet kell vennünk egyszerre, de ezt az intervallumot egy évig felhasználhatjuk, teljes terjedelmükben letölthetők lesznek a leiratok mellett a feliratfájlok is, diktálhatunk, feltölthetünk hang- és videófájlokat, feliratozhatunk YouTube-videókat vagy akár élő közvetítést, és egy kattintással angol és német verziót is előállíthatunk a szövegeinkből - böngészőn és mobil alkalmazáson keresztül is. Így már nem is hangzik olyan soknak az a 12.000 forintos előfizetés egy évre.
Az üzleti előfizetéshez pedig streaming és API alapú megoldások is járnak.

Ha például olyan fordító (vagy kis/közepes méretű fordítóiroda) lennék, akinek gyakran kell magyar nyelvű hanganyagokból, videókból fel- vagy leiratot készíteni, és azt fordítani, nem sokat gondolkodnék az előfizetésen. Ki tudja, talán a csomaggal járó fordítás is felér egy ügyfél oldali előfordítással...

Próbáljátok ki, érdemes!

alrite-logo-png.png

 

  

https://www.regens.com/hu/alrite/

 


U.i.: Mielőtt felvetődne a kedves Olvasóban, ez nem egy támogatott tartalom.
Ami jó, az jó. Az Alrite pedig baromi jó eszköznek tűnik.

*A tesztekhez a totalcar.hu Égéstér pod-/videocast műsorának 432. részéből használtam fel egy részletet. Remélem, nem haragszanak meg Karottáék, hogy ilyen formában is népszerűsítem őket. Egyébként az idézett, Beszopni a tekert autót, az viszont legális című részt különösen ajánlom meghallgatásra mindenkinek, aki.

 

Szólj hozzá!

A bejegyzés trackback címe:

https://l10ntamer.blog.hu/api/trackback/id/tr416518276

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása