TECH HÍREK – A VALL-E 2 egy kutatási projekt marad, mert a Microsoft szerint a kártékony felhasználásának jelentős kockázata lehet.
A redmondi techóriás egy blogposztban közölte, hogy a beszédszintézishez használt legújabb neurális kódkódolású nyelvi modellje „először éri el az emberi paritást”, azaz annyira kifinomult lett, hogy már szinte meg sem lehet különböztetni a generált szöveget egy valódi embertől származótól, és mindezt nagyon korlátozott mintából és parancsból el tudja érni. Elég mindössze néhány másodpercnyi szöveg a VALL-E 2-nek, ami egy nagy edzési könyvtárból dolgozik, ami a kiejtést, az intonációt és a hanglejtés változásait a modell és a minta között leképezi, és teljesen meggyőzőnek tűnő szintetizált beszédet ad ki.
A blogposztban több példát is bemutat a Microsoft, ami 3-10 másodpercnyi anyagból elképesztően jó minőségű beszédet tud teremteni a zero-shot TTS folyamat során. De az etikával kapcsolatos közleményre is ki kell térni a posztban. Ebben közli a Microsoft, hogy nem tervezi nyilvánosságra hozni a VALL-E 2-t: „A VALL-E 2 pusztán egy kutatási projekt. Jelenleg nem tervezzük a VALL-E 2 termékbe való beépítését vagy a nyilvánosság számára történő kiterjesztését. A modell visszaélésszerű használata potenciális kockázatokat rejthet magában (például a hangazonosítás meghamisítása vagy egy adott beszélő megszemélyesítése). A kísérleteket azzal a feltételezéssel végeztük, hogy a felhasználó beleegyezik abba, hogy a beszédszintézis során ő legyen a célbeszélő. Ha a modellt általánosítják a valós világban nem látott beszélőkre, akkor olyan protokollt kell tartalmaznia, amely biztosítja, hogy a beszélő jóváhagyja a hangja és a szintetizált beszédfelismerő modell használatát.”
A Microsoft korábban a VASA-1-gyel kapcsolatban is hasonlóan döntött. Ez egy olyan technológia, ami egy állóképből képes olyan videót generálni, amiben a képen látható személy meggyőző módon mozogni tud. Viszont azt nem értjük, hogy mi lehet a vállalat célja mindezzel a technológiával. Ha létrehozták, valamire csak használni fogják, de ha a közönség nem tudja, akkor ki fogja?