Annyira jó lett a Microsoft beszédgenerátora, hogy nem hozza nyilvánosságra!

Általános hírek Hírek Tech Tech Hírek 2024. július 14. vasárnap

0 226 Views

TECH HÍREK – A VALL-E 2 egy kutatási projekt marad, mert a Microsoft szerint a kártékony felhasználásának jelentős kockázata lehet.

A redmondi techóriás egy blogposztban közölte, hogy a beszédszintézishez használt legújabb neurális kódkódolású nyelvi modellje „először éri el az emberi paritást”, azaz annyira kifinomult lett, hogy már szinte meg sem lehet különböztetni a generált szöveget egy valódi embertől származótól, és mindezt nagyon korlátozott mintából és parancsból el tudja érni. Elég mindössze néhány másodpercnyi szöveg a VALL-E 2-nek, ami egy nagy edzési könyvtárból dolgozik, ami a kiejtést, az intonációt és a hanglejtés változásait a modell és a minta között leképezi, és teljesen meggyőzőnek tűnő szintetizált beszédet ad ki.

A blogposztban több példát is bemutat a Microsoft, ami 3-10 másodpercnyi anyagból elképesztően jó minőségű beszédet tud teremteni a zero-shot TTS folyamat során. De az etikával kapcsolatos közleményre is ki kell térni a posztban. Ebben közli a Microsoft, hogy nem tervezi nyilvánosságra hozni a VALL-E 2-t: „A VALL-E 2 pusztán egy kutatási projekt. Jelenleg nem tervezzük a VALL-E 2 termékbe való beépítését vagy a nyilvánosság számára történő kiterjesztését. A modell visszaélésszerű használata potenciális kockázatokat rejthet magában (például a hangazonosítás meghamisítása vagy egy adott beszélő megszemélyesítése). A kísérleteket azzal a feltételezéssel végeztük, hogy a felhasználó beleegyezik abba, hogy a beszédszintézis során ő legyen a célbeszélő. Ha a modellt általánosítják a valós világban nem látott beszélőkre, akkor olyan protokollt kell tartalmaznia, amely biztosítja, hogy a beszélő jóváhagyja a hangja és a szintetizált beszédfelismerő modell használatát.”

A Microsoft korábban a VASA-1-gyel kapcsolatban is hasonlóan döntött. Ez egy olyan technológia, ami egy állóképből képes olyan videót generálni, amiben a képen látható személy meggyőző módon mozogni tud. Viszont azt nem értjük, hogy mi lehet a vállalat célja mindezzel a technológiával. Ha létrehozták, valamire csak használni fogják, de ha a közönség nem tudja, akkor ki fogja?

Forrás: PCGamer, Microsoft

Spread the love

Angyal Anikó

Anikó, our news editor and communication manager, is more interested in the business side of the gaming industry. She worked at banks, and she has a vast knowledge of business life. Still, she likes puzzle and story-oriented games, like Sherlock Holmes: Crimes & Punishments, which is her favourite title. She also played The Sims 3, but after accidentally killing a whole sim family, swore not to play it again. (For our office address, email and phone number check out our IMPRESSUM)