Hof: Mensch­li­che Stim­men aus dem Com­pu­ter – vom Ori­gi­nal kaum noch unterscheidbar

Insti­tut für Infor­ma­ti­ons­sy­ste­me an der Hoch­schu­le Hof forscht erfolg­reich zur Sprachsynthese:

Computerstimme gleicht menschlicher Stimme eins zu sein / Foto: Hochschule

Com­pu­ter­stim­me gleicht mensch­li­cher Stim­me eins zu sein / Foto: Hochschule

Hof, 30.03.2021 – Ins­be­son­de­re für blin­de oder seh­be­hin­der­te Men­schen sind Com­pu­ter­an­wen­dun­gen, die Tex­te vor­le­sen, bereits heu­te eine gro­ße Hil­fe im All­tag. Auch beim Auto­fah­ren hat man sich längst an die freund­li­chen Stim­men aus der Navi­ga­ti­on gewöhnt, die Fah­ren­den gefähr­li­che Ablen­kun­gen erspa­ren. Aber natür­lich birgt die neue Tech­nik auch Gefah­ren. Das Insti­tut für Infor­ma­ti­ons­sy­ste­me der Hoch­schu­le Hof forscht mit einer Stu­die an der Akzep­tanz der künst­lich gene­rier­ten Stim­men und ent­wickelt eige­ne Model­le für den deut­schen Markt. 

Die Qua­li­tät der soge­nann­ten Sprach­syn­the­se hat sich in den letz­ten Jah­ren erheb­lich ver­bes­sert. Klan­gen die Stim­men lan­ge Zeit eher ble­chern oder abge­hackt, so weicht der Klang nach und nach einer zuneh­men­den Natür­lich­keit und unauf­fäl­li­gen Sprach­dy­na­mik. Damit wird auch das Hören län­ge­rer Tex­te angenehm.

Rasan­te Ver­bes­se­rung der Sprachqualität

„Erreicht wer­den konn­te dies in der inter­na­tio­na­len For­schung durch den Ein­satz tie­fer, neu­ro­na­ler Net­ze. Ins­be­son­de­re im eng­li­schen Sprach­raum kann man bereits heu­te kaum noch unter­schei­den, ob es sich um einen ech­ten Men­schen oder um ein Pro­gramm han­delt“, so Prof. Dr. Rene Peinl, Lei­ter des Insti­tuts für Infor­ma­ti­ons­sy­ste­me der Hoch­schu­le Hof. Es gibt dem­nach mitt­ler­wei­le eine Rei­he frei ver­füg­ba­rer Model­le, die sehr natür­lich Eng­lisch spre­chen, wenn aus­rei­chend vie­le Trai­nings­da­ten ver­wen­det wer­den. Die Sprach­er­zeu­gung pas­siert dabei zumeist zwei­stu­fig. Zunächst wird ein soge­nann­tes Mel-Spek­tro­gramm erzeugt, das eine Reprä­sen­ta­ti­on der Sprach­fre­quen­zen dar­stellt. Dar­aus erzeugt dann ein Voco­der das eigent­li­che Audio­si­gnal. Bei­de Stu­fen sind neu­ro­na­le Net­ze, die getrennt trai­niert wer­den müssen.

Akzep­tanz auf dem Prüfstand

Im DAM­MIT-Pro­gramm der Hoch­schu­le Hof, das sich dem Tech­no­lo­gie­trans­fer zwi­schen Hoch­schu­le und mit­tel­stän­di­schen Unter­neh­men zur digi­ta­len Trans­for­ma­ti­on aus­ein­an­der­setzt, wird ana­ly­siert, wie hoch die Akzep­tanz von Benut­zern für com­pu­ter-gene­rier­te Stim­men ist. Pro­ban­den bekom­men dabei Text­in­hal­te mitt­le­rer Län­ge vor­ge­le­sen – also zum Bei­spiel Nach­rich­ten mit einer hal­ben Bild­schirm­sei­te Län­ge. Die in den letz­ten Jah­ren statt­fin­den­de, ste­ti­ge Ver­bes­se­rung der Qua­li­tät der Sprach­syn­the­se erhöht einer­seits den Kom­fort und die Ein­satz­mög­lich­kei­ten der Tech­nik, birgt ande­rer­seits aber auch Gefah­ren, da maschi­nel­le Stim­men, die mensch­lich klin­gen, natür­lich auch für Betrug oder Straf­ta­ten ein­ge­setzt wer­den können.

Vie­le Anwendungsmöglichkeiten

Das auto­ma­ti­sier­te Vor­le­sen von Tex­ten fin­det sich der­zeit in immer mehr Anwen­dungs­be­rei­chen. Infor­ma­tio­nen auf­neh­men zu kön­nen, obwohl sich die Augen auf ein ande­res Ziel kon­zen­trie­ren müs­sen, ist ein unschätz­ba­rer Vor­teil: „Sprach­syn­the­se ist natür­lich ein wesent­li­cher Teil der Bar­rie­re­frei­heit für Men­schen mit Seh­einschrän­kung. Ganz prak­tisch kön­nen aber zum Bei­spiel Auf­trä­ge für u.a. Gabel­stap­ler­fah­rer ver­ba­li­siert wer­den, was in deren Arbeits­ab­lauf sehr hilf­reich und zeit­spa­rend sein kann. Oder man kann sich die täg­li­chen Nach­rich­ten mit der per­sön­li­chen Lieb­lings­stim­me vor­le­sen las­sen. All­ge­mein ist die Sprach­syn­the­se auch ein wich­ti­ger Teil von sprach­ge­steu­er­ten Anwen­dun­gen wie Smart Spea­k­ern, z.B. Ale­xa von Ama­zon“, führt Prof. Dr. Peinl eini­ge Ein­satz­mög­lich­kei­ten aus.

Markt­nach­fra­ge wächst

Dabei dürf­te die Nach­fra­ge nach auto­ma­tisch erstell­ten, aber mensch­lich klin­gen­den Stim­men, erst am Anfang ste­hen. Ein Bei­spiel hier­für ist am Cam­pus der Hoch­schu­le Hof und dort im Grün­der­zen­trum Ein­stein 1 zu fin­den: Das Start-up-Unter­neh­men ahe­aro bie­tet einen Dienst an, bei dem man sich Inhal­te, die sonst nur als Text ver­füg­bar sind, auch als Audio-Pod­cast anhö­ren kann. Die­se Tex­te wer­den bis­her von mensch­li­chen Spre­chern ein­ge­le­sen. „Eine sol­che Pro­duk­ti­on ist natür­lich kosten­in­ten­siv und stößt auch auf­grund der ein­ge­schränk­ten Ver­füg­bar­keit von pro­fes­sio­nel­len Spre­chern an ihre Gren­zen. Die Zusam­men­ar­beit mit der Hoch­schu­le Hof eröff­net uns des­halb völ­lig neue Mög­lich­kei­ten“, sagt Johan­nes Gar­ba­rek, Grün­der und CEO von ahearo.

Hohe Geschwin­dig­keit und gerin­ge Kosten

„Für ahe­aro und ande­re Unter­neh­men, die eine kosten­gün­sti­ge und schnel­le Mög­lich­keit suchen, qua­li­ta­tiv anspre­chen­de Sprach­syn­the­se in ihre Pro­duk­te ein­zu­bin­den, ent­wickeln wir eine Lösung für die Gene­rie­rung deut­scher Spra­che aus Text“, so Prof. Dr. Peinl. Dabei kom­men frei ver­füg­ba­re, selbst erstell­te und von ahe­aro bereit­ge­stell­te Audio­da­ten zum Ein­satz, um die Sprach­syn­the­se-Model­le best­mög­lich zu trai­nie­ren. Die Eva­lua­ti­on erfolgt sowohl über objek­tiv mess­ba­re Wer­te als auch über sub­jek­ti­ve Ein­schät­zun­gen der Probanden.

Ermu­ti­gen­de Zwischenergebnisse

Die bis­lang vor­lie­gen­den Ergeb­nis­se sind ermu­ti­gend und las­sen auf einen bal­di­gen prak­ti­schen Ein­satz der Soft­ware hof­fen: „Kur­ze Sät­ze wer­den in unse­rem Modell bereits sehr gut vor­ge­le­sen. Her­aus­for­de­run­gen sind aktu­ell noch Pau­sen und Beto­nun­gen in kom­ple­xe­ren Sät­zen, sowie Abkür­zun­gen, zusam­men­ge­setz­te Wör­ter und Eigen­na­men“, erläu­tert For­scher Peinl. Dass es dabei dem Com­pu­ter­pro­gramm mit­un­ter nicht anders ergeht als dem Men­schen, belegt eine klei­ne Anek­do­te: „Wir haben zum Bei­spiel das Wort „Früh­som­mer-Menin­go­en­ze­pha­li­tis (FSME)“ in unse­ren Test-Tex­ten ste­hen. Wen wun­dert es, dass nicht nur wir, son­dern auch der Com­pu­ter mit sol­chen Wort­un­ge­tü­men so sei­ne Schwie­rig­kei­ten hat“, so Pro­fes­sor Dr. Peinl.

För­de­rung

Die Ergeb­nis­se der Stu­die, sowie die im Rah­men der For­schung ent­ste­hen­de Soft­ware wer­den ver­öf­fent­licht und zugäng­lich gemacht. Das Pro­jekt wird im Rah­men des EFRE-Pro­gramms Bay­ern 2014–2020, von der Euro­päi­schen Uni­on über den Fond für Regio­na­le Ent­wick­lung sowie vom Baye­ri­schen Staats­mi­ni­ste­ri­um für Wis­sen­schaft und Kunst geför­dert. Ein wei­te­rer Pro­jekt­part­ner ist zudem das am Cam­pus der Hoch­schu­le Hof behei­ma­te­te Unter­neh­men smart­ly­tic GmbH für Soft­ware­ent­wick­lung und Datenanalyse.

Bil­der: Prof. Dr. Rene Peinl, Lei­ter des Insti­tuts für Infor­ma­ti­ons­sy­ste­me (iisys) an der Hoch­schu­le Hof; 

Über die Hoch­schu­le Hof:

Pra­xis­ori­en­tie­rung, Inter­na­tio­na­li­sie­rung und intel­li­gen­te Res­sour­cen­nut­zung ste­hen im Fokus von Leh­re und For­schung an der Hoch­schu­le Hof. Im Bereich Inter­na­tio­na­li­sie­rung legt die Hoch­schu­le einen wei­te­ren Schwer­punkt auf Indi­en, im Hin­blick auf das The­ma intel­li­gen­te Res­sour­cen­nut­zung ste­hen Was­ser- und Ener­gie­ef­fi­zi­enz im Vor­der­grund. Das breit­ge­fä­cher­te und inter­dis­zi­pli­nä­re Stu­di­en­an­ge­bot reicht von Wirt­schaft bis hin zu Infor­ma­tik und Inge­nieurs­wis­sen­schaf­ten. Der Cam­pus Münch­berg bie­tet durch eng mit der Wirt­schaft ver­zahn­te Tex­til- und Design­stu­di­en­gän­ge eine in Deutsch­land ein­ma­li­ge Ausbildung.
Stu­die­ren­de mit Berufs­er­fah­rung fin­den eben­so den pas­sen­den Stu­di­en­gang an der Hoch­schu­le Hof. So bie­tet die Hof Uni­ver­si­ty Gra­dua­te School Stu­die­ren­den mit min­de­stens ein­jäh­ri­ger Berufs­er­fah­rung viel­fäl­ti­ge pra­xis­ori­en­tier­te deutsch- und eng­lisch­spra­chi­ge Master­stu­di­en­gän­ge, die in Voll- und Teil­zeit mög­lich sind. Seit 2019 wird zudem unter „Beruf-plus-Stu­di­um“ ein durch­gän­gi­ges Wei­ter­bil­dungs­kon­zept ange­bo­ten, das den aktu­el­len Anfor­de­run­gen im Digi­ta­len Wan­del gerecht wird. Die berufs­be­glei­ten­den Ange­bo­te, die groß­teils in Blen­ded Lear­ning Ein­hei­ten statt­fin­den, rei­chen vom Ein­zel­mo­dul über Zer­ti­fi­kats­lehr­gän­ge bis zum Bache­lor- und Master­stu­di­en­gang. Stu­die­ren­de mit Start­Up- oder Grün­dungs­in­ter­es­se wer­den durch das Digi­ta­le Grün­der­zen­trum Einstein1 am Cam­pus der Hoch­schu­le bera­ten und gefördert.
Die ange­wand­te For­schung an der Hoch­schu­le Hof sichert die Aktua­li­tät des Wis­sens für die Leh­re und ent­wickelt nütz­li­che Lösun­gen, die in der Wirt­schaft zum Ein­satz kom­men. Durch die Ein­rich­tung von Kom­pe­tenz­zen­tren und Insti­tu­ten an der Hoch­schu­le pro­fi­tie­ren auch die hoch­frän­ki­schen Unter­neh­men. Die Schwer­punk­te der vier For­schungs­in­sti­tu­te lie­gen auf den Berei­chen Infor­ma­ti­ons­sy­ste­me, Mate­ri­al­wis­sen­schaf­ten, Was­ser- und Ener­gie­ma­nage­ment sowie Bio­po­ly­me­re. Zudem ist das Fraun­ho­fer-Anwen­dungs­zen­trum Tex­ti­le Faser­ke­ra­mi­ken TFK am Cam­pus Münch­berg ange­sie­delt und ent­wickelt u.a. neue Anwen­dun­gen für die Luft- und Raum­fahrt sowie für die Auto­mo­bil­in­du­strie. Das an die Hoch­schu­le Hof ange­glie­der­te Baye­risch-Indi­sche Zen­trum für Wirt­schaft und Hoch­schu­len BayIND koor­di­niert und för­dert dar­über hin­aus die Zusam­men­ar­beit zwi­schen Bay­ern und Indien.