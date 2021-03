Insti­tut für Infor­ma­ti­ons­sy­ste­me an der Hoch­schu­le Hof forscht erfolg­reich zur Sprachsynthese:



Hof, 30.03.2021 – Ins­be­son­de­re für blin­de oder seh­be­hin­der­te Men­schen sind Com­pu­ter­an­wen­dun­gen, die Tex­te vor­le­sen, bereits heu­te eine gro­ße Hil­fe im All­tag. Auch beim Auto­fah­ren hat man sich längst an die freund­li­chen Stim­men aus der Navi­ga­ti­on gewöhnt, die Fah­ren­den gefähr­li­che Ablen­kun­gen erspa­ren. Aber natür­lich birgt die neue Tech­nik auch Gefah­ren. Das Insti­tut für Infor­ma­ti­ons­sy­ste­me der Hoch­schu­le Hof forscht mit einer Stu­die an der Akzep­tanz der künst­lich gene­rier­ten Stim­men und ent­wickelt eige­ne Model­le für den deut­schen Markt.

Die Qua­li­tät der soge­nann­ten Sprach­syn­the­se hat sich in den letz­ten Jah­ren erheb­lich ver­bes­sert. Klan­gen die Stim­men lan­ge Zeit eher ble­chern oder abge­hackt, so weicht der Klang nach und nach einer zuneh­men­den Natür­lich­keit und unauf­fäl­li­gen Sprach­dy­na­mik. Damit wird auch das Hören län­ge­rer Tex­te angenehm.

Rasan­te Ver­bes­se­rung der Sprachqualität

„Erreicht wer­den konn­te dies in der inter­na­tio­na­len For­schung durch den Ein­satz tie­fer, neu­ro­na­ler Net­ze. Ins­be­son­de­re im eng­li­schen Sprach­raum kann man bereits heu­te kaum noch unter­schei­den, ob es sich um einen ech­ten Men­schen oder um ein Pro­gramm han­delt”, so Prof. Dr. Rene Peinl, Lei­ter des Insti­tuts für Infor­ma­ti­ons­sy­ste­me der Hoch­schu­le Hof. Es gibt dem­nach mitt­ler­wei­le eine Rei­he frei ver­füg­ba­rer Model­le, die sehr natür­lich Eng­lisch spre­chen, wenn aus­rei­chend vie­le Trai­nings­da­ten ver­wen­det wer­den. Die Spra­ch­er­zeu­gung pas­siert dabei zumeist zwei­stu­fig. Zunächst wird ein soge­nann­tes Mel-Spek­tro­gramm erzeugt, das eine Reprä­sen­ta­ti­on der Sprach­fre­quen­zen dar­stellt. Dar­aus erzeugt dann ein Vocoder das eigent­li­che Audio­si­gnal. Bei­de Stu­fen sind neu­ro­na­le Net­ze, die getrennt trai­niert wer­den müssen.

Akzep­tanz auf dem Prüfstand

Im DAM­MIT-Pro­gramm der Hoch­schu­le Hof, das sich dem Tech­no­lo­gie­trans­fer zwi­schen Hoch­schu­le und mit­tel­stän­di­schen Unter­neh­men zur digi­ta­len Trans­for­ma­ti­on aus­ein­an­der­setzt, wird ana­ly­siert, wie hoch die Akzep­tanz von Benut­zern für com­pu­ter-gene­rier­te Stim­men ist. Pro­ban­den bekom­men dabei Text­in­hal­te mitt­le­rer Län­ge vor­ge­le­sen – also zum Bei­spiel Nach­rich­ten mit einer hal­ben Bild­schirm­sei­te Län­ge. Die in den letz­ten Jah­ren statt­fin­den­de, ste­ti­ge Ver­bes­se­rung der Qua­li­tät der Sprach­syn­the­se erhöht einer­seits den Kom­fort und die Ein­satz­mög­lich­kei­ten der Tech­nik, birgt ande­rer­seits aber auch Gefah­ren, da maschi­nel­le Stim­men, die mensch­lich klin­gen, natür­lich auch für Betrug oder Straf­ta­ten ein­ge­setzt wer­den können.

Vie­le Anwendungsmöglichkeiten

Das auto­ma­ti­sier­te Vor­le­sen von Tex­ten fin­det sich der­zeit in immer mehr Anwen­dungs­be­rei­chen. Infor­ma­tio­nen auf­neh­men zu kön­nen, obwohl sich die Augen auf ein ande­res Ziel kon­zen­trie­ren müs­sen, ist ein unschätz­ba­rer Vor­teil: „Sprach­syn­the­se ist natür­lich ein wesent­li­cher Teil der Bar­rie­re­frei­heit für Men­schen mit Seh­ein­schrän­kung. Ganz prak­tisch kön­nen aber zum Bei­spiel Auf­trä­ge für u.a. Gabel­stap­ler­fah­rer ver­ba­li­siert wer­den, was in deren Arbeits­ab­lauf sehr hilf­reich und zeit­spa­rend sein kann. Oder man kann sich die täg­li­chen Nach­rich­ten mit der per­sön­li­chen Lieb­lings­stim­me vor­le­sen las­sen. All­ge­mein ist die Sprach­syn­the­se auch ein wich­ti­ger Teil von sprach­ge­steu­er­ten Anwen­dun­gen wie Smart Spea­kern, z.B. Ale­xa von Ama­zon”, führt Prof. Dr. Peinl eini­ge Ein­satz­mög­lich­kei­ten aus.

Markt­nach­fra­ge wächst

Dabei dürf­te die Nach­fra­ge nach auto­ma­tisch erstell­ten, aber mensch­lich klin­gen­den Stim­men, erst am Anfang ste­hen. Ein Bei­spiel hier­für ist am Cam­pus der Hoch­schu­le Hof und dort im Grün­der­zen­trum Ein­stein 1 zu fin­den: Das Start-up-Unter­neh­men ahe­aro bie­tet einen Dienst an, bei dem man sich Inhal­te, die sonst nur als Text ver­füg­bar sind, auch als Audio-Pod­cast anhö­ren kann. Die­se Tex­te wer­den bis­her von mensch­li­chen Spre­chern ein­ge­le­sen. „Eine sol­che Pro­duk­ti­on ist natür­lich kosten­in­ten­siv und stößt auch auf­grund der ein­ge­schränk­ten Ver­füg­bar­keit von pro­fes­sio­nel­len Spre­chern an ihre Gren­zen. Die Zusam­men­ar­beit mit der Hoch­schu­le Hof eröff­net uns des­halb völ­lig neue Mög­lich­kei­ten”, sagt Johan­nes Gar­ba­rek, Grün­der und CEO von ahearo.

Hohe Geschwin­dig­keit und gerin­ge Kosten

„Für ahe­aro und ande­re Unter­neh­men, die eine kosten­gün­sti­ge und schnel­le Mög­lich­keit suchen, qua­li­ta­tiv anspre­chen­de Sprach­syn­the­se in ihre Pro­duk­te ein­zu­bin­den, ent­wickeln wir eine Lösung für die Gene­rie­rung deut­scher Spra­che aus Text”, so Prof. Dr. Peinl. Dabei kom­men frei ver­füg­ba­re, selbst erstell­te und von ahe­aro bereit­ge­stell­te Audio­da­ten zum Ein­satz, um die Sprach­syn­the­se-Model­le best­mög­lich zu trai­nie­ren. Die Eva­lua­ti­on erfolgt sowohl über objek­tiv mess­ba­re Wer­te als auch über sub­jek­ti­ve Ein­schät­zun­gen der Probanden.

Ermu­ti­gen­de Zwischenergebnisse

Die bis­lang vor­lie­gen­den Ergeb­nis­se sind ermu­ti­gend und las­sen auf einen bal­di­gen prak­ti­schen Ein­satz der Soft­ware hof­fen: „Kur­ze Sät­ze wer­den in unse­rem Modell bereits sehr gut vor­ge­le­sen. Her­aus­for­de­run­gen sind aktu­ell noch Pau­sen und Beto­nun­gen in kom­ple­xe­ren Sät­zen, sowie Abkür­zun­gen, zusam­men­ge­setz­te Wör­ter und Eigen­na­men”, erläu­tert For­scher Peinl. Dass es dabei dem Com­pu­ter­pro­gramm mit­un­ter nicht anders ergeht als dem Men­schen, belegt eine klei­ne Anek­do­te: „Wir haben zum Bei­spiel das Wort „Früh­som­mer-Menin­go­en­ze­pha­li­tis (FSME)” in unse­ren Test-Tex­ten ste­hen. Wen wun­dert es, dass nicht nur wir, son­dern auch der Com­pu­ter mit sol­chen Wort­un­ge­tü­men so sei­ne Schwie­rig­kei­ten hat”, so Pro­fes­sor Dr. Peinl.

För­de­rung

Die Ergeb­nis­se der Stu­die, sowie die im Rah­men der For­schung ent­ste­hen­de Soft­ware wer­den ver­öf­fent­licht und zugäng­lich gemacht. Das Pro­jekt wird im Rah­men des EFRE-Pro­gramms Bay­ern 2014–2020, von der Euro­päi­schen Uni­on über den Fond für Regio­na­le Ent­wick­lung sowie vom Baye­ri­schen Staats­mi­ni­ste­ri­um für Wis­sen­schaft und Kunst geför­dert. Ein wei­te­rer Pro­jekt­part­ner ist zudem das am Cam­pus der Hoch­schu­le Hof behei­ma­te­te Unter­neh­men smart­ly­tic GmbH für Soft­ware­ent­wick­lung und Datenanalyse.

Bil­der: Prof. Dr. Rene Peinl, Lei­ter des Insti­tuts für Infor­ma­ti­ons­sy­ste­me (iisys) an der Hoch­schu­le Hof;

