Code Factory und Acapela, alternative Sprachausgaben für NVDA

Wer sich den kostenlosen Screenreader NVDA (Non Visual Desktop Access) installiert, wird mit der freien Sprachausgabe eSpeak oder den Windows-stimmen leben müssen. Diese sind brauchbar, für längeres Arbeiten allerdings eher weniger geeignet. Sie sind zwar tief in Windows integriert und die neuen Windows OneCore-Stimmen sind auch deutlich reaktionsfreudiger, als das behäbige Speech-API von Microsoft. Klanglich unterschreiten sie aber die Stimmen von Apple.

Worum geht es?

Blinde Nutzer können einen Computer bedienen, wenn die Bildschirminhalte strukturiert mit einer Sprachausgabe vorgelesen werden. Weil Sprachausgaben, als Text-to-Speech bezeichnet, aber nur den Text akustisch wiedergeben können, muss ein Interpreter diesen vorher aufbereiten. Das geschieht mit einem Screenreader, das Bildschirmleseprogramm erkennt die Inhalte der Apps, strukturiert diese und stellt sie dem blinden Anwender per Sprache, optional auch über eine tastbare Braillezeile, bereit. Früher waren Screenreader aufgrund hoher Entwicklungskosten teuer, das ist allerdings Geschichte und so wird sich der populäre Screenreader JAWS nicht mehr lange als Marktführer behaupten können, wie ich hier bereits beschrieben habe. NVDA ist ein freies Projekt, das von Spenden lebt und inzwischen nicht nur mit JAWS aufgeschlossen, es sogar in Teilen überholt hat. Fehlende Software-Aktivierung und auch die portable Nutzung, weil es sich überhaupt nicht in das System tief einklinken muss, sprechen klar für NVDA. Während früher die Screenreader ihre eigenen Erkennungsroutinen genutzt haben, die auch heute in Teilen noch sinnvoll sind, bietet Microsoft mit der MSAA-Schnittstelle (Microsoft Active Accessibility) den Screenreadern eine Möglichkeit an, direkt auf Informationen der jeweiligen Anwendung zuzugreifen. In JAWS muss man diese Fähigkeit aktivieren, weil die eigenen Erkennungsroutinen ansonsten gestört werden könnten, NVDA basiert einzig auf diesem Weg und das sehr effizient.

Synthetisch vs. Phonetisch

Wer lange und vor Allem mit hohen Sprechgeschwindigkeiten arbeitet, braucht eine flexible Sprachausgabe mit sehr kurzen Reaktionszeiten und auch einer guten Verständlichkeit bei sehr hohen Geschwindigkeiten. Sprachsynthesizer, die auf Basis der subtraktiven Synthese die Stimmformung durchführen, sind hier tendenziell im Vorteil. Wellenformen können rasend schnell vom Computer berechnet werden, brauchen kaum Speicherplatz und klingen langsam wie schnell unnatürlich. Trotzdem sind sie auch heute noch bei vielen blinden Anwendern sehr beliebt. Bei mir nicht, mich haben diese schon früher ermüdet und ich mag mir nicht angewöhnen, eine Sprachausgabe abseits der natürlichen Stimme zu betreiben. Viele unterschätzen auch, dass eine hohe Sprechgeschwindigkeit besonders im vollprofessionellen Einsatz Ermüdungserscheinungen und Konzentrationsschwäche hervorrufen kann, besonders über Kopfhörer.

Bei der Diphonsynthese geht man einen anderen Weg. Hierbei werden Phrasen von echten Menschen eingesprochen und mit Studiotechnik aufgezeichnet. Mustertexte sorgen dafür, dass zum einen möglichst alle in der Sprache vorkommenden Vokale, Sibilanten und Frikative vorkommen, so dass man später additiv die Wortgruppen aus dem Fundus der Samples zusammen bauen kann. Zum anderen machen Korrekturen der Formanten und Tonhöhe das Sprechen lebendiger, auch Sonderlaute, wie Atemgeräusche, Räuspern und Lacher werden erfasst. Das ist zwar für die Arbeit am Computer eher unwesentlich, bei interaktiven Systemen, die sehr natürlich klingen sollen, aber unverzichtbar. Ein “ähm” ist nicht selten und sollte eingefügt werden, wie es der Google Assistant jüngst auch macht. Wer sich mit dem Lautsprecher Google Home ein Gedicht vorlesen lässt, wird verstehen, was ich meine. Wer keinen hat, soll einfach diese Podcast-Episode hören. Alexa ist nach aktuellem Stand hier übrigens noch deutlich unterlegen.

Die hoheitlichen Entwicklungen

Wie auch bei OCR-Systemen sind Sprachausgaben in fester Hand einiger weniger Unternehmen. Nuance, bekannt durch den Einkauf vieler Texterkennungs- und Spracherkennungssysteme, hat auch bei Sprachausgaben zugeschlagen. Elan Informatique, SVOX Und Loquendo wurden zugekauft und das Know-How in einer Marke gebündelt. Code Factory, bekannt vom Screenreader Mobile Speak für Symbian, ist inzwischen Generaldistributor der Vocalizer-Stimmen. Wer eine Sprachausgabe von Nuance kaufen möchte, kommt also an Code Factory nicht vorbei. Für Android und Windows, beschränkt auf NVDA, stehen Lösungen bereit. Früher allerdings waren diese Sprachausgaben sehr teuer und wurden in großer Stückzahl angeboten. Das war für die Hilfsmittelhersteller nicht einfach, hier Verträge zu schließen, denn sie werden seit Jahren auch in Texterkennungssystemen eingesetzt und treiben, wie auch die Texterkennung, die Kosten in die Höhe. Apple stellt hier eine Ausnahme dar, jedes Produkt enthält Lizenzen von Nuance-Stimmen, die jeder aktivieren kann. Vermutlich rechnet Nuance aber pro aktivierter TTS ab, das heißt, jeder VoiceOver-Nutzer zahlt indirekt Lizenzgebühren. Bekannte Stimmen sind Yannik, Steffi, Anna, Petra. Letzte wurde von der Sprecherin Gabriele Libbach eingesprochen und ist eine Entwicklung von SVOX. Sie wird als modernere Stimme verkauft, ist aber deutlich unflexibler, als Anna. Heutzutage sind Lizenzkosten von mehreren hundert Euro alleine schon deshalb fragwürdig, weil ein günstiges MacBook bereits von Haus aus einen Screenreader und anständige Sprachausgaben enthält. Auch wer ein JAWS kauft, erhält hochwertige Stimmen von Nuance. Aber ganz ehrlich: Wer sich überlegt, für 3.000 Euro eine JAWS-Lizenz zu kaufen, bekommt für denselben Preis einen von Hause aus sprechenden iMac der oberen Preiskategorie.

Acapela ist ein weiterer, großer Anbieter von Sprachausgabesystemen. Allerdings wurde auch hier Know-How zugekauft, Infovox aus Schweden ist manchen vielleicht noch ein Begriff. Unter diesem Namen verkauft Acapela einen USB-Stick mit systemweit nutzbaren Stimmen, die Infovox4, welche allerdings preislich im Verhältnis zu NVDA recht teuer sind. Schon vor Jahren hatte ich empfohlen, hiervon abzuweichen, dies wurde inzwischen erhört. Die Stimmen kennen Nutzer von Mobile Speak sehr gut, Eva, Sarah, Klaus, Julia und Andreas sind die bekanntesten Vertreter. Die Stimmen der Infovox 330, Helga und Gerhard, werden nicht mehr angeboten.

Sprachausgaben für NVDA

Schon seit längerer Zeit gab es auf Bestreben eines portugiesischen Unternehmens für NVDA eine Alternative auf Basis der Vocalizer-Stimmen. Das als “Vocalizer for NVDA” bezeichnete Produkt kommt in Version 2 ohne Aktivierungen aus, das passte Nuance allerdings nicht. Seit Version 3 können bis zu drei Lizenzen aktiviert werden, was eine portable Nutzung, beispielsweise im Servicefall, ausschließt. Ich selbst nutze Version 2, die ich für mich an allen Rechnern, beispielsweise im Familienkreis, installiert habe und nutzen kann. Mit 75 Euro waren alle verfügbaren Stimmen in allen fünf Qualitätsstufen erhältlich. Mit einem ASUS Eee PC ließ sich ohne nennenswerte Latenz damit hervorragend arbeiten. Die Qualität ist wesentlich angenehmer, als die eSpeak, die mich persönlich anstrengt. Es gab früher auch eine unlizenzierte Möglichkeit, die synthetische Eloquence zu nutzen (früher von IBM als ViaVoice lizenziert, heute zu Nuance gehörend). Das passte einem italienischen Distributor nicht, der zum Einen dies an Nuance meldete, zum Anderen dadurch schön mitverdienen konnte, weil er selbst zum Distributor wurde und USB-Sticks mit Eloquence verkauft hat. Ein zweifelhaftes Vorgehen, auch von Nuance. Denn wären blinde Nutzer nicht noch heute von dieser schnarrenden Stimme begeistert, hätte man das Produkt schon längst abgeschrieben. So aber wird die Eloquence auch von Code Factory für Android vermarktet. Übrigens werden von jeder verkauften Version 10% an NV-Access gespendet, mehr Informationen gibt es hier.

Heute sind die Verhältnisse geordnet. Tiflotecnia als Distributor von Vocalizer for NVDA tritt nicht mehr als Händler auf, weil Code Factory dies als Generaldistributor streitig macht. Für 59 Euro sind allerdings die Lizenzkosten günstiger, dafür muss man aber mit einer übertragbaren Lizenz leben. Laut FAQ ist diese zu aktivieren bzw. zu deaktivieren. Was passiert, wenn man am Kundenrechner diese Lizenz aktiviert hat und vergisst, diese zu deaktivieren, ist mir nicht bekannt. Für diesen Preis bekommt man, wie bei der alten Version, alle verfügbaren Stimmen in allen Sprachen und Qualitätsstufen angeboten. Das ist fair, für Android verlangen Code Factory und Acapela je Stimme Lizenzgebühren. Die Stimmen werden als Erweiterung direkt in NVDA installiert, das ermöglicht sehr kurze Reaktionszeiten, weiterhin ist eine Sicherung mit Ausnahme der Lizenz sehr einfach. Freunde der Eloquence können sich zudem freuen, denn die neue Vocalizer-Version enthält auch diese Stimmen.

Wie erwähnt bedient Acapela diesen Markt inzwischen auch und verkauft viele Infovox-Stimmen in einer speziellen NVDA-Lizenz. Allerdings mit einem erheblichen Einschnitt, so fehlen alle deutschen Stimmen, was das Produkt für den hiesigen Sprachraum derzeit uninteressant erscheinen lässt. Die Software wird ebenfalls als Erweiterung installiert und die Nutzung aller verfügbaren Stimmen ist möglich. Seit Infovox4 gibt es mit Colibri platzsparende Varianten für ältere Computer, welche den Compact-Stimmen der Vocalizer überlegen sind. Drei Lizenzen können gleichzeitig aktiviert werden, mit 99 Euro kosten diese Stimmen allerdings jedoch etwas mehr. Auch hier wird die Aktivierung auf dem jeweiligen Rechner gespeichert, so dass man das Deaktivieren nicht vergessen kann. So ganz ist mir nicht klar, wieso man nicht anhand der Seriennummer des USB-Sticks auch eine portable Aktivierung ermöglicht. Bei der Infovox hat man diesen Weg beschritten, das würde zumindest die mobile Nutzung deutlich vereinfachen. Eine Testversion für 15 Tage kann von der Homepage heruntergeladen werden.

Fazit

Es sei noch nachgeführt, dass sowohl die Acapela Group, als auch Code Factory, lediglich Informationen in englischer Sprache bereitstellen. Während es vor Jahren nicht ganz einfach war, günstige Stimmen für NVDA zu erhalten, hat sich der Markt inzwischen reguliert. Da es ohnehin nur zwei Global Player gibt, die alle Stimmen für einen Preis anbieten, ist das Angebot auch gut. Preis-Leistungssieger ist klar Code Factory, auch die Eloquence wird vielen die Entscheidung erleichtern. Aber dann eben nur mit einer Lizenz, das reicht für einen Computer aus. Wer zudem ein Notebook nutzt, wird doppelt zur Kasse gebeten. Vernachlässigt man den Umstand der fehlenden deutschen Stimmen, ist Acapela etwas flexibler, mit 99 Euro aber auch teurer. Drei Lizenzen können gleichzeitig aktiviert werden, für langsame Rechner sind die Colibri-Stimmen im Vergleich zu Vocalizer Compact vorzuziehen. Auch hier steht die gesamte Bandbreite an Stimmen bereit und wird lediglich durch den Speicherplatz begrenzt. Sieht man von deutschen Stimmen ab, ist die Qualität bei beiden Anbietern schwankend. Bei Nuance tritt dies deutlicher auf, weil die Qualität der SVOX-Stimmen nicht gänzlich überzeugt. Warum man den Markus (Loquendo) und nicht die Kathrin anbietet, die im Prinzip das Beste ist, was ich je gehört habe, ist fraglich. Die Julia ist Geschmackssache, zu Zeiten von Mobile Speak war sie in der Qualität führend, manchen wirkt sie zu überschwänglich. So ist das aber mit den Stimmen, Geschmäcker sind verschieden. Wer sich nicht entscheiden kann, erhält immerhin beide Produkte für rund 160 Euro und hat dann eine erschöpfende Auswahl an Sprachausgaben für einen extrem günstigen Preis. Zum Vergleich: Eine Apollo 2 von Dolphin als synthetische Hardware-Sprachausgabe kostete im Jahre 1993 etwa 2.400 Mark, inflationsbereinigt rund 2.900 Euro. Wer kann da also noch meckern, zumal der Screenreader (HAL 4 für DOS) noch weitere 1.200 Mark kosten sollte.

2 Comments

  1. Eric said:

    Wenn ich bei Codefactory die Stimmen einkaufen würde, würde ich mich dann doch für die SAPI-Versionen entscheiden, esseidenn, ich würde NVDA offt genug als portable Version einsetzen.

    23. Juli 2018
    Reply
  2. Also ich war lange zeit Jaws-user. Und so mit habe ich auch die Eloquence seit Jahren genutzt. Nun, da ich auf NVDA umgestiegen bin, musste ich aber feststellen, dass mir der Espeak Synthesizer nicht zu gesagt hatte. Somit habe ich mich für den Kauf der Infovox 4 endschieden. Der Vorteil, man hat einen Stick mit 3 Lizenzen die man auf 3 Computern aktivieren kann. Auch kann man den Stick als Dongle nutzen. D.h. Wenn der Stick nicht angeschloßen wurde, dann gehen die Stimmen einfach nicht, es sei den, man hat eine Aktivierung auf dem PC übertragen. Hat man den -stick jedoch angeschloßen, aber keine Lizenz auf dem Computer übertragen, so laufen die Stimmen trotstem, weil ja der Stick drann ist. Ich find das eine tolle Sache.

    15. August 2018
    Reply

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.