Microsoft hat drei neue Cognitive Services für die Integration von KI-Technologien in Anwendungen von Drittanbietern angekündigt: Der ab sofort verfügbare Custom Speech Service, erkennt Sprache in unterschiedlich lauten Umgebungen sowie dialektisch, mundartlich oder fachlich gefärbte Formulierungen. Der Content Moderator erlaubt es, Texte, Bilder oder Videos nach unerwünschtem Material zu durchsuchen und etwa Gewaltszenen oder hetzerische Sprache herauszufiltern. Die Bing Speech API verwandelt Audiomaterial in Text, versteht den Inhalt solcher Texte und kann Texte auch in gesprochene Sprache (zurück-)verwandeln. Content Moderator und Bing Speech API werden ab März 2017 verfügbar sein. Die neuen Dienste sind ein weiterer Meilenstein von Microsofts Mission, künstliche Intelligenz zu „demokratisieren“.

Die Microsoft Cognitive Services sind 25 Dienste, die die Integration von Sprach-, visueller oder Stimmungserkennung sowie Sprachverständnis in Apps ermöglichen. Über REST APIs können Entwickler Anwendungen von Drittanbietern aller Unternehmensgrößen und Branchen mit künstlicher Intelligenz anreichern.

Virtual-Reality-Unterhaltungen führen

Die Integration einer funktionierenden Sprachsteuerung erlaubt es zum Beispiel in Virtual-Reality-Spielen, dem Spieler die volle Kontrolle über den Erzählstrang einer Geschichte zu geben. Wie in Starship Commander von Human Interact: Das Spiel nutzt Microsoft Cognitive Services für die (Sprach-)Steuerung von Raumschiffen, die auch in Lichtgeschwindigkeit noch auf ihre Kapitäne hören, anstatt eine vorprogrammierte Geschichte abzuspielen.

Bei Starship Commander kommt auch der Language Understanding Intelligent Service zum Einsatz, um zu verstehen, mit welcher Absicht Spieler bestimmte Aussagen treffen. Ein „Raus hier!“ könnte sowohl die Aufforderung an den Maschinenraum sein, Vollgas zu geben, als auch der Befehl an jemanden, den Raum zu verlassen. Der Language Understanding Intelligent Service, derzeit in einer Public Preview verfügbar, erlaubt Entwicklern das Trainieren von Sprachmodellen mit unterschiedlichen Bedeutungen von Sprache. Auch dieser Service arbeitet auf der Basis jahrzehntelanger Forschungen, bei denen es darum geht, Dienste mit einer begrenzten Menge von Daten zu trainieren. Bei Starship Commander funktioniert das offensichtlich gut – so gut, dass sich CEO Alexander Mejia fast geschockt darüber zeigt: Es sei ein wenig angsteinflößend, wie gut das Spiel Sätze verstehe, die es nie zuvor trainiert habe, so Mejia: „Das ist Künstliche Intelligenz!“

Kundenindividuelle Sprachmodelle

Moderne Spracherkennung ist abhängig von statistischen Modellen, die maschinelles Lernen (Machine Learning) und die Skalierbarkeit der Cloud nutzen, um aus einer großen Menge von Daten akkurate Übersetzungen gesprochener Wörter zu produzieren. Über die Cognitive Services ist es möglich, akustische Modelle zu bauen, die aus kurzen Audioschnipseln Phoneme oder Toneinheiten in einer gegebenen Sprache erkennen. In Kombination mit den Phonemen in der unmittelbaren Nachbarschaft lassen sich gesprochene Wörter sicher erkennen. Die Vorhersage wird von einem speziellen Wörterbuch unterstützt, das alle Wörter der Zielsprache auf Phoneme-Ebene enthält. Um ähnlich klingende Wörter im Kontext zu bewerten, ziehen akustische Modelle auch kontextuelle Wahrscheinlichkeiten hinzu. So ist das Wort „Tor“ im Fußball wahrscheinlicher als „Treffer“ zu verstehen, denn als „Narr“. McDonald’s setzt die Spracherkennung ein, um die einen möglichst effizienten, reibungslosen Ablauf der Drive-ins zu ermöglichen.

Das Akustikmodell der Microsoft Speech Recognition API beruht auf einem neuronalen Netzwerk, das wiederum Theorien des menschlichen Spracherwerbs nutzt und mit tausenden Stunden Audiodateien aus der Cloud trainiert wurde. Dieser Spracherkennung gelang im Oktober 2016 der Durchbruch: Erstmals war die Engine in der Lage, Wörter einer seit 20 Jahren als Benchmark für Spracherkennung verwendeten Unterhaltung genauso gut zu erkennen wie ein Mensch.

Allerdings funktioniert das Modell nicht automatisch in unterschiedlichen, zum Beispiel lauten Umgebungen. Genau hier kommen die Custom Speech Services zum Tragen, die das Anpassen der Modelle an typische Umgebungen oder Sprachgewohnheiten erlaubt: Ob ein Geräusch ein Wort oder eine Hydraulikpresse ist, mag für Menschen einfach zu entscheiden sein. Maschinen müssen diesen Unterschied erst lernen – um das künftig dann zuverlässig zu erkennen.

Diese Meldung im Microsoft Deutschland Newsroom: https://news.microsoft.com/de-de/neue-microsoft-tools-fuer-die-integration-von-kuenstlicher-intelligenz

Weitere Informationen:

Über die Microsoft Deutschland GmbH

Die Microsoft Deutschland GmbH ist die 1983 gegründete Tochtergesellschaft der Microsoft Corporation/Redmond, U.S.A., des weltweit führenden Herstellers von Standardsoftware, Services und Lösungen mit 85,32 Mrd. US-Dollar Umsatz (Geschäftsjahr 2016; 19. Juni 2016). Der Netto-Gewinn im Fiskaljahr 2016 betrug 20,18 Mrd. US-Dollar. Neben der Firmenzentrale in München ist die Microsoft Deutschland GmbH bundesweit mit sechs Regionalbüros vertreten und beschäftigt rund 2.700 Mitarbeiterinnen und Mitarbeiter. Im Verbund mit rund 31.500 Partnerunternehmen betreut sie Firmen aller Branchen und Größen. Das Advanced Technology Labs Europe (ATLE) in München hat Forschungsschwerpunkte in IT-Sicherheit, Datenschutz, Mobilität, mobile Anwendungen und Web-Services.

Firmenkontakt und Herausgeber der Meldung:

Microsoft Deutschland GmbH
Walter-Gropius-Straße 5
80807 München
Telefon: +49 (89) 3176-5000
Telefax: +49 (89) 3176-1000
http://www.microsoft.com/de-de/

Ansprechpartner:
Anika Klauß
FAKTOR 3
Telefon: +49 (89) 3176-5000
Jens Schleife
FAKTOR 3 AG
Telefon: +49 (40) 679446-6127
Fax: +49 (40) 679446-11
E-Mail: j.schleife@faktor3.de
Für die oben stehende Pressemitteilung ist allein der jeweils angegebene Herausgeber (siehe Firmenkontakt oben) verantwortlich. Dieser ist in der Regel auch Urheber des Pressetextes, sowie der angehängten Bild-, Ton-, Video-, Medien- und Informationsmaterialien. Die United News Network GmbH übernimmt keine Haftung für die Korrektheit oder Vollständigkeit der dargestellten Meldung. Auch bei Übertragungsfehlern oder anderen Störungen haftet sie nur im Fall von Vorsatz oder grober Fahrlässigkeit. Die Nutzung von hier archivierten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Eine systematische Speicherung dieser Daten sowie die Verwendung auch von Teilen dieses Datenbankwerks sind nur mit schriftlicher Genehmigung durch die United News Network GmbH gestattet.

counterpixel