- Apple KI-Forscher rühmen nützliches...
Siri hat in letzter Zeit versucht, Bilder zu beschreiben, die in Nachrichten empfangen wurden, wenn man CarPlay oder die Funktion "Benachrichtigungen ankündigen" verwendet. In typischer Siri-Manier ist die Funktion inkonsistent und mit gemischten Ergebnissen.
Nichtsdestotrotz treibt Apple das Versprechen der KI weiter voran. In einem kürzlich veröffentlichten Forschungspapier beschreiben die KI-Gurus von Apple ein System, in dem Siri viel mehr kann als nur zu versuchen, den Inhalt eines Bildes zu erkennen. Und das Beste daran? Sie sind der Meinung, dass eines ihrer Modelle dafür besser abschneidet als ChatGPT 4.0.
In dem Papier (ReALM: Reference Resolution As Language Modeling) beschreibt Apple etwas, das einem Sprachassistenten mit großem Sprachmodell zu mehr Nützlichkeit verhelfen könnte. ReALM berücksichtigt sowohl, was auf dem Bildschirm zu sehen ist, als auch, welche Aufgaben gerade aktiv sind. Hier ist ein Auszug aus dem Papier, der die Aufgabe beschreibt:
Kernaussagen
Nichtsdestotrotz treibt Apple das Versprechen der KI weiter voran. In einem kürzlich veröffentlichten Forschungspapier beschreiben die KI-Gurus von Apple ein System, in dem Siri viel mehr kann als nur zu versuchen, den Inhalt eines Bildes zu erkennen. Und das Beste daran? Sie sind der Meinung, dass eines ihrer Modelle dafür besser abschneidet als ChatGPT 4.0.
In dem Papier (ReALM: Reference Resolution As Language Modeling) beschreibt Apple etwas, das einem Sprachassistenten mit großem Sprachmodell zu mehr Nützlichkeit verhelfen könnte. ReALM berücksichtigt sowohl, was auf dem Bildschirm zu sehen ist, als auch, welche Aufgaben gerade aktiv sind. Hier ist ein Auszug aus dem Papier, der die Aufgabe beschreibt:
Wenn das gut funktioniert, ist das ein Rezept für eine intelligentere und nützlichere Siri. Apple zeigt sich auch zuversichtlich, dass es eine solche Aufgabe mit beeindruckender Geschwindigkeit bewältigen kann. Das Benchmarking wird mit ChatGPT 3.5 und ChatGPT 4.0 von OpenAI verglichen:1. Entitäten auf dem Bildschirm: Dies sind Objekte, die derzeit auf dem Bildschirm eines Benutzers angezeigt werden2. Konversations-Entitäten: Dies sind Entitäten, die für das Gespräch relevant sind. Diese Entitäten können aus einem früheren Gespräch mit dem Benutzer stammen (wenn der Benutzer z. B. sagt: "Ruf Mama an", wäre der Kontakt zu Mama die relevante Entität) oder vom virtuellen Assistenten (wenn der Agent dem Benutzer z. B. eine Liste von Orten oder Alarmen zur Auswahl anbietet).3. Hintergrund-Entitäten: Dies sind relevante Entitäten, die aus Hintergrundprozessen stammen, die nicht unbedingt ein direkter Teil dessen sind, was der Benutzer auf seinem Bildschirm oder in seiner Interaktion mit dem virtuellen Agenten sieht; zum Beispiel ein Alarm, der zu klingeln beginnt, oder Musik, die im Hintergrund läuft.
Wie schneidet Apples Modell also ab?Als weitere Grundlage lassen wir die GPT-3.5 (Brown et al., 2020; Ouyang et al., 2022) und GPT-4 (Achiam et al., 2023) Varianten von ChatGPT, wie am 24. Januar 2024 verfügbar, mit kontextbezogenem Lernen laufen. Wie in unserem Setup zielen wir darauf ab, beide Varianten dazu zu bringen, eine Liste von Entitäten aus einer verfügbaren Menge vorherzusagen. Im Fall von GPT-3.5, das nur Text akzeptiert, besteht unsere Eingabe nur aus der Eingabeaufforderung; im Fall von GPT-4, das auch Bilder kontextualisieren kann, geben wir dem System einen Screenshot für die Aufgabe der Bildschirmreferenzauflösung, was unserer Meinung nach die Leistung erheblich verbessert.
Wesentlich besser als GPT, sagen Sie? Das Papier schließt zum Teil wie folgt:Wir zeigen große Verbesserungen gegenüber einem bestehenden System mit ähnlicher Funktionalität für verschiedene Arten von Referenzen, wobei unser kleinstes Modell absolute Verbesserungen von über 5 % für Bildschirmreferenzen erzielt. Wir führen auch einen Vergleich mit GPT-3.5 und GPT-4 durch, wobei unser kleinstes Modell eine vergleichbare Leistung wie GPT-4 erzielt und unsere größeren Modelle diese deutlich übertreffen.
DieVerwendung auf dem Gerät ohne Leistungseinbußen scheint für Apple der Schlüssel zu sein. Die nächsten Jahre der Plattformentwicklung werden hoffentlich interessant sein, beginnend mit iOS 18 und der WWDC 2024 am 10. Juni.Wir zeigen, dass ReaLM frühere Ansätze übertrifft und in etwa so gut abschneidet wie das derzeitige State-of-the-Art LLM, GPT-4, obwohl es aus viel weniger Parametern besteht, sogar für Bildschirmreferenzen, obwohl es sich um eine rein textuelle Domäne handelt. Es übertrifft GPT-4 auch bei domänenspezifischen Benutzeräußerungen, was ReaLM zu einer idealen Wahl für ein praktisches Referenzauflösungssystem macht, das ohne Leistungseinbußen auf dem Gerät eingesetzt werden kann.
Zusammenfassung
Kernaussagen
- Das KI-Forschungspapier von Apple beschreibt ein System, ReALM, das die Fähigkeit von Siri verbessert, Bildschirm- und Gesprächsobjekte zu verstehen.
- ReALM übertrifft ChatGPT 3.5 und ChatGPT 4.0 von OpenAI bei der Auflösung von Verweisen und erreicht eine vergleichbare Leistung wie GPT-4 mit weniger Parametern.
- Die Verbesserungen von ReALM sind besonders bei Bildschirmreferenzen bemerkenswert, mit absoluten Steigerungen von über 5%.
- Obwohl ReALM rein textbasiert ist, übertrifft es GPT-4 bei domänenspezifischen Benutzeräußerungen.
- Apple hat sich zum Ziel gesetzt, ein praktisches System zur Referenzauflösung zu entwickeln, das ohne Leistungseinbußen auf dem Gerät betrieben werden kann.