Apple Forscher enthüllen neuen KI-Durchbruch für das Training von LLMs auf Bildern und Text

Diskutiere, Apple Forscher enthüllen neuen KI-Durchbruch für das Training von LLMs auf Bildern und Text in iPhone News forum; In einem neuen Papier, das diesen Monat veröffentlicht wurde, zeigen Apple-Forscher, dass sie...
  • Apple Forscher enthüllen neuen KI-Durchbruch...
In einem neuen Papier, das diesen Monat veröffentlicht wurde, zeigen Apple-Forscher, dass sie neue Methoden für das Training großer Sprachmodelle entwickelt haben, die sowohl Text als auch visuelle Informationen verwenden. Den Apple-Forschern zufolge lassen sich auf diese Weise hochmoderne Ergebnisse erzielen.

Wie zuerst von VentureBeat entdeckt wurde, soll die Forschung zeigen, "wie die sorgfältige Kombination verschiedener Arten von Trainingsdaten und Modellarchitekturen zu Spitzenleistungen bei einer Reihe von KI-Benchmarks führen kann".

Das Papier wurde letzte Woche veröffentlicht und trägt den Titel " MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training ". Die Apple Forscher erklären in der Zusammenfassung des Papiers:

In dieser Arbeit befassen wir uns mit dem Aufbau leistungsfähiger multimodaler großer Sprachmodelle (MLLMs). Insbesondere untersuchen wir die Bedeutung verschiedener Architekturkomponenten und Datenauswahlen. Durch sorgfältige und umfassende Ablationen des Bild-Encoders, des Vision-Sprach-Connectors und verschiedener Pre-Training-Daten haben wir mehrere entscheidende Design-Lektionen identifiziert. Zum Beispiel zeigen wir, dass für großangelegtes multimodales Pre-Training eine sorgfältige Mischung aus Bild-Beschriftung, verschachteltem Bild-Text und reinen Text-Daten entscheidend ist, um State-of-the-Art (SOTA) few-shot Ergebnisse über mehrere Benchmarks zu erzielen, verglichen mit anderen veröffentlichten Pre-Training-Ergebnissen.
MM1 wird als eine "Familie multimodaler Modelle" beschrieben, die dem neuesten Stand der Technik entsprechen und "ansprechende Eigenschaften wie verbessertes kontextbezogenes Lernen und bildübergreifendes Reasoning aufweisen, wodurch eine Denkkette in wenigen Schritten ermöglicht wird".

Die kontextbezogenen Lernfähigkeiten des MM1-Modells sind besonders beeindruckend:

MM1 kann dank seines umfangreichen multimodalen Vortrainings kontextinterne Vorhersagen treffen. Dadurch ist MM1 in der Lage, (a) Objekte zu zählen und benutzerdefinierten Formatierungen zu folgen, (b) sich auf Teile der Bilder zu beziehen und OCR durchzuführen, (c) gesunden Menschenverstand und Wortwissen über Alltagsgegenstände zu demonstrieren und (d) grundlegende mathematische Funktionen auszuführen. Die Bilder stammen aus der COCO-Validierungsreihe 2014.
Die Forscher kommen zu dem Schluss, dass diese Modellfamilie "bei einer Vielzahl von Benchmarks eine konkurrenzfähige Leistung erbringt und gleichzeitig das Reasoning mit mehreren Bildern und das Prompting mit wenigen Bildern ermöglicht".

Lesen Sie mehr:


Apple Forscher enthüllen neuen KI-Durchbruch für das Training von LLMs auf Bildern und Text


Zusammenfassung


  • Apple hat neue Methoden zur Schulung großer Sprachmodelle unter Verwendung von Text- und visuellen Informationen entwickelt.
  • Die Kombination verschiedener Arten von Schulungsdaten und Modellarchitekturen kann zu Spitzenleistungen bei KI-Benchmarks führen.
  • Das MM1-Modell ermöglicht inhaltsgesteuerte Vorhersagen sowie Multi-Bild-Argumentation und prompte Reaktionen mit wenigen Schritten.
  • Die Forscher betonen die Wichtigkeit einer sorgfältigen Mischung von Bildunterschriften, Bild-Text-Interleaving und reinem Textdaten für das Training großer multimodaler Modelle.
  • Die entwickelte Modellfamilie erreicht wettbewerbsfähige Leistungen bei einer Vielzahl von Benchmarks und ermöglicht Multi-Bild-Argumentation sowie prompte Reaktionen mit wenigen Schritten.


 
A
Shona

Lösungsvorschläge

Hey,

Wenn du nach bewährten Lösungen und Anleitungen suchst, sind diese Artikel empfehlenswert:
Thema: Apple Forscher enthüllen neuen KI-Durchbruch für das Training von LLMs auf Bildern und Text

Similar threads: Apple Forscher enthüllen neuen KI-Durchbruch für das Training von LLMs auf Bildern und Text

Apple KI-Forscher rühmen nützliches On-Device-Modell, das GPT-4 "deutlich übertrifft: Siri hat in letzter Zeit versucht, Bilder zu beschreiben, die in Nachrichten empfangen wurden, wenn man CarPlay oder die Funktion...
Forscher arbeiten daran, "Apple GPT" und mehr auf dem iPhone laufen zu lassen: Im Mai erfuhren wir, dass Appleintern bereits einen eigenen KI-Chatbot einsetzt, den einige als Apple GPT bezeichnet haben. Ein neues...
Unregelmäßigen Herzrytmus auf Apple Watch komplett deaktivieren: Hallo, ich würde gerne die Funktion „unregelmäßigen Herzrytmus „ komplett Deaktivieren und nicht nur die Mitteilungen. Am Liebsten wäre es wenn...
Apple Watch von meinem Sohn erst nach dem zweiten Anruf erreichbar: Mein Sohn hat eine Apple Watch in der Familienfreigabe ohne IPhone mit einem Vertrag von 1GLOBAL. immer wenn ich ihn von meinem Handy aus anrufe...
Benachrichtigungen auf der Apple Watch beim Körper und Geist Training deaktivieren: ich habe o.g. Training für 25 minuten eingestellt. Nach der Hälfte kommt automatisch eine kurze Benachrichtigung, wie kann ich die deaktivieren...

Apple Pencil fake

in iPad Forum
Apple Pencil fake: Also ich habe einen Apple Pencil für mein Ipad geholt der von Freunden fühlt sich anders an und hat so Komische Zeichen (kein plan was für zeichen...
Zurück
Oben