Multimodale künstliche Intelligenz
Multimodale künstliche Intelligenz ist eine spezielle Art von Modalität, welche Ähnlichkeit mit der entsprechenden Definition bei Medienwissenschaften hat. Dort wird bei Multimedialität mehr als eine Sinnesmodalität zur Interaktion benutzt (Multimodale Interaktion). Bei multimodaler künstlicher Intelligenz wird jedoch anstelle einer traditionellen Verarbeitung / Umwandlung der Eingaben ein durch maschinelles Lernen vortrainiertes Basismodel für den Verarbeitungsprozess verwendet, welches für zusätzliche Modalitäten erweitert wurde oder durch Lerntransfer mittels Fine-Tuning noch weiter angepasst werden kann.[1][2] Auch die Nutzung weicht oft von früheren Medienanwendungen ab.
Geschichte
BearbeitenVorläufer waren monomodale Anwendungen mittels KI-Mustererkennung wie Lesen von handgeschriebenem Text inklusive Zahlen mit standardisiertem Text als Ausgabe oder Sprachassistenten mit Spracherkennung als Eingabe und Antworten in synthetischer Sprache wie beispielsweise Siri von Apple, welcher erstmals 2011 im iPhone4s eingeführt wurde.[3] Auch Übersetzungen eines Texts in den Text einer Fremdsprache gehörten dazu, wobei dafür in den 1990er-Jahren statistische Maschinenübersetzungssoftware eingesetzt wurde.[4]
Ab etwa 2010 wurden durch künstliche neuronale Netze leistungsfähigere Modelle entwickelt, welche später die Grundlage für multimodale KI-Anwendungen bildeten.[5] Als Basismodelle dienen insbesondere sprachbasierte Deep-Learning-Modelle mit der Bezeichnung Large-Language-Models (LLMs) und bildgenerierende Modelle (Diffusionsmodelle wie DALL-E von OpenAI[6]) die Grundlage. Die spezifische Art eines LLMs mit der Bezeichnung Generativer vortrainierter Transformer (englisch: Generative pre-trained transformer, GPT) wurde erst 2017 von Google-LLC-Mitarbeitern geschaffen.[7] Solche generative, transformerbasierte Systeme können auf Aufgaben ausgerichtet sein, die Modalitäten jenseits von Text umfassen. Microsofts Visual ChatGPT zum Beispiel kombiniert ChatGPT mit visuellen Grundlagenmodellen, um sowohl Bilder als auch Text als Eingabe oder Ausgabe zu ermöglichen.[8] Darüber hinaus bieten Fortschritte in der Text-to-Speech-Technologie leistungsstarke Werkzeuge für die Erstellung von Audioinhalten, wenn sie in Verbindung mit grundlegenden GPT-Sprachmodellen verwendet werden.[9]
Anwendungen (Auswahl)
Bearbeiten- Multimediale Chatbots mit Text-, Sprach- und Bildeingabe sowie Ausgabe
- in der Medizin: Text- und Bildeingaben zur Diagnosestellung; Fernsteuerung von chirurgischen Eingriffen durch Ärzte
- in der Pharmaforschung: Proteinstrukturmodifikationen und deren voraussichtliche Auswirkungen[10]
- in der Robotik: Erfassung von Sensordaten und Sprachbefehlen zur Steuerung von Robotern[11]
Einzelnachweise
Bearbeiten- ↑ Dave Andre: Was ist Feinabstimmung? allaboutai.com, 15. Dezember 2023. Abgerufen am 9. Juni 2024
- ↑ PaLM-Modelle abstimmen – Übersicht. Generative AI on Vertex AI, Google Cloud (englisch). Abgerufen am 9. Juni 2024
- ↑ Markus Städeli: Was sich wirklich ändert, wenn Apple KI auf seine Telefone bringt. In: NZZ am Sonntag, 16. Juni 2024. Abgerufen am 19. Juni 2024.
- ↑ P. Brown et al.: A statistical approach to machine translation. In: Computational Linguistics, Bd. 16 (2) 1990, MIT Press, S. 79–85 (englisch)
- ↑ Jürgen Schmidhuber: My First Deep Learning System of 1991. people.idsia.ch, 19. Dezember 2013 (englisch). Abgerufen am 9. Juni 2024
- ↑ DAll-E openai.com (englisch). Abgerufen am 9. Juni 2024.
- ↑ Steven Levy: 8 Google Employees Invented Modern AI. Here’s the Inside Story. In: Wired, 20. März 2024 (englisch). Abgerufen am 9. Juni 2024
- ↑ Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT. In: InfoQ. (englisch).
- ↑ Benj Edwards: Microsoft's new AI can simulate anyone's voice with 3 seconds of audio. In: Ars Technica. 9. Januar 2023 (englisch).
- ↑ Anna Weber und Christian Speicher: Das KI-Modell Alphafold 3 könnte die Entwicklung neuer Medikamente revolutionieren. In: NZZ, 7. Juni 2024. Abgerufen am 9. Juni 2024.
- ↑ Speaking robot: Our new AI model translates vision and language into robotic actions. Google DeepMind, 28. Juli 2023. Abgerufen am 9. Juni 2024.