Grosse Sprachmodelle

Item request has been placed!

Item request cannot be made.

Processing Request

اقرأ أكثر حفظ في قائمتي

المؤلفون: Handschuh, Siegfried
المصدر:
Informationswissenschaft: Theorie, Methode und Praxis; Bd. 8 Nr. 1 (2024): Travaux du/Arbeiten aus dem Master of Advanced Studies in Archival, Library and Information Science, 2020-2022; 11-29 ; Informationswissenschaft: Theorie, Methode und Praxis; Vol. 8 No. 1 (2024): Travaux du/Arbeiten aus dem Master of Advanced Studies in Archival, Library and Information Science, 2020-2022; 11-29 ; 2297-9069
نوع التسجيلة:
article in journal/newspaper
اللغة:
German

معلومة اضافية
- بيانات النشر:
  Universität Bern, Historisches Institut, Weiterbildungsprogramm in Archiv-, Bibliotheks- und Informationswissenschaft
- الموضوع:
  2024
- Collection:
  BOP Serials (Bern Open Publishing, University of Bern)
- نبذة مختصرة :
  Der Artikel gibt einen umfassenden Überblick über den aktuellen Stand der Forschung zur generativen KI und insbesondere grossen Sprachmodellen (Large Language Models, LLMs). Es werden die Architektur, das Training und die emergenten Fähigkeiten von LLMs wie GPT-3 erläutert. Grosse Sprachmodelle basieren auf neuronalen Netzen und werden auf riesigen Textdatenmengen trainiert. Dabei lernen sie, basierend auf dem bisherigen Textverlauf das jeweils nächste Wort vorherzusagen. Obwohl dies eine einfache Aufgabe ist, ermöglicht dies komplexe sprachliche Fähigkeiten. Mit zunehmender Modellgrösse zeigen LLMs dabei unerwartete emergente Fähigkeiten wie Textzusammenfassung, mathematische Operationen oder räumliches Denken. Allerdings haben LLMs auch Schwächen wie die Tendenz zum Fabulieren bei Wissenslücken und mangelnde Kohärenz. Aktuell gibt es rasante Fortschritte durch neue Modelle wie GPT-3 und ChatGPT. Zukünftige Entwicklungen müssen ethische Aspekte berücksichtigen. Insgesamt eröffnen grosse Sprachmodelle faszinierende Möglichkeiten, aber weitere Forschung ist nötig. Der Artikel liefert eine umfassende Übersicht zu Chancen und Herausforderungen dieses rasanten Technologiefeldes. ; L'article donne un aperçu complet de l'état actuel de la recherche sur l'IA générative, en particulier sur les grands modèles de langage (Large Language Models, LLMs). Il explique l'architecture, l'apprentissage et les capacités émergentes des LLM comme GPT-3. Les grands modèles linguistiques sont basés sur des réseaux neuronaux et sont entraînés sur d'énormes quantités de données textuelles. Ils apprennent ainsi à prédire le mot suivant en se basant sur le déroulement du texte en amont. Il s'agit d'une tâche simple, mais elle permet d'acquérir des compétences linguistiques complexes. Avec l'augmentation de la taille du modèle, les LLM montrent des capacités émergentes inattendues telles que les résumés de textes, les opérations mathématiques ou le raisonnement spatial. Toutefois, les LLM présentent aussi des faiblesses, comme la tendance ...
- File Description:
  text/html; application/pdf
- Relation:
  https://bop.unibe.ch/iw/article/view/11053/13941; https://bop.unibe.ch/iw/article/view/11053/14047; https://bop.unibe.ch/iw/article/view/11053
- الرقم المعرف:
  10.18755/iw.2024.3
- الدخول الالكتروني :
  https://bop.unibe.ch/iw/article/view/11053
  https://doi.org/10.18755/iw.2024.3
- Rights:
  Copyright (c) 2024 Siegfried Handschuh ; https://creativecommons.org/licenses/by/4.0
- الرقم المعرف:
  edsbas.1416D61A

تعليقات

No Comments.

Grosse Sprachmodelle

اتصل بنا

اتبع