29. Juli 2024

KI-Modelle sind gut darin bestehendes Wissen wiederzugeben bei Schlussfolgerungen bestehen Schwächen

Eine Studie des Massachusetts Institute of Technology (MIT) und der Universität Boston zeigt, dass große Sprachmodelle häufig eher auswendig gelernte Lösungen wiedergeben, anstatt tatsächlich zu schlussfolgern. Trotz der häufigen Behauptungen der Anbieter von Sprachmodellen, ihre Modelle seien besonders gut im sogenannten Reasoning, zeigt die Forschung, dass dies nicht immer zutrifft.

Die Studie, veröffentlicht von Kim et al. (2024) auf arxiv, stellt fest, dass GPT-4 zwar die Standardaufgaben nahezu alle lösen kann, bei abgewandelten Aufgaben jedoch deutlich schlechter abschneidet. Die Forscher betonen jedoch, dass die Modelle eine gewisse Fähigkeit zur Verallgemeinerung besitzen und innerhalb eines bestimmten Rahmens logisch denken können, was sich in der Häufigkeit der richtigen Antworten zeigt.

Dennoch sind die Ergebnisse weit entfernt von den Erwartungen der Anbieter und gängiger Benchmarks. Das Resultat legt nahe, dass die Sprachmodelle zwar viel auswendig lernen und wiedergeben, jedoch auch einen kleinen Teil erschließen können.

Die Ergebnisse der Studie zeigen, dass beim Auftreten von unvorhergesehenen Problemen zur Lösung dieser immer noch Menschen benötigt werden, die über logisches Denken und Abstraktionsvermögen verfügen.

Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen B., Wang, B., Kim, N., Andreas, J., Kim, Y., (2024). Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks. arxiv. https://doi.org/10.48550/arXiv.2307.02477

Zurück
Up-Button