Apple -onderzoekers hebben geavanceerde AI -redeneermodellen getest – die grote redeneermodellen (LRM) worden genoemd – in gecontroleerde puzzelomgevingen en ontdekten dat hoewel ze beter presteren dan ‘standaard’ Large Language Models (LLMS) -modellen op matig complexe taken, beide volledig falen naarmate complexiteit toeneemt.
De onderzoekers van Apple, die niet precies in de voorhoede van de AI -ontwikkeling zijn, zijn van mening dat de huidige LRM’s en LLMS fundamentele limieten hebben in hun vermogen om redeneren te generaliseren, of liever denken zoals mensen doen.
Apple-onderzoekers bestudeerden hoe geavanceerde AI-modellen-de Claude 3.7 Sonnet Thinking en Deepseek-R1 LRM’s-omgaan met steeds complexere probleemoplossende taken. Ze gingen verder dan standaard wiskunde- en coderende benchmarks en ontwierpen gecontroleerde puzzelomgevingen, zoals Tower of Hanoi en River Crossing, waar ze de probleemcomplexiteit precies konden aanpassen. Hun doel was om niet alleen definitieve antwoorden te evalueren, maar ook de interne redeneerprocessen van deze modellen, waarbij ze worden vergeleken met standaard grote taalmodellen onder gelijke computationele omstandigheden. Door de puzzels wilden ze de ware sterke punten en fundamentele grenzen van AI -redenering ontdekken.
Apple -onderzoekers ontdekten dat LRM’s anders presteren, afhankelijk van de probleemcomplexiteit. Bij eenvoudige taken waren standaard LLMS, zonder expliciete redeneermechanismen, nauwkeuriger en efficiënter en leverden ze betere resultaten op met minder rekenbronnen. Naarmate de probleemcomplexiteit echter tot een gematigd niveau toenam, kregen modellen uitgerust met gestructureerde redenering, zoals een gedachte aanleiding, het voordeel en overtroffen hun niet-herhalende tegenhangers. Toen de complexiteit verder groeide, mislukten beide soorten modellen volledig: hun nauwkeurigheid daalde tot nul, ongeacht de beschikbare rekenbronnen. (Houd er rekening mee dat de Claude 3.7 Sonnet Thinking en Deepseek-R1 LRM’s beperkingen hebben als het gaat om hun training.)
Een diepere analyse van de redeneringsporen onthulde inefficiënties en onverwacht gedrag. Aanvankelijk gebruikten redeneermodellen langere gedachte -sequenties naarmate problemen moeilijker werden, maar in de buurt van het faalpunt hebben ze verrassend hun redeneerinspanning ingekort, zelfs wanneer ze voldoende rekencapaciteit hadden. Bovendien, zelfs wanneer expliciet wordt voorzien van correcte algoritmen, hebben de modellen geen betrouwbare stapsgewijze instructies uitgevoerd over complexe taken, waardoor zwakke punten in logische berekening worden blootgelegd. Uit de studie bleek ook dat modelprestaties aanzienlijk varieerden tussen bekende en minder gemeenschappelijke puzzels, wat suggereert dat succes vaak afhing van het trainen van gegevens bekendheid in plaats van echte generaliseerbare redeneervaardigheden.
Volgen Tom’s hardware op Google News Om ons up-to-date nieuws, analyse en beoordelingen in uw feeds te krijgen. Zorg ervoor dat u op de knop Volgen klikt.