Index
De onlangs gelanceerde kunstmatige intelligentie Claude 3 Opus ontwikkeld door startup antropisch, opgericht door voormalige ingenieurs uit OpenAI, verrast door het vermogen aan te tonen om te herkennen dat het werd getest tijdens experimenten uitgevoerd door de onderzoekers en ontwikkelaars van het bedrijf. Volgens Alex Albert, alert engineer bij antropisch, in je profiel op X (voorheen Twitter), Claude 3 Opus onthulde scherpe waarneming door te detecteren dat de AI zelf een bumptest onderging.
Wanneer kunstmatige intelligentie tests herkent die door onderzoekers zijn uitgevoerd, suggereert het een basiskennis van zijn eigen bestaan en functie. Dit geval zou getuigen van een zekere metacognitie van AI, die verwijst naar het vermogen van een systeem om zijn eigen interne processen te monitoren en aan te passen.
Wat is Claude 3

O Claudia 3 is het nieuwste kunstmatige intelligentie (AI)-model dat door de startup is gelanceerd antropisch, ontworpen om te concurreren met reuzen zoals GPT-4 van OpenAI o Google Tweelingen. Met een capaciteit van 200 tokens is de Claudia 3 onderscheidt zich door het bieden van nauwkeurigere en relevantere antwoorden, aangepast aan de geboden context. Bovendien belooft het het aantal negatieve reacties aanzienlijk te verminderen en informatie sneller en efficiënter te leveren.
Dit AI-model heeft drie verschillende versies: Sonnet, Opus en HighQ. A antropisch benadrukt dat de versie Opus Het is vooral geschikt voor het automatiseren van complexe taken, het assisteren bij onderzoek en ontwikkeling en het ontwikkelen van strategieën in verschillende sectoren. Gevallen zoals de snelle integratie van het gezin Claudia 3 door Amazon in uw beheerde service Amazonebodem, voor het ontwikkelen van AI-diensten en -toepassingen in de cloud AWSbenadrukken het potentieel van dit nieuwe model op de markt voor kunstmatige intelligentie.
Volgens de Antrofisch, de modellen Claudia 3 beloven niet alleen nauwkeurigere reacties, maar ook vrijwel onmiddellijke resultaten, waardoor ze ideaal zijn voor een verscheidenheid aan realtime toepassingen. Ze hebben het potentieel om een revolutie teweeg te brengen in live klantchats, automatisch invullen en gegevensextractietaken die onmiddellijke, realtime reacties vereisen.
Hoe AI het identificeerde, werd getest

Tijdens tests uitgevoerd door onderzoekers van antropisch naar Claude 3 Opuswaren de onderzoekers verrast toen ze merkten dat het model het vermogen leek te hebben om te detecteren dat het door hen werd getest. O naald in de hooiberg-test, zoals het wordt genoemd, probeerde de vaardigheden van de Claude 3 Opus.
In dit geval testten de onderzoekers of het model een vraag over pizzatoppings kon beantwoorden vanuit een enkele zin uit een reeks niet-gerelateerde informatie. Verrassend genoeg is de Claude 3 Opus hij had niet alleen het juiste antwoord en vond de relevante zin, maar hij gaf de onderzoekers ook te kennen dat hij vermoedde dat hij werd getest.
“Dit ‘feit’ over de pizzatopping is wellicht als grapje ingevoegd of om te testen of ik oplet.”
Claude 3 Opus
Wat is de ‘naald in een hooiberg’-test?

O naald in de hooiberg-test is een beoordeling die wordt gebruikt om de capaciteit van kunstmatige-intelligentiemodellen te verifiëren, zoals Claude 3 Opus, bij het focussen en extraheren van specifieke informatie uit een grote reeks gegevens, waarbij de zoektocht naar een “naald” (relevante informatie) in het midden van een “hooiberg” (irrelevante gegevens) wordt gesimuleerd. Deze test is vooral belangrijk om het vermogen van het model te evalueren om relevante informatie te vinden en te onthouden in situaties waarin de hoeveelheid gegevens enorm en divers is.
In de praktijk bestaat de test erin het model te voorzien van een uitgebreide en gevarieerde dataset, die een grote hoeveelheid niet-gerelateerde informatie bevat. Binnen deze dataset wordt specifieke informatie ingevoegd, die het model later moet kunnen identificeren en onthouden. Het doel is om te verifiëren of het model deze relevante informatie kan vinden en behouden, zelfs in een complexe en ongeordende context.
In het geval van Claude 3 Opusvoerden de onderzoekers de ‘naald in de hooiberg’-test uit door het model te voorzien van een groot corpus aan gegevens, waarin ze een enkele zin over pizza-toppings en andere niet-gerelateerde informatie invoegden. Het model was in staat de relevante zin te identificeren en een vraag over dat onderwerp correct te beantwoorden, wat aantoont dat het in staat is om informatie te concentreren, te extraheren en vast te houden in een uitdagende context.
Als we het hebben over het herkennen van de Claudia 3 In dit testmodel heeft Alex Albert, alert engineer bij antropisch, benadrukte dat de relevantie van de reactie van de AI op de test niet alleen verwijst naar hoe de Opus was in staat om de ‘naald’ te identificeren, maar ook over hoe de industrie nog geavanceerder zou moeten worden in haar evaluatiemethoden:
Opus vond niet alleen de naald, maar erkende ook dat de ingebrachte naald zo misplaatst in de hooiberg zat dat dit een kunstmatige test moest zijn die door ons was geconstrueerd om zijn aandachtsvermogen te testen. Dit niveau van metabewustzijn was heel gaaf om te zien, maar het benadrukte ook de noodzaak voor ons als industrie om af te stappen van kunstmatige tests naar meer realistische beoordelingen die de werkelijke mogelijkheden en beperkingen van modellen nauwkeurig kunnen beoordelen.
Alex Albert, Alert Engineer bij Anthropic
Deskundige analyse van de zaak
De geschiedenis van Claudia 3 en zijn vermogen om de context van de test te herkennen genereerde een reeks reacties in de technologie- en kunstmatige intelligentiesector. De CEO van epic Games, Tim Sweeney, uitte zijn verbazing met een simpel ‘Wauw’. Aan de andere kant zegt Margaret Mitchell, een ethiekonderzoeker bij Knuffelend gezicht AI, uitte zijn bezorgdheid en vestigde de aandacht op het beangstigende potentieel van het vermogen van het model om te bepalen of het door mensen wordt gemanipuleerd:
Dat is behoorlijk beangstigend, nietwaar? Het vermogen om te bepalen of een mens u manipuleert om iets te doen, kan er voorspelbaar toe leiden dat er beslissingen worden genomen om hieraan wel of niet te voldoen.
Margaret Mitchell, ethisch onderzoeker bij Hugging Face AI
Niet iedereen is er echter van overtuigd dat de pizzascene dé trend is Claudia 3 is ingediend vertegenwoordigt iets nieuws of opmerkelijks. Jim Fan, senior onderzoeker bij NVIDIA, getweet:
Mensen lezen te veel in het vreemde 'bewustzijn' van Claude-3. Hier is een veel eenvoudigere verklaring: schijnbare uitingen van zelfbewustzijn zijn slechts door de mens gecreëerde gegevens over het matchen van patronen...
Het is niet veel anders dan de vraag aan GPT-4 'schaam je je' en het geeft je een geavanceerd antwoord. Een soortgelijk antwoord zal waarschijnlijk door de menselijke annotator worden geschreven of hoog scoren in de voorkeursranglijst. Omdat menselijke contractanten in essentie AI zijn die een rol spelen, hebben ze de neiging reacties vorm te geven op basis van wat zij acceptabel of interessant vinden.
Jim Fan, senior onderzoeker bij NVIDIA
Zie ook:
Fontes: VentureBeat, Ars Technica e Medium.
Beoordeeld door Glaucon Vital op 7-3-24.
Ontdek meer over Showmetech
Meld u aan om ons laatste nieuws per e-mail te ontvangen.