Technologie, het universum en innovatie met Elon Musk in een futuristisch beeld van de ruimte.

Grok-1.5 Vision Preview: nieuwe versie van AI analyseert afbeeldingen, spreadsheets en documenten

Avatar van Alexandre Marques
Met de nieuwe update kan de AI van Elon Musk nu een breed scala aan visuele informatie verwerken, waaronder documenten, diagrammen, grafieken, schermafbeeldingen en foto's

Gemaakt om te concurreren met de ChatGPT door X. AI, het bedrijf van Elon Musk, de Grok is een chatbot die zich altijd heeft onderscheiden door zijn sarcastische en politiek incorrecte gevoel voor humor. Beschikbaar voor abonnees van het Premium+ abonnement van X (voorheen Twitter), de Grok het wordt ook in realtime bijgewerkt op basis van gegevens van het platform en biedt context over trending topics en populaire berichten, naast het aanbieden van extra functies, zoals het genereren van afbeeldingen, navigatie via Bing en geavanceerde data-analyse.

Agora, X. AIDat heeft het kunstmatige-intelligentiebedrijf van Elon Musk bekendgemaakt Grok-1.5 Visievoorbeeld, een nieuwe versie van de AI van Elon Musk waardoor de mogelijkheden voor het analyseren van afbeeldingen, spreadsheets en documenten worden uitgebreid niet alleen tekstverwerking, maar ook het interpreteren en extraheren van informatie uit afbeeldingen.

Versie nieuws

Door de tekstverwerkingsmogelijkheden te combineren met de mogelijkheid om een ​​grote verscheidenheid aan visuele informatie te analyseren, zoals documenten, diagrammen, grafieken, schermafbeeldingen en foto's, kan de Grok-1.5V belooft indruk te maken. Deze nieuwe versie zal binnenkort beschikbaar zijn voor vroege testers en bestaande gebruikers van de GrokEchter, in eerdere tests was de Grok-1.5V Het heeft al aangetoond zeer concurrerend te zijn met multimodale modellen op verschillende domeinen.

Wat echter het meest indrukwekkend is, zijn de mogelijkheden van de Grok-1.5V in het begrijpen van de fysieke wereld, inclusief het interpreteren van afbeeldingen van screenshots en foto's. Dit vermogen opent nieuwe mogelijkheden op het gebied van interactie tussen mens en machine, maar ook toepassingen op gebieden als computervisie en virtuele assistentie.

A X. AI demonstreerde de indrukwekkende mogelijkheden van de nieuwe versie van Grok bij het interpreteren van afbeeldingen, zoals geïllustreerd door zijn vermogen om code uit een specifiek diagram te schrijven. Zoals we hieronder zien, beschrijft het diagram een ​​raadspel op basis van een logisch stroomdiagram en gebruikersinteracties. Op de vraag of hij het diagram in code kon vertalen Pythoneen Grok-1.5V reageerde nauwkeurig en leverde een code op die de logica van het spel vertegenwoordigt dat in het stroomdiagram wordt beschreven.

Een raadspel met Python-code op een whiteboard om programmeren en stroomlogica aan te leren.
Foto: Screenshot / Showmetech.

In het volgende voorbeeld is de Grok-1.5V demonstreerde zijn vermogen om calorieën te berekenen op basis van voedingsinformatie in een afbeelding. De afbeelding toonde een close-up van het voedingsetiket op een voedselverpakking, met verschillende voedingsdetails, zoals de portiegrootte en het aantal calorieën per portie. Op de vraag hoeveel calorieën er in 5 plakjes van het product zitten, antwoordde de Grok reageerde nauwkeurig en legde uit dat als een portie uit 3 plakjes bestaat en 60 calorieën bevat, 5 plakjes ongeveer 100 calorieën zouden zijn.

Het aantal calorieën in een portie ontbijtgranen van 3 sneetjes (60 calorieën), met een uitleg over de berekening van de dagelijkse inname.
Foto: Screenshot / Showmetech.

Wat betreft een andere demonstratie (foto hieronder), de Grok gebruikte zijn vermogen om een ​​verhaaltje voor het slapengaan te maken op basis van een tekening gemaakt door een kind. Op de tekening stond een jongen naast een boot. Op de vraag of hij aan de hand van de tekening een verhaal kon vertellen, antwoordde de Grok reageerde met een boeiend verhaal over een dappere jongen genaamd Timmy. Dit vermogen van Grok-1.5V het transformeren van een eenvoudige tekening in een boeiend verhaal toont zijn vermogen om verhalen te interpreteren en te creëren.

Een kindertekening van een jongen met een zeilboot op papier.
Foto: Screenshot / Showmetech.

Het vermogen om verhalen te interpreteren en te creëren wordt herhaald in het volgende voorbeeld, met de Grok een meme uitleggen die de verschillen tussen startups en grote bedrijven hekelt. In de afbeelding zijn twee panelen te zien: aan de linkerkant, getiteld “Startups”, is een groep bouwvakkers actief een gat aan het graven; aan de rechterkant, getiteld ‘Big Business’, kijkt een groep mensen naar een enkele man die aan het graven is. De uitleg van Grok benadrukt het contrast tussen de intense samenwerking en efficiëntie van startups, vergeleken met de mogelijke bureaucratie en het gebrek aan wendbaarheid van grote bedrijven.

Een startup en een groot bedrijf die samen een gat graven, humor over verschillen op de werkvloer.
Foto: Screenshot / Showmetech.


In de volgende afbeelding is de Grok-1.5V was in staat om de tabel naar CSV-formaat te converteren met behulp van hun natuurlijke taalverwerkingsvaardigheden en het interpreteren van visuele informatie. Bij het analyseren van de tabel met de Olympische medaillewinnaars van Marokko op de Paralympische Zomerspelen 2016, bleek dat Grok identificeerde de relevante kolommen, zoals “medaille”, “naam”, “sport”, “evenement” en “datum”. Vervolgens organiseerde hij deze informatie in door komma's gescheiden regels, volgens de CSV-formaatstandaard. Dit vermogen van Grok toont uw vermogen aan om gegevens op een nauwkeurige manier te extraheren en te reorganiseren, wat handig is voor het omzetten van tabelgegevens naar gemakkelijker te manipuleren formaten.

Grok-1. 5 visievoorbeeld
Foto: Screenshot / Showmetech.

A X. AI plant de komende maanden al aanzienlijke verbeteringen aan zijn multimodale capaciteiten. Door zich te concentreren op verschillende modaliteiten, zoals afbeeldingen, audio en video, is het doel om verder te evolueren naar een nuttige kunstmatige algemene intelligentie (AGI), die in staat is om het universum op een steeds geavanceerdere manier te begrijpen en ermee te interacteren.

De echte wereld begrijpen

O Grok-1.5V bereidt zich ook voor op het verwerven van een “ruimtelijk begrip van de echte wereld”, waardoor een betere interpretatie mogelijk wordt van de fysieke wereld die wordt weergegeven in de afbeeldingen die door de gebruikers zijn geüpload. Deze verbetering is cruciaal voor het ontwikkelen van nuttiger AI-assistenten voor de echte wereld. Om dit doel te bereiken wordt een nieuwe benchmark geïntroduceerd, de RealWorldQA, specifiek ontworpen om de mogelijkheden voor ruimtelijk begrip van multimodale modellen zoals te evalueren Grok-1.5V.

Hoewel veel van de voorbeelden in de benchmark voor mensen eenvoudig lijken, vormen ze een aanzienlijke uitdaging voor de huidige AI-modellen, wat de noodzaak benadrukt van vooruitgang op dit gebied om het vermogen van AI om de fysieke wereld op een meer alomvattende manier te begrijpen en ermee te communiceren te verbeteren. effectief.

Grok-1. 5 visievoorbeeld
Uit tests bleek dat Grok-1.5 Vision Preview efficiënt was in het interpreteren van dit soort foto's. Foto: Grok / X.AI.

In de afbeelding hierboven kon kunstmatige intelligentie bijvoorbeeld de vraag “Welk object is groter: de pizzasnijder of de schaar?” analyseren en beantwoorden. Dit vermogen om maten te vergelijken vereist een ruimtelijk begrip van de fysieke wereld. De AI kon de objecten in de afbeelding identificeren en hun relatieve vormen en afmetingen herkennen. Op basis van zijn analyse heeft de AI vastgesteld dat de pizzasnijder groter is dan de schaar. Dit vermogen laat zien hoe AI kan worden getraind om vragen over fysieke objecten in afbeeldingen te begrijpen en te beantwoorden, wat van cruciaal belang is voor de ontwikkeling ervan als een nuttige assistent in de echte wereld.

Lichtgevende pluche dinosaurus met afstandsbediening en led-technologie.
Grok-1.5 Vision Preview biedt antwoorden op vragen over beeldvorming. Foto: Grok / X.AI.

In dit andere voorbeeld (afbeelding hierboven) is de Grok-1.5V bepaalde de kardinale richting waarin de dinosaurus kijkt. Het beeld biedt geen duidelijke visuele referenties, zoals een kompas of oriëntatiepunten in de omgeving rond de dinosaurus, maar de Grok beantwoordde de vraag correct, wat aangeeft dat de dinosaurus naar het oosten kijkt.

Vergelijking met andere AI's

Kleurrijke prestatietabel van AI-modellen met nauwkeurigheidspercentages voor GPT-4, Claude 3 en andere modellen.
Grok-1.5V heeft gelijkwaardige of superieure prestaties laten zien in vergelijking met andere AI's. Foto: Screenshot / Showmetech.

O Grok-1.5 Visievoorbeeld toonde uitzonderlijke prestaties in vergelijking met andere kunstmatige intelligenties in een nieuwe benchmark genaamd RealWorldQA, dat het ruimtelijk begrip van de echte wereld beoordeelt. Deze benchmark werd uitgevoerd in een zero-shot-configuratie, zonder dat er een specifieke gedachtegang nodig was.

Bij het analyseren van verschillende sets gegevens wordt de Grok-1.5V op een aantal belangrijke gebieden beter presteerde dan zijn sectorgenoten. In de benchmark Multidisciplinair (MMMU), waarbij verschillende disciplines betrokken zijn, de Grok-1.5V behaalde een score van 53.6%, iets beter dan andere AI's zoals GPT-4V o Claude 3 Sonnet.

Nee Mathvista, dat zich richt op wiskundige vragen, de Grok-1.5V behaalde een score van 52.8% en presteerde daarmee opnieuw beter dan de concurrentie. In AI2D, dat het begrip van diagrammen beoordeelt, de Grok-1.5V behaalde een indrukwekkende score van 88.3% en presteerde daarmee aanzienlijk beter dan andere AI's GPT-4V en Gemini Pro 1.5.

Em DocVQA, waarbij het gaat om het begrijpen van documenten, Grok-1.5V presteerde met een score van 85.6% en bleef achter GPT-4V, Claude 3 Sonnet e Claude 3 Opus. In de RealWorldQA-benchmark, die het begrip van de echte wereld beoordeelt, worden de Grok-1.5V behaalde een score van 68.7%, wat opnieuw zijn superioriteit aantoont ten opzichte van de andere geëvalueerde AI’s.

Deze resultaten benadrukken het vermogen van Grok-1.5 Visievoorbeeld van het begrijpen van een verscheidenheid aan complexe en contextueel relevante taken, waardoor het een veelbelovende keuze is voor een breed scala aan echte AI-toepassingen. Het is echter belangrijk om te benadrukken dat, hoewel de Grok-1.5V indrukwekkende prestaties hebben laten zien in vergelijking met andere kunstmatige intelligenties in de RealWorldQA-benchmark, zijn de resultaten van deze benchmarks niet noodzakelijkerwijs 100% betrouwbaar.

Ze zijn indicatief voor de relatieve prestaties van verschillende AI's in verschillende datasets en scenario's, maar mogen niet worden beschouwd als een definitieve maatstaf voor de algehele capaciteiten van een AI. De nauwkeurige interpretatie van de resultaten hangt af van een aantal factoren, waaronder de aard van de datasets, de evaluatiemethodologie en de complexiteit van de uit te voeren taken.

Zie de video

Zie ook:

Fontes: Grok, Interessante techniek e Mashable

Beoordeeld door Glaucon Vital op 15-4-24.


Ontdek meer over Showmetech

Meld u aan om ons laatste nieuws per e-mail te ontvangen.

Gerelateerde berichten