Come funziona Llava, l'assistente virtuale che codifica l'immagine e risponde alle nostre domande

Come Llava, l’assistente virtuale intelligente, ti aiuta a codificare le immagini e a rispondere alle tue domande, con semplicità d’uso e in modo efficacia. Ecco come funziona.

L’esame del chatbot open per immagini, noto come Llava, ci ha reso possibile comprendere il suo funzionamento. Llava è l’acronimo di Large Language and Vision Assistant, ed è un modello multimodale di grande scala sviluppato da un team di scienziati.

«Questa rappresentazione è autentica o manipolata?». Sottoponendo Llava a una fotografia generata dall’ intelligenza artificiale che illustra un finto assalto al Pentagono, non dovrebbe essere in grado di riconoscerla, dato che lui non consulta le notizie. Tuttavia, la sua risposta è strabiliante. Llava dichiara: “Questa immagine è una foto contraffatta di un’imponente nuvola di fumo, probabilmente ideata per scopi artistici o di intrattenimento”.

Come determina la sua falsità? Lo vediamo insieme.

Esistono vari elementi che fanno pensare che la foto in questione possa non essere autentica. Inizialmente, la dimensione del fumo appare eccessiva e non realistica, il che non rispecchia le caratteristiche tipiche di fenomeni naturali quali incendi o esplosioni vulcaniche. Successivamente, viene descritta la presenza del fumo davanti ad un edificio, tuttavia i dettagli architettonici non sono bene in vista, il che potrebbe rivelare un intervento di manipolazione digitale sullo sfondo. Infine, la rappresentazione generale del fumo e dell’ambiente circostante dà l’impressione di essere artificiale, rinforzando ulteriormente la tesi che l’immagine potrebbe essere stata falsificata.

Cos’è e come funziona Llava

Llava è l’acronimo di Large Language and Vision Assistant, un modello multimodale ampio sviluppato da un team di ricercatori. Funziona unendo un encoder visuale e un modulo di “grande lingua” (Llm) per consentire una comprensione generale e visiva del linguaggio.

Un uomo si diverte a testare l'AI — Foto | nuttapong punna’s Images @Canva – sitiwebook.it

Noi possiamo fornire a Llava un’immagine e chiedere informazioni – al momento solo in inglese – relative a quella ottenendo risposte in pochissimo tempo.

Llava ha tre funzioni principali:

identificare gli oggetti o il contenuto di una foto;
l’ocr, cioè la capacità di leggere parole nell’immagine;
l’analisi dell’immagine che permette al sistema di connettersi a una base di dati e quindi fornirci consigli o osservazioni, ad esempio riguardo alle notizie false.

Questo è un frammento di codice di esempio che illustra l’uso del codificatore CLIP di LLaVA.

# Import the CLIP encoder
from clip_encoder import CLIP
# Initialize the encoder
clip = CLIP() # Load an image
image_path = “sample_image.jpg”
image = clip.load_image(image_path)
# Get the image features
image_features = clip.get_image_features(image)
# Print the features
print(“Image Features:”, image_features)

Il sistema lavora in maniera interattiva, simile a ChatGpt e altri: possiamo instaurare un dialogo, facendo domande correlate.

Un test dopo l’altro per provare il funzionamento di Llava

Avere un testo letto o tradotto può non essere particolarmente utile. Samsung’s Bixby o Google Lens dallo smartphone lo fanno già in modo più diretto e comodo. L’analisi dell’immagine, invece, risulta molto più interessante.

Un caso tipico è di mostrare una foto di un frigorifero aperto e poi domandare qualcosa del tipo: “Quali ricette suggerisce con questi ingredienti per una cena con tre partecipanti di cui uno vegetariano?”

Nell’esperimento proposto, la risposta è stata: “Ecco una proposta per la cena:

1. Insalata di pasta vegetariana: – Cuoci la pasta (spaghetti, penne o qualsiasi altro tipo) e mettila da parte. – In un altro recipiente, unire i pomodori ciliegino, peperoni tagliati e cetrioli tagliati. – In un terzo recipiente, unisci la pasta cotta, le verdure e un condimento a base di olio d’oliva, aceto balsamico, sale e pepe. – Puoi aggiungere del parmigiano grattugiato per dare sapore.

2. Spiedini di pollo o verdure grigliate…”. Ci sono altri due esempi seguenti fino a “Questo pasto offre una varietà di sapori e consistenze per accontentare gusti differenti e preferenze dietetiche. L’insalata di pasta vegetariana è un’opzione leggera e rinfrescante”

Si potrebbe caricare un’etichetta di una maglia e interrogarlo sul significato dei simboli presenti, oppure chiedere direttamente se è possibile stirare o sbiancare il capo in base a tali simboli.

Un altro esperimento possibile si sviluppa nel campo “medico”. Si potrebbe utilizzare Llava sul telefono per scattare una foto, attraverso l’interfaccia, di uno spray nasale e chiedere: “cosa è, come si utilizza, qual è la posologia”.

Risposta: “La foto mostra un flacone di Care, uno spray nasale decongestionante. L’utilizzo di questo spray è mirato a lenire la congestione nasale e offrire un sollievo momentaneo dai sintomi dell’influenza e del raffreddore. La posologia dello spray nasale Care prevede di spruzzarlo nelle narici all’occorrenza, solitamente due o tre volte al giorno. Seguire attentamente le indicazioni sulla confezione è cruciale e consigliato consultare un operatore sanitario per eventuali domande specifiche sul dosaggio o sull’utilizzo del prodotto”.

Llava e GPT-4: differenze e similitudini

Le prestazioni di un modello possono essere misurate attraverso diverse metriche. Per valutare le prestazioni di LLava possiamo confrontare quest’ultimo con GPT-4 e vedere sostanziali differenze e similitudini tra i due modelli.

In merito alla precisione, sebbene GPT-4 risulti lievemente superiore a LLaVA nelle attività che coinvolgono testi, come SQuAD e GLUE, LLaVA si distingue particolarmente nell’attività dei sottotitoli delle immagini, per la quale GPT-4 non è stato ideato.

Per quanto riguarda la velocità, GPT-4 vanta una velocità di inferenza di 10 ms, cioè superiori ai 20 ms di LLaVA. Malgrado ciò, la velocità di LLaVA rimane estremamente alta, risultando così adatta per applicazioni in tempo reale. Questo forse dovuto anche al minor numero di utenti che ad oggi lo utilizzano.

Infine, la flessibilità di LLaVA, essendo un chatbot specializzato in biomedicina, esso è avvantaggiato nelle applicazioni nel campo della salute, un settore in cui le qualità di GPT-4 non sono altrettanto evidenti.

Molte persone esperte ritengono che i bot multimodali rappresenteranno forse il futuro di questi tipi di sistemi. Solo nell’anno appena trascorso, abbiamo visto l’arrivo di Llava, Bing, Bard e ChatGpt4V, ognuno con i propri punti di forza e debolezze. In generale, questi prodotti si rivelano ancora acerbi, ma al tempo stesso molto interessanti. Possono sorprendere per la loro utilità ed efficacia e allo stesso tempo, possono talvolta deludere. Probabilmente, ci troviamo ancora all’inizio di un’era tecnologica in cui questi sistemi troveranno applicazioni diffuse per l’analisi di dati multimediali, sia per motivi personali che aziendali.