VLLMs: dall’immagine alla parola (Accoto 2024)

< Video LLMs: dall’immagine alla parola? > (Accoto 2024)
< Come si passa tecnicamente dai frame visuali di lunghezza crescente ai token testuali che descrivono azioni e comportamenti in un video (Video LLMs)? Come fa una macchina a guardare e interpretare un filmato lungo e rispondere ad una “video query”? Ad oggi la pratica video-to-text è limitata a pochi secondi (10-15 in genere), ma il tentativo che si sta facendo (qui ad esempio Meta, Adobe e Boston University) è quello di estendere la capacità delle macchine di leggere le immagini filmiche e di individuarne il contenuto anche in video di lunghezza crescente. Ma come si tenta di farlo, oggi, tecnicamente? Entrare in profondità nelle tecnicalità in costruzione dell’AI generativa consente di valutare in prospettiva opportunità e vulnerabilità in termini di strategie di business e pratiche sociali. Ma consente anche da un punto di vista più filosofico di affrontare nuovamente la questione della relazione tra mondo e linguaggio, tra realtà registrata dalle macchine e modi di interpretarla delle macchine, tra segno del mondo e senso del mondo … > Accoto 2024 (postilla a “The Latent Planet”, 2024)

Oplus_0

Published by

Unknown's avatar

Cosimo Accoto

Research Affiliate at MIT | Author "Il Mondo Ex Machina" (Egea) | Philosopher-in-Residence | Business Innovation Advisor | www.cosimoaccoto.com