[論文心得] 什麼是 LLaVA 與 LLaVA-Interactive

November 3rd, 2023

前提：

LLaVA-Interactive 週末又在看微軟發表的新的 POC (還有論文) ， LLaVA ( (Large Language-and-Vision Assistant: 可以讓你對一圖片透過 LLM 跟他對話，聽說是 GPT-4V 面向的能力），而微軟更依據這個打造黃金三角:

- Visual Chat: 針對圖像來理解 - Grounded Editing: 針對原有圖像的修改 - Interactive Segmentation: 透過一些互動的修改

你可以針對圖片去修改，重新生成後，再來針對新產生的圖片去理解並且去做 Visual Chat 。

論文, Github 跟 demo 都在 https://llava-vl.github.io/llava-interactive/

註解： LLaVA 是根據這個 repo https://github.com/haotian-liu/LLaVA

Attitude is everything