[論文心得] Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

December 27th, 2023

快速總結

裡面透過之前微軟發表過的論文中的相關測試案例外，本篇論文也加上幾個類別的案例。 tl;dr GPT-4v 比較簡潔中確性高，但是 Gemini-Pro 的敘述比較清楚。裡面有很多圖片與相關案例，蠻值得一讀。

都有看出幾個相關的點，蠻適合拿來做一些 side-project 。 :p

有判斷出 NIKE Air Force 1 我覺得蠻厲害的。

成效不錯，如果沒有 arxiv 的資訊可以抽取。這會是一個方法。

Attitude is everything