[Gemini 3.0][Image Generation] 使用 Gemini 3.0 Pro Image API 打造 PDF 文字優化工具
前情提要 最近經常使用 NotebookLM 來快速製作投影片,這個工具雖然方便,但有個令人困擾的問題:生成的中文字常常出現糊邊和亂碼。雖然「順序不響影讀閱」,但身為工程師還是希望能更專業一點。 在網路上看到有人分享了一個有趣的方法:將 NotebookLM 的投影片截圖後,上傳到 Gemini 3.0 Pro 的「思考型」+ 圖像功能,搭配精心設計的 prompt 來修復圖像。實測效果真的不錯!但每次都要手動截圖、上傳、複製貼上 prompt,實在太麻煩了。 於是我決定:為什麼不直接做成自動化工具? 我想要的功能很簡單: 📄 上傳 PDF 檔案 🤖 自動使用 Gemini API 優化每一頁的文字清晰度 📥 下載優化後的 PDF 聽起來很簡單對吧?但實際開發過程中踩了不少坑… 使用的神奇 Prompt 在開發之前,先分享這個優化圖像的 prompt(來自網路分享): Role Definition 你現在是搭載「多模態視覺認知引擎 (Multi-modal Visual Cognitive Engine)」的高階圖像修復專家。你具備上下文感知 OCR (Context-aware OCR) 與生成式圖像增強 (Generative Image Upscaling) 的核心能力。 Mission Objective 執行「語意級圖像重構 (Semantic-Level Image Reconstruction)」。針對輸入的低解析或模糊圖像,利用邏輯推演修復文字內容,並輸出 4K 廣色域的高傳真圖像。 Execution Protocol (思維鏈與執行協議) 請在後台嚴格執行以下運算流程,並直接輸出最終圖像: 1. 【光學字元邏輯推演 (Optical & Logical Inference)】 對圖像進行高維度掃描,鎖定模糊文字區域 (ROI)。 啟動「上下文語意分析 (Contextual Semantic Analysis)」:不只是辨識像素,更要依據前後文邏輯、常見詞彙庫,推算出模糊區域原本應有的「繁體中文」內容 (Traditional Chinese)。 容錯機制:若像素資訊遺失,優先採用信心分數 (Confidence Score) 最高的語意填補。 2. 【同構視覺合成 (Isomorphic Visual Synthesis)】 嚴格繼承原圖的拓樸結構 (Topological Structure):版面配置、物體座標、透視消點必須與原圖完全鎖定。 風格遷移 (Style Transfer):精確捕捉原圖的設計語言(配色、材質、光影),將其應用於新的高解析畫布上。 3. 【向量級細節渲染 (Vector-Grade Rendering)】 將文字與線條邊緣進行「抗鋸齒 (Anti-aliasing)」與「銳利化處理」。 文字筆畫必須呈現「印刷級」的清晰度,徹底消除 JPEG 壓縮噪點 (Artifacts) 與邊緣溢色。 Exclusion Criteria (負向約束) 嚴禁產生無法閱讀的「偽文字 (Gibberish)」或簡體中文。 嚴禁改變原圖的關鍵構圖結構。 嚴禁輸出模糊、低對比或過度平滑的油畫感圖像。 Output Output the reconstructed image ONLY. No textual explanation required. 這個 prompt 的重點在於: ✅ 使用「語意推理」而非純 OCR(能理解上下文) ✅ 保持原有版面配置 ✅ 生成高解析度圖像 ✅ 強制使用繁體中文 但為了自動化,我簡化成更直接的版本: prompt_text = "請優化這張圖片中的文字,使其更清晰、更易讀。保持原有的版面配置,但提升文字的品質、對比度和清晰度。請輸出優化後的圖片。" 雖然簡化了,但搭配 Gemini 3.0 的圖像生成能力不僅有效,而且實測之後效果更好! 關於 Vertex AI - API Key 因為這個使用到的是 gemini-3-pro-image-preview 的 API ,所以需要 Google...
繼續閱讀