最近热乎的实用GitHub项目： Ollama OCR

10 1 月, 202510 1 月, 2025 — Uncategorized — 1 min read

这是一个基于 Ollama 视觉模型的图片文字识别工具，能帮你从图片中提取文字。

支持两种视觉模型：
LLaVA 7B：速度快，适合实时处理，就是准确度可能差点
Llama 3.2 Vision：准确度高，适合处理复杂的文档
提取出来的文字格式挺灵活：
可以是 Markdown 格式，保留原文的标题、列表这些样式
可以是纯文本，干干净净的
可以是 JSON 格式，结构化的数据
还能识别表格，或者提取关键信息对

GitHub：GitHub – imanoop7/Ollama-OCR

图片：

识别结果：

Join the Conversation

wayrio says:

13 1 月, 2025 at 6:03 上午

Good！

登录以回复

取消回复

要发表评论，您必须先登录。