最近热乎的实用GitHub项目: Ollama OCR

这是一个基于 Ollama 视觉模型的图片文字识别工具,能帮你从图片中提取文字。

  1. 支持两种视觉模型:
    LLaVA 7B:速度快,适合实时处理,就是准确度可能差点
    Llama 3.2 Vision:准确度高,适合处理复杂的文档
  2. 提取出来的文字格式挺灵活:
    可以是 Markdown 格式,保留原文的标题、列表这些样式
    可以是纯文本,干干净净的
    可以是 JSON 格式,结构化的数据
    还能识别表格,或者提取关键信息对

GitHub:GitHub – imanoop7/Ollama-OCR

图片:

识别结果:

Join the Conversation

Comment