Ollama-OCR

Ollama-OCR 是一个使用 Ollama 支持的视觉模型(如 Llama 3.2-Vision/minicpm-v)实现图片 OCR 的开源工具,支持中文识别和输出 Markdown 文档。

Ollama-OCR 是一个基于 Ollama 视觉模型的开源 OCR 工具,支持多种图像格式(JPG、JPEG、PNG),并能保留原始文本格式和结构。用户可以通过自定义提示词和模型进行 OCR 识别,并支持输出 Markdown 格式文档。该工具默认使用 llama3.2-vision 模型,但也支持其他如 minicpm-v 等模型。项目提供了详细的安装和使用示例,适用于手写图片识别、收据识别等多种场景。