ollama-ocr

Weekly Pick

基于视觉大模型的OCR识别工具,支持多种视觉模型和输出格式,包括Markdown、JSON和纯文本。

ollama-ocr是一个基于视觉大模型的OCR识别工具,支持多种视觉模型(如LLaVA 13B和Llama 3.2 Vision 11B),并可输出Markdown、JSON和纯文本格式。用户可以通过快速开始指南或Docker快速运行Demo。技术栈主要为Vue 3 + Vite。示例展示了输入图片和对应的输出效果。