GRPS深度学习模型部署框架
GRPS是一款支持多种深度学习框架(如TensorFlow、PyTorch、TensorRT等)的在线部署框架,提供dynamic batching、streaming模式等高级功能,支持Python/C++双语言,帮助用户快速部署模型并提供HTTP/RPC接口服务。
grps: 【深度学习模型部署框架】支持tf/torch/trt/trtllm/vllm以及更多nn框架,支持dynamic batching、streaming模式,支持tensorrt多流推理,支持python/c++双语言,可限制,可拓展,高性能。帮助用户快速地将模型部署到线上,并通过http/rpc接口方式提供服务。grps_trtllm: 【grps接入trtllm】通过GPRS+TensorRT-LLM+Tokenizers.cpp实现纯C++版高性能OpenAI LLM服务,支持chat和function call模式,支持ai agent,支持分布式多卡推理,支持多模态,支持gradio聊天界面。