基于 Python 的开源大模型云原生 MLOps 部署实践

严一亚马逊云科技高级解决方案架构师及技术负责人

现任亚马逊云科技高级解决方案架构师及技术负责人（Tech Lead），专注生成式AI解决方案架构设计，主导媒体广告、智能制造等行业AI应用开发，提出并设计大模型在亚马逊云平台部署优化方法，协助企业应对算力成本、数据安全及场景适配挑战。曾主导多个大型跨国企业人工智能应用项目落地，助力客户降本增效。此前在知名商业智能公司担任首席工程师及大数据平台架构师，主导设计日均处理PB级数据的分析系统，完成从数据采集、存储到分析及可视化的全流程架构搭建。拥有15年数据与AI领域经验。

摘要

在开源大模型快速发展的背景下，如何将 Qwen、DeepSeek、Llama 等开源大模型快速转化为可用的 API 服务，成为开发者面临的关键挑战。传统部署往往需要处理容器化、基础设施配置、推理引擎优化等复杂步骤，这不仅需要深入的运维知识，还涉及大量手工配置。本演讲将分享构建统一开源模型部署体系的实践经验，介绍一个基于 Python 的多引擎抽象层架构：通过简单的 CLI 命令触发部署流程，利用统一容器设计实现“构建一次，到处部署”，并通过动态配置对不同模型进行推理引擎优化，最终自动部署为 OpenAI 兼容的 API 服务。结合 GPT-OSS 等开源模型的实际案例，展示多引擎部署的复杂度管理、性能参数优化、跨平台适配以及标准化接口的构建。

摘要

详情