知乎技术沙龙:自研大模型推理框架 ZhiLight 正式开源
2023年12月7日,知乎联合DataFun举办了以《大模型应用工程化实践:从实验室到千万级用户产品》为主题的技术沙龙。此次沙龙吸引了来自15个行业、130家企业的参会者。活动中,知乎AI算法负责人王界武、机器学习平台负责人王新、百川智能大语言模型资深算法专家王宇龙以及“提示词布道师”李继刚分别带来了关于大模型应用的专业分享和深度交流。知乎CTO孙斌在沙龙上宣布,知乎自研的大模型推理框架ZhiLight正式开源。
**知乎直答与推理框架 ZhiLight:知乎加速大模型工程化实践**
2024年,知乎持续推进大模型工程化实践,分别在6月和10月推出了知乎直答及其专业搜索功能。这些功能专注于专业人士的生产力场景,将AI搜索推进到了更具专业性和实用性的深度搜索能力拓展阶段。知乎AI算法负责人王界武详细介绍了知乎直答的搭建过程,并分享了技术选型和优化经验。团队在构建AI问答系统时,对比了LLM持续pretrain+posttrain和检索增强生成(RAG)两种技术路线,最终选择了后者,因为其在成本、时效性、准确性、可扩展性等方面表现更优。知乎直答团队通过优化Query理解、召回、大模型生成等多个环节,显著降低了AI的幻觉问题,使得答案具备更高的准确性和权威度。在专业搜索功能方面,知乎使用了多种前沿技术,包括多智能体协同工作、信息查询、内容分析、数学计算等,并结合大语言模型的推理能力,深入分析用户的上下文和提问,从多角度、多层次召回多样且高质量的内容。此外,团队在思维链提示词工程、智能文档解析、动态资源调度等多个技术模块实现了突破。王界武表示,下一步,知乎直答团队计划将产品与社区深度融合,并在准确性、时效性、交互模式等领域实现更多升级。同时,团队将进一步提升模型的推理能力,以提供更强的解决复杂问题能力和使用体验。
**ZhiLight:知乎自研的大模型推理框架**
知乎机器学习平台负责人王新介绍了知乎在多种型号的英伟达设备上部署的大模型推理服务,并分享了优秀的开源项目vLLM、SGLang在知乎内部的应用。同时,王新还介绍了知乎在探索自研推理框架方面的努力,即ZhiLight。ZhiLight的设计目标是快速部署和实践LLaMa-like模型,并兼容OpenAI的chat/completions接口。ZhiLight在卡间通讯优化、内存管理以及并发请求管理优化等方面进行了优化,并集成了FlashAttention、Marlin、TensorRT、exllama等开源项目。ZhiLight通过计算与通讯重叠以及低精度通讯等手段,单层Transformer的计算时间降低了40%以上。孙斌在沙龙上宣布,ZhiLight已经正式开源(https://github.com/zhihu/ZhiLight)。未来,知乎希望与科技行业、技术从业者一起共建开源开放的交流社区,并推动前沿技术讨论从线上延伸到线下。
**大模型技术前瞻与畅想**
百川智能大语言模型资深算法专家王宇龙从Agent的极限实验出发,探讨了从Agent到AGI(通用人工智能)的发展。他认为,基于LLM驱动的智能体与传统Agent不同,它们能够利用大型语言模型的强大能力,处理多种任务,并通过理解自然语言来解决问题。王宇龙还讨论了Agent面临的挑战,包括缺乏理论指导、架构多样化、思路多变以及效果参差不齐。他提出,人工智能可以通过捕捉数据中的规律来做出近似、“大致正确”的预测,这与人类思维的方式相似。然而,在面临计算不可约性时,精确、详细的预测会变得困难。
“提示词布道师”李继刚在沙龙上分享了关于Prompt的见解。他认为Prompt是“表达”,而“表达”包括“本意+文意+解意”,其中“本意”又包括“经验+词汇+知识”。李继刚还提出了模型效果的公式:模型效果 = LLM *(Task + Prompt)。他分享了大量的Prompt实战经验,并提出,今年Prompt的关键词是从长到短,但最重要的是与大模型实现“共振”。他认为