51CTO-崔浩-LLM 推理优化与部署实战

0
回复
7
查看
[复制链接]
  • TA的每日心情
    擦汗
    2025-5-12 21:11
  • 签到天数: 571 天

    [LV.9]以坛为家II

    3528

    主题

    621

    回帖

    2万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    21872
    发表于 2026-3-26 10:00:00 | 显示全部楼层 |阅读模式

    登录后查看本帖详细内容!

    您需要 登录 才可以下载或查看,没有账号?立即注册

    x

    1-1 课程内容介绍.mp4
    1-2 LLM推理基础-预填充与解码阶段.mp4
    1-3 LLM推理基础-推理阶段与KVCache的关系.mp4
    1-4 LLM推理基础-生成KVCache过程推演.mp4
    1-5 LLM推理基础-为何需要对KVCache优化.mp4
    1-6 LLM推理基础-如何估算模型占用内存.mp4
    1-7 LLM推理基础-GPU内部运算原理与推理机制的关系.mp4
    1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数.tle
    1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4
    1-10 LLM推理基础-章节总结.mp4
    1-11 LLM性能指标-内容介绍.mp4
    1-12 LLM性能指标-推理评估指标全景图.mp4
    1-13 LLM性能指标-首词生成时间.mp4
    1-14 LLM性能指标-每词生成时间.mp4
    1-15 LLM性能指标-端到端的请求时间.mp4
    1-16 LLM性能指标-系统吞吐量TPS.mp4
    1-17 LLM性能指标-业务指标SLO.mp4
    1-18 LLM性能指标-评测过程与评测工具.mp4
    1-19 LLM性能指标-章节总结.mp4
    1-20 模型压缩-内容介绍.mp4
    1-21 模型压缩-压缩策略-量化-剪枝-蒸馏.mp4
    1-22 模型压缩-模型量化-参数存储空间的组成.mp4
    1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ.mp4
    1-24 模型压缩-AWQ针对PPL的实验结果.mp4
    1-25 模型压缩-AWQ量化过程与实现-.mp4
    1-26 模型压缩-GPTQ量化过程以及优化IO策略.mp4
    1-27 模型压缩-GPTQ量化工具与实践.mp4
    1-28 模型压缩-剪枝分类和过程详解.mp4
    1-29 模型压缩-模型蒸馏分类和应用场景.mp4
    1-30 模型压缩-章节总结.mp4
    1-31 运行时加速方案-内容介绍.mp4
    1-32 运行时加速方案-多头注意力机制原理与弊端.mp4
    1-33 运行时加速方案-多头注意力计算过程与分析.mp4
    1-34 运行时加速方案-MQA与GQA机制以及性能比较.mp4
    1-35 运行时加速方案-GPU运算与数据传输分析.mp4
    1-36 运行时加速方案-FlashAttention切块和算子.mp4
    1-37 运行时加速方案-PagedAttention原理解析.mp4
    1-38 运行时加速方案-持续批处理原理解析.mp4
    1-39 运行时加速方案-核心推理框架选型.mp4
    1-40 运行时加速方案-章节总结.mp4
    1-41 推理部署实战指导与总结.mp4
    01-vLLM推理实战.docx
    2-1 vLLM产品介绍.mp4
    2-2 vLLM分布式推理.mp4
    2-3 显卡驱动安装与配置.mp4
    2-4 Docker进行vLLM模型安装与部署.mp4
    2-5 测试vLLM部署的大模型 .mp4
    2-6 vLLM分布式部署思路.mp4
    2-7 系统构建网络配置和框架安装.mp4
    2-8 Head和Worker节点配置创建推理集群.mp4
    2-9 测试vLLM分布式部署.mp4
    02-量化实战-高级.docx
    3-1 量化实战-量化目的与结果介绍.mp4
    3-2 量化实战-思路与实战步骤讲解.mp4
    3-3 量化实战-了解硬件架构量化工具.mp4
    3-4 量化实战-安装WSL与Conda.mp4
    3-5 TensorRT模型优化器安装与配置 .mp4
    3-6 NVFP4量化格式.mp4
    3-7 模型量化脚本解析与校准数据集.mp4
    3-8 模型量化以及结果查看.mp4
    3-9 测试量化之后模型查看返回结果.mp4
    3-10 介绍EvalScope与Perf命令组成.mp4
    3-11 使用EvalScope评测量化模型.mp4
    3-12 介绍LLMCompressor量化工具.mp4
    3-13 安装LLMCompressor .mp4
    3-14 使用LLMCompressor对GPTQ-AWQ-NV.tle
    3-15 针对两种量化工具比较四种量化结果.mp4
    3-16 量化实战-课程总结.tle
    《LLM推理优化与部署实战》课件.pptx

    下载

    游客,如果您要查看本帖隐藏内容请回复
    〖下载地址失效反馈〗:

    下载地址如果失效,请反馈。反馈地址: https://www.fstcode.com/thread-5527-1-1.html

    〖赞助VIP免灵石下载全站资源〗:

    全站资源高清无密,每天更新,VIP特权: https://www.fstcode.com/plugin.php?id=threed_vip

    〖客服24小时咨询〗:

    有任何问题,请点击右侧客服QQ咨询。

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

     
    在线客服
    点击这里给我发消息 点击这里给我发消息
    用心服务所有程序员,做最好的编程视频网站
    QQ:354410543
    周一至周日 00:00-24:00
    联系站长:admin@fstcode.com

    QQ群(仅限付费用户)

    Powered by "真全栈程序员" © 2010-2023 "真全栈程序员" 本站资源全部来自互联网及网友分享-如有侵权请发邮件到站长邮箱联系删除!