标签: LLM
包含标签 "LLM" 的所有文章:
代码效率优化的新突破:强化学习如何帮助大语言模型实现自我进化
发表: at 11:00大型语言模型(LLMs)已经在代码生成领域取得了显著进步,但生成的代码虽然功能正确,却往往存在效率低下的问题。这一研究缺口正是由南洋理工大学、新加坡国立大学、香港大学、西安交通大学和字节跳动的联合研究团队着手解决的。在最近发表的论文《Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization》中,研究团队提出了一种创新的迭代优化框架,通过闭环系统让大语言模型不断改进代码效率。
使用 LLM 从零构建知识图谱
发表: at 11:00知识图谱作为一种高效的数据表示方法,能够将大数据中分散的信息连接成结构化、可查询的格式,显著提升数据发现效率。实践表明,采用知识图谱技术可将数据探索时间减少多达70%,从而极大地优化数据分析流程。本文将基于相关理论知识和方法构建一个完整的端到端项目,系统展示如何利用知识图谱方法对大规模数据进行处理和分析。
从零开始的大语言模型原理与实践教程(PDF版下载)
发表: at 11:00本项目是一个系统性的 LLM 学习教程,将从 NLP 的基本研究方法出发,根据 LLM 的思路及原理逐层深入,依次为读者剖析 LLM 的架构基础和训练过程。同时,我们会结合目前 LLM 领域最主流的代码框架,演练如何亲手搭建、训练一个 LLM,期以实现授之以鱼,更授之以渔。希望大家能从这本书开始走入 LLM 的浩瀚世界,探索 LLM 的无尽可能。
从知识到智能:深入理解RAG技术与其生态系统
发表: at 11:30RAG,全称为检索增强生成(Retrieval-Augmented Generation),是一种结合了信息检索(Retrieval)和文本生成(Generation)的大语言模型应用架构。其核心思想是在生成文本的过程中,不仅依赖预训练语言模型的内部知识,还引入外部知识库的数据,从而提高生成内容的准确性和实用性。
快速进阶 LLM / AI 的必读系列
发表: at 11:30LLM / AI必读系列:Tokenization 分词处理、Vectorization 向量化处理、Infrastructure 基础设施、Core Architecture 核心架构、Mixture of Experts 专家混合模型(MoE)、RLHF 基于人类反馈的强化学习、Chain of Thought 思维链、Reasoning 推理......
开源大模型食用指南
发表: at 10:00本项目是一个围绕开源大模型、针对国内初学者、基于 Linux 平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
发表: at 13:00随着大型语言模型(LLM)规模和复杂度的指数级增长,推理效率已成为人工智能领域亟待解决的关键挑战。当前,GPT-4、Claude 3和Llama 3等大模型虽然表现出强大的理解与生成能力,但其自回归解码过程中的计算冗余问题依然显著制约着实际应用场景中的响应速度和资源利用效率。
从tokenizer说起,为LLM自回归预训练准备数据集-大模型炼丹术
发表: at 11:50本文首先介绍了如何从头开始实现一个自定义tokenizer,用于将原始文本数据转化为模型能够理解的格式。通过这个例子,来直观理解什么是tokenize;接着,分析这种tokenizer的优缺点,引出更常用的BPE;最后,基于BPE构建的tokenizer,构建用于GPT预训练时的数据加载器。
好书推荐 |《从零构建大模型》:从理论到实践,手把手教你打造自己的大语言模型
发表: at 03:30今天推荐的这本书——《从零构建大模型》(原书名 Build a Large Language Model (From Scratch))正好填补了这一空白。它不仅讲透了大模型的基本原理,更从实际出发,带领读者从最底层一步步构建出一个完整的 GPT风格 的模型,实现训练、微调和部署。
好书推荐 |《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》
发表: at 11:20在人工智能技术飞速迭代的今天,大语言模型(LLM)已成为推动技术落地的核心引擎。然而,如何从零开始掌握大模型应用开发的核心逻辑?如何将GPT-4、ChatGPT等前沿技术转化为实际生产力?《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》一书为开发者提供了系统化的答案。作为热销2万册的经典升级版,本书不仅是初学者的“最小可用知识”手册,更是进阶者构建复杂AI应用的实战指南。