资讯
最近分享的文章
从tokenizer说起,为LLM自回归预训练准备数据集-大模型炼丹术
发表: at 11:50本文首先介绍了如何从头开始实现一个自定义tokenizer,用于将原始文本数据转化为模型能够理解的格式。通过这个例子,来直观理解什么是tokenize;接着,分析这种tokenizer的优缺点,引出更常用的BPE;最后,基于BPE构建的tokenizer,构建用于GPT预训练时的数据加载器。
数学概念丨“图像”与“图象”是有区别的 ,你知道吗?
发表: at 10:00“图像”与“图象”在初中教科书都出现,如:科学出版社出版的八年级《信息技术》第1章加工图像信息,主要介绍Photoshop的运用,全部用“图像”一词,如“处理图像素材”、“绘制图像”等。上海科学技术出版社出版的如九年级《数学》上册第22.3节二次函数y=ax2+bx+c的图象和性质等均用“图象”一词。
开源备份软件Restic简单教程
发表: at 05:00Restic 是一个快速、安全、高效的备份工具,特别适用于存储在不同位置的数据。
5部场面宏大的海战电影,震撼场景燃爆你的屏幕
发表: at 11:00《灰猎犬号》、《决战中途岛》、《猎杀U-571》、《从海底出击》、《鸣梁海战》
一文了解Text Embedding模型:从Text2Vec、Openai-Text Embedding到M3E、BGE
发表: at 04:50Embedding模型是一种将离散的符号数据(如单词、句子、图像等)映射到连续的向量空间中的技术,这些向量能够捕捉数据之间的语义、结构等关系。简单来说,就是把原本难以直接处理的符号数据,转换成计算机更容易理解和操作的数值向量形式~
谷歌 A2A (Agent2Agent)架构设计深度剖析
发表: at 11:502025年4月9日,Google正式推出Agent2Agent Protocol(以下简称“A2A”)。这一协议为各类 AI Agent 之间的高效沟通与协作搭建了桥梁,无论是独立 Agent 与独立 Agent、独立 Agent与企业 Agent,还是企业 Agent与企业 Agent,都可以通过该协议实现通信交互和事务协作。
MCP Gateway,轻松聚合AI工具,打造你的超级智能体
发表: at 10:30模型上下文协议(Model Context Protocol, MCP)是一个开放的、标准化的协议,旨在解决大语言模型与外部工具、数据和服务交互时的混乱和不一致问题。
浏览器如何验证HTTPS证书的合法性?
发表: at 11:00浏览器拿到了服务端的数字证书后,要怎么校验该数字证书是真实有效的呢?在说校验数字证书是否可信的过程前,我们先来看看数字证书是什么,一个数字证书通常包含了...
台大李宏毅2025 AI Agent新课来了!
发表: at 10:20本文是台大教授李宏毅讲授AI Agent的爆火油管视频的文字稿。内容层层递进,是学习和理解AI Agent难得的好教材。由于原视频较长,为方便订阅读者们高效学习,整理出来这节课的文字实录。
Ollama-python:工具赋能大模型,以数学运算智能问答应用为例
发表: at 10:30Ollama 是一个优秀的本地部署与管理大模型的框架。通过 Ollama,我们可以在本地部署、定制自己的大模型服务。本文在前文的基础上,初步搭建数学运算智能问答应用。该智能应用,具有以下功能...