资讯
最近分享的文章
Next.js的隐秘挑战:Netlify面对的六大难题
发表: at 12:00在现代Web开发的舞台上,Next.js无疑是一个备受瞩目的明星框架。然而,对于许多开发者而言,Next.js的使用并非一帆风顺。Netlify的工程师们在为数十万个Next.js网站提供支持的过程中,揭示了该框架在实际应用中所面临的六个重大挑战。
从tokenizer说起,为LLM自回归预训练准备数据集-大模型炼丹术
发表: at 11:50本文首先介绍了如何从头开始实现一个自定义tokenizer,用于将原始文本数据转化为模型能够理解的格式。通过这个例子,来直观理解什么是tokenize;接着,分析这种tokenizer的优缺点,引出更常用的BPE;最后,基于BPE构建的tokenizer,构建用于GPT预训练时的数据加载器。
数学概念丨“图像”与“图象”是有区别的 ,你知道吗?
发表: at 10:00“图像”与“图象”在初中教科书都出现,如:科学出版社出版的八年级《信息技术》第1章加工图像信息,主要介绍Photoshop的运用,全部用“图像”一词,如“处理图像素材”、“绘制图像”等。上海科学技术出版社出版的如九年级《数学》上册第22.3节二次函数y=ax2+bx+c的图象和性质等均用“图象”一词。
开源备份软件Restic简单教程
发表: at 05:00Restic 是一个快速、安全、高效的备份工具,特别适用于存储在不同位置的数据。
5部场面宏大的海战电影,震撼场景燃爆你的屏幕
发表: at 11:00《灰猎犬号》、《决战中途岛》、《猎杀U-571》、《从海底出击》、《鸣梁海战》
一文了解Text Embedding模型:从text2vec、openai-text embedding到m3e、bge
发表: at 04:50Embedding模型是一种将离散的符号数据(如单词、句子、图像等)映射到连续的向量空间中的技术,这些向量能够捕捉数据之间的语义、结构等关系。简单来说,就是把原本难以直接处理的符号数据,转换成计算机更容易理解和操作的数值向量形式~
谷歌 A2A (Agent2Agent)架构设计深度剖析
发表: at 11:502025年4月9日,Google正式推出Agent2Agent Protocol(以下简称“A2A”)。这一协议为各类 AI Agent 之间的高效沟通与协作搭建了桥梁,无论是独立 Agent 与独立 Agent、独立 Agent与企业 Agent,还是企业 Agent与企业 Agent,都可以通过该协议实现通信交互和事务协作。
浏览器如何验证HTTPS证书的合法性?
发表: at 11:00浏览器拿到了服务端的数字证书后,要怎么校验该数字证书是真实有效的呢?在说校验数字证书是否可信的过程前,我们先来看看数字证书是什么,一个数字证书通常包含了...
台大李宏毅2025 AI Agent新课来了!
发表: at 10:20本文是台大教授李宏毅讲授AI Agent的爆火油管视频的文字稿。内容层层递进,是学习和理解AI Agent难得的好教材。由于原视频较长,为方便订阅读者们高效学习,整理出来这节课的文字实录。
好书推荐 |《从零构建大模型》:从理论到实践,手把手教你打造自己的大语言模型
发表: at 03:30今天推荐的这本书——《从零构建大模型》(原书名 Build a Large Language Model (From Scratch))正好填补了这一空白。它不仅讲透了大模型的基本原理,更从实际出发,带领读者从最底层一步步构建出一个完整的 GPT风格 的模型,实现训练、微调和部署。