归档
所有已归档文章
好书推荐 |《从零构建大模型》:从理论到实践,手把手教你打造自己的大语言模型
发表: at 03:30今天推荐的这本书——《从零构建大模型》(原书名 Build a Large Language Model (From Scratch))正好填补了这一空白。它不仅讲透了大模型的基本原理,更从实际出发,带领读者从最底层一步步构建出一个完整的 GPT风格 的模型,实现训练、微调和部署。
《线性代数应该这样学》线性代数教材那么多,这本凭什么畅销10万册?
发表: at 18:00图灵花了近10年时间陆陆续续引进了众多经典数学教材,《线性代数应该这样学(第3版)》便是其一,这本书被斯坦福大学等全球 40 多个国家、300 余所高校采用的数学教材,成为公认的阐述线性代数经典佳作。
谷歌 Gemma 3 开源!多模态、128K 上下文,小模型大能量
发表: at 13:30谷歌近期开源了Gemma 系列新成员Gemma 3,它是一个多模态模型,参数规模从1B 到27B,引入了视觉理解能力、更广泛的语言覆盖范围和128K 上下文,还显著提高了数学、聊天、指令跟随和多语言能力,使 Gemma3-4B-IT 在基准测试中与Gemma2-27B-IT 竞争,并与Gemini-1.5-Pro 相媲美。
好书推荐 |《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》
发表: at 11:20在人工智能技术飞速迭代的今天,大语言模型(LLM)已成为推动技术落地的核心引擎。然而,如何从零开始掌握大模型应用开发的核心逻辑?如何将GPT-4、ChatGPT等前沿技术转化为实际生产力?《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》一书为开发者提供了系统化的答案。作为热销2万册的经典升级版,本书不仅是初学者的“最小可用知识”手册,更是进阶者构建复杂AI应用的实战指南。
Git 本地与 GitHub 远程仓库同步操作详解
发表: at 11:10Git 是现代软件开发中广泛使用的版本控制工具,而 GitHub 则是最流行的远程仓库托管平台之一。理解如何在本地与远程仓库之间进行高效的同步操作,对于团队协作和代码管理至关重要。
介绍一款专属于程序员的字体,太酷了!
发表: at 10:50字体Maple Mono,它不仅仅只在 VSCode 中使用,而是一款专为程序员量身打造的字体,在多种编程场景下都能发挥出色的效果。
Anthropic官方推荐!LangChain MCP双协议支持全球800+工具
发表: at 15:00适配了Anthropic Model Context Protocol (MCP) 所有的工具,既可以进行本地通信stdio,也可以及远程通信SSE,与LangChain LangGraph生态无缝适配。
一文搞懂多头注意力(PyTorch)
发表: at 11:30多头注意力(Multi-Head Attention)是对传统注意力机制的一种改进,旨在通过分割输入特征为多个“头部”(head)并独立处理每个头部来提高模型的表达能力和学习能力。多头注意力是 Transformer 模型的核心组件,能够并行学习输入序列不同位置之间的依赖关系。
一文看懂Embedding模型
发表: at 10:50Embedding模型是一种将离散的符号数据(如单词、句子、图像等)映射到连续的向量空间中的技术,这些向量能够捕捉数据之间的语义、结构等关系。简单来说,就是把原本难以直接处理的符号数据,转换成计算机更容易理解和操作的数值向量形式~
Transformer 过时了!MIT 液体神经网络 LNN 才是新趋势!
发表: at 13:30MIT突破性成果登顶Nature子刊!科学家受线虫微型大脑启发,研发出革命性19节点液态神经网络系统。这一脑启发的AI架构在自动驾驶控制任务中展现出惊人表现:仅用传统神经网络万分之一规模的神经元数量,即实现更优性能表现。
8个好用的Github开源epub阅读器推荐
发表: at 15:00如果你喜欢阅读电子书,但又不想拘泥于那些商业化的阅读软件,不妨试试Github上的开源epub阅读器。这些项目不仅免费,还提供了丰富的自定义功能和跨平台支持,非常适合爱折腾的小伙伴。
机器学习最核心的十大算法模型深度解析
发表: at 12:00在人工智能与大数据蓬勃发展的今天,机器学习算法作为智能决策的核心引擎,正深刻改变着各行各业。从金融风控到医疗诊断,从图像识别到自然语言处理,这些算法构成了现代智能系统的基石。
快速上手:开发第一个MCP Server
发表: at 12:00本文提供了一个完整的MCP Server 实现示例,通过 Python 代码和Cline测试,展示了 MCP 如何用于增强 AI 应用的能力,特别是Tool 能力的集成和调用。
100个Pandas小技巧,让你精通Python数据分析
发表: at 12:00Pandas秘籍:从基础到高级的 100 个技巧大汇总...
一文了解思维链(Chain-of-Thought, CoT)
发表: at 13:00思维链(Chain-of-Thought CoT)是一种通过引导大型语言模型生成中间推理步骤来提升复杂任务表现的提示方法。其核心思想是在少样本学习(few-shot learning)中,通过展示从输入到输出的完整推理路径,而非仅提供最终答案,从而激活模型的逻辑推理能力。
Python3 简单的HTTPS服务器
发表: at 11:00在本文中,我们将介绍如何使用Python 3创建一个简单的HTTPS服务器,将使用Python 3的内置模块http.server来创建一个基本的HTTPS服务器。
详解带飞大模型的背后大佬MCP | 含用“嘴”写前端代码精装案例 FigmaMCP 应用指引
发表: at 15:00最近,在 AIAgent 领域,MCP 是曝光度非常高的一个词。大家都在热议这个新名词,究竟在谈些什么,有什么特别之处?咱们来深入扒一扒。
100个Matplotlib小技巧,让你精通Python数据绘图
发表: at 13:00Matplotlib 绘图秘籍:从基础到高级的 100 个技巧大汇总,今天分享使用Python中二维绘图库Matplotlib的100个技巧...
MCP、RAG、Agent之间的概念和关系,被我和AI协作的12张图总结了
发表: at 21:00MCP、RAG、Agent 最近太火了,搞 AI 的都在聊,但发现身边很多朋友其实并不太懂这些概念,花了一整天和 AI 协作,终于把这些复杂概念画成了 10 张易懂的图解。
吃透MCP的七问
发表: at 20:00Anthropic公司2024年11月份推出的模型上下文协议(Model Context Protocol,简称MCP)正是为解决这一问题而生的创新解决方案。虽然去年就推出了,但年后才火,证明好东西也需要发酵时间啊。
Transformer与混合专家(MoE):大型语言模型的架构对比
发表: at 15:00在自然语言处理(NLP)领域,Transformer模型凭借其强大的性能成为主流架构。然而,随着模型规模的不断扩大,计算效率和推理速度成为新的瓶颈。为了解决这些问题,混合专家(Mixture of Experts, MoE)架构应运而生。
一文说清楚让LangChain大佬“开战”的MCP是什么?
发表: at 12:00MCP(Model Context Protocol)是Anthropic于2024年开源的标准协议,旨在统一AI模型与数据源的交互方式,提升数据访问的便捷性和可靠性,提供标准化的工具调用、资源管理和提示词功能。目前,MCP仍处于探索阶段,其行业影响力有待进一步验证。
推荐 20 个热门 MCP Server,让 AI 工具更加强大
发表: at 14:00随着 AI 应用日益普及,各种 MCP(Model Context Protocol)server不断涌现,为 API 集成、数据库操作、文件处理、搜索服务等提供了一站式解决方案。下面整理了 20 个热门 MCP server,每一项均包含功能概述、推荐理由以及详细地址,供大家参考选择!
一文搞懂前向传播和反向传播(PyTorch)
发表: at 02:00在PyTorch框架中,模型的每个训练周期(epoch)都会通过循环迭代的方式,依次执行前向传播与反向传播过程。其中**前向传播**负责计算预测,**反向传播**负责通过梯度下降优化参数以最小化损失。
终于把机器学习中的交叉验证搞懂了
发表: at 12:00交叉验证(Cross Validation)是一种用于评估机器学习模型性能的技术,主要用于避免过拟合并提高模型的泛化能力。它通过将数据集划分为多个子集,并在不同的子集上训练和测试模型,以确保模型能够在新的、未见过的数据上表现良好。
解决 Git Push 被拒绝(non-fast-forward)的错误
发表: at 11:00在使用 Git 进行代码管理时,有时候我们在执行 `git push` 时会遇到如下错误,出现这个错误的原因是:远程分支的提交记录比本地分支更新,而 Git 默认不会强制推送导致丢失远程更新的提交。因此,Git 拒绝了此次推送操作。
深度学习五大模型:CNN、Transformer、BERT、RNN、GAN解析
发表: at 04:00今天探讨它们各自适用的场景,让您知道在何种情况下选择何种模型;同时分析它们的优势与局限,助您全面评估这些模型的性能。
推荐5本学习LLM书籍
发表: at 13:00《大模型基础》、《动手学深度学习》、《大规模语言模型:从理论到实践》、《动手实践大型语言模型》和《动手学大模型Dive into LLMs》。
偷偷给孩子看这10部纪录片!格局炸裂式成长让老师都惊讶!
发表: at 11:00偷偷给孩子看这10部纪录片:《美丽中国》、《植物王国》、《像乌鸦一样思考》、《行星旅行指南》、《迁徙的鸟》、《完美星球》......
一文揭秘MCP Server、Function Call与Agent的核心区别
发表: at 04:00在AI大模型技术的飞速发展中,MCP Server、Function Call和Agent作为关键组件,各自承担着不同的角色。它们之间的关系与差异不仅决定了AI系统的架构设计,还直接影响到任务执行的效率与灵活性。
Python GUI 库推荐
发表: at 07:00Python GUI 库推荐:Tkinter、PyQt、wxPython、Kivy、PySimpleGUI, 希望这些信息能帮助你选择合适的 Python GUI 库。
图灵奖获得者巴托&萨顿合著“强化学习”一书简介
发表: at 02:00At CES 2025, NVIDIA offered us a deep-dive of its next-gen Blackwell GPU architecture for RTX 50 gaming GPUs and how it improves upon Ada. NVIDIA GeForce RTX 50 "Blackwell" GPU Architecture Dissected: More AI-Focused Cores, More Throughput, DLSS & Reflex Upgrades, Coprocessor and A Ton More.
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
发表: at 04:00In the heart of Miami's tech community, where the digital landscape is as dynamic as the city itself, understanding the nuances of GPU (Graphics Processing Unit) naming conventions is crucial for enthusiasts, gamers, and professionals alike.
一文搞懂多模态学习(多模态融合 + 跨模态对齐)
发表: at 13:00多模态学习(Multimodal Learning)是一种通过整合多种数据模态(如文本、图像、音频、视频等)来提升模型对复杂信息的理解能力的技术。其核心目标是利用不同模态的互补性与冗余性,突破单一模态的信息局限,模拟人类多感官协同认知的能力。
《微习惯》:不可能失败的微习惯,彻底终结拖延症
发表: at 12:00我们总是在做年度计划,自信满满地写下"每天运动1小时""今年读完50本书",却在996加班与短视频多巴胺的多重挤压下,时间不知都去了哪里。
注意力机制五大优化方向全景解读
发表: at 10:00注意力机制作为深度学习领域的核心技术,已在自然语言处理、计算机视觉等领域取得突破。然而随着模型规模扩大和应用场景复杂化,传统注意力机制暴露计算效率低下、内存占用过高、长序列建模困难等瓶颈。今天我们就来深入探讨注意力机制的优化方法。
小白轻松拿捏!深度解析卷积神经网络CNN
发表: at 21:00从今天开始,我们就来介绍下卷积神经网络(Convolutional Neural Networks, CNN),它可以说是深度学习最具代表性的模型之一。
用一个Gmail免费管理100个免费企业邮箱
发表: at 04:00你有没有想过,拥有一封专业的企业邮箱(比如 hello@yourcompany.com),既能收发邮件,还能直接用 Gmail 管理,而且完全免费?
个人成长书单|40岁前读完这8本书,用高级思维逆袭式成长,构建AI时代核心竞争力
发表: at 02:00在不断自我蜕变的旅程中,书籍起到了不可或缺的作用。我挑选了对我而言有实际重大帮助的8本书,分为【认知重构】【行为基建】和【关系革命】三个板块,希望能帮助你重构认知和行为系统,更好滴处理家庭与职场的人际关系。
爬虫在deepseek加持下所向无敌
发表: at 15:00AI大模型时代下的爬虫人也需要紧跟智能的潮流,抓住模型发展的契机,使用AI创建新的爬虫定义新的爬虫范式!数据的解析、整理、格式化可以让大模型来提高处理的效率!
使用 Git 命令,将本地项目关联到远程 GitHub 仓库并推送同步内容
发表: at 14:00将本地项目关联到远程 GitHub 仓库并推送同步内容,需要经过以下几个步骤:1. 在 GitHub 上创建远程仓库,2. 在本地项目目录下初始化 Git 仓库,3. 将本地项目文件添加到 Git 仓库...
一文搞懂混合专家(MoE)模型
发表: at 05:00在探索最新的大语言模型(LLM)时,“MoE”这一术语频繁出现在各种标题之中。DeepSeek-V3便是一个实力强劲的混合专家(MoE)模型,其总参数量高达6710亿,且在处理每个标记(token)时,能够智能地激活约370亿的参数,实现高效计算。
微软开源神器OmniParser V2.0炸场:打工人每天白干的3小时,被这款AI一键榨成渣了
发表: at 04:00打工人福音!你的无效加班,终于有救了!面对堆积如山的合同、表格、发票,手动录入到眼冒金星;客户发来的语音留言、视频文件,反复回放记录到耳鸣;跨部门交接的文档格式混乱,核对数据到怀疑人生……
如何在Ubuntu中查找并杀掉占用特定端口的进程:详解步骤与命令行操作
发表: at 15:00在Ubuntu系统中,管理和监控进程是系统管理员和开发者的日常任务之一。特别是在需要释放特定端口以便其他服务使用时,查找并杀掉占用该端口的进程显得尤为重要。本文将详细介绍如何在Ubuntu中查找并杀掉占用特定端口的进程,涵盖所有必要的命令行操作和步骤。
EasyTier + ZeroTier助你异地组网无忧
发表: at 05:00异地组网的工具我们聊过好多次,或者说,如何在外访问家里聊过好多次。当然越容易实现的,安全性相对也越差,越难实现的,技术要求高的,相对也越安全。
可视化AI模型CNN和Transformer
发表: at 04:00Scalable. Interactive. Interpretable. At Georgia Tech, we innovate scalable, interactive, and interpretable tools that amplify human's ability to understand and interact with billion-scale data and machine learning models.
NumPy 聚合函数中 axis 参数的维度变换详解
发表: at 02:00NumPy 库中的聚合函数(如 np.sum, np.mean, np.max, np.min 等)在处理多维数组时,axis 参数扮演着至关重要的角色。它决定了聚合操作沿着哪个或哪些维度进行,从而影响计算结果的形状和含义。
Excel常用公式函数之字符串拼接、字符串连接
发表: at 02:00Excel拥有很强大的各种函数功能,学会使用后可以大大提高工作效率,但是很多函数都不经常用到,其实Excel对每个函数的使用说明已经写的非常清楚了,只不过是很多初学者都没有使用过,所以不知道。
一文读懂Vision Transformers(ViT):原理详解、使用ViT进行图像识别,构建交互式界面
发表: at 13:00物体检测是计算机视觉的核心任务,为从自动驾驶汽车到实时视频监控的技术提供动力。它涉及检测和定位图像中的对象,深度学习的最新进展使这项任务更加准确和高效。驱动物体检测的最新创新之一是Vision Transformer(ViT),该模型凭借其比传统方法更好地捕获全局上下文的能力,改变了图像处理的格局。
5分钟读完神书《财富自由之路》:如何7年积累1000万
发表: at 07:00用认知升级驱动行动,用长期主义跨越成本线,通过多维竞争力,实现财富与人生自由。
Playwright爬虫实战 - 连接本地浏览器复用登录状态(以知乎为例)
发表: at 04:00本文将介绍如何通过Playwright连接Chrome/Chromium浏览器实现登录状态复用的方法。覆盖了Windows和macOS不同平台的具体操作。
Attention机制详解
发表: at 12:00相信做NLP的同学对这个机制不会很陌生,它在Attention is all you need可以说是大放异彩,在machine translation任务中,帮助深度模型在性能上有了很大的提升,输出了当时最好的state-of-art model。
语言模型:过去、现在、未来
发表: at 04:00语言模型与深度学习相结合产生的神经语言模型具有强大的表示和学习能力,代表着语言模型发展到了一个新的阶段,特别是其中的预训练语言模型已经成为当今自然语言处理的核心技术。本文回顾语言模型的历史,总结语言模型的现状,并展望语言模型的未来。
小白也能懂的混合专家模型(MoE)深度解析
发表: at 20:30混合专家模型(MoE)作为一种强大的模型架构,正在成为大模型时代的热门话题。本文将带你深入了解MoE的神秘面纱,从其基本概念、核心组件,到训练方法和应用场景,用通俗易懂的语言和生动的实例,让你即使没有深厚的技术背景,也能轻松掌握MoE的关键技术细节。
z-library + calibre,让落灰的 kindle 重见天日
发表: at 05:00突然就特别想用 kindle 看这些书籍,然后给擦灰、充电,一整套动作下来,发现没办法把我想看的书籍搞到 kindle 里。估计很多人都知道,kindle 在国内已经停止服务了,没办法按照官方的途径购买想看的书籍。于是想到了晓辉,我记得他一直用 kindle 看书。然后就他,怎么在现在这种情况下,还能让我的 kindle 变废为宝。晓辉告诉了我他用的方法:z-library + calibre。
Transformer源码解读
发表: at 13:00之前我们一起了解了attention、transformer的原理,本文将会基于github的一个 transformer (下文会针对我对该代码的一个改版讲解)开源代码进行代码分析讲解,该代码相比于Google提供的tensor2tensor/transformer代码更简单,也更容易理解。
TaleBook:简单好用的个人图书管理系统
发表: at 12:00你是否曾经为管理电子书而烦恼?面对杂乱无章的书籍文件,想要快速找到某一本书却总是费时费力?或者,你是否希望有一个私人的电子书库,可以随时随地访问,还能与朋友分享?如果你也有这些困扰,那么今天介绍的这款开源工具——TaleBook,或许正是你需要的解决方案!
用 Tailscale 快速搭建私人 VPN 网络
发表: at 04:00在日常开发和运维中,跨网络访问服务器、设备或服务是常见需求。传统 VPN 方案可能需要复杂的配置和部署,而 Tailscale 提供了一种简单、安全的方式,通过基于 WireGuard 的技术,快速构建私人网络。本文将详细介绍如何使用 Tailscale 搭建私人 VPN 网络,实现设备间的安全互联。
Transformer模型详解
发表: at 12:00Attention Is All You Need是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN ,目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。
一篇教你搞定 Let's Encrypt 提供的 SSL/TLS 证书监控和续签
发表: at 12:15数字证书颁发机构 Gworg(光网)宣布,从 2023 年 12 月 31 日开始,将停止签发为期一年的「TRUSTASIA」单域名 SSL 证书,这是市场上最后一款提供一年期免费 SSL 证书的产品。
Linux下 iptables 超详细教程和使用示例
发表: at 15:25iptables由上而下,由Tables,Chains,Rules组成。iptables有Filter, NAT, Mangle, Raw四种内建表...
Linux scp 命令
发表: at 13:00Linux scp 命令用于 Linux 之间复制文件和目录。scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。
CNN、RNN和DNN:神经网络界的三剑客
发表: at 05:50我想一定很多人听过CNN,DNN,RNN,但他们有何不同呢?很多人又不是很清楚,今天我们就来拆解下CNN,DNN,RNN,看看它们各自的优势和不同~
深度解析Transformer模型及其核心组件
发表: at 15:30Transformer模型以其卓越的性能和广泛的应用成为了新一代的领航者。这篇文章将带您深入探索Transformer模型的奥秘,从基础的注意力机制到复杂的编码器-解码器架构,再到多头注意力和位置编码的巧妙融合。无论您是AI领域的新手还是资深研究者,都能通过本文获得对Transformer模型深刻的理解和认识。
Claude 官方发布《构建高效的 Agents 指南》全文翻译完整版
发表: at 02:00很多朋友想通读 Anthropic 的这份原版报告,今天我为你带来这篇研究报告的中文翻译完整版。
如何构建有效的AI Agents:化繁为简——深度解读Claude实践《Building effective agents》
发表: at 02:00在人工智能技术日新月异的今天,大语言模型(LLM)已经成为技术创新的热点。然而,在追逐技术前沿的热潮中,我们是否忽视了工程设计的本质?作为全球人工智能领域的领军企业之一,Anthropic以其在AI安全和伦理方面的深入研究而闻名。该公司开发的Claude是目前最先进的大语言模型之一,凭借其强大的理解能力、逻辑推理能力和工具使用能力,在AI助手领域占据重要地位。
Cursor实战:古诗词展示网站
发表: at 05:00Cursor也是可以做复杂项目的,但是想要零代码去完成一个复杂的网站还是有不少难度。比如今天要展示的这个网站,代码实在太多,简单截个图。整个项目分为,主页,古诗词详情页和游戏页,三个大的部分,代码加起来上万行了。我们今天主要学习主页和详情页的代码设计和开发。
云服务器+wireguard,为家宽附加固定公网ip
发表: at 02:00常规的内网穿透是需要配置端口信息,例如frp这种,没有原生管理界面,每次改端口都需要手搓配置文件,而且无法穿透icmp(ping)这种协议,而通过隧道的形式就可以避免以上问题(至于什么是隧道,各位自行了解),配置好隧道后直接在路由器端口映射需要的端口就可以了。这里我就用云服务器+wierguard,把云服务器上的ip附加到内网设备上,实现访问云服务器就可以打开内网服务,用起来就和本地宽带有个公网ip没区别,还能把云服务器作为流量出口。
GitHub上的这个项目让你拥有全网所有编程类中文书籍,太实用了
发表: at 07:00今天去逛Git,首页直接推荐了个牛牛的项目,太实用了,太良心了,项目让你拥有全网所有编程类中文书籍。
ZeroTier - 异地组网,内网穿透利器
发表: at 02:00家里有Home Assistant有NAS,经常会有需要在外访问内部设备的需求。而多年前申请的公网IPv4地址也随着时间的推移被收了回去。如果在外访问家里的资源便成了一个挑战。网上有一堆的工具不是因为不稳定,就是要收费,对于我们这种白嫖党来说,既要免费,又要稳定才是王道。
打造一个全开源的开发环境
发表: at 12:00要打造一个完全使用开源软件的开发环境不是不可以,但有些软件用顺手了习惯了,很难找到替代品。这是个人在用开发环境的主要开源软件清单。仅供参考。