人工智能
人工智能
差异化和自适应学习率:揭秘神经网络优化器和调度器
用简单的语言介绍如何使用优化器和调度器来提升模型训练和超参数调整 优化器是神经网络架构的重要组成部分。调度器是深度学习工具包的重要...
Batch Norm的直观解释:它是如何工作的,以及神经网络为什么需要它
批量规范化是现代深度学习从业者工具包中不可或缺的一部分。批量规范化在论文《批量规范化》中被提出后不久,就被认为在创建可以更快训练的更深层神经网络方...
神经网络优化器:核心算法及其必要性
用通俗易懂的语言介绍梯度下降优化器(如 SGD、Momentum、RMSProp、Adam 等)所使用的基本技术 优化器是神经网络架构的重要组成部分。...
Transformer 可视化解释(第 4 部分):如何通过注意力得分计算来捕捉序列中单词之间的关系
用简单的语言来介绍如何通过注意力得分计算来捕捉序列中单词之间的关系。 Transformer 之所以强大,是因为其注意力模块。这是因为它能够捕捉...
Transformer 可视化解释(第 3 部分):多头注意力机制,深入探究
用简单的语言介绍自注意力、编码器-解码器注意力、注意力分数和掩蔽的内部工作原理。 这是我关于 Transformer 系列的第三篇文章。我们...
Transformer 的可视化解释(第 2 部分):分步说明其工作原理
介绍端到端的内部操作,数据如何流动以及执行哪些计算,包括矩阵表示指南。 这是我的 Transformer 系列文章中的第二篇。在第一篇文章中,我们了...
Transformer 的可视化解释(第 1 部分):功能概述
简单易懂的 Transformer 指南,介绍如何将其用于 NLP,以及为什么它们比 RNN 更好。Attention 如何帮助提高性能。 我们听到了很多关于 Transformer...
NLP 基础解析 — Bleu Score 和 WER Metrics
用通俗易懂的语言介绍 NLP 模型的两个基本指标(Bleu Score 和 Word Error Rate) 大多数 NLP 应用程序(例如机器翻译、聊天机器人、文本摘...
NLP 基础解析 — 定向搜索及其工作原理
用通俗易懂的英语介绍 Beam Search 如何增强预测能力 许多 NLP 应用程序(例如机器翻译、聊天机器人、文本摘要和语言模型)都会生成一些文本作为...
为什么大多数 LLM 仅提供解码器?
语言模型架构概述 我们首先来熟悉一些架构术语。 编码器和解码器 编码器:处理输入数据并将其转换为浓缩表示,以捕获基本信息。在翻译任务中,编码器获取...