PyTorch中的Binary Cross-Entropy损失函数：选择与差异

简介：PyTorch提供了binary_cross_entropy和binary_cross_entropy_with_logits两种损失函数，用于处理二分类问题。本文详述了两者的区别、使用场景及实践建议。

在PyTorch框架中，处理二分类问题时经常会用到两种损失函数：binary_cross_entropy（BCELoss）和binary_cross_entropy_with_logits（BCEWithLogitsLoss）。尽管它们的目的相似，但在使用方法和内部实现上存在显著差异。本文将简明扼要地介绍这两种损失函数，帮助读者在实际应用中选择合适的工具。

一、概述

BCELoss（Binary Cross-Entropy Loss）：这是PyTorch中的一个类，位于torch.nn模块。它接受模型输出的概率值（即已经通过sigmoid或softmax激活函数处理后的值）作为输入，并计算与真实标签之间的二元交叉熵损失。
BCEWithLogitsLoss（Binary Cross-Entropy with Logits Loss）：这是一个函数，位于torch.nn.functional模块。它接受模型输出的logits（即未经sigmoid或softmax激活的原始输出）作为输入，并在内部自动应用sigmoid函数，然后计算二元交叉熵损失。

二、主要区别

1. 输入要求

BCELoss：需要输入经过sigmoid激活的概率值（介于0和1之间）。
BCEWithLogitsLoss：直接输入模型的logits（可以是任意实数值）。

2. 内部处理

BCELoss：假设输入已经是概率值，直接进行交叉熵计算。
BCEWithLogitsLoss：内部自动对logits应用sigmoid函数，转化为概率值后再进行交叉熵计算。

3. 数值稳定性

BCEWithLogitsLoss通常比BCELoss具有更好的数值稳定性。因为它在内部结合了sigmoid和交叉熵的计算，可以利用log-sum-exp技巧来避免数值溢出或下溢。

三、使用场景

当你的模型输出层已经包含了sigmoid激活函数时（即输出已经是概率值），应该使用BCELoss。
当你的模型输出层是线性层（即输出是logits），且你希望PyTorch自动处理sigmoid激活和交叉熵计算时，应该使用BCEWithLogitsLoss。

四、示例代码

BCELoss示例

import torch
import torch.nn as nn
# 假设model的输出已经通过sigmoid激活
probs = torch.tensor([0.9, 0.1, 0.8, 0.7])
targets = torch.tensor([1, 0, 1, 1])
loss_fn = nn.BCELoss()
loss = loss_fn(probs, targets)
print(loss)

BCEWithLogitsLoss示例

import torch
import torch.nn.functional as F
# 假设model的输出是logits
logits = torch.tensor([1.1, -2.0, 3.4, -4.7])
targets = torch.tensor([1, 0, 1, 0])
loss = F.binary_cross_entropy_with_logits(logits, targets)
print(loss)

五、实践建议

优先选择BCEWithLogitsLoss：因为它自动处理了sigmoid激活，减少了计算步骤，且数值稳定性更好。
注意数据预处理：确保输入到BCEWithLogitsLoss的logits没有经过任何形式的激活处理。
灵活调整：根据模型的具体结构和需求，合理选择损失函数。

总之，binary_cross_entropy和binary_cross_entropy_with_logits是PyTorch中处理二分类问题的两种重要损失函数。理解它们的区别和使用场景，有助于在实际应用中更加灵活地选择和调整模型参数，提高模型的训练效果和性能。