这是DistilBERT的微调版本,针对AG新闻数据集训练,可快速准确分类新闻为世界、体育、商业、科技四大类别,兼顾性能与效率,适合生产环境部署。【此简介由AI生成】
library_name: transformers tags:
- distilbert
- text classification
- ag news
- fine-tuned license: apache-2.0 datasets:
- fancyzhx/ag_news metrics:
- accuracy base_model:
- distilbert/distilbert-base-uncased pipeline_tag: text-classification
Model Card for distilbert-base-uncased-finetuned-ag-news
这是基于DistilBERT模型的精调版本,专门针对AG News数据集的文本分类任务进行训练。该模型能够根据新闻文章内容预测四个类别之一:国际、体育、商业和科技。
模型详情
模型描述
本模型基于DistilBERT架构——一个更轻量、更快速的BERT变体。通过在AG News数据集上进行文本分类任务的精调训练,该模型能够准确预测新闻文章所属的四个类别(国际、体育、商业或科技)。
DistilBERT在保持BERT 97%性能表现的同时,速度提升60%且体积减小30%,非常适合生产环境中的高效推理。
本模型卡由🤗 transformers自动生成,对应托管于Hugging Face Hub的模型。
- 开发团队: Hugging Face
- 共享者[可选]: Aditya AK
- 模型类型: 基于Transformer的文本分类模型
- 支持语言(NLP): 英语
- 许可证: Apache-2.0
- 精调基模型[可选]: distilbert-base-uncased
模型来源[可选]
- 代码库: Hugging Face - distilbert-base-uncased-finetuned-ag-news
- 论文[可选]: DistilBERT:BERT的蒸馏版本:更小巧、更快速、更经济、更轻量
- 演示[可选]: [需补充信息]
用途
直接使用
该模型专用于将新闻文章分类至四个类别:国际、体育、商业或科技。
使用时只需输入新闻文本,模型即可自动预测其所属类别。
下游应用[可选]
该模型可作为大型文本分类流水线的组成部分。例如,可集成至新闻聚合应用程序中,自动将输入的新闻文章归类到相应板块。
适用范围外的使用场景
本模型不适用于需要超出其训练时四个类别之外的细粒度或专业化分类任务。对于在风格、领域或结构上与 AG News 数据集存在显著差异的文本,其表现可能不佳。
偏差、风险与局限性
- 偏差问题:模型可能继承 AG News 数据集中存在的偏差,这些偏差可能反映特定的地域或文化视角(尤其在新闻内容中)。
- 使用风险:模型可能对新闻文章进行错误分类,特别是在内容存在歧义或同时涉及多个类别时。
- 功能局限:模型仅能将文章划分为四个预定义类别之一。对于不属于这些类别或需要细粒度分类的文章,其表现可能不理想。
使用建议
在实际应用中使用本模型时需保持谨慎,因其可能产生错误或存在偏差的分类结果。若需要更精确或细化的分类系统,建议使用特定领域数据对模型进行微调。
快速开始
以下代码示例展示如何使用基于 AG News 数据集微调的 DistilBERT 模型进行文本分类:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = "distilbert-base-uncased-finetuned-ag-news"
tokenizer = AutoTokenizer.from_pretrained(model)
model_distilbert = AutoModelForSequenceClassification.from_pretrained(model).to(device)
# Example text for classification
text = "Apple announces new iPhone model with improved features."
# Tokenize the input text
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)
# Perform classification
outputs = model_distilbert(**inputs)
predictions = outputs.logits.argmax(dim=-1)
# Map the predicted class index to the category
categories = ["World", "Sports", "Business", "Science/Technology"]
predicted_category = categories[predictions.item()]
print(f"Predicted category: {predicted_category}")
训练详情
该模型基于AG News数据集进行微调,该数据集包含分为四个类别的新闻文章:
- World(世界)
- Sports(体育)
- Business(商业)
- Science/Technology(科技)
数据集包含约120,000个训练样本和7,600个测试样本。
数据集:AG News数据集
预处理:文本经过分词处理,并根据文章类别分配标签。可能还应用了额外的清洗步骤(如去除无效字符)。
模型卡片作者
Aditya AK
模型卡片联系方式
如有疑问或进一步咨询,请联系 aakuskar.980@gmail.com
GitHub
GitHub笔记本链接 — https://github.com/Adity-star/DataScience-Work/blob/main/NLP/Finetuned_on_Ag_News.ipynb