japanese-honorifics:涵盖尊敬語、謙譲語、丁寧語的日语敬語数据集

包含137个日语句子,展示尊敬语、谦让语、丁宁语三种敬语形式,附基础句和英文翻译,适用于语言学习、NLP研究及翻译系统开发。【此简介由AI生成】

分支1Tags0
c316e4b4创建于 2025年10月25日8次提交
文件最后提交记录最后更新时间
Upload dataset6 个月前
initial commit6 个月前
Upload dataset6 个月前

language:

  • ja
  • en license: cc-by-4.0 task_categories:
  • translation
  • text-generation tags:
  • japanese
  • honorifics
  • keigo
  • linguistics
  • language-learning size_categories:
  • n<1K pretty_name: Japanese Honorifics Dataset dataset_info: features:
    • name: base_sentence dtype: string
    • name: teineigo dtype: string
    • name: sonkeigo dtype: string
    • name: kenjogo dtype: string
    • name: english_translation dtype: string splits:
    • name: train num_bytes: 19607 num_examples: 115 download_size: 14363 dataset_size: 19607 configs:
  • config_name: default data_files:
    • split: train path: data/train-*

Japanese Honorifics Dataset (日本語敬語データセット)

一个包含三种敬语形式的日语句子综合数据集:尊敬語 (sonkeigo)、謙譲語 (kenjōgo) 和丁寧語 (teineigo)。

数据集描述

本数据集包含137个日语句子,展示了日语敬语(敬語 - keigo)的三种主要类型:

  • 尊敬語 (Sonkeigo): 用于对句子主语(通常是地位较高的人)表示尊敬的尊敬语
  • 謙譲語 (Kenjōgo): 用于在与地位较高的人交谈时降低自己或自己所在群体地位的谦逊语
  • 丁寧語 (Teineigo): 使用です/ます形式的礼貌语

数据集结构

每个条目包含:

  • base_sentence: 句子的普通/词典形式(基本形)
  • teineigo: 礼貌形式(丁寧語)
  • sonkeigo: 尊敬形式(尊敬語)
  • kenjogo: 谦逊形式(謙譲語)
  • english_translation: 英语翻译

示例

{
  "base_sentence": "彼は京都に行く。",
  "teineigo": "彼は京都に行きます。",
  "sonkeigo": "彼様は京都にいらっしゃる。",
  "kenjogo": "私は京都に伺います。",
  "english_translation": "He goes to Kyoto."
}

覆盖范围

该数据集包含标准日语教育中教授的所有基本敬语动词形式:

核心动词覆盖范围

存在与状态

  • する (做) → なさる / いたす・させていただく
  • いる (存在/是) → いらっしゃる・おいでになる / おる
  • ある (存在) → ございる

移动

  • 行く (去) → いらっしゃる・おいでになる・お越しになる / 参る・伺う
  • 来る (来) → いらっしゃる・見える・お越しになる / 参る・伺う
  • 帰る (返回) → お帰りになる / おいとまする
  • 訪ねる (拜访) → お訪ねになる / 伺う

交流

  • 言う (说) → おっしゃる / 申す・申し上げる
  • 聞く (听) → お聞きになる / 拝聴する・うかがう
  • 伝える (传达) → お伝えになる / 申し伝える

认知

  • 知る (知道) → ご存じ / 存じる・存じ上げる
  • わかる (理解) → おわかりになる / かしこまる・承知する
  • 思う (想) → お思いになる・おぼし召す / 存じる・拝察する
  • 考える (考虑) → お考えになる・ご高察なさる / 拝察する・検討いたす

感知与消费

  • 見る (看) → ご覧になる / 拝見する
  • 食べる・飲む (吃/喝) → 召し上がる・おあがりになる / いただく・頂戴する
  • 読む (读) → お読みになる / 拝読する

社交行为

  • 会う (遇见) → お会いになる / お目にかかる
  • 待つ (等待) → お待ちになる・お待ちくださる / お待ちする
  • 座る (坐) → お掛けになる / 座らせていただく
  • 与える (给) → くださる・お与えになる / 差し上げる
  • 受け取る (接收) → お受け取りになる / 賜る・頂戴する・拝受する

其他行为

  • 買う (买) → お買いになる・お求めになる / 買わせていただく
  • 利用する (使用) → ご利用になる / 利用させていただく
  • 探す (寻找) → お探しになる / 探しております
  • 教える (教) → お教えになる / お教えする
  • 作る (制作) → お作りになる / お作りする

数据集创建

源数据

  • 初始生成:通过 OpenAI 的 Batch API 使用 GPT-4o 生成 100 个句子
  • 手动添加:手动创建 37 个句子,以确保全面覆盖所有基本敬语形式

质量保证

  • 已验证语言准确性
  • 已检查重复条目(未发现完全重复项)
  • 已验证标准日语课程中所有核心敬语动词形式的存在性

用例

此数据集在以下方面具有价值:

  • 语言学习:教授日语敬语使用模式
  • NLP 研究:训练理解和生成日语敬语的模型
  • 翻译系统:改进日英和英日翻译的恰当语级表达
  • 语言学分析:研究敬语语言模式
  • 聊天机器人与虚拟助手:生成符合语境的日语回应

局限性

  • 数据集规模相对较小(137 条记录)
  • 主要侧重于动词性敬语
  • 未广泛涵盖以下内容:
    • 名词前的敬语前缀(お/ご)
    • 公司/商务特定的敬语表达
    • 敬语使用的地区差异
    • 包含多种敬语级别复杂句式

引用

如果您在研究中使用此数据集,请引用:

@dataset{japanese_honorifics_2025,
  author = {Takizawa, Ronan},
  title = {Japanese Honorifics Dataset},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/datasets/ronantakizawa/japanese-honorifics}
}

许可协议

本数据集基于知识共享署名4.0国际许可协议(CC BY 4.0)发布。

致谢

  • 通过 Batch API 利用 OpenAI 的 GPT-4o 模型生成
  • 经过人工筛选和验证,确保语言准确性
  • 基于标准日语教育课程内容

项目介绍

包含137个日语句子,展示尊敬语、谦让语、丁宁语三种敬语形式,附基础句和英文翻译,适用于语言学习、NLP研究及翻译系统开发。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新