c316e4b4创建于 2025年10月25日历史提交

language:

  • ja
  • en license: cc-by-4.0 task_categories:
  • translation
  • text-generation tags:
  • japanese
  • honorifics
  • keigo
  • linguistics
  • language-learning size_categories:
  • n<1K pretty_name: Japanese Honorifics Dataset dataset_info: features:
    • name: base_sentence dtype: string
    • name: teineigo dtype: string
    • name: sonkeigo dtype: string
    • name: kenjogo dtype: string
    • name: english_translation dtype: string splits:
    • name: train num_bytes: 19607 num_examples: 115 download_size: 14363 dataset_size: 19607 configs:
  • config_name: default data_files:
    • split: train path: data/train-*

Japanese Honorifics Dataset (日本語敬語データセット)

A comprehensive dataset of Japanese sentences in three honorific forms: 尊敬語 (sonkeigo), 謙譲語 (kenjōgo), and 丁寧語 (teineigo).

Dataset Description

This dataset contains 137 Japanese sentences demonstrating the three main types of Japanese honorific language (敬語 - keigo):

  • 尊敬語 (Sonkeigo): Respectful language used to show respect for the subject of the sentence (typically someone of higher status)
  • 謙譲語 (Kenjōgo): Humble language used to lower oneself or one's in-group when speaking to someone of higher status
  • 丁寧語 (Teineigo): Polite language using です/ます forms

Dataset Structure

Each entry contains:

  • base_sentence: The casual/dictionary form of the sentence (基本形)
  • teineigo: The polite form (丁寧語)
  • sonkeigo: The respectful form (尊敬語)
  • kenjogo: The humble form (謙譲語)
  • english_translation: English translation

Example

{
  "base_sentence": "彼は京都に行く。",
  "teineigo": "彼は京都に行きます。",
  "sonkeigo": "彼様は京都にいらっしゃる。",
  "kenjogo": "私は京都に伺います。",
  "english_translation": "He goes to Kyoto."
}

Coverage

The dataset includes all essential honorific verb forms taught in standard Japanese language education:

Core Verbs Covered

Existence & State

  • する (do) → なさる / いたす・させていただく
  • いる (exist/be) → いらっしゃる・おいでになる / おる
  • ある (exist) → ございる

Movement

  • 行く (go) → いらっしゃる・おいでになる・お越しになる / 参る・伺う
  • 来る (come) → いらっしゃる・見える・お越しになる / 参る・伺う
  • 帰る (return) → お帰りになる / おいとまする
  • 訪ねる (visit) → お訪ねになる / 伺う

Communication

  • 言う (say) → おっしゃる / 申す・申し上げる
  • 聞く (listen) → お聞きになる / 拝聴する・うかがう
  • 伝える (convey) → お伝えになる / 申し伝える

Cognition

  • 知る (know) → ご存じ / 存じる・存じ上げる
  • わかる (understand) → おわかりになる / かしこまる・承知する
  • 思う (think) → お思いになる・おぼし召す / 存じる・拝察する
  • 考える (consider) → お考えになる・ご高察なさる / 拝察する・検討いたす

Perception & Consumption

  • 見る (see) → ご覧になる / 拝見する
  • 食べる・飲む (eat/drink) → 召し上がる・おあがりになる / いただく・頂戴する
  • 読む (read) → お読みになる / 拝読する

Social Actions

  • 会う (meet) → お会いになる / お目にかかる
  • 待つ (wait) → お待ちになる・お待ちくださる / お待ちする
  • 座る (sit) → お掛けになる / 座らせていただく
  • 与える (give) → くださる・お与えになる / 差し上げる
  • 受け取る (receive) → お受け取りになる / 賜る・頂戴する・拝受する

Other Actions

  • 買う (buy) → お買いになる・お求めになる / 買わせていただく
  • 利用する (use) → ご利用になる / 利用させていただく
  • 探す (search) → お探しになる / 探しております
  • 教える (teach) → お教えになる / お教えする
  • 作る (make) → お作りになる / お作りする

Dataset Creation

Source Data

  • Initial Generation: 100 sentences generated using GPT-4o via OpenAI's Batch API
  • Manual Addition: 37 sentences manually created to ensure comprehensive coverage of all essential honorific forms

Quality Assurance

  • Verified for linguistic accuracy
  • Checked for duplicate entries (0 exact duplicates found)
  • Validated presence of all core honorific verb forms from standard Japanese language curricula

Use Cases

This dataset is valuable for:

  • Language Learning: Teaching Japanese honorific usage patterns
  • NLP Research: Training models to understand and generate Japanese honorifics
  • Translation Systems: Improving Japanese-to-English and English-to-Japanese translation with proper register
  • Linguistic Analysis: Studying honorific language patterns
  • Chatbots & Virtual Assistants: Generating contextually appropriate Japanese responses

Limitations

  • Dataset size is relatively small (137 entries)
  • Focus is primarily on verb-based honorifics
  • Does not extensively cover:
    • Honorific prefixes (お/ご) on nouns
    • Company/business-specific honorific expressions
    • Regional variations in honorific usage
    • Complex sentence structures with multiple honorific levels

Citation

If you use this dataset in your research, please cite:

@dataset{japanese_honorifics_2025,
  author = {Takizawa, Ronan},
  title = {Japanese Honorifics Dataset},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/datasets/ronantakizawa/japanese-honorifics}
}

License

This dataset is released under the Creative Commons Attribution 4.0 International License (CC BY 4.0).

Acknowledgments

  • Generated using OpenAI's GPT-4o model via Batch API
  • Manually curated and verified for linguistic accuracy
  • Based on standard Japanese language education curricula