研究の詳細-2025/01/07

〇教育現場における教員の労働時間の多さ

右は小野高校での教員の平日の労働時間をまとめたものです。平均して12時間程もの労働を一日に行っています。

〇大学入試共通テストで記述式の採用の断念

自己採点での不安、守秘義務などの問題から断念されました。

〇教員によって異なる基準

同じ採点基準でも先生によって捉え方が異なることにより、採点にずれが生じてしまいます。

上記の背景を踏まえて、以下の3つを私たちの目的としました。

〇教員の労働負担の削減

〇公平な視点からの採点

〇家庭学習や大規模な採点へのハードルを下げる

これらの目的を達成するために、私たちは「国語の記述問題において、テキストデータから人間と同じ程度の採点精度を誇るシステムを作ることができる」という仮説のもと実験を進めていきます。

まずは予備実験としてどのような方法が最も精度が良いのかを比較します。5点満点の問題を一つ用意し、小野高校の生徒の方々に答えていただきます。その回答に対して以下の5つの方法で採点を行い、それぞれの精度を比較します。

1,国語教員

2,ルールベース型AI

3,ChatGPT(free)

4,Claude

5,Gemini(free)

これらの結果は以下の通りです。

まず、得られたデータを仮説検定によって2つに分けます。「採点において各自の回答が影響していない」という仮説を帰無仮説としたとき、棄却できるのは50個の学習データを与えた「ルールベース型AI」,「Claude」です。そのため、この2つは十分な精度をもって採点を行うことができる方法であるといえます。

今後はこの「ルールベース型AI」,「Claude」に焦点を当てていくつかのタイプの問題で同様の実験をすることで更なる精度の向上に努めたいと考えています。このページでも自動採点システムの実装例を公開しています。アンケートも付属しているので実験の一環としてご協力をお願いします。

使用ライブラリ「Unidic」 (2024/8/15閲覧) Unidic 1.0.8使用

使用ライブラリ「MeCab」 (2024/8/15閲覧) MeCab1.0.9使用

Claude 公式サイト (2024/10/20閲覧) Claude 3.5 Sonnet, Anthropic使用

chatGPT公式サイト (2024/10/20閲覧) chatGPT4, openAI使用

Gemini公式サイト (2024/10/20閲覧) Gemini, Google使用

アンケートにご協力いただいた小野高校の先生方、生徒の皆様に御礼を申し上げます。