研究の詳細-2025/05/07

研究背景

〇教育現場における教員の労働時間の多さ

右は小野高校での教員の平日の労働時間をまとめたものである。平均して11時間程もの労働を一日に行っている。

〇大学入試共通テストで記述式の採用の断念

自己採点での不安、守秘義務などの問題から断念されました。

〇教員によって異なる基準

同じ採点基準でも先生によって捉え方が異なることにより、採点にずれが生じてしまう。

目的

上記の背景を踏まえて、以下の3つを私たちの目的としました。

〇教員の労働負担の削減

〇公平な視点からの採点

〇家庭学習や大規模な採点へのハードルを下げる

これらの目的を達成するために、私たちは「国語の記述問題において、テキストデータから人間と同じ程度の採点精度を誇るシステムを作ることができる」という仮説のもと実験を進めていく。

また、これらの目的を達するために今回の研究においては、以下の目的を立てる。

〇家庭学習で使える自動採点システムの作成

〇先生の採点をアシストするシステムの作成

予備実験1

まずは予備実験としてどのような方法が最も精度が良いのかを比較する。5点満点の問題を一つ用意し、小野高校の生徒の方々に答えていただく。その回答に対して以下の5つの方法で採点を行い、それぞれの精度を比較しする。

条件は以下の通りである。

条件1,手書きのデータではなく、テキストデータで採点する。

条件2,AIに与えて、採点の参考にするトレーニングデータは50個、精度の測定を行うテストデータは200個とする

条件3,試す方法以下の通りとする

1,国語教員

人間の採点者と比べて他の方法はどれくらい匹敵しているのかを調べるために経験豊富な国語の先生に採点をお願いする。

2,ルールベース型AI

私たちが1から条件を定めて作ったプログラムで、広義的にはAIに含まれる。採点には特定のキーワードが入っていると加点、悪文末、悪文法だと減点という形になっている。この時、キーワドはプログラム制作者の語彙力に依存する。

3,Claude

Anthropic社製の生成AIである。5000〜1万字ほどのスクリプトを採点基準として渡す。今回は、有料版を利用している。

4,ChatGPT

OpenAI社製の生成AIである。条件は同様とするが、こちらに関しては無料版である。

5,Gemini

Google社製の生成AIである。条件は同様とするが、こちらも無料版となっている。

※この時、生成AIでは基準以外の参考となるすでに採点されたトレーニングデータとして何も与えない「zero-shot学習」と、トレーニングデータとして幾つかの参考とするデータを与える「転移学習」を実験する。

条件4,問題は、日刈あがたさんの「ビッグフットの大きな靴」であり、満点5点、文字数28−35文字、物語における記述であるものとする。

これらの結果は以下の通りである。

これらの結果から分かることは

①「Claude-zero-shot」、及び「ChatGPT-転移学習」、「ChatGPT-zero-shot」に関しての帰無仮説「採点は作為的である」を立てたときの有意水準99%の棄却域の19.73<=X<=46.93に入っていることから、採点は全くのランダムに行った時と遜色ないということ。

②「Claude-転移学習」、「ルールベース型AI」の二つは先生方の採点に匹敵していることから人間の採点者と同じぐらいの精度で採点ができるということ。

の二つになる。

予備実験2

次に、トレーニングデータの数として適切な数について調べる。使う問題は予備実験1と同様である。

この結果から、0から50個までのデータ数では精度向上がみられるものの、それ以上ではあまり見られないことから、最低50個のトレーニングデータが必須であり、それ以上はあまり精度に影響は出ないということがわかる。

そして、これらの結果から、「自動採点システムは人間の精度に匹敵しうる」という仮説を立てて今後の実験を行なっていく。

本実験

まず、変更した条件は以下の通りである。

1,使用した問題の変更。

①評論形式の「遡する思考」(佐藤卓)、文字数は24-30文字

②評論形式の「森林と人間」(石城謙吉)、文字数は32-40文字

③物語形式の「こころ」(夏目漱石)、文字数は28-35文字

2,用いたトレーニングのデータの数を15個、及びテストデータの数を100個にしたこと。

これらの条件の上で以下の採点例のような採点基準で本実験を進めていく。

この時の結果は以下の通りになりました。

この結果からわかることは

1,「ルールベース型AI」と「Claude-転移学習」は安定して人間に匹敵しうる、つまり、仮説は正しいということ。

2,点数分布より模範点よりも厳しめに採点していることからトレーニングデータにないイレギュラーに弱いということ。

この時、それぞれの問題の平均点や文字数、問題の種類と照らし合わせて見る。

〇最も平均点の低い「こころ」などを見てみると、0点の回答が続出しており、この時採点の精度が総じて高いことから平均点の低さが採点のしやすさにつながっていると考えられる

〇最も文字数の長い「森林と人間」が最も精度が総じて低くなっていることから文章の長さがると精度が下がってしまうということがわかりる。

〇問題形式よって大きな差はないことからこれらはあまり大きな差は生まないということがわかりる。

「こころ」採点例

回答:お嬢さんに自分の気持ちを伝えたり、結婚をついぞ成し遂げる。

要素:対象...1/2点　「奥さんに」という意も欲しい。

要素:告白...1/1点　自分の思いを告げる旨があるので良い。

要素:悪文法...1点　「たり」を単独で使用するのは文法上正しくない。

要素:結婚...1/2点　「結婚の約束を取り付ける」という意までほしい。

要素:悪文末...1点　「こと。」などの文末しかこの問題では適切でない

=合計2点

ファインチューニングの実験

ファインチューニング(トレーニングデータによってAIを重みごと変更すること)の結果は以下の通りである。

〇結果

使用したモデル: Llama-3-ELYZA-JP-8B-GGUF

〇考察

・精度はデータ数に依存しない。

・RAM6GB,CPU4.46GHz×16core×60%を使用しても一度の採点に60秒ほどかかることから一般的なコンピューターでは処理時間は莫大になる。

・安定した出力(指定した形式での出力)の数が多ければ多いほどより思考過程が複雑になり形式がばらつく。

全体のまとめ

〇ルールベース型AIの長所

・自分たちで想定した出力で安定している(同じ文章は同じ点数になる)こと。

・採点基準だけでもある程度物にできること。

〇ルールベース型AIの短所

・イレギュラーに弱い

・採点において一手遅い(後手の)対応を強いられること。

・プログラマーが必須になること。

〇生成AIの長所

・準備をするのはトレーニングデータだけでよいこと。

・日本語を学んでいるのでイレギュラーに強いこと。

・プログラムをする必要がないこと。

〇生成AIの短所

・出力が安定しない(同じ文章に対して異なる点数で採点してしまう)こと。

・より精度を上げようとするとお金が必要(有料版)

・文字数カウントを間違えやすい。

これらのことを踏まえたうえで目的の達成や、より精度の良いシステムを造っていきたいと感じている。

今後の展望

〇Gemini, ChatGPTなどによる高性能なGPUを用いたファインチューニングを行うこと。

　└金銭的、セキリュティ的問題の解決が求められる。

〇ルールベース型AIの長所をより伸ばすこと。

　└現状200個の回答を8秒で採点できるのはルールベース型AIのみであるので既存のシステムとの更なる差別化を図りたい。

参考文献

文部科学省公式発表 (2024/10/25閲覧)

使用ライブラリ「Unidic」 (2024/8/15閲覧) Unidic 1.0.8使用

使用ライブラリ「MeCab」 (2024/8/15閲覧) MeCab1.0.9使用

Claude 公式サイト (2024/10/20閲覧) Claude 3.5 Sonnet, Anthropic使用

chatGPT公式サイト (2024/10/20閲覧) chatGPT4, openAI使用

Gemini公式サイト (2024/10/20閲覧) Gemini, Google使用

国語記述問題自動採点システムの開発と評価 ,石井雄隆,舟山弘晃,松林優一郎,乾健太郎. JSET2024-1-C12(2024/1/17閲覧)

採点項目に基づく国語記述式答案の自動採点 .水本智也,磯部順子,関根聡,乾健太郎. 2018年3月(2024/1/17閲覧)

謝辞

アンケートにご協力いただいた小野高校の先生方、生徒の皆様そして質問などに真摯にお答えいただいた株式会社ブレインの方々に御礼を申し上げさせていただきます。

研究の詳細一覧に戻る