パンデミック初期に家庭を持つために大学を休学した後、モイラ・オルムステッドさんは学校に戻ることを熱望していた。何カ月もの間、フルタイムの仕事と幼児の育児を両立させ、リモート学習を可能にする自分のペースで学べるプログラムのためにお金を貯めた。2人目の子供を妊娠7カ月のオルムステッドさんは、2023年にセントラル・メソジスト大学のオンラインコースに登録し、教師になるための勉強をした。
秋学期が始まってわずか数週間で、オルムステッドさんは必修科目の課題を提出した。毎週やらなければならなかった3つの読書要約のうちの1つだった。その直後、彼女は成績を受け取った。0点だった。教授に相談したところ、AI検出ツールが彼女の作品はおそら く人工知能によって生成されたと判断したと言われたという。実際、彼女の文章は少なくとも以前に一度はフラグが付けられたことがあると、その教師は言った。
現在24歳のオルムステッドさんにとって、この告発は「腹にパンチを食らった」ものだった。大学での彼女の立場も脅かされた。 「まあ、今はこれがうまくいっているのに、私がやっていないことで取り消されるかもしれない、という感じです」と彼女は言う。
ブルームバーグ・ビジネスウィークが閲覧した電子メールによると、オルムステッドさんは教師と生徒コーディネーターにこの非難に異議を唱え、自閉症スペクトラム障害があり、AI生成と誤って見なされる可能性のある定型的な書き方をしていると強調した。最終的に成績は変更されたが、その前に彼女は厳しい警告を受けた。彼女の作品が再びフラグ付けされた場合、教師はそれを盗作と同じように扱うだろう。
OpenAIのChatGPTがほぼ2年前に生成AIを主流に持ち込んで以来、学校は変化した環境に適応するために競争してきました。教育者は現在、人工知能によって生成された文章、段落、または課題全体を見つけるのに役立つ、増加している検出ツールに頼っています。民主主義と技術センターが3月に発表した450人以上の教師を対象とした[調査](https://cdt.org/wp-content/uploads/2024/03/2024-03-21-CDT-Civic-Tech-Generative-AI-Survey-Research-final.pdf 「Up in the Air: Educators Juggling the Potential of Generative AI with Detection, Discipline, and Distrust - March 2024 (.pdf)")によると、教師の約3分の2がAIチェッカーを定期的に使用していると報告しています。
最高のAIライティング検出器は非常に正確ですが、完璧ではありません。 Businessweekは、ChatGPTがリリースされる直前の2022年夏にテキサスA&M大学に提出された500件の大学入学志願書の無作為抽出サンプルで、2つの主要サービスであるGPTZeroとCopyleaksをテストし、実質的にAI生成ではないことを保証しました。エッセイは公文書請求を通じて入手されたため、AIツールのトレーニングに使用されたデータセットには含まれていませんでした。 Businessweekは、これらのサービスがエッセイの1%から2%をAIによって書かれた可能性があると誤ってフラグ付けし、場合によっては100%に近い確実性があると主張していることを発見しました。
毎年膨大な数の学生の課題があることを考えると、このような小さなエラー率でもすぐに蓄積され、誤ってフラグ付けされた学生に壊滅的な結果をもたらす可能性があります。より伝統的な不正行為や盗作の告発と同様に、宿題にAIを使用している学生は課題をやり直さなければならず、不合格や停学処分に直面しています。
AI 検出器は、エッセイを AI が書いた可能性が高いと誤ってフラグ付けする可能性があります
ブルームバーグは、ChatGPT のリリース前に書かれた 500 のエッセイのサンプルに対して 2 つの主要な AI 検出器を使用してテストを行い、サービスがエッセイの 1% から 2% を AI が書いた可能性が高いと誤ってフラグ付けしました。
学生、学者、AI 開発者によると、不正確な非難を受けやすいのは、オルムステッドのように神経発達障害があるか、英語を第二言語 (ESL) として話すか、または単により簡単な語彙と機械的なスタイルを使用することを学んだため、より一般的な書き方をする学生である可能性が高いようです。スタンフォード大学の研究者による2023年の研究によると、AI検出器は米国生まれの中学2年生が書いたエッセイをチェックする際に「ほぼ完璧」であったが、英語を母国語としない学生が書いたエッセイの半分以上がAI生成であるとフラグ付けされた。OpenAIは[最近](https://www.wsj.com/tech/ai/openai-tool-chatgpt-cheating-writing-135b755a「独占 | ChatGPTで学生の不正行為を捕まえるツールがある。OpenAIはそれをリリースしていない。- WSJ)」と述べ、ESLの学生を含む特定のグループに悪影響を与える可能性があるという懸念から、AIライティング検出ツールのリリースを控えている。
Businessweek はまた、AI 検出サービスが、AI の文章を人間の文章として偽装するように設計された自動ツールによって騙されることがある、と指摘した。これは、ある技術を別の技術と対立させる軍拡競争につながり、教育上のメリットがほとんどないまま、教育者と学生の間の信頼を損なう可能性がある。
オルムステッド氏が自分の作品をチェックするために使用したという人気の AI 検出ツール Turnitin は、文章を分析する際の [4% の誤検出率](https://www.turnitin.com/blog/understanding-the-false-positive-rate-for-sentences-of-our-ai-writing-detection-capability 「当社の AI 文章検出機能の文章の誤検出率を理解する」) があると述べている。Turnitin は、サービスをテスト用に提供することを拒否した。 2023年のブログ投稿で、精度への懸念からTurnitinのAI検出サービスを停止したいくつかの主要大学の1つであるヴァンダービルト大学は、そうでなければ学年度中に何百もの学生の論文がAIによって部分的に書かれたものとして誤ってフラグ付けされていただろうと指摘した。
幼少期のほとんどをイタリアで過ごした多言語学生のケン・サヒブさんは、ニューヨークのバークレー・カレッジのネットワーク入門コースの読書を要約する課題で0点をもらったとき、「圧倒された」と語った。サヒブさんがそれについて尋ねると、教師は「私が試したすべてのツールで同じ結果が出た。それらの回答はAIによって生成されたものだった」と答えたと、Businessweekが閲覧した電子メールには記されている。「自分が何をしているか分かっているはずだ」。
サヒブさんは最終的にクラスに合格したが、この事件で教授との関係が悪化したという。「その後、私たちはほとんど話をしませんでした」と彼は言う。教授はコメントの要請に応じなかった。
一部の教育者はAI検出器から撤退し、代わりにAIを取り入れるためにカリキュラムを調整しようとしているが、多くの大学や高校では依 然としてこれらのツールを使用している。投資データ会社PitchBookによると、AI検出のスタートアップは2019年以来約2,800万ドルの資金を集めており、そのほとんどがChatGPTのリリース後に行われたものだ。 PitchBookの調査によると、AIが生成したテキスト、画像、音声、動画をチェックできるディープフェイク検出スタートアップは、2023年に3億ドル以上を調達しており、前年の約6,500万ドルから増加している。
米国全土の12人の学生と11人の教師へのインタビューによると、その結果、教室は依然として虚偽の告発の可能性に対する不安と偏執に悩まされている。現在、学部生は自分の作品の完全性を守るためにさまざまな時間のかかる努力を行っているが、そのプロセスは学習体験を損なうと彼らは言う。また、学生向けに特に販売されている一般的なAIライティング支援サービスや文法チェッカーを使用することを恐れる人もいる。AI検出器を作動させるのではないかとの懸念を理由に。
TurnitinのAI担当副社長であるエリック・ワン氏は、同社はデータセットで過小評価されているグループを意図的に「過剰サンプリング」していると言う。同氏によると、社内テストでは Turnitin のモデルが ESL の学生を誤って非難していないこと、また文書全体の全体的な誤検出率が 1% 未満で、リリースごとに改善していることがわかったという。Turnitin は神経発達障害のある学生のデータで特別にトレーニングしたり、その分類を評価するために病歴にアクセスしたりはしていない。
Copyleaks の共同創設者兼最高経営責任者であるアロン・ヤミン氏は、同社の技術は 99% 正確だと述べている。「学術機関に対して、100% の ものは何もないこと、学生の作業の傾向を特定するために使用すべきであることを明確に伝えています」と同氏は言う。「彼らが調べて学生と話す機会として使うべきイエロー フラグのようなものです」
「すべての AI 検出器には盲点があります」と GPTZero の創設者兼 CEO であるエドワード・ティアン氏は言う。同氏は、同社は特に ESL の学生の結果の偏りをなくすことで進歩を遂げており、教師向けの筆記作業のツールによる評価の不確実性のレベルをより明確に示すための措置を講じていると言う。
ティアン氏は2023年の初めにGPTZeroを構築しました。彼のスタートアップは7月の時点で400万人のユーザーを抱えており、1年前の100万人から増加しており、最近、OpenAIのCEOの弟であるジャック・アルトマン氏を含む投資家から1,000万ドルを調達しました。「前学期は最も活発な学期でした」とティアン氏は言います。「この問題はなくなりませんが、変化しています。1年前、人々が最もよく尋ねていたのは、「これはAIですか?」でした。現在、教師はAIが教室にあることを知っています。問題は、「どのように対処しますか?」です。
学校でのAIの使用を定量化するのは難しいことです。あるテストでは、Businessweek が、ChatGPT がリリースされた後の 2023 年夏にテキサス A&M 大学に提出された 305 編のエッセイを別々に分析したところ、同じ AI 検出器が約 9% を人工知能によって生成されたものとしてフラグ付けしていることがわかった。
AI ライティング検出器は通常、提出された文章の単語の複雑さを 測る指標である「難解さ」に注目する。「単語の選択がより一般的で定型的な傾向がある場合、その作品は AI 検出器によってフラグ付けされる可能性が高くなります」と、スタンフォード大学の生物医学データサイエンスの教授であり、ESL 学生に関するスタンフォード大学の研究の主任著者である James Zou 氏は言う。
たとえば、AI 検出サービス QuillBot は、[注記](https://quillbot.com/ai-content-detector 「AI 検出器 (広告なし、サインアップ不要) - QuillBot AI)」で、「AI が生成したコンテンツには、繰り返しの言葉、ぎこちない言い回し、不自然で途切れ途切れの流れが含まれる可能性が高い」と述べています。GPTZero はまた、「[バースト性](https://support.gptzero.me/hc/en-us/articles/15130070230551-How-do-I-interpret-burstiness-or-perplexity 「バースト性やパープレキシティをどのように解釈すればよいですか? - GPTZero<)」という基準も考慮に入れており、これは文書全体を通じてパープレキシティがどの程度変化するかを測定するものです。同社によると、AI とは異なり、「人は文書全体を通じて文の構成や言葉遣いを大きく変える傾向があります」とのことです。
AI 検出企業は、自社のサービスを裁判官、陪審員、死刑執行人として扱うべきではなく、教師に情報を提供し、指導するためのデータ ポイントとして扱うべきだと強調している。
Yamin 氏によると、Copyleaks と提携している学校のほとんどは、現在、学生にサービスへのアクセスを許可しており、「学生たちが自分自身を認証し」、自分の AI スコアを見ることができるようになっている。一方、Turnitin は、教師や生徒からのフィードバックに応えて、学生が自分の課題 をまとめるプロセスを示すのに役立つサービスで AI 製品ポートフォリオを拡大しようとしている。
「学生は、『これが自分の作品だと示したいし、それについて疑問の余地がないと確信したい』と言います」と Turnitin の最高製品責任者 Annie Chechitelli 氏は言う。「そして教師は、『学生がこれをどうやって思いついたのか理解するために、もっとデータ ポイントが必要だ』と言います」。
自分の作品がフラグ付けされた後、オルムステッド氏は、新たな告発を避けることに執着するようになったという。彼女は、課題を書いている自分の姿をノートパソコンでスクリーン録画した。彼女は Google ドキュメントで変更内容を追跡し、デジタル ペーパー トレイルを作成しました。語彙や構文を微調整しようともしました。「ここまで来て、また AI のせいだと非難されるのではないかととても不安です」と、春に卒業予定のオルムステッドは言います。「失うものがたくさんあります」。
カリフォルニア大学サンディエゴ校で化学工学を学んでいる 3 年生のネイサン メンドーサは、自分の作品を事前審査するために GPTZero を使用しています。彼は、課題を完了するのにかかる時間の大部分を、誤ってフラグ付けされないように、つまり文章が悪く聞こえるようにしないように、言葉遣いを微調整することに費やしていると語ります。他の学生は、提出物を自動的に書き直して AI 検出器を通過できる、いわゆる AI ヒューマナイザー サービスを利用して、そのプロセスを迅速化しています。
「AI Humanizer」が人間が書いたエッセイを編集してAI検出を回避
ブルームバーグがHix Bypassというサービス をテストしたところ、GPTZeroが誤って98.1% AIと判定した人間が書いたエッセイが、サービスによって変更された後、5.3% AIに劇的に減少したことが判明しました。
AI検出器によってフラグが立てられることへの恐怖から、学生は人気のあるオンラインライティング支援ツールの使用を再考せざるを得なくなりました。2021年に130億ドルの評価を受けたスタートアップのGrammarlyは、基本的なスペルチェックから構造の提案まで、あらゆる面で学生を支援しています。しかし、特定の基準を満たすように提出物全体を自動的に書き直すオプションも追加され、教師が許容できると見なすものの限界を押し広げています。
ブルームバーグは、Grammarlyを使用してエッセイを「改善」したり「学術的に聞こえるようにする」と、100%人間が書いたものとして合格した作品が100% AIが書いたものになることを発見しました。しかし、Grammarly のスペル チェッカーと文法提案は、文書を AI で作成されたように見せることにはわずかな影響しかありません。
フロリダ サウスウェスタン州立大学の学生であるケイトリン アベラルさんは、Grammarly などのプログラムのプラグインをコンピューターからアンインストールしたと言います。ノース ジョージア大学の学生であるマーリー スティーブンスさんは、Turnitin が彼女のエッセイを AI 生成とフラグ付けした後、ペナルティを受けた経験について昨年話題になった TikTok 動画を投稿しました。スティーブンスさんは、懲戒聴聞会で不正行為が判明した後、1 年間の学業停止処分を受けたと語りました。彼女は、Grammarly の標準的なスペル チェックと文法機能のみを使用して、自分で 課題を書いたと主張しました。
「これは善意の学生で、Grammarly を責任を持って使用していたのに、サードパーティのテクノロジーによって不正行為とフラグが立てられたのです。Turnitin の運営方法には、私たちがどうすることもできません。彼らは偽のフラグが立てられていることを理解しているようです」と、Grammarly 教育部門の責任者であるジェニー・マクスウェルは言う。この事件を受けて、Grammarly は、テキストがタイプされたものか、別のソースから貼り付けられたものか、AI モデルによって書かれたものかを識別する学生向けの検出ツールを開発するに至った。「まるで保険のようなものです」とマクスウェルは言う。
一部の教育者と学生にとって、現在のシステムは、教師の机の両側に負担がかかり、AI が今後も存在し続けるため、持続不可能に感じられる。
「人工知能は、私たちが好むと好まざるとにかかわらず、将来の一部となるでしょう」と、メリーランド大学の英語学教授であるアダム・ロイドは言う。「AI を教室から締め出したり、学生に使用を勧めないようにしたりする必要があると考えるのは、誤った考えです。」
ロイド氏は、同校の教員が利用できる Turnitin を使う代わりに、自分の直感に従うことを好んでいる。「私は生徒の文章をよく知っているので、疑念があれば率直に話し合います。自動的に彼らを非難することはありません」と同氏は言う。