10 個の AI で自分自身をテストしてください

ニュース

ホームページホームページ / ニュース / 10 個の AI で自分自身をテストしてください

Jul 24, 2023

10 個の AI で自分自身をテストしてください

Il News Quiz è una tradizione del TIME dal 1935.

ニュース クイズは 1935 年から続く TIME の伝統です。このテストは時事問題の知識を調べるために全国の学校で繰り返し使用され、クロスワード バージョンもありました。

さて、最近 TIME のデジタル ペイウォールが廃止されたことで、誰もが 1 世紀にわたるジャーナリズムの扉を開き、歴史を形作った人々についての知識を試す機が熟しました。 TIME のアーカイブには 2 億語が含まれているため、人間が作成した膨大な量のテキストを数秒で分析できる新世代の AI テクノロジーに適したタスクです。

では、雑誌記事をもとにニュースクイズを生成するタスクに最先端の AI の力を活用するとどうなるでしょうか?

以下に、Time アーカイブから厳選した 10 のストーリーに基づいて、ChatGPT の背後にあるテクノロジーをトレーニングして作成した 10 のクイズがあり、現在は誰でも無料で利用できます。 元の発行日の横にある記事の見出しをクリックするだけで、各クイズの基になっている記事にジャンプします。 インタラクティブの下では、私たちが要求したことを実行するように人工知能に教えるために、どのように人工知能と交渉したかについて説明します。

ChatGPT が生成できる本当に驚くべき出力のいくつか (たとえば、SF 小説のプロットや聖書テキストの模擬) を考えると、クイズを作成することは、(いわば) 簡単な課題のように思えるかもしれません。 そして一見その通りです。 ChatGPT に単純に「この記事に基づいてクイズを作成してください」と依頼し、テイラー・スウィフトに関する TIME の 2014 年のカバーストーリーへのリンクを提供すると、各回答に 4 つの選択肢がある 10 問のクイズがすぐに出力されました。

いくつかの質問は的中しました。 (Q: テイラー・スウィフトのファンは何と呼ばれることで有名ですか? A: スウィフティーズ。) しかし、多くはこの記事が出版されてからかなり後に起こったアルバムやイベントに言及しており、1 つはまったく間違っていました。 (「彼女が初めて政治候補者を公に支持するきっかけとなったのはどのような出来事だったのでしょうか?」ChatGPTはそれが2020年の選挙だったと主張したが、2018年に彼女がテネシー州の民主党議員2人を支持したことを私たちが思い出させたとき、撤回して謝罪した。)

多くの場合、ChatGPT とそのさまざまなライバルは魔法と区別できないように見えるかもしれません。 したがって、ボットがすぐには完璧に近い能力を発揮できない課題を見つけることは有益です。 あらゆる失敗は、内部で何が起こっているかを知る手がかりになります。

それでは、多肢選択問題のクイズの内容と、そのためにマシンが行う必要があることを詳しく見てみましょう。

人間にとって、特にニュースクイズをいくつか見たことがあり、その演習に精通している人にとって、これはおそらく必要以上の指導です。 しかし、最近まで、機械にとってはそれだけでは十分ではありませんでした。 1 年前、この演習には、大量のコードを作成し、さまざまなアルゴリズムと事前トレーニングされた言語モデルの間で選択し、「ハイパーパラメータ」、つまりトレーニング プロセスのために人間が定義した開始条件を絶えず微調整することが含まれていたでしょう。

この新しい世界では、課題はその中間にあります。 Python で命令を記述すると、単一のキーストロークを間違えると操作全体が狂ってしまう可能性があるため、その代わりに、できるだけ正確かつ文字通りに、平易な英語で命令をマシンに送信します。

これは「思考連鎖」プロンプトとして知られており、チャットボットとの会話をバイパスして、代わりに ChatGPT の頭脳と直接やり取りして、OpenAI API に直接送信できます。 導入には依然として Python などの言語を使用しますが、すべての難しい作業を行うのはボットです。

上記の命令のバージョンを API に送信し、結果をランダム化するかどうかにかかわらず、「温度」を 0 に設定しました。これは、同一のコマンドを送信するたびにモデルが同じように応答することを意味します。 同じテイラー・スウィフトのストーリーを与えたところ、別の 10 個の多肢選択式の質問が返されました。 ここにその 1 つがあります:

2014 年のビルボードのウーマン・オブ・ザ・イヤーに選ばれたのは誰ですか?

a:リアーナ

b:テイラー・スウィフト

c:レディー・ガガ

d:ビヨンセ

何か推測はありますか? ヒント: 他の 9 つの質問のうち 5 つの質問に対する答えも「Taylor Swift」でした。

私たちの最初の詳細は、モデルが過去に分析した膨大な量のテキストから知っていることに頼るのではなく、ボールをよりよく隠し、答えを記事テキストに限定することを要求することでした。 一度に最大で約 2,000 語を処理できるため、ほとんどの場合、ストーリーを完全な段落の塊に分割する必要がありました。

私たちが決定した手順は、言い換えると次のようになります。

初期の試行では、出力には「本文によると」など、実際に記事を読んだかユーザーに質問しているかのような文言が含まれることが多かったことがわかりました。 読解テストではなく雑学形式の問題を書くことになっていたことを思い出すのに苦労しました。 2016年のモハメド・アリの死亡記事に基づいたクイズでは、質問の中でこのボクサーを「カシアス・クレイ」と呼ぶこともあり、アリの元の名前についてユーザーにクイズを出題することもあった。

人工知能は不可解に思えることが多いですが、思考連鎖プロンプトの優れた点は、プロセスの各ステップでモデルに何を「考えている」かを尋ね、言語を調整して最良の結果を引き出すことができることです。 機械はすべての事実を取得する必要がありますか? たった3つの事実? 五? 「本文によると」という表現をやめてもらうにはどうすればよいでしょうか?

これらすべてのジレンマは、平文の命令はコードで記述された命令よりも構築するのが簡単である一方で、デバッグがはるかに難しい場合があるという事実から生じる自然な副産物でした。 ある時点では、命令をモデルにフィードバックして、命令の表現方法についてモデルがどのような考えを持っているか、より一貫性のある出力を得るためにどのように別の書き方ができるかを尋ねることさえしました。 その考えは役に立ちました。

その結果、TIME 編集者による一連の細かい調整が必要でしたが、主に解析が困難であったり、何年も経ってもわかりにくくなったオプションを削除することでした。 カットされた質問はすべて、今後の試行で回避するようにモデルに要求できる質問になります。

これは、今後数年のうちに、多くの現代のコンピュータ プログラミングがどのようになるかということです。人間と機械が、前者の言語と後者のロジックで協力してタスクを完了し、問題を解決します。 コンピュータープログラミングの終焉を告げる人たちは、将来の開発者がソフトウェアを書く際に正式なコンピューター言語に依存することが少なくなるだろうという見方は正しいかもしれない。 しかし、この演習が何らかのガイドになるとしても、彼らはやはりプログラマーのように考える必要があるでしょう。

書き込み先クリス・ウィルソン([email protected]

ハリー王子、王室の慣例を破る インドの鉄道網は安全か? 世界は AI にどう対応すべきか エリオット・ページ: トランスジェンダーとしてのアイデンティティを受け入れることで私は救われた テキサスの高跳び選手が 100 万ドル近くの借金を稼いだ 学生ローンの借り手には上限協定が適用された LGBTQ のリアリティ番組 世間話が上手になる