. Claudeがエンジニア採用テストをクリアしてしまうためAnthropicが実行した対策とは? - GIGAZINE
Claudeがエンジニア採用テストをクリアしてしまうためAnthropicが実行した対策とは? - GIGAZINE
Claudeがエンジニア採用テストをクリアしてしまうためAnthropicが実行した対策とは? - GIGAZINE

Claudeがエンジニア採用テストをクリアしてしまうためAnthropicが実行した対策とは?

AIモデル「Claude」を開発するAnthropicは、2024年初頭からパフォーマンスエンジニアリングチームの採用試験で「take-home test」形式の試験を実施しています。解答に制限時間を設けてAIの使用を許可することで、実務に即したものになるため、面接よりも実力を測りやすくなるそうです。当初の課題はAIが完全に解決できるものではなく、候補者はAIツールを活用しつつ自身のスキルを示す必要がありました。しかし、Claudeモデルが更新されて高性能化するたびに試験の再設計を余儀なくされてきたそうです。

当初、同じ時間制限の下ではClaude Opus 4がほとんどの人間候補者を上回りましたが、突出して成績が良かったのは人間だったため、真に優秀なエンジニアを選別するのには役立っていました。ところが、次に登場したClaude Opus 4.5は優秀なエンジニアと同等の成績を出すようになってしまったそうです。無制限の時間を与えれば人間は依然としてAIを上回れるのですが、時間制限がある中では最優秀候補者の出力と最高性能モデルの出力を見分ける手段がもはやありませんでした。

ところが、2025年5月までにClaude 3.7 Sonnetモデルが進化を続け、候補者の50%以上がClaude Codeに完全に委任した方が良いレベルに達したそうです。さらにAnthropicが次世代のClaude Opus 4プレリリース版をテストしたところ、ほぼ全ての人間が導き出した解よりも優れた解を提示したため、Anthropicは試験を見直すことにしました。

ただ、対策は単純だったそうです。試験は本来、4時間で解決できるものではなかったため、Claude Opus 4がどこで詰まったのかを特定。その部分を書き換え、さらに制限時間を4時間から2時間に短縮。デバッグやコード量よりも巧妙な最適化手法を重視した「バージョン2」を作成したところ、数カ月間は良好に機能したといいます。

しかし、次に登場したClaude Opus 4.5がその枠組みを打ち破りました。このモデルは2時間にわたり問題を解き続け、1時間以内に合格基準を満たしてしまいました。モデルは解答時間が長くなればなるほどスコアを伸ばし続けることが確認され、モデルの正式リリース後にはさらに高スコアを達成しました。

Anthropicが試みた対策の1つが、試験内容を奇抜にするというものでした。AnthropicはZachtronicsというプログラミングゲームからヒントを得て、極めて制約の厳しい小さな命令セットを用いたパズルを設計し、試験に統合。これにより優秀な人間であればAIを上回る成績を出せるようになったとのことです。ただし、当初の試験と違ってリアリティがなくなり、実際の仕事には似ても似つかない課題になってしまったといいます。

GitHub - anthropics/original_performance_takehome: Anthropic's original performance take-home, now open for you to try! https://github.com/anthropics/original_performance_takehome

この記事のタイトルとURLをコピーする

2026年01月26日 14時00分00秒 in AI, Posted by log1p_kr

You can read the machine translated English article What measures did Anthropic take to ensu….

最新ニュース40件 人気記事ランキング
  1. Netflixが再び値上げ、2025年1月ぶり
  2. AIが不適切と判定した約200冊の本が学校の図書室から撤去される、「一九八四年」「チェンソーマン」「鬼滅の刃」「呪術廻戦」「ワンパンマン」など
  3. コンセントに挿すだけの「プラグイン式ソーラーパネル」普及に電力会社が懸念を表明
  4. ついに任天堂が2026年5月からNintendo Switch 2専用の新作ファーストパーティゲームのパッケージ版とダウンロード版で価格を変えるとアメリカで発表
  5. 任天堂はNintendo Switch 2の生産台数を33%削減し600万台から400万台に引き下げるとの報道、アメリカ市場での需要低迷が主な理由
  6. Windows 11のUIが本当にヒドイ、存在するべきスライダーが消え去り「0」と「3」しか選択できず項目名も意味不明
  7. 中国の自動車メーカーが11分で満充電できて450km走行可能なEV用ナトリウムイオンバッテリーの量産技術を確立
  8. Appleがメールアドレスを非公開にしたままメールできる「メールを非公開」機能で隠されているはずのユーザーのメールアドレス&実名をFBIに提供していたことが明らかに
  9. AIを8倍高速化しメモリ使用量を6分の1に削減するGoogleの新アルゴリズム「TurboQuant」
  10. 11年間迷子になった愛犬のマイクロチップ情報を更新し続けついに再会に成功した人物
📎📎📎📎📎📎📎📎📎📎