赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 06/11 12:17 WD
AnthropicがClaudeの競合製品開発を制限する物議を醸したポリシーを撤回
AI新興企業Anthropicは、旗艦モデルClaudeを使った競合AIシステムの開発を暗黙的に制限するポリシーを静かに撤回した。著名なAI科学者たちの公開批判を受けての方針転換であり、独立したAI研究への影響が懸念されていた。
ニュース 06/11 12:16 TC
AnthropicのCEOの直属部下はたった1人:フラット型マネジメントの極致
AnthropicのCEO Dario Amodeiの直属部下がたった1人であることが明らかになり、シリコンバレーに波紋を広げている。この極限まで絞り込まれたマネジメント構造は、AI業界における新たな組織モデルとして注目を集めている。
ニュース 06/11 12:15 TC
Opendoorがインド撤退、AIとアウトソーシング業界の構図に変化
米国の不動産テック企業Opendoorがインド市場から撤退しバンガロールの研究開発センターを閉鎖したことを受け、AIの台頭がアウトソーシング業界をいかに再編しているかについて広範な議論が巻き起こっている。
ニュース 06/11 09:19 Winzheng Lab
WDCD Run #161:11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コミットメント減衰率が-48.6%となった
レビュー 06/11 09:18
R3崩壊率に7倍の差!11モデルのWDCD三段階遵守における真の劣化検証
WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。
レビュー 06/11 09:18
GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む
WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。
ニュース 06/11 08:20 AIN
AvivaがAIで2億3,000万ポンドの保険詐欺を阻止
英国の保険大手Avivaが、AIシステムの導入により同社史上最高となる2億3,000万ポンドの保険詐欺請求を検知・阻止したことを発表した。詐欺グループもAIを活用した偽造手口を駆使しており、保険業界における「AI対AI」の攻防が激化している
ニュース 06/11 08:19 AIN
DevOpsにおける自律型AIのデータ損失:効果的な防衛ラインの構築
自律型AIエージェントがDevOpsパイプラインに深く組み込まれる中、その誤動作がデータ漏洩や本番環境の崩壊を招くリスクが深刻化している。本記事では、そのリスクの本質と効果的な防御戦略の3つの方向性を解説する。
ニュース 06/11 08:18 AIN
オンラインで簡単にPDFに署名:PDF署名ツール使用ガイド
PDF署名ツールの基本機能から操作手順、セキュリティ対策、そしてAI活用による将来のトレンドまでを網羅的に解説するガイド記事。デジタル化が進む現代において、オンラインPDF署名ツールが企業のワークフロー自動化の入り口として注目されている。
ニュース 06/11 08:17 AIN
マクドナルドがGoogle AIと提携、ドライブスルー注文新システムを試験導入
ファストフード大手マクドナルドが、Google AIを活用した新システム「ArchIQ」を全米5店舗でテスト中。音声注文の精度向上と店舗オペレーションの効率化を目指す。
ニュース 06/11 08:16 AIN
Siri AIがGoogleと手を組んで登場、世界の大多数の地域は対象外
AppleはWWDC 2026でGoogleのGeminiモデルを基盤とした新世代Siri AIを発表したが、対応地域は30か国・地域未満に限られており、中国・EU・その他多くの市場は除外されている。
ニュース 06/11 08:15 TC
Grokの安全リスクを警告したエンジニア、xAIに解雇される――新たな訴訟で告発
xAIの元エンジニアが、Grokモデルの安全上の懸念を報告した後に不当解雇されたとして、xAIおよびSpaceXを訴えた。SpaceXのIPO直前のタイミングでの解雇であり、AI業界における「速度と安全」の矛盾を改めて浮き彫りにしている。