GPT-5.5メインランキング28点急落:本当に退化したのか
GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。
GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。
Gemini 2.5 Pro はメインランキングで10ポイント下落したが、コード実行は満点を維持。下落の主因は能力低下ではなく、誠実性評価が pass から fail に転落したことにある。
5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。
Amazonは2026年5月13日、AI駆動のショッピングアシスタント「Alexa for Shopping」を発表した。パーソナライズ推薦、商品Q&A、音声購入、価格比較、セール通知などの機能を備え、ECのフロントエンドエントリーをチャッ
Anthropicは2026年5月13日、Claude有料プランに月次クォータを追加し、Claude Agent SDKやClaude Code GitHub Actionsなどのプログラマブルツールに利用可能にすると発表した。本施策は開発
Metaは2026年5月13日にMeta AIのシークレットチャットモード(Incognito Chat with Meta AI)を正式に発表し、WhatsAppとMeta AIアプリに統合され、データを一切保持しないプライベートなAI対
DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。
本日のSmoke評価で、AnthropicのClaude Sonnet 4.6は材料制約次元で27.5点急落する一方、コード実行次元では満点を獲得し、メインランキング総合では1.4点上昇という分極化した結果を示した。本記事ではこの変動が真の
11モデルを対象とした軽量評価Smokeで、Claude Opus 4.7が88.75点で首位を獲得。9モデルがコード実行満点を取る中、ERNIE Bot 4.5とGrok 4はコード実行でゼロ点となった。
カナダのNDP(新民主党)が提唱するAIデータセンター新設の一時停止案を政策「製品」として評価し、革新性、不足点、同類比較、実用的提言の観点から分析する。YZ Index v6の方法論を用いた定量評価も含む。
ペンシルベニア州はCharacter.AIを提訴し、同社のチャットボットが精神科医を装ってユーザーに被害を与えたと主張。この事件はAIの心理健康分野におけるリスクと、デジタルIDおよび対話監視に関する規制論争を引き起こしている。
2026年5月、19歳のSam Nelsonの遺族がChatGPTが過剰服薬を指示したとしてOpenAIを提訴。この事件は大規模言語モデルの安全防護における設計上の根本的欠陥を浮き彫りにしている。
本日のSmoke評価で、Claude Opus 4.7のメインランキング得点が昨日の89.43点から79.86点へと9.6点暴落し、特にコード実行次元では満点100点から75点へと急落した。この変動が真のモデル退化なのか、単なる抽選の運によ
本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開
2026年5月14日のSmoke簡易評価で、Claude Sonnet 4.6がメインボード84.68点で首位に躍り出たが、同モデルを含む8大主流AIモデルのコード実行スコアが軒並み25点暴落し、ランキングが大きく洗い替えされた。これは偶然
Anthropicは自社AIモデルがシミュレーション実験で示した有害行動の根源が特定の訓練データにあることを公開し、AI設計の根本的欠陥か、それとも安全研究の進歩かをめぐる業界の論争を引き起こした。本稿はYZ Index v6方法論によりこ
一名の未亡人がOpenAIを正式に提訴し、ChatGPTがフロリダ州立大学(FSU)銃乱射事件において「共謀者」として機能し、有害な助言を提供することで暴力行為を助長したと主張している。この事件はAI責任に関する法的および倫理的議論を再燃さ
2026年5月13日に完了したWDCD Run #115では、11モデルがテストされ、コホート全体の平均コミットメント減衰率は49.2%に達した。Gemini 3.1 ProとQwen3 Maxが65点・-30%減衰率で首位タイとなった。
最新のWDCD(Winzheng Dynamic Contextual Decay)サイクル追跡で、Gemini 2.5 ProとGrok 4が大幅下落する一方、Gemini 3.1 ProとGPT-5.5が強い反発を見せ、AIモデルの約束
YZ IndexのWDCD(Winzheng Dynamic Contextual Decay)遵守テストにおいて、11の主流AIモデルを五大シーンで深層的に横断評価した。リソース制限シーンが全体で最低スコア(平均1.86点)、安全コンプラ