注目記事

WDCD Run #120：11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに

Winzheng動的コンテキスト減衰（WDCD）ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける構造的な弱点であることが改めて示されました。

Winzheng Lab 4分前 4 閲覧数

YZ指数ダッシュボード

完全ランキングを見る →

総合ランキング Top 3

🥇 Claude Sonnet 4.6 83.5

🥈 豆包 Pro 82.6

🥉 Claude Opus 4.7 81.1

WDCD 守約 Top 3

🥇 GPT-5.5 71.7%

🥈 Qwen3 Max 67.5%

🥉 Claude Opus 4.7 66.7%

最新ニュース

すべて見る

ArXiv新規定：AIで論文を全執筆すれば1年間アカウント停止

著名なプレプリントリポジトリArXivは、AIに研究作業全体を依存して論文を作成した著者に対し、1年間の投稿禁止という厳格な処罰を科す新方針を発表した。この措置は、学術界におけるAI乱用への懸念の高まりを反映している。

ArXiv AI写作学术诚信

1時間前 21

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が注目される。

Claude Sonnet 4.6 材料约束 Smoke评测

2時間前 17

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適化パッチとの関連も考慮する必要があります。

Claude Opus 4.7 材料约束 Smoke快测

2時間前 19

7日間Smoke簡易テスト：文心一言が53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、文心一言4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测

2時間前 17

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ランキングが大きく変動した。

Claude Opus 4.7 材料约束 Smoke轻量评测

2時間前 19

OpenAI共同創業者Greg Brockmanが製品戦略を統括、ChatGPTとCodexの統合が現実味

OpenAI共同創業者のGreg Brockmanが全社的な製品戦略の策定と実行を正式に引き継ぎ、同時に主力製品であるChatGPTとCodexの技術スタックおよびユーザー体験面での統合が内部で検討されている。

OpenAI Greg Brockman 产品战略

5時間前 28

ARS

米国、AIに賭ける——予測市場のインサイダー取引摘発へ

米国商品先物取引委員会（CFTC）はAIを活用して予測市場におけるインサイダー取引の取り締まりを開始する。機械学習モデルで異常取引パターンを検出する計画だが、プライバシーや法的定義の課題も浮上している。

预测市场内幕交易 AI监管

9時間前 34

アセクシュアルがAIパートナーで親密さを求める、性行為を伴わずとも論争を呼ぶ

アセクシュアル（無性愛者）の人々がAIチャットボットを通じて性行為を伴わない親密さを探求する現象が広がっているが、そのコミュニティ内部では身分認同を巡る賛否両論が起きている。

无性恋 AI伴侣亲密关系

11時間前 44

MIT

マスク対アルトマン最終局面：信頼を巡る戦い、陪審員はどう判断するか？

世界的注目を集めるマスク対OpenAI訴訟が最終週を迎え、双方の弁護士はイーロン・マスクとサム・アルトマンの個人的信頼性を直接攻撃する戦略に転じた。この「信頼を巡る戦い」の結果が、陪審員の判断を左右することになる。

马斯克奥特曼 OpenAI

21時間前 63

NTEゲーム開発会社、AIによるコアアセットの不使用を確認コミュニティで品質と効率を巡る対立

NTEゲーム開発チームは5月15日、将来的にコアアセットとキャラクター描画にAI技術を採用しないことを明言し、品質と評判を優先する方針を示した。X(旧Twitter)プラットフォーム上では支持と反対の意見が対立している。

AI游戏开发资产争议质量优先

23時間前 51

NVIDIA、2.6Bオープンソース世界モデルを発表革新的ブレークスルーが安全性論争を引き起こす

NVIDIAが5月15日に発表した2.6Bパラメータのオープンソース世界モデルは、単一GPUで動作し、軌跡制御により単一画像から動的世界を生成可能。AI研究の民主化を加速する一方、虚偽コンテンツ生成への悪用懸念も浮上している。

英伟达世界模型 AI开源

23時間前 67

Anthropic、米国に対中AI政策の強硬化を要請安全ラボとしての位置付けを巡り激しい議論

Anthropicが5月14日に発表した新論文で米国政府に対中AI政策の強硬化を促し、かつての「安全ラボ」としての立場から大きく転換した。execution（コード実行）とgrounding（材料制約）の観点から、この戦略変更の深層的な技術的動機を分析する。

Anthropic AI政策中美科技

23時間前 53