オリジナル

レビュー

GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

GPT-o3は今回のv6評価で総合スコアが向上したものの、厳格問題「蓄水池サンプリング」で100点から0点に急落し、コード実行の信頼性に課題が露呈した。エンジニアリング判断は急上昇したが、正確なアルゴリズム実装能力には依然として系統的なリス

GPT-o3 代码执行 蓄水池采样 得分波动
110
レビュー

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

代码执行 材料约束 Claude Opus 4.7 Smoke评测
221
オリジナル

AIバブル懸念がインターネットバブルを想起させる:MicrosoftとOpenAIの循環収益モデルが市場で論争を呼ぶ

MicrosoftとOpenAI間の循環的な収益モデルが、2000年前後のインターネットバブル期の商業ロジックと類似しているとの指摘が浮上し、AI業界のバブル懸念が高まっている。市場はAI関連株の調整で反応し、投資家はバブルリスクに対する敏

AI泡沫 OpenAI 科技泡沫
151
オリジナル

Cloudflareレポート:AIエージェントのトラフィックが初めて人間を超え、インターネットの未来に激変の可能性

Cloudflareの最新レポートによると、AIエージェントが生成するトラフィックが初めて人間ユーザーを上回り、現在のAI関連トラフィックは全体の50%以上を占め、agentic AIが本格的な発展段階に入ったことを示している。

AI agents bot traffic Cloudflare
266