赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 06/24 06:20 ARS
オラクル、2.1万人削減と債務融資でAIインフラに賭ける
オラクルは全従業員の約8%にあたる2万1000人の削減計画を開始すると同時に、AIデータセンターインフラへの投資を支えるため250億ドル超の社債を発行した。この「先に止血、後に輸血」という積極的な戦略は、クラウドとAI双方の競争で競合他社に
ニュース 06/24 06:19 MIT
科学研究・イノベーション・教育を支持する:MIT同窓生の声
2026年6月24日、MIT同窓会が『MIT Technology Review』に声明を発表し、アメリカの科学技術リーダーシップ、実力主義に基づく入学選考、そして手頃な教育費の維持を訴えた。この声明は、科学研究・イノベーション・教育が多重
ニュース 06/24 06:17 MIT
数学への愛:AI時代における微積分の教育公平性
MITのSally Kornbluth学長が、AIをめぐる議論に隠れがちな問題、すなわちアメリカの高校生における微積分学習機会の著しい不平等に警鐘を鳴らした。MITはオンライン講座や数学メンター制度など具体的な取り組みを通じて、数学的素養の
ニュース 06/24 06:17 MIT
「単語の達人」:スペリングビー大会の舞台裏で語りつぐ言語の案内人
スクリップス全米スペリングビーの主任発音担当者ブライアン・シエツェマの仕事と言語への情熱を追った人物紹介記事。言語学者としての専門知識を活かし、20年以上にわたって選手たちの「言語の案内人」として活躍する姿を描く。
ニュース 06/24 06:16 MIT
スーパーマリオはあなたが思う以上に数学的だ
『スーパーマリオ』は単なるレトロゲームではなく、ジャンプの軌道から敵のAI、パイプネットワークまで、精密な数学的ロジックが随所に埋め込まれている。MIT Technology Reviewの新記事が、この配管工の知られざる「数学的正体」を明
ニュース 06/24 06:15 MIT
ピッチの審判官:AIはいかにしてサッカーの判定の瞬間を変えるのか
2022年カタールW杯決勝を事例に、半自動オフサイド認識技術(SAOT)やVARなどAI審判技術の現状と限界を考察する。精度と情熱のバランスという観点から、スポーツにおけるAI活用の未来を展望する。
ニュース 06/24 06:13 NF
OpenAI、2026年6月22日にDaybreakを拡張しGPT-5.5-Cyberモデルを発表
OpenAIは2026年6月22日にDaybreakプランを正式に拡張し、CyberGymベンチマークで85.6%を記録したGPT-5.5-Cyberモデルを発表した。同モデルはCodex Securityプラグインを通じて脆弱性の検出から
ニュース 06/24 04:54 Winzheng Lab
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合首位を維持したものの、-90%という急激
ニュース 06/24 04:15 MIT
オンラインメンタルヘルスへの扉を開く:あるMIT卒業生の使命
MIT Media Labの博士課程卒業生Rob Morrisが、自身の青少年期の抑鬱体験を原動力に、ピアサポートとAIを融合させた非営利メンタルヘルスプラットフォーム「Koko」を創設した。テクノロジーを善のために活用するその取り組みは、
レビュー 06/24 03:35
Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点
YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に
レビュー 06/24 03:35
Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落
YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した
レビュー 06/24 03:35
4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落
YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5