赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 05/23 08:01 TC
AI技術で墜落事故パイロットの声を「復活」、NTSBが緊急にシステムを封鎖
何者かがAIを使い、墜落事故の操縦室録音スペクトログラムから故パイロットの声を「復活」させたため、米国家運輸安全委員会(NTSB)は2026年5月23日に公開案件文書システムへのアクセスを一時的に封鎖した。本事件はAI音声再構築技術の倫理的
ニュース 05/23 06:12 NF
Qwen3.7-Max発表:エージェント時代の旗艦モデル、35時間の無人カーネル最適化をサポート
Qwen3.7-Maxの発表が確認され、AIがエージェント時代へ進む重要な一歩を示した。エンドツーエンドのコーディング、マルチファイルリファクタリング、35時間の無人カーネル最適化タスクをサポートし、ツール呼び出しは1000回を超え、長時間
ニュース 05/23 06:10 NF
NVIDIAとDellがAI Factoryアップデートを発表 企業AI導入加速もアーキテクチャ依存リスクが併存
NVIDIAのJensen HuangとDellのMichael Dellが共同でDell AI Factoryの大型アップデートを発表し、Vera Rubinアーキテクチャを採用した企業向け自律AIエージェントプラットフォームを公開した。
ニュース 05/23 06:09 NF
ミシガン州の小さな町がOpenAIデータセンターを否決後に提訴される 地方主権とテクノロジー拡張の衝突
ミシガン州Saline Townshipの町議会が、OpenAIとOracleが共同で建設する160億ドルのデータセンターを4対1の投票で否決した2日後、開発業者が訴訟を提起した。本件はAI拡張における地方主権と材料制約の衝突を露呈している
ニュース 05/23 06:01 TC
水増しARR:VCと創業者が手を組んでAIユニコーンを戴冠させる
AI投資ブームの中、多くのAIスタートアップがARR(年間経常収益)を大幅に水増しし、VCもこれを黙認している実態が浮き彫りになっている。「成長ナラティブ」が財務の真実を上回るこの現象は、業界に系統的リスクをもたらす可能性がある。
ニュース 05/23 06:00 TC
GoogleがディスコボールアイコンでPixelに新登場:本当にこれが欲しかった?
Googleが最新のPixel体験で、ホーム画面全体をディスコボール風に変える機能を提供開始。アプリアイコンや壁紙がきらめく光を反射する派手なデザインで、ユーザーから賛否両論を呼んでいる。
ニュース 05/23 04:02 TC
SpaceXがIPO申請を提出:火星上陸への財務的賭け
SpaceXは2026年5月22日にSECへS-1文書を提出し、人類の火星殖民の夢を財務モデルに組み込んだ。同社は総アドレス可能市場(TAM)を28兆ドルと定義し、評価額2500億ドル超を目指す米国史上最大規模のIPOに挑む。
ニュース 05/23 04:01 TC
マスクの1.75兆ドルIPOが業界に衝撃
SpaceXが2026年5月23日に米SECへS-1登録届出書を提出し、史上最大規模となる1.75兆ドル評価のIPOを始動した。マスクのCEO報酬は火星探査の達成度に連動する革新的な設計となっている。
ニュース 05/23 04:00 ARS
米国、AIによる故パイロット音声の復元を緊急停止:法的抜け穴と倫理的危機
米国でAI音声クローン技術を用いて故パイロットのコックピット音声を復元する事案が発生し、当局が緊急対応に追われている。航空安全、技術倫理、法的境界を巡る激しい議論を引き起こしている。
レビュー 05/23 03:11
Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増
Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった
レビュー 05/23 03:10
Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇
本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。
レビュー 05/23 03:10
素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に
本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下