赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 05/25 11:10 NF
LQA Agentは人手レビューとの一致率90%を達成:SmartlingはAIによる企業向けローカリゼーション再構築に賭ける
ローカリゼーションSaaSプロバイダーのSmartlingが、LQA Agent、Auto Select LLM、Style Rules for AIを含む大規模なAI翻訳製品アップデートを発表し、AIによる品質評価が人手レビューと90%の
ニュース 05/25 11:05 NF
DeepSeekがV4-Proの75%割引を恒久化:グローバルAI API価格ロジックを再構築する大勝負
DeepSeekはV4-Proモデルの75%割引政策を恒久化すると発表し、AI推論および利用コストを大幅に引き下げた。これは単なる値下げではなく、グローバルAI API市場の価格アンカーを再定義する戦略的な動きである。
ニュース 05/25 11:00 NF
台湾、国家AI戦略委員会を始動:7月にリスク評価、2028年に産業法規、アジア太平洋ガバナンス競争が静かに加速
台湾は5月23日、行政院長が主宰する国家AI戦略委員会を設立し、2024年12月に成立した「AI基本法」の執行作業を開始した。各機関は7月までにリスク評価を完了し、2028年1月までに産業レベルのAI法規を策定することが求められている。
ニュース 05/25 07:02
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
レビュー 05/25 06:46
MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
ニュース 05/25 06:03 NF
Modal Labs が3.55億ドルのシリーズC資金調達、5倍のARR成長率でserverless GPU市場をリード
Modal Labsは3.55億ドルのシリーズC資金調達を完了し、年間経常収益が6000万ドルから3億ドルへ5倍成長を達成。serverless GPUモデルが大規模な商業展開段階に入ったことを示している。
ニュース 05/25 06:03 NF
Cohereがオープンソース化したCommand A+ 218B MoEモデル、企業の主権AIを再構築
Cohereは218BパラメータのMoEモデルCommand A+をApache 2.0ライセンスでオープンソース化し、活性化パラメータわずか25Bで高効率推論を実現。エージェント能力と多言語対応で競合MoEモデルを凌駕し、企業の主権AI展
ニュース 05/25 06:02 NF
米国がAIフロンティアモデル90日連邦審査命令を撤回、米中欧の規制アプローチの相違が浮き彫りに
米国は2026年5月、フロンティアAIモデルに対する90日連邦審査を求める行政措置を署名直前に撤回し、対中AI競争での技術的優位確保を優先した。これにより米中欧の規制アプローチの差がさらに広がり、グローバルAIガバナンスの断片化リスクが高ま
ニュース 05/25 06:00 TC
AIセキュリティのリアルタイム駆け引き:Googleでさえ手探り状態
TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と
レビュー 05/25 03:10
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
レビュー 05/25 03:10
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
レビュー 05/25 03:10
DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。