多模态AI に関するニュース

マイクロソフト、新たに3つの基礎モデルを発表しAI競争に挑む

マイクロソフトは、OpenAIやGoogle、Anthropicといった競争相手に対抗するため、3つの新しい基礎モデルを発表しました。これにより、生成AI市場での存在感を一層強化しようとしています。

2026年4月4日 218

Gemini 3.1 Flash Live初公開：対話ロボットの真偽判別が困難に

GoogleがGemini 3.1 Flash Liveを発表し、その革命的な対話型音声AIモデルがGoogle検索、Geminiアプリ、開発者ツールで正式にリリースされた。稲妻のような応答速度と高度にリアルな音声合成能力により、ユーザーは

谷歌Gemini AI语音交互机器人辨识多模态AI

2026年3月27日 155

海外

マルチモーダルAIが金融を革新：複雑なワークフローの自動化

マルチモーダルAIが金融業界の複雑な文書処理を自動化し、従来のOCRシステムの限界を克服して効率を大幅に向上させている。

多模态AI 金融自动化工作流优化 OCR技术

2026年3月25日 117

オリジナル

Meta Llama 3.2ビジュアルモデルが重大発表：オープンソースマルチモーダルAIがモバイル時代へ

MetaがLlama 3.2ビジュアルモデルシリーズ（11B・90Bパラメータ版）を発表し、Llamaファミリー初の視覚機能を搭載。軽量11Bモデルはスマートフォンで効率的に動作可能で、オープンソース化後わずか数日でダウンロード記録を更新し

Llama 3.2 视觉模型开源AI Meta

2026年3月10日 375

オリジナル

Google Gemini 2.0のマルチモーダルアップグレード：動画理解とエージェント能力が飛躍的向上、ベンチマークテストでSoraを超える

GoogleがGemini 2.0のマルチモーダルアップグレードを重大発表し、動画理解とインテリジェントエージェント能力において飛躍的な進歩を遂げ、ベンチマークテストでOpenAIのSora動画生成モデルを上回ったことで業界の注目を集めてい

Gemini 2.0 多模态AI 视频理解 Google DeepMind

2026年3月9日 287

海外

Claude Code音声モード公開、AnthropicがAIプログラミング分野に本格参入

AnthropicがClaude Codeに音声モード機能を追加し、自然な音声対話によるプログラミングを実現。AIプログラミング分野での競争力を大幅に強化した。

Anthropic Claude Code 语音模式 AI编程

2026年3月4日 363

オリジナル

Gemini 2.0の流出情報が明らかに：マルチモーダル能力がSoraを超える可能性、GoogleのAI戦略に注目集まる

Googleの次世代大規模モデルGemini 2.0に関する流出情報が話題となっており、特に動画理解性能がOpenAIのSoraモデルを上回るとされている。Google I/O開発者会議の延期と相まって、業界のGoogleAI戦略への期待が

Gemini 2.0 多模态AI Google 视频理解

2026年3月3日 238

海外

Google、Gemini 3.1 Proを発表：複雑な問題解決能力が大幅に向上

Googleは2026年2月20日、複雑な問題解決に特化した最新AIモデル「Gemini 3.1 Pro」を発表し、長鎖推論や多モーダル統合において驚異的な性能を示した。

谷歌Gemini AI模型复杂推理多模态AI

2026年2月20日 462

海外

Google Geminiアプリに音楽生成機能追加、テキスト・画像・動画入力に対応

Googleは旗艦AIアプリGeminiに音楽生成機能を追加し、テキスト、画像、動画を入力として高品質な音楽を生成できるようになった。この革新により、AI音楽創作がより身近で直感的な時代へと進化している。

谷歌Gemini AI音乐生成多模态AI 音乐AI

2026年2月19日 430

海外

インドAIラボSarvamの新モデル：オープンソースAIの実現可能性への大きな賭け

インドのAIラボSarvamが30億・105億パラメータのLLMを含む新モデル群を発表し、オープンソースAIの可能性に大きく賭けた。これらのモデルは12以上のインド言語に対応し、多言語・多文化環境に最適化されている。

Sarvam AI 开源模型印度AI 大语言模型

2026年2月18日 652

オリジナル

xAI、Grok-1.5 Visionを発表：マルチモーダルAI能力でGPT-4Vを上回り、リアルタイムXデータ活用で大反響

xAIが初のマルチモーダル大規模言語モデル「Grok-1.5 Vision」を発表し、RealWorldQAベンチマークでOpenAIのGPT-4Vを上回る性能を示した。Elon Muskが自らXプラットフォームでデモを行い、わずか数時間で

Grok-1.5 Vision xAI 多模态AI RealWorldQA

2026年2月12日 498

オリジナル

Meta Llama 3.2ビジュアルモデルリリース：軽量マルチモーダルAIがスマートフォン時代を開く

Meta AIチームがLlama 3.2シリーズモデルを発表し、Llamaファミリー初のビジョン機能を導入。軽量1B・3Bパラメータ版はスマートフォンでの動作に最適化され、マルチモーダルAIの消費者向けデバイスへの展開における重要な一歩とな

Llama 3.2 Meta AI 视觉模型多模态AI

2026年2月9日 445

オリジナル

Baidu文心一言4.0 Turbo版重大リリース：推論速度3倍向上、中国語マルチモーダル能力が業界をリード

Baiduが文心一言4.0 Turbo版を正式リリースし、推論速度を3倍に向上させ、中国語マルチモーダル能力を強化。デモ動画が中国語SNSで急速に拡散し、開発者テストではGPT-4に匹敵する性能と評価された。

文心一言百度AI Turbo 大模型

2026年2月7日 492

オリジナル

Google Gemini 2.0 Flash正式リリース：軽量・高速マルチモーダルAIモデルが開発者の熱狂を呼ぶ

Googleが2024年12月に発表したGemini 2.0 Flashは、低遅延と高効率を実現した軽量マルチモーダルAIモデルで、リリース以来10万回以上のベンチマークテストを記録し、開発者コミュニティで大きな注目を集めています。

Gemini 2.0 Google 多模态AI 实时应用

2026年2月4日 276

オリジナル

Moonshot AI Kimi新バージョンリリース：長文コンテキストとマルチモーダル機能が中国語AIブームに火をつける

中国のAIスタートアップMoonshot AIのチャットボットKimiが大幅アップグレードを実施し、超長文コンテキストウィンドウとマルチモーダル機能でネットを席巻。ユーザーからは「国産GPTキラー」との称賛が相次ぎ、中国語大規模言語モデル（

Kimi Moonshot AI 中文LLM 长上下文

2026年2月3日 934

オリジナル

xAI Grok-2正式リリース：多モーダル能力がトップモデルに匹敵、Elon Muskが自らテストし話題に

2023年8月13日、xAIはGrok-2とGrok-2 miniを正式に発表しました。これらの新しいAIモデルは、画像理解やリアルタイムのXプラットフォームデータ処理で優れた性能を示し、Elon Muskが自らデモを行ったことで注目を集め

xAI Grok-2 多模态AI 图像生成

2026年2月3日 419