高品質な Android アプリをより速く、より簡単に構築できるようにしたいと考えています。生産性を高める手助けをする 1 つの方法は、AI を手元に置くことです。Android プラットフォームのニュアンスを真に理解する AI が求められていることを知っています。それが、LLM が Android 開発タスクをどのようにこなすかを測定してきた理由です。今日、Android 開発のための LLM の公式リーダーボードである
Android Bench (英語) の最初のバージョンをリリースしました。
Google のゴールは、モデル作成者に Android 開発のための LLM 機能を評価するためのベンチマークを提供することです。高品質な Android 開発がどのようなものであるかについて、明確で信頼できるベースラインを確立することで、モデル作成者がギャップを特定し、改善を加速することを助けています。それは、デベロッパーがより幅広く役に立つモデルから AI アシスタントを選択でき、より効率的に働くことを可能にします。それは最終的に、Android エコシステム全体にわたる、より高品質なアプリへとつながります。
実際の Android 開発タスクに基づいて設計
一般的な Android 開発領域の範囲に対するタスク セットをキュレーションすることで、このベンチマークを作成しました。それは、公開されている GitHub の Android リポジトリから提供された、さまざまな難易度の実際のチャレンジで構成されています。シナリオには、Android リリースをまたぐブレイキング チェンジの解決、ウェアラブル上のネットワーキングのようなドメイン固有のタスク、Jetpack Compose の最新バージョンへの移行などが、いくつか例を挙げると含まれています。
各評価は、LLM にタスクで報告された問題を修正することを試み、それをユニット テストまたはインストルメンテーション テストを使用して検証します。このモデルに依存しないアプローチにより、モデルが複雑なコードベースをナビゲートし、依存関係を理解し、毎日遭遇するような種類の問題を解決する能力を測定することができます。
JetBrains を含むいくつかの LLM メーカーと、この手法を検証しました。
「Android への AI の影響を測定することは非常に大きな挑戦です。そのため、これほど堅実で現実的なフレームワークを見るのは素晴らしいことです。私たちは自社でも積極的にベンチマークを行っていますが、Android Bench はユニークで歓迎すべき新たな指標です。この手法は、まさに Android デベロッパーが今必要としている厳格な評価指標だと言えます。」
— Kirill Smelov(JetBrains, Head of AI Integrations)
初回の Android Bench の結果
この最初のリリースにおいて、純粋にモデルのパフォーマンスを測定したいと考え、エージェントやツールの使用には焦点を当てませんでした。モデルはタスクの 16~72% を正常に完了することができました。これは、いくつかの LLM がすでに Android の知識のための確かなベースラインを持っている一方で、他のモデルにはより多くの改善の余地があることを示す広い範囲です。モデルが現在どこにあるかにかかわらず、LLM メーカーに Android 開発のために彼らのモデルを強化することを促すにつれて、継続的な改善を期待しています。
この最初のリリースで最も高い平均スコアを持つ LLM は Gemini 3.1 Pro で、Claude Opus 4.6 が僅差で続きます。
Android Studio の最新の安定版で API キーを使用することにより、Android プロジェクトの AI アシスタンスのために評価したすべてのモデルを試すことができます。
デベロッパーと LLM メーカーに透明性を持って提供する
Google はオープンで透明性のあるアプローチを価値あるものと考えているため、
手法(英語)、データセットとテストハーネスを
GitHub で公開(英語)しました。
あらゆる公開ベンチマークに対する 1 つの課題は、モデルがトレーニング プロセス中に評価タスクを見た可能性がある、データ汚染のリスクです。エージェントのトラジェクタリ(推論のプロセス)の徹底的な手動レビューや、トレーニングを抑制するためのカナリヤ文字列の統合を含め、結果が暗記や推測ではなく、純正な推論を反映することを確実にするための措置を講じました。
先を見据えて、データセットの整合性を保持するために手法を進化させ続け、同時に将来のベンチマークのリリースのために、たとえばタスクの量と複雑さを増やすなどの改善に取り組んでいきます。
Android Bench(英語) が長期的に AI アシスタンスをどのように改善できるかを楽しみにしています。ビジョンは、コンセプトと高品質なコードの間のギャップを埋めることです。あなたが思い描いたものを, なんでも Android 上で構築できる未来のための基盤を築いています。
Posted by Mari Kawanishi - Developer Marketing Manager