droidrun
Droidrun is an open-source project that enables natural language control of mobile apps via large language models (LLMs), allowing users to perform tasks like shopping and messaging through simple prompts.
• Copy the embed code to showcase this product on your website
• Share on X to spread the word about this amazing tool
最近一个挺火的项目droidrun开源了,这个项目的亮点是通过大模型,以自然语言操作手机APP,大概是这样> Prompt: “Go to Amazon, search for headphones and write the top 3 products to my colleague on WhatsApp.”之前我写过一篇文章,分析了如何通过原生工具和衍生工具来操作安卓和苹果手机,在试用了droidrun、并学习了它的源代码之后,我写了一篇文章来分析大模型(LLM)是如何为操作手机这件事儿赋能的。文章链接如下http://hanzilu.com/wordpress/?p=376我把试用过程中droidrun的真实推理过程也附在了文末,大模型用的是deepseek R1,连debug带正式推理,一共花了我2毛五分钱,还真的有点小贵,如果想把大模型用于UI自动化测试,时间(反复推理很耗时)和金钱的成本都是一个需要考虑的问题。说句题外话:- Droidrun可能定位并不是用于自动化测试的缘故,其文档中并未给出如何能节省推理步骤的建议。- 而另一个把自己定位为安卓ui自动化测试工具的,Midscene.js,就明显考虑到了成本这一节。不但提供了不完全依赖大模型的“即时操作”模式,还专门写了一篇文档介绍编写提示词的技巧。- 这些技巧非常通用和值得学习,你完全可以学会了以后,把它们应用于Droid run