Ayon sa isang tweet na ibinahagi ni Musk, ang voice mode ng Grok ay ngayon sumusuporta sa access sa camera para sa pagkakakilanlan ng nilalaman. Hinahayaan nito ang mga gumagamit na itutok ang kanilang telepono sa isang bagay at magtanong, "Ano ang tinitingnan ko?". Ang visual na tampok sa iOS ay nagbibigay-daan sa chatbot na suriin ang mga bagay, teksto, at kapaligiran sa totoong mundo gamit ang camera ng device nang real-time. Maaaring i-scan ng mga gumagamit ang anumang bagay, kabilang ang mga produkto, palatandaan, dokumento, at iba pa, at agad na magbibigay ang Grok ng impormasyon sa konteksto at mga kaugnay na pananaw.