Guides
Multimodal

Multimodal

The package includes Regolo gateways for image generation, audio transcription, and text-to-speech when the configured Regolo model catalog supports the selected model ids.

Image generation

use Laravel\Ai\Image;

$image = Image::of('Un diagramma isometrico di un data center italiano')
    ->generate('regolo', 'Qwen-Image');

Audio transcription

use Laravel\Ai\Transcription;

$transcript = Transcription::of(storage_path('calls/demo.mp3'))
    ->using('regolo', 'faster-whisper-large-v3')
    ->generate();

Text-to-speech

use Laravel\Ai\Audio;

$speech = Audio::for('Benvenuto nella console Regolo.')
    ->generate('regolo', config('ai.providers.regolo.models.audio.default'));

Regolo’s text-to-speech catalog may require an explicit model id from Seeweb. Leave REGOLO_AUDIO_MODEL empty until you have a valid value, and skip live TTS verification in that state.

Last updated: Edit this page

Multimodal

Image generation

Audio transcription

Text-to-speech

onThisPage