Vision models can do more than describe images. I used Ollama and Microsoft.Extensions.AI to extract structured receipt data into strongly typed C# objects, all running locally.

MilanJovanovic's platform  covers topics related to software development, technology trends, and coding tutorials. Through articles, tutorials, and code examples, MilanJovanovic offers insights into programming languages, development frameworks, and best practices in software engineering. Readers can learn about software design principles, development methodologies, and emerging technologies to enhance their coding skills and build high-quality software applications.

Milan Jovanović

Vision models can extract structured data from images locally using Ollama and Microsoft.Extensions.AI. The tutorial demonstrates parsing grocery receipts into strongly typed C# objects, covering setup with llama3.2-vision, iterative prompt refinement to improve accuracy, handling different number formats, and testing output consistency. The approach enables building applications like personal finance trackers without cloud dependencies or API keys.

How to Extract Structured Data From Images Using Ollama in .NET

Setting Up Ollama With Microsoft.Extensions.AI