# Computer Vision

Tutorials for image and vision-language model workloads.

### [Fine-tuning a VLM](https://www.union.ai/docs/v2/union/tutorials/computer-vision/qwen-vl-finetuning/page.md)

Adapt Qwen2.5-VL to occluded image classification by training a 10K-parameter adapter with multi-node DeepSpeed, automatic recovery, and live training dashboards.

### [Multimodal retrieval evaluation](https://www.union.ai/docs/v2/union/tutorials/computer-vision/multimodal-retrieval-evaluation/page.md)

Benchmark ColPali, SigLIP, and OCR+BM25 visual document retrieval on ViDoRe with warm GPU containers, dynamic batching, and an interactive report.

## Subpages

- [Fine-tuning a VLM](https://www.union.ai/docs/v2/union/tutorials/computer-vision/qwen-vl-finetuning/page.md)
  - Overview
  - Implementation
  - Setting up the environment
  - Preparing the dataset
  - The adapter
  - Multi-node training with DeepSpeed
  - Fault tolerance and recovery
  - Live observability
  - Evaluation
  - Putting it all together
  - Running the tutorial
  - Going further
- [Multimodal retrieval evaluation](https://www.union.ai/docs/v2/union/tutorials/computer-vision/multimodal-retrieval-evaluation/page.md)
  - Define the container image
  - Define the task environments
  - Configuration and data types
  - Loading, indexing, and search
  - Run one experiment
  - Compare experiments
  - Run the evaluation

---
**Source**: https://github.com/unionai/unionai-docs/blob/main/content/tutorials/computer-vision/_index.md
**HTML**: https://www.union.ai/docs/v2/union/tutorials/computer-vision/