Sesi 7.1: Tavily API

Kursus → Modul 7: API sebagai Alat Riset

Sesi 1 dari 7

Tavily itu search API yang dirancang untuk pipeline AI. Kamu kirim query, dia balikin hasil terstruktur: judul, URL, cuplikan konten, dan skor relevansi. Bukan halaman hasil Google Search yang harus kamu scrape dan parse. Data bersih, machine-readable, yang langsung masuk ke content pipeline kamu.

Ini riset web yang bisa diprogram. Yang dulunya butuh dua jam searching manual, baca-baca, dan catat-mencatat, sekarang cuma 30 detik. Dan hasilnya ada log audit dari setiap sumber yang dikonsultasi.

Apa yang Tavily Lakukan

Tavily punya empat endpoint utama, masing-masing melayani kebutuhan riset yang berbeda.

Endpoint	Fungsi	Yang Dikembalikan
Search	Query faktual dengan ranking berbasis AI	Judul, URL, cuplikan konten, skor relevansi
Extract	Ambil konten bersih dari URL tertentu	Teks yang sudah diparsing, tanpa navigasi, iklan, atau boilerplate
Map	Temukan halaman-halaman di sebuah domain	Daftar URL yang cocok dengan kriteria kamu
Crawl	Gabungan mapping dan extraction	Konten dari beberapa halaman dalam satu panggilan

Endpoint search yang paling sering kamu pakai. Dia terima query string, parameter opsional untuk filter topik, rentang waktu, dan domain inclusion/exclusion. Hasilnya: hasil yang diranking dengan cuplikan konten yang sudah diekstrak.

Opsi Kedalaman Pencarian

Tavily punya beberapa level kedalaman pencarian yang menukar kecepatan dengan ketelitian.

graph LR A["Ultra-fast
Latensi terendah"] --> B["Fast
Relevansi bagus"] B --> C["Basic
Seimbang"] C --> D["Advanced
Presisi tertinggi"] A --> E["1 ringkasan per URL"] B --> F["Beberapa cuplikan per URL"] C --> G["1 ringkasan NLP per URL"] D --> H["Beberapa cuplikan
semantik per URL"] style A fill:#2a2a28,stroke:#c47a5a,color:#ede9e3 style D fill:#2a2a28,stroke:#6b8f71,color:#ede9e3

Untuk riset konten yang akurasi lebih penting dari kecepatan, pakai Advanced. Untuk cek cepat waktu editing, Fast atau Ultra-fast udah cukup. Untuk riset umum di fase planning, Basic kasih keseimbangan yang pas.

Posisinya di Pipeline Kamu

Search API duduk di awal content pipeline kamu, sebelum AI generation terjadi. Script kamu query Tavily dengan pertanyaan riset, kumpulkan hasilnya, filter berdasarkan relevansi dan reliabilitas, lalu susun jadi research brief. Brief itu yang jadi konteks untuk panggilan AI generation kamu.

graph TD A["Topik konten ditentukan"] --> B["Script generate
query riset"] B --> C["Tavily search API
(beberapa query)"] C --> D["Filter hasil berdasarkan
relevansi + kualitas sumber"] D --> E["Susun research brief
(sumber, data, kutipan)"] E --> F["Feed brief sebagai konteks
ke AI generation"] F --> G["AI menulis dari
sumber yang kamu kurasi"] style C fill:#2a2a28,stroke:#c8a882,color:#ede9e3 style E fill:#2a2a28,stroke:#6b8f71,color:#ede9e3

AI yang menulis dari sumber yang dikurasi itu beda jauh dari AI yang menulis dari training data. Sumber itu aktual, bisa diverifikasi, dan bisa diaudit. Training data itu terkompresi, dirata-ratakan, dan mungkin udah basi.

Fitur Praktis

Tavily punya beberapa fitur yang dirancang khusus untuk pipeline konten AI. Topic filtering bikin kamu bisa persempit hasil berdasarkan kategori: general, news, atau finance. Time range filtering membatasi hasil ke periode tertentu (hari, minggu, bulan, tahun), yang krusial untuk konten yang butuh data terkini. Domain inclusion dan exclusion bikin kamu bisa prioritaskan atau blokir sumber tertentu.

Fitur auto_parameters menganalisis query kamu dan otomatis mengonfigurasi parameter pencarian berdasarkan isi dan maksud query. Kalo kamu cari berita terbaru, dia otomatis pasang time filter. Kalo kamu cari dokumentasi teknis, dia sesuaikan kedalaman pencarian. Nilai parameter yang kamu set secara eksplisit selalu menimpa yang otomatis, jadi kamu tetap pegang kontrol sambil dapat default yang masuk akal.

Keamanan dan Penanganan Data

Tavily bersertifikasi SOC 2 dengan zero data retention, artinya query pencarian kamu ga disimpan atau dipakai untuk training. Untuk operasi konten yang menangani topik riset sensitif atau competitive intelligence, ini penting. Platform-nya juga punya AI security layer untuk mencegah prompt injection lewat hasil pencarian, yang mencegah konten berbahaya mengontaminasi pipeline kamu.

Integrasi

Tavily terintegrasi secara native dengan LangChain, LlamaIndex, dan Model Context Protocol (MCP), yang artinya tooling AI kamu yang udah ada bisa akses web search tanpa kode integrasi custom. Kalo kamu build di Python dengan framework ini, Tavily langsung masuk sebagai tool yang agent kamu bisa panggil langsung.

Untuk setup yang lebih sederhana, Python SDK (tavily-python) kasih interface yang straightforward: install, konfigurasi API key, dan panggil fungsi search dengan query kamu. Hasilnya balik sebagai objek Python terstruktur yang bisa kamu proses langsung.

Tugas

Daftar API key Tavily di tavily.com (ada tier gratis).
Tulis (atau minta AI coding assistant kamu tuliskan) script Python yang menerima topik sebagai input, search Tavily untuk 10 hasil paling relevan, dan simpan hasilnya sebagai file markdown terstruktur dengan judul, URL, dan kutipan kunci untuk setiap hasil.
Jalankan script-nya untuk topik yang relevan dengan pekerjaan kamu. Bandingkan hasilnya dengan apa yang kamu temukan dari 15 menit searching manual di Google. Gimana cakupannya? Sumbernya reliabel? Apakah output terstruktur lebih berguna daripada deretan tab browser?

Tavily API