Azure Cognitive Service with Android

Azure Cognitive Service merupakan layanan kecerdasan buatan Microsoft berbasis cloud yang dapat digunakan pengembang aplikasi untuk membangun aplikasi dengan fitur-fitur berbasis AI. Azure Cognitive Services menyediakan banyak layanan yang membuat aplikasi, website atau chatbot dapat melihat, mendengar, berbicara, memahami dan mengartikan kebutuhan pengguna dengan metode yang alami.

Jika kita membuat algoritma berbasis AI dari awal, tentunya akan memakan waktu yang tidak sedikit. Seringkali sebuah algoritma AI merupakan hasil percobaan dan riset bertahun-tahun lamanya. Dengan Cognitive Service, pengembang aplikasi dapat fokus pada masalah bisnis yang ingin diselesaikan dan jika membutuhkan layanan kognitif, dapat menggunakan Azure Cognitive Service.

Azure Cognitive Service dapat diakses melalui REST API ataupun client SDK pada berbagai platform yang populer. Azure Cognitive Service merupakan gabungan beberapa layanan yang dapat dikategorikan menjadi 5 grup layanan:

  1. Vision : algoritma yang terkait dengan pemrosesan gambar, yang dapat melakukan identifikasi, pemberian caption dan melakukan moderasi terhadap gambar
  2. Speech : algoritma yang terkait dengan proses konversi audio ke text, verifikasi suara dan pengenalan suara dari app.
  3. Language : algoritma yang terkait dengan pemrosesan bahasa alami, mulai dari evaluasi sentimen hingga melakukan rekognisi keinginan pengguna
  4. Knowledge : algoritma yang terkait pemetaan informasi dan data yang kompleks dalam rangka menyelesaikan pekerjaan seperti rekomendasi, analisis semantik dan hubungan antar 2 entitas
  5. Search : algoritma yang terkait dengan kebutuhan pencarian data dari halaman web

Masing-masing grup layanan terdiri lagi dari beberapa fungsi. Misalnya Vision, terdiri dari layanan pencitraan komputer, emotion, rekognisi wajah (face recognition), custom vision dan content moderator.

Contoh layanan yang dimiliki oleh Azure Cognitive Service.

Karena layanan yang sangat beragam, pada artikel ini ini, kita akan membahas mengenai 1 layanan yaitu Computer Vision. Fitur yang akan kita eksplorasi adalah bagaimana memanfaatkan Computer Vision untuk dapat mengenali dan memberikan deskripsi suatu gambar.

Hal yang Perlu Dipersiapkan untuk mengikuti tutorial berikut adalah :

  1. Azure Computer Vision Android SDK
  2. Akun Azure yang aktif
  3. Android Studio 3.0

Langkah 1 – Membuat Azure Cognitive Service

  1. Masuk ke halaman Azure portal : http://portal.azure.com
  2. Pilih Create a resource
  3. Pada search box, ketikkan Computer Vision
  4. Pilih Create
  5. Pada menu Resource Group, pilih Create a new one atau Use existing jika sebelumnya sudah memiliki Resource Group (pada artikel ini akan digunakan Resource Grup pada tutorial sebelumnya).

    Untuk pricing tier pilih F0.
  6. Pilh Create.

Langkah 2 – Mendapatkan Subscription Key

Untuk menggunakan Computer Vision service yang baru saja kita buat maka dibutuhkan subscription key yang akan dipanggil dari aplikasi. Untuk melihat subscripion key, ikuti langkah berikut :

  1. Pilih Computer Vision Service yang kita buat dengan mengklik tombol All resources yang sudah dibuat pada langkah sebelumnya
  2. Pilih Keys.
  3. Simpan nilai Name dan Key 1. Nilai ini akan digunakan di dalam aplikasi
    Name : dicodingvision
    Key 1 : a636511130b545f39b069ab0d236b886

Untuk langkah berikutnya kita akan mulai mengakses layanan yang sudah dibuat dari Android project. Untuk kebutuhan ini, silahkan menggunakan project starter berikut ini : link.

Langkah 3 – Alur Kerja Penggunaan Computer Vision API

Untuk mengakses layanan, pengembang dapat menggunakan REST API atau Client SDK sesuai dengan platform pilihan. Agar tutorial ini menjadi tutorial yang juga bersifat platform agnostic maka kita akan menggunakan REST API. Pemahaman menggunakan REST API merupakan hal yang fundamental karena Client SDK pada dasarnya merupakan wrapper dari REST API yang sudah tersedia.

Meskipun kita hanya akan membahas satu tipe layanan yaitu Computer Vision, Untuk mengakses layanan Cognitive Service lainnya pada dasarnya mengikuti pola yang sama sebagai berikut :

  1. Menyiapkan data input. Pada computer vision input adalah gambar atau url, pada layanan yang lain mungkin berupa teks, atau file stream.
  2. Melakukan inisialisasi layanan. Jika menggunakan platform SDK, inisialisasi biasanya dengan memanggil fungsi alokasi object dari masing-masing layanan
  3. Melakukan pemanggilan API
  4. Menginterpretasi hasil API, biasanya dengan melakukan parsing terhadap file JSON kembalian dan mengambil informasi yang dibutuhkan
  5. Menampilkan hasil API atau memproses data lebih lanjut

Langkah 4 – Menyiapkan Project Android

Untuk memulai tutorial, pembaca dapat menggunakan project starter pada link berikut ini https://www.dropbox.com/s/ovpq4s6jge9dq3p/dicodingvision1.zip?dl=0  :  atau melakukan konfigurasi seperti berikut :

  1. Menyiapkan antarmuka untuk memilih menu fitur Computer Vision
  2. Menyiapkan antarmuka untuk memilih daftar gambar. Pada contoh, daftar gambar merupakan image gallery yang bersumber dari internet (url image). Pembaca dapat bereksperimen dengan menggunakan data dari filesystem atau camera.
  3. Membuat sebuah file konstanta, untuk meyimpan beberapa nilai parameter, yaitu url computer Vision API dan informasi key.
  4. Menyiapkan halaman untuk menampilkan hasil. Halaman hasil terdiri dari kontrol image view dan text view. TextView akan kita gunakan untuk menampilkan hasil pemanggilan API.

Langkah 5 – Melakukan Analisis Terhadap Gambar

Analisis gambar dilakukan untuk memperoleh informasi mengenai gambar. Melalui computer vision kita dapat memperoleh informasi mengenai format gambar, ukuran, apakah gambar bersifat rasis atau mengandung konten pornografi, kategori dari gambar, apakah mengandung wajah dan sebagainya. Berbekal informasi ini kita dapat melakukan berbagai macam hal. Misalnya kita bikin program melakukan moderasi konten secara otomatis untuk gambar yang dideteksi mengandung konten pornografi atau membuat program untuk dapat melakukan pemeriksaan jika gambar yang diupload mengandung wajah atau tidak, misalnya dalam program pemeriksa KTP atau absensi. Skenarionya sangat terbatas, sky is the limit.

Untuk melakukan proses Analisis gambar dilakukan dengan memanggil fungsi Analyze.

Fungsi ini memiliki 2 parameter query string yaitu visualFeatures untuk menentukan apa saja yang mau dianalisis dan language untuk menentukan bahasa. Fungsi akan menerima parameter input berupa url image atau stream dari image. Pada contoh, kita akan menggunakan url image.

Ikuti langkah berikut ini untuk memahami dasar penggunaan fungsi analisis gambar pada Computer Vision.

  1. Pada fungsi analyze lakukuan persiapan data input. Data input adalah berupa imageUrl (yang diperoleh dari halaman pilih gambar) dengan field

  1. Melakukan inisialisasi pemanggilan layanan. Telah kita siapkan informasi yang dibutuhkan pada berkas Constant.java
  2. Melakukan pemanggilan API. Untuk memanggil API kita akan gunakan memberikan konfigurasi visualFeatures untuk Tipe gambar, warna, wajah, pemeriksaan apakah gambar mengandung pornografi dan kategori gambar.
  3. Untuk melakukan interpretasi API atau melakukan parsing data, kita akan membuat file Analyze.java yang memuat hasil dari pemanggilan fungsi Analyze. Hasil dari fungsi ini merupakan file json dengan sebagian format ditunjukkan dibawah ini :

    Kelas Analyze.java memuat field untuk menampung data-data tersebut. Untuk melihat definisi lengkap kelas Analyze.java dapat di lihat pada link berikut.
  4. Setelah kembalian API diperoleh, berikutnya adalah menampilkan data. Data dari kelas Analyze kita tampilkan dengan memilih informasi yang sesua. Pada contoh, kita akan menampilkan semua data.
  5. Pilih Run “app” untuk mengkompilasi dan menjalankan aplikasi di Android simulator/device
  6. Contoh Aplikasi ketika dijalankan

    Aplikasi merupakan clip-art dengan tipe line drawing tidak memiliki konten pornografi.

    Penulis sudah menyiapkan beberapa gambar lainnya agar dapat dieksplorasi lebih jauh oleh pembaca.
    Aplikasi mengandung informasi wajah, hingga lokasi rectangle wajah tersebut berada.

Langkah 6 – Memberikan Caption Otomatis

Computer Vision juga menyediakan layanan memberikan caption secara otomatis. Bagaimana sebuah gambar diberikan keterangan (caption) secara otomtis oleh sistem? Dengan bantuan machine learning Tim Riset Microsoft telah mengelompokkan berbagai gambar diseluruh dunia ke dalam 87 tipe.

Selanjutnya dari klasifikasi tersebut, sistem akan menghasilkan caption yang dianggap paling sesuai.

Ikuti langkah berikut ini untuk memahami dasar penggunaan fungsi autocaption gambar pada Computer Vision.

  1. Pada fungsi autoCaption di AnalyzePhotoActivity.java lakukuan persiapan data input. Data input adalah berupa imageUrl (yang diperoleh dari halaman pilih gambar) dengan field

  1. Melakukan inisialisasi pemanggilan layanan. Telah kita siapkan informasi yang dibutuhkan pada berkas Constant.java
  2. Melakukan pemanggilan API. Untuk memanggil API kita akan gunakan memberikan konfigurasi visualFeatures untuk Description.

  1. Untuk melakukan interpretasi API atau melakukan parsing data, kita akan membuat file Autocaption.java yang memuat hasil dari pemanggilan fungsi Analyze. Hasil dari fungsi ini merupakan file json dengan sebagian format ditunjukkan dibawah ini :

Kelas Autocaption.java memuat field untuk menampung data-data tersebut. Untuk melihat definisi lengkap kelas Autocaption.java dapat di lihat pada link berikut.

  1. Setelah kembalian API diperoleh, berikutnya adalah menampilkan data. Data dari kelas Autocaption kita tampilkan dengan memilih informasi yang sesua. Pada contoh, kita akan menampilkan semua data.Pada button pilih gambar, tambahkan kode untuk berikut ini :

  1. Pilih Run “app” untuk mengkompilasi dan menjalankan aplikasi

    Sistem memberikan caption “A man standing next to a body of water” dengan nilai confidence 0.89. Sistem akan memberikan beberapa pilihan caption dengan tingkat kepercayaan tertentu. Pemrogram dapat memilih informasi yang sudah disediakan oleh API.

    Sistem memberikan caption “Tessa Thompson et al posing for the camera”. Sistem mampu memberikan caption hingga mengetahui siapa yang berada pada foto tersebut. Ini salah satu kemampuan identifikasi spesifik domain yang akan kita bahas di step berikutnya.

Langkah 5 – Mengidentifikasi Aktris Pada Gambar

Computer Vision menyediakan layanan identifikasi gambar untuk spesifik domain yaitu selebriti dan landmark. Dengan layanan ini, tidak hanya Computer Vision bisa mengenali ada obyek apa tetapi lebih detail obyek tersebut siapa (selebriti) atau dimana (nama tempat). Pada bagian ini kita akan melihat cara menggunakan Computer Vision untuk menidentifikasi foto selebriti. Selanjutnya dari klasifikasi tersebut, sistem akan menghasilkan caption yang dianggap paling sesuai.

Ikuti langkah berikut ini untuk memahami dasar penggunaan fungsi Identifikasi selebriti dan landmark pada Computer Vision.

  1. Pada fungsi actress di AnalyzePhotoActivity.java lakukuan persiapan data input. Data input adalah berupa imageUrl (yang diperoleh dari halaman pilih gambar) dengan field

  1. Melakukan inisialisasi pemanggilan layanan. Telah kita siapkan informasi yang dibutuhkan pada berkas Constant.java
  2. Melakukan pemanggilan API. Untuk memanggil API kita akan gunakan memberikan konfigurasi visualFeatures untuk Description.

  1. Untuk melakukan interpretasi API atau melakukan parsing data, kita akan membuat file Actress.java yang memuat hasil dari pemanggilan fungsi Actress. Hasil dari fungsi ini merupakan file json dengan sebagian format ditunjukkan dibawah ini :

Kelas Actress.java memuat field untuk menampung data-data tersebut. Untuk melihat definisi lengkap kelas Actress.java dapat di lihat pada link berikut.

  1. Setelah kembalian API diperoleh, berikutnya adalah menampilkan data. Data dari kelas Actress kita tampilkan dengan memilih informasi yang sesua. Pada contoh, kita akan menampilkan semua data.Pada button pilih gambar, tambahkan kode untuk berikut ini :

  1. Pilih Run “app” untuk mengkompilasi dan menjalankan aplikasi di Android simulator/device
  2. Contoh Aplikasi ketika dijalankan

    Sistem memberikan identifikasi Gianluigi Buffon dengan tingkat kepercayaan 1.0. Tingkat kepercayaan 1.0  menandakan sistem pasti yakin bahwa gambar adalah Buffon.

    Sistem berhasil mengidentifikasi bahwa tidak ada selebriti pada foto tersebut.

    Sistem berhasil mengidentifikasi bahwa foto adalah Dian Sastrowardoyo dengan tingkat kepercayaan 0.998. Masih ada keraguan disana meskipun kecil. Mungkinkan sistem bingung apakah gambar tersebut adalah Dian atau Raisa ?

Demikian cara penggunaan Azure Cognitive Service, khususnya layanan Computer Vision. Menggunakan Cognitive Service dapat meningkatkan aplikasi yang kita kembangkan dengan menambahkan kemampuan kecerdasan buatan. Skenarionya sangat luas dan dapat menyentuh di berbagai sektor industri. Dengan menggunakan layanan ini akan memberikan pengalaman yang lebih baik bagi pengguna sekaligus menyelesai tugas yang tadinya tidak bisa dilakukan oleh manusia secara manual.

Source code lengkap dapat diperoleh disini : https://github.com/aderifaldi/dicodingvissionandroid

Azure Cognitive Service masih memiliki banyak fitur yang tidak sempat dibahas diartikel ini. Untuk mempelajari beberapa fitur lainnya, disarankan untuk membaca pranala berikut :

Microsoft sedang mengadakan Microsoft Azure Cognitive Services Challenge yang dapat dilihat di link berikut :
https://www.dicoding.com/challenges/368

Belajar mengembangkan aplikasi atau game dengan kurikulum yang telah divalidasi langsung oleh industri dengan Dicoding Academy.

Belajar di Dicoding Sekarang →
Share this:

Leave a comment