Tuesday, July 16, 2019

Teknologi Pencarian

Teknologi Pencarian

estudiando descansando con donut, student relaxing with donut


Kita masing-masing dihadapkan dengan masalah mencari informasi lebih dari sekali. Terlepas dari sumber data yang kami gunakan (Internet, sistem file pada hard drive kami, basis data atau sistem informasi global perusahaan besar) masalahnya dapat berlipat ganda dan termasuk volume fisik dari basis data yang dicari, informasi yang tidak terstruktur , berbagai jenis file dan juga kompleksitas kata-kata yang tepat dalam permintaan pencarian. Kami telah mencapai tahap ketika jumlah data pada satu PC sebanding dengan jumlah data teks yang disimpan di perpustakaan yang tepat. Dan mengenai aliran data yang tidak terstruktur, di masa depan mereka hanya akan meningkat, dan pada tempo yang sangat cepat. Jika untuk pengguna biasa ini mungkin hanya kemalangan kecil, karena tidak adanya perusahaan besar yang mengendalikan informasi dapat berarti masalah yang signifikan. Jadi kebutuhan untuk membuat sistem pencarian dan teknologi menyederhanakan dan mempercepat akses ke informasi yang diperlukan, berasal sejak lama. Sistem seperti itu banyak dan terlebih lagi tidak semuanya didasarkan pada teknologi yang unik. Dan tugas memilih yang tepat tergantung langsung pada tugas spesifik yang harus diselesaikan di masa depan. Sementara permintaan akan alat pencarian dan pemrosesan data yang sempurna terus berkembang, mari kita perhatikan keadaan hubungan dengan sisi penawaran.

Tidak masuk jauh ke berbagai keanehan teknologi, semua program pencarian dan sistem dapat dibagi menjadi tiga kelompok. Ini adalah: sistem Internet global, solusi bisnis turnkey (pencarian data korporat dan teknologi pemrosesan) dan phrasal sederhana atau pencarian file di komputer lokal. Arah yang berbeda mungkin berarti solusi yang berbeda.

Pencarian lokal

Semuanya jelas tentang pencarian di PC lokal. Tidaklah luar biasa untuk fitur fungsionalitas tertentu yang diterima untuk pilihan jenis file (media, teks, dll.) Dan tujuan pencarian. Cukup masukkan nama file yang dicari (atau bagian dari teks, misalnya dalam format Word) dan hanya itu. Kecepatan dan hasil bergantung sepenuhnya pada teks yang dimasukkan ke dalam baris permintaan. Tidak ada intelektualitas dalam hal ini: cukup melihat melalui file yang tersedia untuk menentukan relevansinya. Ini dalam arti yang dapat dijelaskan: apa gunanya menciptakan sistem yang canggih untuk kebutuhan yang tidak rumit tersebut.

Teknologi pencarian global

Hal-hal sangat berbeda dengan sistem pencarian yang beroperasi di jaringan global. Seseorang tidak bisa hanya mengandalkan melihat melalui data yang tersedia. Volume besar (Yandex misalnya dapat membanggakan kapasitas pengindeksan lebih dari 11 terabyte data) dari kekacauan global dari informasi yang tidak terstruktur akan membuat pencarian sederhana tidak hanya tidak efektif tetapi juga lama dan memakan banyak tenaga kerja. Itulah sebabnya akhir-akhir ini fokusnya telah bergeser ke arah mengoptimalkan dan meningkatkan karakteristik kualitas pencarian. Tetapi skemanya masih sangat sederhana (kecuali untuk inovasi rahasia dari setiap sistem yang terpisah) - pencarian frase melalui basis data yang diindeks dengan pertimbangan yang tepat untuk morfologi dan sinonim. Tidak diragukan lagi, pendekatan semacam itu berhasil tetapi tidak menyelesaikan masalah sepenuhnya. Membaca lusinan berbagai artikel yang didedikasikan untuk meningkatkan pencarian dengan bantuan Google atau Yandex, orang dapat mengarahkan pada kesimpulan bahwa tanpa mengetahui peluang tersembunyi dari sistem ini menemukan dokumen yang relevan dengan permintaan adalah masalah lebih dari satu menit, dan kadang-kadang lebih dari satu jam. Masalahnya adalah bahwa realisasi pencarian seperti itu sangat tergantung pada kata atau frasa permintaan, yang dimasukkan oleh pengguna. Semakin tidak jelas kueri, yang lebih buruk adalah pencarian. Ini telah menjadi aksioma, atau dogma, apa pun yang Anda inginkan. dimasukkan oleh pengguna. Semakin tidak jelas kueri, yang lebih buruk adalah pencarian. Ini telah menjadi aksioma, atau dogma, apa pun yang Anda inginkan. dimasukkan oleh pengguna. Semakin tidak jelas kueri, yang lebih buruk adalah pencarian. Ini telah menjadi aksioma, atau dogma, apa pun yang Anda inginkan.

Tentu saja, dengan cerdas menggunakan fungsi-fungsi utama dari sistem pencarian dan dengan tepat mendefinisikan frase yang digunakan oleh dokumen dan situs, adalah mungkin untuk mendapatkan hasil yang dapat diterima. Tapi ini akan menjadi hasil dari kerja mental yang melelahkan dan waktu yang terbuang untuk melihat informasi yang tidak relevan dengan harapan untuk setidaknya menemukan beberapa petunjuk tentang cara meningkatkan permintaan pencarian. Secara umum, skema adalah sebagai berikut: masukkan frasa, lihat beberapa hasil, pastikan bahwa kueri itu tidak tepat, masukkan frasa baru dan tahapan diulangi sampai relevansi hasil mencapai tingkat setinggi mungkin. Tetapi bahkan dalam kasus itu peluang untuk menemukan dokumen yang tepat masih sedikit. Tidak ada pengguna biasa yang akan secara sukarela pergi untuk kecanggihan "pencarian lanjutan" (walaupun dilengkapi dengan sejumlah fungsi yang sangat berguna seperti pilihan bahasa, format file dll.). Cara terbaik adalah dengan memasukkan kata atau frasa dan mendapatkan jawaban yang siap, tanpa perhatian khusus untuk cara mendapatkannya. Biarkan kuda berpikir - ia memiliki kepala besar. Mungkin ini tidak sepenuhnya tepat sasaran, tetapi salah satu fungsi pencarian Google disebut "Saya merasa beruntung!" ciri sangat baik teknologi pencarian yang ada. Namun demikian, teknologinya bekerja, tidak ideal dan tidak selalu membenarkan harapan, tetapi jika Anda mengizinkan kerumitan pencarian melalui kekacauan volume data Internet, itu bisa diterima. tanpa perhatian khusus untuk cara mendapatkannya. Biarkan kuda berpikir - ia memiliki kepala besar. Mungkin ini tidak sepenuhnya tepat sasaran, tetapi salah satu fungsi pencarian Google disebut "Saya merasa beruntung!" ciri sangat baik teknologi pencarian yang ada. Namun demikian, teknologinya bekerja, tidak ideal dan tidak selalu membenarkan harapan, tetapi jika Anda mengizinkan kerumitan pencarian melalui kekacauan volume data Internet, itu bisa diterima. tanpa perhatian khusus untuk cara mendapatkannya. Biarkan kuda berpikir - ia memiliki kepala besar. Mungkin ini tidak sepenuhnya tepat sasaran, tetapi salah satu fungsi pencarian Google disebut "Saya merasa beruntung!" ciri sangat baik teknologi pencarian yang ada. Namun demikian, teknologinya bekerja, tidak ideal dan tidak selalu membenarkan harapan, tetapi jika Anda mengizinkan kerumitan pencarian melalui kekacauan volume data Internet, itu bisa diterima.

Sistem perusahaan

Yang ketiga dalam daftar adalah solusi turnkey berdasarkan pada teknologi pencarian. Mereka dimaksudkan untuk perusahaan dan perusahaan yang serius, memiliki basis data yang sangat besar dan dikelola dengan segala macam sistem informasi dan dokumen. Pada prinsipnya, teknologi itu sendiri juga dapat digunakan untuk kebutuhan rumah. Sebagai contoh, seorang programmer yang bekerja dari jarak jauh dari kantor akan memanfaatkan pencarian untuk mengakses secara acak yang terdapat pada kode sumber program hard drive-nya. Tetapi ini adalah rincian. Aplikasi utama dari teknologi ini masih menyelesaikan masalah pencarian cepat dan akurat melalui volume data yang besar dan bekerja dengan berbagai sumber informasi. Sistem seperti itu biasanya beroperasi dengan skema yang sangat sederhana (walaupun tidak diragukan lagi ada banyak metode pengindeksan dan pemrosesan kueri di bawah permukaan): pencarian phrasal, dengan pertimbangan yang tepat untuk semua bentuk batang, sinonim dll yang sekali lagi membawa kita ke masalah sumber daya manusia. Saat menggunakan teknologi seperti itu, pengguna harus terlebih dahulu mengucapkan kata-kata frasa permintaan yang akan menjadi kriteria pencarian dan mungkin dipenuhi dalam dokumen yang diperlukan untuk diambil. Tetapi tidak ada jaminan bahwa pengguna akan dapat secara mandiri memilih atau mengingat frasa yang benar dan lebih jauh lagi, bahwa pencarian dengan frasa ini akan memuaskan.

Satu momen kunci lagi adalah kecepatan memproses kueri. Tentu saja, ketika menggunakan seluruh dokumen alih-alih beberapa kata, akurasi pencarian meningkat berlipat ganda. Tetapi sampai saat ini, peluang semacam itu belum digunakan karena kapasitas yang tinggi dari proses semacam itu. Intinya adalah bahwa pencarian dengan kata-kata atau frasa tidak akan memberi kita kesamaan hasil yang sangat relevan. Dan pencarian dengan frasa sama panjangnya seluruh dokumen menghabiskan banyak waktu dan sumber daya komputer. Berikut ini sebuah contoh: saat memproses permintaan dengan satu kata tidak ada perbedaan kecepatan yang cukup besar: apakah itu 0,1 atau 0,001 detik tidak terlalu penting bagi pengguna. Tetapi ketika Anda mengambil dokumen ukuran rata-rata yang berisi sekitar 2000 kata unik, maka pencarian dengan pertimbangan morfologi (bentuk batang) dan tesaurus (sinonim),

Ringkasan sementara

Seperti yang dapat kita lihat, sistem dan teknologi pencarian yang ada saat ini, meskipun berfungsi dengan baik, tidak menyelesaikan masalah pencarian sepenuhnya. Di mana kecepatan dapat diterima, relevansi menyisakan lebih banyak yang diinginkan. Jika pencarian akurat dan memadai, ia menghabiskan banyak waktu dan sumber daya. Tentu saja mungkin untuk menyelesaikan masalah dengan cara yang sangat jelas - dengan meningkatkan kapasitas komputer. Tetapi melengkapi kantor dengan puluhan komputer ultra-cepat yang akan terus-menerus memproses pertanyaan frase yang terdiri dari ribuan kata unik, berjuang melalui gigabytes korespondensi yang masuk, literatur teknis, laporan akhir dan informasi lainnya lebih dari tidak rasional dan tidak menguntungkan. Ada cara yang lebih baik.

Pencarian konten serupa yang unik

Saat ini banyak perusahaan secara intensif bekerja mengembangkan pencarian teks lengkap. Kecepatan perhitungan memungkinkan pembuatan teknologi yang memungkinkan kueri dalam eksponen yang berbeda dan beragam kondisi pelengkap. Pengalaman dalam menciptakan pencarian phrasal memberi perusahaan-perusahaan ini keahlian untuk mengembangkan lebih lanjut dan menyempurnakan teknologi pencarian. Secara khusus, salah satu pencarian yang paling populer adalah Google, dan salah satu fungsinya disebut "halaman yang serupa". Dengan menggunakan fungsi ini, pengguna dapat melihat halaman dengan kemiripan maksimum dalam kontennya dengan halaman sampel. Berfungsi pada prinsipnya, fungsi ini belum memungkinkan untuk mendapatkan hasil yang relevan - mereka sebagian besar tidak jelas dan kurang relevan dan lebih jauh lagi, kadang-kadang menggunakan fungsi ini menunjukkan tidak adanya halaman yang sama sebagai hasilnya. Paling mungkin, ini adalah hasil dari sifat informasi yang kacau dan tidak terstruktur di Internet. Tapi begitu preseden telah dibuat, munculnya pencarian sempurna tanpa hambatan hanyalah masalah waktu.

Yang berkaitan dengan pemrosesan data perusahaan dan sistem pencarian pengetahuan, di sini masalahnya jauh lebih buruk. Teknologi yang berfungsi (tidak ada di atas kertas) sangat sedikit. Dan tidak ada raksasa atau guru teknologi pencarian yang sejauh ini berhasil menciptakan pencarian konten yang mirip nyata. Mungkin, alasannya adalah itu tidak terlalu dibutuhkan, mungkin - terlalu sulit untuk diterapkan. Tapi ada yang berfungsi sekalipun.

Teknologi Pencarian SoftInform, yang dikembangkan oleh SoftInform, adalah teknologi mencari dokumen yang serupa dalam kontennya dengan sampel. Ini memungkinkan pencarian dokumen dengan konten serupa dalam volume data dengan cepat dan akurat. Teknologi ini didasarkan pada model matematika menganalisis struktur dokumen dan memilih kata-kata, kombinasi kata dan array teks, yang menghasilkan pembentukan daftar dokumen dengan kemiripan maksimum abstrak sampel teks dengan relevansi persen yang ditentukan. Berbeda dengan pencarian phrasal standar dengan pencarian konten serupa, tidak perlu menentukan kata-kata kunci sebelumnya - pencarian dilakukan melalui seluruh dokumen. Teknologi ini bekerja dengan beberapa sumber informasi yang dapat disimpan baik dalam file teks txt, doc, rtf, pdf, htm, format html, dan sistem informasi dari basis data paling populer (Access, MS SQL, Oracle, serta basis data pendukung SQL). Selain itu juga mendukung fungsi sinonim dan kata-kata penting yang memungkinkan untuk melakukan pencarian yang lebih spesifik.

Teknologi pencarian serupa memungkinkan untuk secara signifikan memotong waktu yang terbuang untuk mencari dan meninjau dokumen yang sama atau sangat mirip, mengurangi waktu pemrosesan pada tahap memasukkan data ke dalam arsip dengan menghindari duplikat dokumen dan membentuk set data oleh subjek tertentu. Keunggulan lain dari teknologi SoftInform adalah tidak begitu sensitif terhadap kapasitas komputer dan memungkinkan pemrosesan data pada kecepatan yang sangat tinggi bahkan pada komputer kantor biasa.

Teknologi ini bukan hanya merupakan pengembangan teori. Ini telah diuji dan berhasil diimplementasikan dalam proyek memberikan nasihat hukum melalui telepon, di mana kecepatan pengambilan informasi sangat penting. Dan tidak diragukan lagi akan lebih berguna dalam basis pengetahuan, layanan analitik, dan departemen pendukung dari perusahaan besar mana pun. Universalitas dan efektifitas Teknologi Pencarian SoftInform memungkinkan pemecahan spektrum masalah yang luas, timbul saat memproses informasi. Ini termasuk ketidakjelasan informasi (pada tahap memasuki dokumen adalah mungkin untuk segera menentukan apakah dokumen tersebut sudah menjadi basis data atau tidak) dan analisis kesamaan dari dokumen yang sudah dimasukkan ke dalam basis data,

Perspektif

Selain tugas utamanya (pencarian cepat dan berkualitas tinggi untuk informasi dalam volume besar seperti teks, arsip, basis data) arah Internet juga dapat ditentukan. Misalnya, dimungkinkan untuk membuat sistem pakar untuk memproses korespondensi dan berita yang masuk yang akan menjadi alat penting bagi analis dari perusahaan yang berbeda. Terutama, ini akan dimungkinkan karena teknologi pencarian konten unik yang serupa, tidak ada dari sistem yang ada sejauh ini kecuali untuk SearchInform. Masalah spamming mesin pencari dengan apa yang disebut doorways (halaman tersembunyi dengan kata-kata kunci mengarahkan ulang ke halaman utama situs dan digunakan untuk meningkatkan peringkat halaman dengan mesin pencari) dan masalah spam e-mail (analisis yang lebih intelektual akan memastikan lebih tinggi tingkat keamanan) juga akan diselesaikan dengan bantuan teknologi ini.

Untuk menarik kesimpulan, dapat dinyatakan dengan keyakinan bahwa masa depan adalah milik teknologi pencarian teks lengkap, baik di Internet dan sistem pencarian perusahaan. Potensi pengembangan tanpa batas, kecukupan hasil dan kecepatan pemrosesan dari berbagai ukuran kueri membuat teknologi ini jauh lebih nyaman dan dalam permintaan tinggi. Teknologi SoftInform Search mungkin bukan pelopor, tetapi merupakan teknologi yang berfungsi, stabil, dan unik tanpa analog yang ada (yang dapat dibuktikan dengan paten Eurasia aktif). Menurut saya, bahkan dengan bantuan "pencarian serupa" akan sulit menemukan teknologi serupa.



EmoticonEmoticon