AI 驅動的混合搜尋功能正在封閉測試中。 加入候補名單 以取得搶先體驗!

前往首頁Meilisearch 的標誌
返回文章
2023 年 3 月 20 日

大須賀実:主要語言貢獻者的觀點

與我們一同參與首場 Meilistar 訪談,受訪者為我們語言支援的主要貢獻者之一:Minoru。

Carolina Ferreira
Carolina FerreiraMeilisearch 開發者推廣專員@CarolainFG
Minoru Osuka: POV of a main language contributor

今年,我們推出了 Meilisearch 的第一個貢獻者計畫:Meilistars。貢獻者計畫的目標是聚集頂尖的社群貢獻者,並促進我們的關係、強調他們所產生的出色成果,甚至可能幫助建立連結。我們目前不會深入探討這個主題,因為我們希望在專屬的部落格文章中分享更多內容,敬請關注!

為了讓大家關注我們出色的社群成員,我們詢問他們是否有興趣參與一系列訪談,以便我們能更了解他們。

而我們將以 Minoru Osuka 作為訪談的開端。您可能已經在 GitHub 上見過他,他使用的名稱是 Mosuka,或是在 Twitter 上,他使用的名稱是 @minoru_osuka

讓我們一起聽聽他分享的更多資訊!

認識 Minoru

首先,我們請他用自己的話介紹自己!

「我是大須賀実。我擔任一家在日本提供求職搜尋引擎的公司軟體工程師和技術主管。我主要參與搜尋平台開發。我的嗜好是軟體開發,我將我開發的一些軟體以 OSS 的形式發布在 GitHub 上。」

所以 Minoru 不僅從事科技業,還將其視為嗜好!我們很好奇想知道他是如何進入科技領域的。

Minoru 解釋說,他最初在技術學校擔任程式設計講師,但他希望增加實務經驗,因此決定加入一家軟體開發公司。

「這是我作為軟體開發人員的職業生涯的開始。當我在工作中使用搜尋引擎時,我開始對它們的運作方式感興趣,因此我轉到一個網際網路入口網站,從此一直在搜尋引擎領域工作。」

Minoru + Meilisearch:這是命中注定的

聽到 Minoru 實際上曾使用搜尋引擎工作,我們忍不住想問他何時聽說 Meilisearch 以及他如何開始使用它。

「大約在 2022 年 5 月,Meilisearch 開始支援日語。Meilisearch 使用日語詞法分析器 Lindera 作為他們的日語斷詞器。我維護 Lindera,所以這是一個非常幸運的事件。」

Minoru 非常感謝 KinationMiiton,他們分別建立了在 Meilisearch 中新增日語支援的 第一個提取要求 並實作它。多虧他們共同努力,Meilisearch 的日語支援才有了今天的成就。

「我還沒有在我的工作中使用 Meilisearch,但 voluntas 介紹了 使用 Meilisearch 的案例研究,用於他們的日語文件搜尋服務,這引起了很多關注。」

骨子裡的開放原始碼

Minoru 在訪談期間頻繁地提到 Meilisearch 社群的其他成員,這太重要而不能忽視。他表示非常滿意有機會與其他社群成員交流。

「自從 Meilisearch 採用 Lindera 以來,我的 Twitter 追蹤人數有所增加。我很高興能認識他們。我非常感謝 Meilisearch。」

Minoru 如此深入參與開放原始碼社群,這實在令人驚嘆。除了為 Meilisearch 做出貢獻和維護 Lindera 之外,他還建置了自己的 分散式搜尋伺服器

「我使用 Elasticsearch 和 Solr 很長一段時間了,但使用它們對我來說還不夠,所以我決定在學習 Rust 的同時建置一個分散式搜尋伺服器。這很辛苦,但我學到了很多。」

奇怪的是,正是這個專案讓他開始維護 Lindera

「我開始使用 Lindera 是因為我自己開發了一個分散式搜尋伺服器。[...] 我的一個朋友正在開發全文搜尋程式庫,他也開發了一個日語詞法分析器,但它沒有在 crates.io 上註冊。當我聯繫他,詢問他是否願意在 crates.io 上註冊時,他給了我一個令人驚訝的答案:『我希望您接管這個專案。』我也對詞法分析器感興趣,所以我決定接手開發。」

Minoru 還感謝了 fulmicoton,他開發了 kuromoji-rs,這個原始軟體最終發展為 Lindera,他將其描述為「一個出色的 OSS」。

對未來的願景

考慮到他廣泛的貢獻,Minoru 對 Meilisearch 瞭若指掌,這並不令人意外。Minoru 最重視它立即可用的特性。事實上,他特別重視一個有助於這種可存取性的特定功能。

「Meilisearch 自動偵測索引文件中寫入的語言,這點很棒。對於不熟悉搜尋引擎的使用者來說,這是一個非常有用的功能。」

在與 Minoru 的對話中,我們沒有錯過機會,詢問他希望在 Meilisearch 的近期看到哪些改進。毫不意外,他的建議集中在語言支援上。具體來說,他建議實作一種機制,在將字詞斷詞 **之前** 先正規化字元。

對於那些不熟悉此過程的人來說,它目前是以相反的方式發生的。文字被斷詞——分割成字詞——然後,每個字詞都根據語言的特殊性進行正規化。對於像法語這樣的羅曼語系語言,此過程包括小寫和刪除變音符號,例如重音符號或任何不影響文字含義的內容。對於那些對這個主題感興趣的人,您可以加入 GitHub 上的討論 GitHub閱讀更多關於我們如何處理語言支援的資訊。

Minoru 對語言支援的建議包括為每個欄位自訂正規化工具。假設有一個包含地址欄位的文件,他希望能夠指示 Meilisearch 將地址欄位中的漢字數字轉換為阿拉伯數字。用他的話說

「目前,Meilisearch 沒有日語的正規化工具,但如果能針對每個欄位進行自訂會很好 [...] 我也想為日語正規化工具做出貢獻。」

我們期待與 Minoru 合作,改進我們的語言支援,以及任何希望支持我們努力的語言愛好者!

與 Minoru 交談,更了解他,並了解他對 Meilisearch 的見解、他的使用方式,以及他透過它認識的人,這真是一件樂事。

提醒您,您可以在 GitHub 上找到 Minoru,或是為 Lindera 做出貢獻。
我們希望您覺得這次訪談和我們一樣有趣,並期待與我們所有出色的 Meilistars 見面。

TutKit's journey with Meilisearch: powering multilingual learning at scale.

TutKit 使用 Meilisearch 的歷程:以規模化方式為多語系學習提供動力。

透過 Meilisearch,Tutkit.com 將其學習平台擴展,得以處理超過 15,000 個資源,並支援 26 種語言的搜尋。

Maya Shin
Maya Shin2024 年 10 月 30 日
Vishal Sodani: POV of a Hacktoberfest contributor

Vishal Sodani:Hacktoberfest 貢獻者的觀點

今天,我們將與 Vishal Sodani 進行訪談,他去年首次參與了 Hacktoberfest 活動,成為我們的貢獻者。

Luna Ferraraccio
Luna Ferraraccio2023 年 7 月 24 日
Miiton: a master of Japanese has entered the fight!

Miiton:一位日語大師加入戰局!

今天,我們很高興能與 Miiton 進行訪談,他是一位經驗豐富的貢獻者,致力於改進日語支援。

Luna Ferraraccio
Luna Ferraraccio2023 年 7 月 17 日