AI学習データの提供サービスを始めました!
翻訳者の皆さんのおかげで、過去一年間、Gengoはより高い品質基準を設定して世界中から新しい顧客を獲得し、 10億文字を超える翻訳を行いました。私たちは、この素晴らしい成果に貢献してくださった皆さん一人ひとりに感謝したいと思います。Gengoが先駆的な翻訳サービスとして一目置かれるようになったのも、皆さんの努力のおかげです。
そして、私たちはこの成功にあぐらをかいているわけではありません。プラットフォームを改善し、顧客基盤を拡大する試みは既に本格的に行われています。これから皆さんにご協力いただきたいと考えているのは、これらの試みに関するものです。私たちはプラットフォームに変更を加え、より多様で面白い仕事を皆さんに提供したいと考えています。
翻訳だけではない、仕事
Gengoはまず第一に翻訳会社です。私たちは翻訳分野での仕事に誇りを持っており、 2019年も野心的な新しい目標を定めています。これに加えて、私たちが行っている翻訳の仕事は、翻訳以外の専門的な言語サービスのニーズに応えられることがわかってきました。これらは主にAI学習データに関するものです。
皆さんは恐らく、人工知能の飛躍的な進歩によって世界が大きく変化しつつあることがニュースで取り上げられているのを目にしたことがあるでしょう。あるいは、SF映画の C-3POやターミネーターのようなキャラクターを通して人工知能を知っているかもしれません 。現実はこれほどドラマチックではなく、現在のAI技術は大抵、ある特定のタスクで自分自身の性能を向上させることができる機械学習アルゴリズムを利用しています。これらのアルゴリズムの多くは、私たちが毎日使っている Siri(シリ)やAlexa(アレクサ)、Googleの検索エンジンで使われています。これらのアルゴリズムの一つを構築または改善するためには、複数の言語による大量のテキストベースの学習データが必要です。そして、言語の専門家である翻訳者の皆さんは、大部分の研究者が欲しがる、高水準の知識や品質、複雑さを持つデータを提供することができるのです。
これらの状況を踏まえて、新しいタスクがワークベンチに登場します。テストページでは全ての翻訳者に GE>GE の資格が与えられていますので、これらのタスクをご自分で試してみることができます。顧客から引き合いを受けたいくつかの事例と、翻訳者の皆さんがそれにどのように貢献できるかについて、これから説明していきましょう。
感情分析
現在のようにグローバル化された世界では、あらゆるツイートやニュース速報、製品発表が様々な反応を引き起こします。人々がどのように反応するかはビジネスの成功のカギを握るので、特定のものがどのような感情を引き出すかを理解、分析し、予測できるようになることを多くの人が望んでいます。そこで、社会の一部で特定のものがある一定の受け止め方をされるのはなぜかを理解するために、様々な産業分野で機械学習アルゴリズムが開発されています。
基本的に、この分野での私たちの役割は、文章や短い段落を読んで、筆者が主題についてどのように捉えているか(肯定的、中立的、否定的)を判断することです。言語や口調、話し方に関する皆さんの深い知識がこれらアルゴリズムの多くにとって非常に役立ちます。機械は、皮肉など言語の微妙なニュアンスを理解するのが苦手です。単語やフレーズでそれらを特定して、アルゴリズムがこの言語の壁を克服する手助けをするタスクをお願いする可能性があります。
テキスト分類
ワークフローの生産性向上には体系化が非常に重要です。全てのタスクを把握するためにシステムが役立つように、タグやラベルは機械がデータ間の関係を理解し、それを利用して最大限に学習するために役立ちます。テキスト分類は、カスタマーサービスのチケットをチャットボットのために分類する場合や感情分析など、様々な分野で利用することができます。
テキスト分類には、テキストを読んで法務、ビジネス、金融などのカテゴリーに分類するタスクが含まれます。通常、顧客が、どのくらい詳しく分類すべきかを特定した分類システムを提供します。一つのテキストを複数のカテゴリーに加えることができる場合もありますが、こうすることで、それぞれのテキストが全体にどのように関係しているのかがより明らかになり、アルゴリズムが有益なパターンを見つけやすくなります。
注釈付け
Siri(シリ)やAlexa(アレクサ)などのバーチャルアシスタントは命令を受けるといつでも、それを認識し、すぐに任務を遂行しなければなりません。しかし、機械にとって話し言葉や書かれた文字は単なる雑音でしかありません。そのため、機械が単語やフレーズを理解し、テキスト全体の意味を把握するためには、インプットされる言語データの構造化が必要です。話し言葉の様々な部分にこのように意味を加えるプロセスを注釈付けと呼びます。
これらのプロジェクトには通常、テキストを読んで特定の分類システムに従って単語やフレーズにラベル付けすることが含まれます。文書の中の全ての名前や場所をタグ付けするといった簡単なプロジェクトもありますが、オーバーラップする領域のある、微妙な違いしかないデータをタグ付けする場合もあります。この良い例としては、白雪姫のような人間の名前とミッキーマウスのような人間以外の名前を区別してタグ付けするタスクが挙げられます。これでお分かりになるように、皆さんが言語の学習で培ってきた文化的、技術的な知識は多くの潜在的顧客にとって大変貴重なのです。つまり、稀に発生する厄介なケースに対応できるようにアルゴリズムを改良するためには、このような専門知識が必要なのです。
チャットボット学習データ
ある特定の領域では非常に優れている機械がその他の領域では全く役に立たないことがあるということはよく知られています。これは、機械による言語理解にも当てはまります。チャットボットに「それを私のショッピングバスケットに入れて」と言えば、チャットボットはすぐにその仕事を完了することができます。しかし、同じチャットボットに「それを私のカートに加えて」と言うと、命令に使われる言葉が異なるので、チャットボットがその命令を処理できないということが生じる場合があります。人間が言語を学習する際、同じことを意味する様々な言い方を習得する必要があるのと同じように、チャットボットのアルゴリズムはたくさんの同じようなフレーズで学習させてそれらの関係を理解し、新しいフレーズの意味を推測できるようにならなければなりません。
これらチャットボットが必要な様々な言い方を追加する場合に、言語の専門家である皆さん以上にこのタスクに適した人はいません。このタスクでは、 顧客が、例となる文(インテントとも呼ばれます)を提示し、それと同じ意味を持つ別の言い方をいくつか考えるように求めることがあります。例えば、「私を助けて」というインテントに対しては、「助けてください」、「助けて欲しい」、「私は助けが必要です」などと書くことができるでしょう。あなたの答えをクラウド上の他のトランスレーターの答えと組み合わせることで、私たちは高品質で大量のサンプルデータを顧客に提供することができます。顧客はこのデータを利用して、予測不可能な世界に対応するため、チャットボットの機能を改善することができます。
画像のバウンディングボックス
Gengoでは、翻訳者の皆さんに多様で興味深い仕事体験を提供しようとしています。そのため、時には、言語とそれほど関連がないけれど私たちがとても面白いと感じる仕事をダッシュボードに掲載することもあります。
コンピュータービジョンアルゴリズムは自動運転車や他の人気のある追従技術を持つAI製品のいくつかで利用されています。しかし、それらが道路上や倉庫、現場での作業に使用できるようになる前に、大量の注釈付き画像が必要です。これらの注釈に含まれる情報は、アルゴリズムが画像の特定の部分の違いを認識する上で重要な役割を果たしています。これらの情報の中には、機械が文字を認識し、商品ラベルなどを特定する際に役立ち、工場や店舗内を動き回るロボットに活用できるものもあります。
大部分の顧客は、画像に対して注釈を付けることを求めます。これには、画像を見て人や車、標識などの特定の部分を囲むタスクが含まれます。これら特定の領域を囲む四角い箱はしばしば、バウンディングボックスやポリゴンと呼ばれます。より詳しい注釈を付ける場合は、何がバウンディングボックスの中に含まれているのかを記入することもあります。これは特にテキストベースのコンテンツの場合に多いです。
翻訳の仕事について
これらの新しい仕事の話を聞いて、将来 Gengoプラットフォームで翻訳の仕事がどうなるのかについて心配される方もいるでしょう。私たちは、トランスレーターの皆さんが専門とし、誇りを持って行なっている翻訳の仕事をこれからも提供していくことを100%お約束しますのでご安心ください。これらの新しいタスクは翻訳の仕事から離れようとしているのではなく、言語ベースの仕事を別の次元で探求しようという試みです。
Gengoにお問い合わせいただく新しい顧客の場合、しばしば学習データと翻訳のニーズが表裏一体となっています。Gengoがこの両方の分野で成長し、顧客を獲得するためには、高い基準を誇るトランスレーターの皆さんの助けが必要です。これからも是非よろしくお願いいたします。そして、口コミでGengoの評判を広めていただけると大変助かります。ぜひ翻訳者プロフィールを共有したり、お知り合いの方に私たちを紹介したり、Gengoの公式ツイッターなど、ソーシャルメディア(SNS)に投稿したりしてください。私たちはいつでも、皆さんの意見をお聞きするのを楽しみにしています。
※本記事は Gengo の英語版ブログに掲載された記事を翻訳したものです。